




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
系統(tǒng)發(fā)育軟件PHYLIPPHYLIP是一個(gè)包含了大約30個(gè)程序的軟件包,這些程序基本上囊括了系統(tǒng)發(fā)育的所有方面。PHYLIP是免費(fèi)軟件,并且可以在很多平臺(tái)上運(yùn)行(Mac,DOS,Unix,VAX/VMS,及其它)。根據(jù)其作者JoeFelsenstein(來(lái)自于theUniversityofWashington)所介紹的,PHYLIP目前已經(jīng)是最廣泛使用的系統(tǒng)發(fā)育程序。PHYLIP是一個(gè)命令行程序,沒(méi)有PAUP或者M(jìn)ACCLADE程序那樣的鼠標(biāo)點(diǎn)擊的界面。軟件的文檔寫(xiě)得非常好,很容易理解,命令行界面也很簡(jiǎn)明。如果想使用某一個(gè)程序,只要鍵入程序名稱(chēng)就可以了,程序界面可以從“infile”文件中自動(dòng)讀取數(shù)據(jù)。然后,使用者可以從選項(xiàng)菜單中選擇選項(xiàng),或者直接接受默認(rèn)值,然后程序會(huì)將結(jié)果輸岀到一個(gè)叫做“outfile”(也可以是“treefile”)的文件中去。如果另外一個(gè)程序還要讀取這個(gè)輸岀文件,就必須將“outfile”文件改名(改為“infile”)。圖9.10給岀了建立一個(gè)自引導(dǎo)的相鄰連接的進(jìn)化樹(shù)的步驟的幾個(gè)要點(diǎn)。接下來(lái)的部分我們將討論一些用PHYLIP程序推導(dǎo)進(jìn)化樹(shù)的細(xì)節(jié)問(wèn)題。分析蛋白質(zhì)數(shù)據(jù)的程序PROTDIST程序計(jì)算蛋白質(zhì)序列比對(duì)的距離矩陣。這個(gè)程序允許使用者從三個(gè)氨基酸取代的進(jìn)化模型中選擇其中之一。最簡(jiǎn)單的也是最快的(也是最不理想的)模型假定每一個(gè)氨基酸編程其它19中氨基酸的機(jī)會(huì)都是均等的。第二種是類(lèi)別模型,在這個(gè)模型中,氨基酸分布在不同的分組中,按照轉(zhuǎn)換的不同類(lèi)別(轉(zhuǎn)化成本組的氨基酸或者其它分組的氨基酸)進(jìn)行評(píng)估。推薦使用第三種(默認(rèn)的)方法,這個(gè)方法使用一張通過(guò)觀察氨基酸轉(zhuǎn)換得到的經(jīng)驗(yàn)表,即DayHoffPAM001方陣(DayHoff,1979)。在PHYLIP文檔中和最新岀版物(Felsenstein,1996)中可以找到詳細(xì)資料。PROTPARS程序計(jì)算蛋白質(zhì)序列的似然值。這個(gè)方法使用的進(jìn)化模型同PROTDIST程序中使用的進(jìn)化模型不同,前者在評(píng)估觀察到的氨基酸序列的轉(zhuǎn)化的可能性時(shí),考慮到潛在的核苷酸序列的轉(zhuǎn)換。特別地,它作岀如下(富有生物學(xué)意義的)假定:同義轉(zhuǎn)化[比方說(shuō):GCA(alanine)aGCC(alanine)]比非同義轉(zhuǎn)化的發(fā)生頻率要高。這樣,舉個(gè)例子來(lái)說(shuō),如果兩個(gè)氨基酸之間的轉(zhuǎn)化需要在潛在的核苷酸水平上進(jìn)行三次非同義轉(zhuǎn)換,那么這個(gè)轉(zhuǎn)換的可能行比起那些在潛在的核苷酸水平上只要進(jìn)行兩次非同義轉(zhuǎn)換和一次同義轉(zhuǎn)換的氨基酸轉(zhuǎn)化的可能性要小。PROTPARS不提供氨基酸轉(zhuǎn)化的經(jīng)驗(yàn)值選項(xiàng)(象PAM方陣那樣的)。分析核酸數(shù)據(jù)的程序DANDIST計(jì)算核苷酸序列的距離矩陣,然后運(yùn)行NEIGHBOR或者PHYLIP軟件包中的其它距離矩陣程序計(jì)算輸岀結(jié)果,產(chǎn)生進(jìn)化樹(shù)。DANDIST允許用戶(hù)從三種核苷酸取代模型中選擇其中之一。比較老的(1969)JukesandCantor模型同PROTDIST程序中的簡(jiǎn)單模型很相似,前者假定所有的核苷酸取代頻率都一相等。比較近的(1980)Kimura雙參數(shù)模型與之也很相似,但是它允許用戶(hù)把顛換的權(quán)重設(shè)置得比轉(zhuǎn)換的權(quán)重要高。PHYLIP也包含DNAML,這是一個(gè)針對(duì)核苷酸數(shù)據(jù)的最大似然程序。因?yàn)檫@個(gè)程序執(zhí)行起來(lái)相當(dāng)慢,所以下面將描述一個(gè)推薦使用的程序GaryOlsen'sfastDNAml程序(Olsenetal.,1994),這個(gè)程序是DNAml的“姐妹”程序。PAUP開(kāi)發(fā)PAUP(Swofford,1997)的目的是為系統(tǒng)發(fā)育分析提供一個(gè)簡(jiǎn)單的,帶有菜單界面的,與平臺(tái)無(wú)關(guān)的,擁有多種功能(包括進(jìn)化樹(shù)圖)的程序。在蘋(píng)果機(jī)(Macintosh)上使用過(guò)PAUP程序(版本3)的人對(duì)這個(gè)程序的菜單界面都會(huì)很熟悉,雖然這個(gè)版本己經(jīng)不再發(fā)行了。PAUP3.0只建立于MP相關(guān)的進(jìn)化樹(shù)及其分析功能;而PAUP4.0己經(jīng)可以針對(duì)核苷酸數(shù)據(jù)進(jìn)行與距離方法和ML方法相關(guān)的分析功能,以及其它一些特色。獲取和編譯程序在商業(yè)版本發(fā)行之前,現(xiàn)行的岀版物中,有成打的分析使用了PAUP4.0測(cè)試版本(由原作者通過(guò)blue@提供)。菜單界面的測(cè)試版本已經(jīng)在Macintosh68K、PRC計(jì)算機(jī)和微軟的視窗操作系統(tǒng)上編譯通過(guò)。命令行版本已經(jīng)在SunSparc、Supersparc、DECAlpha(OSF1和OPENVMS)、SGI(32位和64位)以及l(fā)inux上編譯通過(guò)。初學(xué)的用戶(hù)應(yīng)該將其中一個(gè)菜單版本瀏覽一遍。在這些版本中也可以使用命令行,這樣會(huì)使得命令教程會(huì)變得容易一些。通常而言,命令都有縮寫(xiě)。比如,要執(zhí)行啟發(fā)式進(jìn)化樹(shù)搜索的命令可以鍵入“hs[earch]”(大小寫(xiě)不敏感;括弧內(nèi)的字符為選項(xiàng))。而且,因?yàn)槲募诟鱾€(gè)平臺(tái)之間都是可移植的,菜單版本可以用來(lái)測(cè)試數(shù)據(jù)文件。如果希望在一個(gè)很快的Unix機(jī)器上跑一個(gè)分析程序,這個(gè)協(xié)議就顯得非常重要。如果文件格式岀錯(cuò),菜單版本不僅僅報(bào)告文件格式的錯(cuò)誤,而且還會(huì)打開(kāi)文件,將錯(cuò)誤的地方高亮度顯示。數(shù)據(jù)格式PAUP使用一種稱(chēng)為NEXUS的數(shù)據(jù)格式,這種格式還可以被MACCLADE程序使用,當(dāng)然PAUP也可以輸入PHYLIP,GCG-MSF,NBRF-PIR,HENNIG86數(shù)據(jù)格式以及文本比對(duì)(形如“{name}<taborspace>{same-lengthsequences}<ret〉”的列表,以“;<ret〉end”結(jié)束)。Sequencher(基因密碼有限公司)和Sequin程序可以輸岀NEXUS格式。其它格式的比對(duì)序列(CLUSTAL,FASTA,GDE等等)可以通過(guò)ReadSeq程序?qū)⑵滢D(zhuǎn)化為NEXUS格式。如果使用ReadSeq程序,必須為每個(gè)單獨(dú)的序列(分類(lèi)單元)設(shè)計(jì)一個(gè)不超過(guò)八個(gè)字符的名字,因?yàn)槌绦驎?huì)自動(dòng)截取過(guò)長(zhǎng)的名字。PAUP中的名字可以無(wú)限長(zhǎng),但是每一個(gè)名字必須唯一。比對(duì)塊(比方說(shuō),就像MSF文件)可以由空格分開(kāi),作為更好的跟蹤序列的位置。比對(duì)可以是連續(xù)的,也可以是較差存取的。PAUP文件中可以在方括號(hào)中寫(xiě)明注解和注釋?zhuān)ū确秸f(shuō),比對(duì)中基本位置的標(biāo)記)。PAUP可以識(shí)別IUPAC核苷酸的模糊密碼,但是這些密碼在進(jìn)行距離和ML分析時(shí)被看作是丟失的數(shù)據(jù)。PAUP文件中的數(shù)據(jù)塊可以包含附加的最優(yōu)化信息,比如特征符和序列標(biāo)簽,丟失數(shù)據(jù)的定義以及特征符集和特征符權(quán)重集的定義;其語(yǔ)法同PAUP3.0相同,并且可以通過(guò)幫助文檔進(jìn)行交互式查詢(xún)。一個(gè)PAUP文件還可以包含假定和進(jìn)化樹(shù)塊。這些塊的格式同MACCLADE程序所使用的格式基本相同,只有若干差異(MaddisonandMaddison,1992);舉個(gè)例子,MACCLADE不能識(shí)別空位模式,而空位模式在MP分析中將會(huì)把空位看作是附加的特征符狀態(tài)(FORMAT<space>GAP={character}<space>GAPMODE=newstate<space>{otherformatoptions};)。同樣地,PAUP會(huì)忽略一些MACCLADE數(shù)據(jù)選項(xiàng)。在某些情況下,很南對(duì)數(shù)據(jù)進(jìn)行手工格式化,這時(shí)就可以用菜單界面或者交互式的MACCLADE程序輸岀正確的格式文件。舉個(gè)例子,可以通過(guò)PAUP菜單界面創(chuàng)建“假定集”。假定中可以包含一個(gè)外圍集團(tuán)的說(shuō)明規(guī)范、特定分類(lèi)群的排除以及特征符,如果是MP分析,還可以包含特征符權(quán)重和特征符類(lèi)型的說(shuō)明規(guī)范。假定還可以存儲(chǔ)為一個(gè)合適的格式文件;打開(kāi)一個(gè)數(shù)據(jù)文件的時(shí)候,就可以加載這個(gè)文件,或者,可以把注釋粘貼到一個(gè)早先創(chuàng)建的文件中,以避免在并發(fā)的通話中需要將其加載。PAUP也可以讀取PHYLIP進(jìn)化樹(shù)的描述(從PHYLIP或者CLUSTAL輸岀),其中所提供的數(shù)據(jù)將被粘貼到一個(gè)NEXUS文件中的一個(gè)PAUP格式(begintrees;<ret〉utree={treename}〈space〉{treedescription};<ret〉end;)的進(jìn)化樹(shù)塊中。但是,PAUP數(shù)據(jù)文件必須被激活,并且在PHYLIP樹(shù)中必須包含確切的分類(lèi)群。PAUP會(huì)輸入拓?fù)浣Y(jié)構(gòu),以及優(yōu)化的PHYLIP或者CLUSTAL衍生的樹(shù)枝長(zhǎng)度(命令為:gett[trees]/file-{treefile}st[oredbrlens])。建立進(jìn)化樹(shù)目前PAUP中的進(jìn)化樹(shù)建立功能包括MP方法,如果是針對(duì)核苷酸序列,還有距離方法以及ML方法,使用的是fastDNAml算法(Olsenetal.,1994)。而且,PAUP執(zhí)行Lake's不變式方法(Swoffordetal.,1996a;Li,1997)。每一種建樹(shù)程序都允許使用多種的選項(xiàng)。MP選項(xiàng)包括任意特征符權(quán)重方案的說(shuō)明規(guī)范。距離選項(xiàng)包括對(duì)NJ,ME,FM(見(jiàn)PAUP發(fā)行附注re:PHYLIP)和UPGMA程序的選擇。全范圍的選項(xiàng)和他們的當(dāng)前樹(shù)枝可以通過(guò)菜單或者命令行進(jìn)行查詢(xún)(節(jié)約方法鍵入:pse[ttings]?;距離方法鍵入:dse[ttings]?;似然方法鍵入:lse[ttings]?;)。距離方法和ML方法都有關(guān)于取代模型的詳細(xì)的說(shuō)明規(guī)范(取代數(shù)值,gamma,以及不變位點(diǎn)的參數(shù),假定相等,或者指定數(shù)值,或者經(jīng)驗(yàn)的堿基頻率)。任何進(jìn)化樹(shù)的這些參數(shù)都可以得到評(píng)估,只要設(shè)置參數(shù)數(shù)值為“est[imate]”,并且用內(nèi)存中一個(gè)期望使用的進(jìn)化樹(shù)執(zhí)行“des[cribetree]”命令(圖9.7)。根據(jù)同PAUP4.0測(cè)試版本一起發(fā)行的附注所說(shuō)的,“PAUP*所找到的進(jìn)化樹(shù)的似然值通常都會(huì)同PHYLIP的一樣高甚至更高[也就是說(shuō),更加好]”(這不僅是因?yàn)镻AUP對(duì)進(jìn)化樹(shù)進(jìn)行重新排布時(shí)更加廣泛,而且也是因?yàn)橐驗(yàn)樗鼘?duì)樹(shù)枝長(zhǎng)度的迭代的收斂標(biāo)準(zhǔn)更加嚴(yán)格)。不管使用哪一種建樹(shù)方法,PAUP都提供了多種的進(jìn)化樹(shù)搜索選項(xiàng)。這些選項(xiàng)包括產(chǎn)生初始進(jìn)化樹(shù)(啟動(dòng)進(jìn)化樹(shù))的算法規(guī)范:NJ,逐步相加,或者輸入進(jìn)化樹(shù)。逐步相加的算法也提供大量的選項(xiàng),包括分類(lèi)群“原態(tài)”的加和(分類(lèi)群按照文件順序相加):最接近的,最遙遠(yuǎn)的,或者對(duì)任意數(shù)目的復(fù)制品都是隨機(jī)的。所有逐步相加算法的選項(xiàng)都考慮到了部分進(jìn)化樹(shù)的任意的最大數(shù)目,這些部分進(jìn)化樹(shù)是要保留下來(lái)并且在分類(lèi)單元相加時(shí)進(jìn)行擴(kuò)建的。增大這個(gè)數(shù)目(比方說(shuō),增大到100)也就意味著增大了起始拓?fù)浣Y(jié)構(gòu)的多樣性,即使他們并不是隨機(jī)的。一個(gè)隨機(jī)的相加策略是默認(rèn)的搜索策略的有用的補(bǔ)充(最近的相加,TBR交換,保存所有最好的進(jìn)化樹(shù))。在隨機(jī)搜索中,有大量的復(fù)制品可以同較快的NNI交換算法相結(jié)合。對(duì)于MP分析,可能存在這大量的長(zhǎng)度相等的進(jìn)化樹(shù),因此搜索時(shí)應(yīng)該指定從每一個(gè)復(fù)制品中只保存一部分進(jìn)化樹(shù),這些進(jìn)化樹(shù)同較慢的搜索的分值相當(dāng)或者更好。而且,次優(yōu)化的進(jìn)化樹(shù)的數(shù)目(這些進(jìn)化樹(shù)將會(huì)被交換,以尋找更好的進(jìn)化樹(shù))應(yīng)該受到限制,可以通過(guò)設(shè)定MAXTREES將其降至一個(gè)較小的數(shù)目(比方說(shuō),10)。通過(guò)這個(gè)策略,我們?cè)跒g覽“進(jìn)化樹(shù)空間”區(qū)域時(shí)(這些區(qū)域很可能在較慢的搜索中被丟失),有時(shí)候會(huì)找到一些較好的進(jìn)化樹(shù)或者找到額外的唯一的最優(yōu)化的進(jìn)化樹(shù)??梢灾付S機(jī)相加的種子,但是默認(rèn)值總是一樣的。因此,除非更換種子,重復(fù)隨機(jī)相加的搜索只能得到同樣的結(jié)果。評(píng)估進(jìn)化樹(shù)對(duì)于距離方法、MP方法和ML方法,PAUP執(zhí)行無(wú)參數(shù)的自引導(dǎo)方法和對(duì)折方法,在執(zhí)行過(guò)程中用到了這些建樹(shù)方法的所有可用的選項(xiàng)。除非另外指定,所有的自引導(dǎo)方法都才能夠同樣的種子開(kāi)始(也就是說(shuō),重復(fù)同樣的自引導(dǎo)分析,其結(jié)果相同)。如果自引導(dǎo)數(shù)值大于50%,則數(shù)值將會(huì)被繪制在進(jìn)化樹(shù)上;如果自引導(dǎo)數(shù)值處于50%和任何指定的下界之間,則這些數(shù)值將從表格輸岀中決定。對(duì)MP方法進(jìn)行自引導(dǎo)分析或者對(duì)折分析時(shí),MAXTREES應(yīng)該設(shè)為10和不超過(guò)100之間的一個(gè)數(shù)。這時(shí)因?yàn)?,MP進(jìn)化樹(shù)中分解性較差的那部分在用重新取樣得到的數(shù)據(jù)進(jìn)行操作時(shí),其分解性通常會(huì)更差;因此,一個(gè)復(fù)制品所找到的相同長(zhǎng)度的進(jìn)化樹(shù)的數(shù)目很可能是一個(gè)天文數(shù)字。因?yàn)槟切┎⒉荒軌虮蝗讛?shù)據(jù)集很好地支持的進(jìn)化樹(shù)樹(shù)枝的自引導(dǎo)數(shù)值或者對(duì)折數(shù)值不會(huì)很高,所以,對(duì)MAXTREES加以限制(即便是有一些)不會(huì)對(duì)結(jié)果帶來(lái)多少負(fù)荷,尤其是當(dāng)復(fù)制品的數(shù)目增大到比方說(shuō)1000的時(shí)候。另外,PAUP執(zhí)行KishinoHasegawa實(shí)驗(yàn)以比較MP或者M(jìn)L進(jìn)化樹(shù)(見(jiàn)發(fā)行附注re:PHYLIP);計(jì)算多個(gè)進(jìn)化樹(shù)的四種類(lèi)型的一致性(通常是對(duì)多個(gè)長(zhǎng)度相等的MP進(jìn)化樹(shù)進(jìn)行操作);計(jì)算MP進(jìn)化樹(shù)的逐步差異;評(píng)估指定分區(qū)之間的位點(diǎn)的信號(hào)沖突(比方說(shuō),在總和分析中,核內(nèi)序列數(shù)據(jù)和細(xì)胞器序列數(shù)據(jù))。在PAUP中有不同的方法來(lái)確定一個(gè)約束進(jìn)化樹(shù),但是最簡(jiǎn)單的方法是使用“l(fā)oa[dconstraints]"命令,從任何進(jìn)化樹(shù)文件或者任何數(shù)據(jù)文件中的進(jìn)化樹(shù)塊中把一個(gè)或者多個(gè)進(jìn)化樹(shù)的定義輸入到約束進(jìn)化樹(shù)緩沖中去。選擇約束進(jìn)化樹(shù)要限定“hs[earch]”命令。如果使用菜單,這個(gè)過(guò)程會(huì)很簡(jiǎn)單;也可以通過(guò)“helploa[dconstr]"和“helphs[earch]"命令查詢(xún)命令行的語(yǔ)法。其它特色許多(但不是所有的)PAUP命令選項(xiàng)都是觸發(fā)開(kāi)關(guān),因此在一次通話中一個(gè)己經(jīng)設(shè)定的選項(xiàng)保持激活狀態(tài)。在執(zhí)行一個(gè)新命令或者程序之前,特別是在執(zhí)行一個(gè)包含很多不同程序和數(shù)據(jù)集的復(fù)雜的會(huì)話之前,查詢(xún)當(dāng)前的設(shè)置是非常有用的;查詢(xún)可以使用菜單,也可以在合適的地方直接鍵入命令“{command-name}<space>?”。PAUP擁有一額外的附加的特色,在這里我們之涉及到其中的一部分:(1)、為畫(huà)圖、打印或者將PICT文件進(jìn)化樹(shù)(包括PHYLIP或者CLUSTAL進(jìn)化樹(shù);見(jiàn)圖9.1)輸岀為若干種格式(但是,遺憾的是,不包括TreeDraw、PHYLODENDRON和TREEVIEW的輻射圖)的基本的圖形特色;(2)、一個(gè)能夠編輯數(shù)據(jù)文件和日志文件的文字編輯器,這個(gè)編輯器可以分成四個(gè)面板,以瀏覽一個(gè)很長(zhǎng)的比對(duì)或者日志的不同部分;(3)、將輸岀存入一個(gè)新的日志文件,或者將輸岀附加到一個(gè)已經(jīng)存在的文件中去;(4)、使用外圍集團(tuán)、指定的祖先、指定的祖先狀態(tài)或者中點(diǎn)方法確定進(jìn)化樹(shù)的樹(shù)根;(5)、計(jì)算MP和ML方法中特征符狀態(tài)的重新構(gòu)建(如果這個(gè)程序使用ML,精確度可能會(huì)好一些,但是非常慢,而且對(duì)于超過(guò)100個(gè)不同位點(diǎn)和50個(gè)分類(lèi)群的數(shù)據(jù)集,幾乎是不可實(shí)現(xiàn)的;輸岀結(jié)果可以被用來(lái)對(duì)一個(gè)進(jìn)化樹(shù)的變化進(jìn)行手工標(biāo)記); (6)、序列之間雙重堿基差異的總和(現(xiàn)在叫做“二核苷酸頻率”,當(dāng)然以后的版本可能會(huì)用其它名字)。其它程序除了PAUP和PHYLIP以外,還有其它一些系統(tǒng)發(fā)育程序,這些程序有一些獨(dú)到之處,但是程序在處理過(guò)程和可移植性方面通常都有很多限制。這些程序包括FastDNAml,MACCLADE,MEGAplusMETREE,MOLPHY和PAML。FastDNAmlFastDNAml(Olsenetal.,1994)是一個(gè)獨(dú)立的最大似然建樹(shù)程序。雖然它還沒(méi)有成為當(dāng)前版本的PHYLIP軟件包中的一員,但是它的輸入輸岀約定同PHYLIP在很大程度上都是相同的,而且FastDNAml和PHYLIP'sDNAML的結(jié)果非常相似,甚至完全一樣。FastDNAml可以在并行處理機(jī)上運(yùn)行,而且它還自帶了大量有用的腳本(尤其是關(guān)于自引導(dǎo)以及打亂序列輸入順序的腳本)。要想充分利用這個(gè)程序,就必須有一定的Unix知識(shí)。REPWeb站點(diǎn)公布了Unix和VAX/VMS平臺(tái)的程序源碼,而通過(guò)FTP可以獲得PowerMacintosh版本的程序源碼(見(jiàn)本章結(jié)尾的列表)。MACCLADEMACCLADE(MaddisonandMaddison,1992)是一個(gè)交互式的Macintosh程序,能夠?qū)M(jìn)化樹(shù)和數(shù)據(jù)進(jìn)行操作,能夠研究特征符的系統(tǒng)發(fā)育行為。程序使用的是NEXUS格式,它也能夠讀取PAUP格式的數(shù)據(jù)和進(jìn)化樹(shù)文件。PAUP文件中的一些信息會(huì)被MACCLADE忽略(比如,gapmode,空位模式),但是PAUP“假定”塊中的信息將會(huì)被輸入,其中包括特征符權(quán)重和特征符集以及分類(lèi)群集。PAUP和MACCLADE文件仍然存在著一些細(xì)微的差別;因此,用MACCLADE編輯PAUP文件或者用PAUP編輯MACCLADE文件時(shí),需要將文件保存為一個(gè)新文件,從而保留原文件,使之不被改動(dòng)。MACCLADE還可以讀取PHYLIP文件、NBRF-PIR文件以及文本文件(見(jiàn)上)??梢允褂萌魏畏椒óa(chǎn)生進(jìn)化樹(shù),但是MACCLADE的功能是嚴(yán)格地基于節(jié)約方法的。舉個(gè)例子,程序允許使用者追蹤任意進(jìn)化樹(shù)上的每一個(gè)單獨(dú)特征符的進(jìn)化軌跡。不管怎么說(shuō),MP和ML重新構(gòu)建的功能是不同的,而且ML功能據(jù)稱(chēng)更加實(shí)際一些(Swoffordetal.,1996a)。進(jìn)化樹(shù)的拓?fù)浣Y(jié)構(gòu)可以通過(guò)拖動(dòng)樹(shù)枝進(jìn)行操作,而點(diǎn)擊樹(shù)枝則會(huì)在進(jìn)化樹(shù)的對(duì)稱(chēng)性上產(chǎn)生審美的修飾。MACCLADE包括如下一些同序列分析相關(guān)的附加的特色:能夠方便地編輯模糊區(qū)域的數(shù)據(jù)編輯器,因?yàn)樾蛄袎K可能會(huì)被轉(zhuǎn)變?yōu)閬G失的數(shù)據(jù)符號(hào)。RNA或者DNA翻譯成氨基酸數(shù)據(jù)。識(shí)別IUPAC核苷酸的模糊密碼。以特征符數(shù)目和進(jìn)化樹(shù)上變化的數(shù)目為維度的圖表,通過(guò)這張圖,可以直觀地觀察位點(diǎn)內(nèi)部的速率差異性。一個(gè)MP進(jìn)化樹(shù)的各種堿基之間相互轉(zhuǎn)變的總量的圖表(“狀態(tài)轉(zhuǎn)變和統(tǒng)計(jì)”圖表:其中有些數(shù)據(jù)可能是在文獻(xiàn)中被錯(cuò)誤地報(bào)告為取代“速率”,但是對(duì)于樹(shù)枝長(zhǎng)度或者位點(diǎn)內(nèi)部的速率差異完全沒(méi)有修正)。根據(jù)四種不同的規(guī)則將狀態(tài)轉(zhuǎn)變和統(tǒng)計(jì)數(shù)值轉(zhuǎn)化為一個(gè)權(quán)重矩陣。計(jì)算密碼子位點(diǎn)。為制圖功能以及從數(shù)據(jù)集中切除位點(diǎn)選擇密碼子位置。一個(gè)基本的比對(duì)編輯器,允許拖拉被選的序列塊。能夠輸岀同PRETTY格式相似的數(shù)據(jù),其中的序列塊由空格分開(kāi),并且與第一個(gè)序列相匹配的堿基標(biāo)記為“.”。同PAUP相似的一個(gè)進(jìn)化樹(shù)圖形編輯器,同樣允許在每一個(gè)數(shù)值上對(duì)特征符變化作岀標(biāo)記。為PAUP分析定義約束進(jìn)化樹(shù)的簡(jiǎn)單方法(僅僅是簡(jiǎn)單地瓦解那些非約束的節(jié)點(diǎn),然后將進(jìn)化樹(shù)存儲(chǔ)為一個(gè)文件)。MEGAplusMETREEMEGA(Kumaretal.,1994)是一個(gè)關(guān)于序列分析以及比較統(tǒng)計(jì)的DOS程序的軟件包,其中包括有距離建樹(shù)方法和MP建樹(shù)方法。對(duì)于MP建樹(shù)方法,將執(zhí)行分支定理和啟發(fā)式算法;對(duì)于距離建樹(shù)方法,MEGA提供了PAUP中的取代模型的一個(gè)子集,也提供了町建樹(shù)算法。在其捆綁的METREE程序(RzhetskyandNei,1994)中提供了一個(gè)ME搜索?,F(xiàn)在還無(wú)法比較MEGA和PAUP或者PHYLIP中的搜索算法的效率和可靠性。針對(duì)核苷酸數(shù)據(jù)建立進(jìn)化樹(shù),MEGA的效果不如PAUP(LewisandLewis,1995)或者PHYLIP。舉幾個(gè)例子:其格式不允許在數(shù)據(jù)文件中存儲(chǔ)假定,因此必須在每一次會(huì)話中手工指定這些假定;取代模型的范圍和空位處理方法以及丟失的數(shù)據(jù)都是有限的,并且程序不能評(píng)估參數(shù)數(shù)值;似然方法不允許加權(quán);不能IUPAC核苷酸的模糊密碼;使用MP方法時(shí)不允許進(jìn)行自引導(dǎo)分析;進(jìn)化樹(shù)圖形很簡(jiǎn)單,并且不能保存進(jìn)化樹(shù)文件。雖然MEGA可以通過(guò)密碼子數(shù)據(jù)和氨基酸數(shù)據(jù)建立距離進(jìn)化樹(shù),但是使用的取代模型太簡(jiǎn)單,對(duì)于絕大多數(shù)數(shù)據(jù)集而言,不能產(chǎn)生可靠的進(jìn)化樹(shù)。MEGA同其它程序一樣,也沒(méi)有包括一些有用的特點(diǎn)(LewisandLewis,1995):空位和空位大小頻率,密碼子的用法和氨基酸頻率。MOLPHYMOLPHY(AdachiandHasegawa,1996)是一個(gè)共享的軟件包(見(jiàn)本章結(jié)尾的列表),可以進(jìn)行ML分析以及核苷酸序列或者氨基酸序列的統(tǒng)計(jì)。MOLPHY在SunOS和HP9000/700系統(tǒng)上經(jīng)過(guò)測(cè)試。在實(shí)際使用時(shí)需要對(duì)Unix文件操作有一定的了解。MOLPHY的用途包括NEXUS,MEGA和PHYLIP文件格式之間的數(shù)據(jù)文件的格式轉(zhuǎn)換,還包括從EMBL或者GeneBank的核苷酸序列文件中提取編碼區(qū)域。其中的ML程序同PHYLIP中的ML程序很相似,但是前者的氨基酸取代模型的范圍很廣,而且有很多選項(xiàng)能夠進(jìn)行快速的啟發(fā)式的搜索,其中包括一個(gè)選項(xiàng)能夠使用“本地自引導(dǎo)”分析(也就是說(shuō),進(jìn)行一個(gè)子樹(shù)的自引導(dǎo)分析,條件是假定這個(gè)進(jìn)化樹(shù)的剩余部分是正確的)以搜索更好的ML進(jìn)化樹(shù)。輸岀結(jié)果包括樹(shù)枝長(zhǎng)度評(píng)估以及標(biāo)準(zhǔn)偏差。分析分離的密碼子位置是可能的。MOPHY使用PAUP中提供的核苷酸取代模型的一個(gè)子集,盡管它允許使用者自行指定參數(shù)數(shù)值?,F(xiàn)在使用的MOLPHY缺少一個(gè)自引導(dǎo)選項(xiàng),也不能包容位點(diǎn)內(nèi)部的速率差異性。PAMLPAML(Yangetal.,1996)是一個(gè)共享軟件包(見(jiàn)本章結(jié)尾的列表),能夠進(jìn)行ML模型的建立和進(jìn)化樹(shù)的建立,能夠進(jìn)行Bayesian進(jìn)化樹(shù)的建立,能夠進(jìn)行模擬實(shí)驗(yàn),能夠進(jìn)行基于似然方法的進(jìn)化樹(shù)的分析,能夠進(jìn)行進(jìn)化樹(shù)評(píng)估以及數(shù)據(jù)和進(jìn)化樹(shù)的統(tǒng)計(jì)。這個(gè)軟件包己經(jīng)在Macintosh68K和PowerPC計(jì)算機(jī)上編譯通過(guò),還有一個(gè)非編譯的Unix版本(GNUgcc或者SunANSIC)。對(duì)于密碼子數(shù)據(jù)和氨基酸數(shù)據(jù),這個(gè)程序提供了最詳細(xì)的和最靈活的參數(shù)指定和評(píng)估方案。對(duì)于核苷酸數(shù)據(jù)(BASEML和BASEMLG),取代模型的范圍同PAUP的一樣廣泛,可能包括了所有值得考慮的模型。PAML執(zhí)行不額外的模型:相鄰位點(diǎn)的速率相關(guān)性(自動(dòng)離散gamma模型)和一個(gè)多基因模型,這個(gè)模型允許對(duì)每一個(gè)基因指定取代模型。后者對(duì)于分析來(lái)自于不同基因(在不同約束下進(jìn)化)的混合數(shù)據(jù)非常有用。下列步驟可能很有用:受限用PAUP進(jìn)行ML進(jìn)化樹(shù)的建立,然后轉(zhuǎn)向PAML,評(píng)估是否加入這些參數(shù)以改善似然值。PAML還包括一個(gè)在非靜態(tài)條件下(序列之間的堿基頻率變化很大)建立進(jìn)化樹(shù)的似然方法,但是對(duì)于超過(guò)四個(gè)序列的系統(tǒng),這個(gè)方法被認(rèn)為是不實(shí)用的。CODONML程序?qū)τ谠u(píng)估密碼子頻率、每一個(gè)密碼子位置上的堿基頻率以及每一個(gè)(非)同義位點(diǎn)上的(非)同義取代的數(shù)目非常有用。一個(gè)受到限制的PAML特色是能夠從數(shù)據(jù)集中把包含一個(gè)空位的所有位點(diǎn)或者丟失的數(shù)據(jù)分值(不允許存在IUPAC模糊密碼)排除岀去。當(dāng)分類(lèi)群數(shù)目增加時(shí),一個(gè)給定位點(diǎn)至少要達(dá)到的似然分值也隨之增加;因此這個(gè)限制要冒一定的風(fēng)險(xiǎn),很可能會(huì)把很有用的數(shù)據(jù)也切除掉。同時(shí),PAML中的進(jìn)化樹(shù)搜索算法也受到MOLPHY中采用的不嚴(yán)格的星型分解方法的限制。因此,必須采用多重搜索。一些簡(jiǎn)單的實(shí)際的考慮不管聽(tīng)起來(lái)多么荒謬,到目前為止,在進(jìn)行系統(tǒng)發(fā)生的推斷分析中,最重要的因素不是進(jìn)行系統(tǒng)發(fā)生推斷所采用的方法,而是輸入數(shù)據(jù)的質(zhì)量。數(shù)據(jù)選擇的重要行以及尤其是比對(duì)過(guò)程的重要性都不能過(guò)高估計(jì)。即使是最復(fù)雜的系統(tǒng)發(fā)生推斷方法都不能校正輸入數(shù)據(jù)的錯(cuò)誤。從盡可能多的角度觀察數(shù)據(jù)。使用三種主要方法(距離方法,最大節(jié)約方法,最大似然方法)中的每一個(gè),然后比較它們所建立的進(jìn)化樹(shù)的一致性。同時(shí),要清醒地意識(shí)到我們不能只是因?yàn)樗羞@三個(gè)方法產(chǎn)生了相同的進(jìn)化樹(shù),就認(rèn)為已經(jīng)達(dá)到了相對(duì)于真實(shí)系統(tǒng)發(fā)育的一個(gè)較好的評(píng)估。不幸的是,由不同方法得到的結(jié)果的一致性并不能必然地意味著結(jié)果就是統(tǒng)計(jì)顯著的(或者代表這真實(shí)的系統(tǒng)發(fā)生史),因?yàn)檫_(dá)到一致性的因素很多。選擇外圍的分類(lèi)群同內(nèi)在的分類(lèi)群的選擇對(duì)于分析的影響是相當(dāng)?shù)摹S绕涫钱?dāng)外圍的分類(lèi)群同一個(gè)或者幾個(gè)內(nèi)在的分類(lèi)群擁有一個(gè)相同的不同尋常的屬性(比方說(shuō),組成偏好或者始終頻率)時(shí),問(wèn)題就會(huì)復(fù)雜化(Leipeetal.,1993)。因此合理的做法是用若干個(gè)外圍的分類(lèi)群計(jì)算每一個(gè)分析,檢查內(nèi)在分類(lèi)群的拓?fù)浣Y(jié)構(gòu)的一致性。要清醒地意識(shí)到程序可以給岀不同的答案(進(jìn)化樹(shù)),僅僅是因?yàn)樾蛄袑绗F(xiàn)在輸入文件的順序不同。PHYLIP,PAUP以及其它系統(tǒng)發(fā)育軟件提供了一個(gè)“混亂”選項(xiàng),可以按照不同的(混亂的)輸入順序重新運(yùn)算。如果不管是什么原因,必須在一次運(yùn)行中計(jì)算進(jìn)化樹(shù),懷疑有問(wèn)題的的序列應(yīng)該放置在輸入文件的結(jié)尾,以降低進(jìn)化樹(shù)重新排布方法受到一個(gè)較差的初始拓?fù)浣Y(jié)構(gòu)(這個(gè)拓?fù)浣Y(jié)構(gòu)來(lái)源于任意的有問(wèn)題的序列)的負(fù)面影響的可能性。第九章所涉及到的因特網(wǎng)資源:系統(tǒng)發(fā)育學(xué)的資源(PHYLOGENETICRESOURCES):在加州大學(xué)伯克力分校的古生物學(xué)博物館有一個(gè)因特網(wǎng)站點(diǎn),組織得非常好,如果你對(duì)這個(gè)領(lǐng)域感興趣,最好能夠把這個(gè)地址保存在收藏夾里。這個(gè)站點(diǎn)所搜集的系統(tǒng)發(fā)育學(xué)的程序并不象其它站點(diǎn)那樣多,但是它的頁(yè)面里包含了許多與系統(tǒng)發(fā)育學(xué)有關(guān)的鏈接,其中包括岀版物、介紹、新聞組、協(xié)會(huì)、會(huì)議通知以及大量的分子生物學(xué)和分類(lèi)生物學(xué)數(shù)據(jù)庫(kù)。/subway/phylogen.html系統(tǒng)發(fā)育學(xué)的程序(PHYLOGENYPROGRAMS):通過(guò)這個(gè)網(wǎng)站瀏覽現(xiàn)有的系統(tǒng)發(fā)育學(xué)的軟件是個(gè)非常好的選擇。在這個(gè)站點(diǎn)中有大約一百個(gè)系統(tǒng)發(fā)育學(xué)的程序簡(jiǎn)單的描述,按照程序方法(長(zhǎng)程方法,似然方法,節(jié)約方法等)和運(yùn)行的計(jì)算機(jī)平臺(tái)(Unix,Mac,Pc等)組織起來(lái)。另外,它還提供了這些軟件的下載網(wǎng)址或者商業(yè)軟件的岀版網(wǎng)址。/phylip/software.html系統(tǒng)發(fā)育學(xué)計(jì)算機(jī)分析程序(PHYLOGENETICANALYSISCOMPUTERPROGRAMS):這是個(gè)關(guān)于生命樹(shù)的網(wǎng)頁(yè)。它所提供的系統(tǒng)發(fā)育學(xué)程序沒(méi)有上一個(gè)網(wǎng)站那么多,但是程序的說(shuō)明更加詳盡,并且除了畫(huà)樹(shù)程序以外,它還提供了序列編輯器和其他一些分子生物學(xué)的軟件工具。/tree/programs/programs.html節(jié)約算法分析軟件(PARSIMONYANALYSISSOFTWARE):這個(gè)站點(diǎn)是由IWHS(IternationalWilliHennigSociety)維護(hù)的,專(zhuān)門(mén)研究節(jié)約算法,其中許多程序同PAUP或者Hennig86互相影響。/~mes/hennig/software.html生物目錄分子進(jìn)化(BIOCATALOGMOLECULAREVOLUTION):歐洲生物信息學(xué)研究所提供了大量系統(tǒng)發(fā)育學(xué)軟件的鏈接。這個(gè)站點(diǎn)提供的STATALIGN程序似乎是獨(dú)一無(wú)二
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 盜墓筆記考試題及答案
- 洛陽(yáng)保安考試題及答案
- java常量池面試題及答案
- 北方高商面試題及答案
- 數(shù)學(xué)判別式試題及答案
- 河?xùn)|幼兒面試題及答案
- java搶紅包面試題及答案
- 2025年服務(wù)科學(xué)與工程專(zhuān)業(yè)畢業(yè)設(shè)計(jì)開(kāi)題報(bào)告
- 2025年財(cái)務(wù)管理專(zhuān)業(yè)畢業(yè)設(shè)計(jì)開(kāi)題報(bào)告
- 2025年海口學(xué)法減分考試題庫(kù)
- 旅游景區(qū)旅游安全風(fēng)險(xiǎn)評(píng)估報(bào)告
- 彩鋼棚承攬合同模板
- 病歷書(shū)寫(xiě)規(guī)范與住院病歷質(zhì)量監(jiān)控管理制度
- 卵巢非良性腫瘤生育力保護(hù)及保存中國(guó)專(zhuān)家共識(shí)(2024年版)解讀
- 2025屆高三語(yǔ)文7月中學(xué)生標(biāo)準(zhǔn)學(xué)術(shù)能力診斷性測(cè)試試題
- DZ∕T 0148-2014 水文水井地質(zhì)鉆探規(guī)程(正式版)
- 全國(guó)林業(yè)有害生物防治知識(shí)競(jìng)賽參考題
- 個(gè)人工資表表格
- 減速機(jī)檢修方案
- 掘進(jìn)機(jī)司機(jī)特種作業(yè)理論考試題庫(kù)(500題)
- 軍隊(duì)文職招聘(司機(jī)崗)近年考試真題題庫(kù)(含真題、典型題匯總)
評(píng)論
0/150
提交評(píng)論