




協(xié)同的力量:DRS聯(lián)合RNA-seq和表觀遺傳組學(xué)“煥新”四膜蟲(chóng)基因組.docx 免費(fèi)下載
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
協(xié)同的力量:DRS聯(lián)合RNA-seq和表觀遺傳組學(xué)“煥新”四膜蟲(chóng)基因組一、引言在基因組學(xué)的世界里,四膜蟲(chóng)(Tetrahymenathermophila)早已聲名遠(yuǎn)揚(yáng)。作為一種單細(xì)胞真核生物模型,它不僅在基礎(chǔ)生物學(xué)研究中扮演著關(guān)鍵角色,還因其獨(dú)特的基因組特征和生物學(xué)行為,成為科學(xué)家們探索生命奧秘的絕佳“試驗(yàn)田”。從基因表達(dá)調(diào)控到染色體重排,再到表觀遺傳學(xué)修飾,四膜蟲(chóng)的每一個(gè)“小秘密”都被科學(xué)家們悉心挖掘,試圖從中找到解答生命復(fù)雜性問(wèn)題的線索。然而,盡管四膜蟲(chóng)在科學(xué)研究中有著舉足輕重的地位,其基因組注釋卻一直面臨著諸多挑戰(zhàn)。尤其是非翻譯區(qū)(UTR)的注釋缺失,更是讓研究人員在深入探索基因功能和調(diào)控機(jī)制時(shí)“舉步維艱”。UTR作為基因表達(dá)調(diào)控的關(guān)鍵區(qū)域,承載著大量與轉(zhuǎn)錄起始、終止、mRNA穩(wěn)定性以及翻譯調(diào)控相關(guān)的信息。沒(méi)有準(zhǔn)確的UTR注釋?zhuān)腿缤诤诎抵忻髑靶?,難以精準(zhǔn)把握基因表達(dá)的“開(kāi)關(guān)”和“調(diào)光器”。幸運(yùn)的是,隨著測(cè)序技術(shù)的飛速發(fā)展,尤其是長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)的崛起,我們終于有了突破這一瓶頸的“利器”。Nanopore直接RNA測(cè)序(DRS)技術(shù)以其超長(zhǎng)讀長(zhǎng)、無(wú)需逆轉(zhuǎn)錄和可直接檢測(cè)RNA分子的特性,為轉(zhuǎn)錄組研究帶來(lái)了前所未有的深度和精度。它能夠輕松跨越整個(gè)轉(zhuǎn)錄本,一次性獲取完整的基因序列信息,包括UTR區(qū)域,從而為基因組注釋提供了更為全面和準(zhǔn)確的數(shù)據(jù)支持。但DRS技術(shù)并非“孤軍奮戰(zhàn)”,它與短讀長(zhǎng)的IlluminaRNA測(cè)序(RNA-seq)技術(shù)以及表觀遺傳學(xué)標(biāo)記分析(如H3K4me3、H2A.Z、核小體定位和6mA等)的聯(lián)合應(yīng)用,更是形成了“黃金組合”。RNA-seq技術(shù)以其高通量和高精度的特點(diǎn),能夠快速準(zhǔn)確地檢測(cè)基因表達(dá)水平和轉(zhuǎn)錄本結(jié)構(gòu),為基因注釋提供了豐富的轉(zhuǎn)錄組信息;而表觀遺傳學(xué)標(biāo)記則如同基因組上的“路標(biāo)”,指示著基因的活性狀態(tài)和調(diào)控區(qū)域,為基因方向和轉(zhuǎn)錄起始位點(diǎn)(TSS)的預(yù)測(cè)提供了重要線索。正是基于這樣的背景,一群富有創(chuàng)新精神的科學(xué)家們開(kāi)啟了他們的探索之旅。他們將DRS技術(shù)與RNA-seq和表觀遺傳學(xué)標(biāo)記分析相結(jié)合,構(gòu)建了一個(gè)全新的基因組注釋框架,旨在為四膜蟲(chóng)基因組的精準(zhǔn)注釋開(kāi)辟一條全新的道路(見(jiàn)圖1)。他們希望通過(guò)這種多技術(shù)聯(lián)合的策略,不僅能夠填補(bǔ)UTR注釋的空白,還能更全面地揭示基因表達(dá)調(diào)控的復(fù)雜機(jī)制,為四膜蟲(chóng)這一經(jīng)典模型生物的研究注入新的活力。接下來(lái),讓我們一起走進(jìn)他們的研究世界,探索DRS技術(shù)如何攜手RNA-seq和表觀遺傳學(xué),為四膜蟲(chóng)基因組注釋帶來(lái)革命性的突破,同時(shí)也為基因組學(xué)研究提供一種全新的思路和方法。圖1二、研究發(fā)現(xiàn)1.基于轉(zhuǎn)錄組數(shù)據(jù)的四膜蟲(chóng)大核基因組從頭注釋與基因模型優(yōu)化在四膜蟲(chóng)基因組注釋的征程中,研究團(tuán)隊(duì)首先將目光聚焦于轉(zhuǎn)錄組數(shù)據(jù)的深度挖掘。他們深知,轉(zhuǎn)錄組數(shù)據(jù)是基因表達(dá)的“第一手資料”,能夠直接反映基因在不同細(xì)胞階段的活性狀態(tài)和轉(zhuǎn)錄本結(jié)構(gòu)。因此,團(tuán)隊(duì)收集了來(lái)自不同細(xì)胞階段(包括生長(zhǎng)、饑餓以及交配過(guò)程中的多個(gè)時(shí)間點(diǎn))的轉(zhuǎn)錄組數(shù)據(jù),力求從多個(gè)維度捕捉基因表達(dá)的全貌。為了從這些海量的轉(zhuǎn)錄組數(shù)據(jù)中提取有價(jià)值的信息,研究團(tuán)隊(duì)采用了LoReAn2注釋流程,這是一個(gè)專(zhuān)門(mén)為真核生物基因組注釋設(shè)計(jì)的綜合流程。通過(guò)將轉(zhuǎn)錄組數(shù)據(jù)與基因組序列進(jìn)行比對(duì),LoReAn2能夠識(shí)別出基因的外顯子、內(nèi)含子以及轉(zhuǎn)錄本的拼接結(jié)構(gòu)。然而,初步的注釋結(jié)果顯示,雖然預(yù)測(cè)的編碼區(qū)長(zhǎng)度(3,900bp)和基因間區(qū)長(zhǎng)度(5,550bp)都比TGD2021版本更長(zhǎng),但預(yù)測(cè)的蛋白編碼基因數(shù)量卻明顯較少(15,355個(gè),遠(yuǎn)低于TGD2021的26,259個(gè)),且僅有8,351個(gè)基因包含了UTR信息。此外,這些預(yù)測(cè)的基因僅覆蓋了基因組的37.61%,遠(yuǎn)低于TGD2021的62.30%。這些結(jié)果表明,僅依靠LoReAn2的從頭注釋方法,雖然能夠提供一定的基因組信息,但在基因數(shù)量和覆蓋度上仍有很大的提升空間。為了進(jìn)一步優(yōu)化基因模型,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)新的注釋流程GAET(圖2A),該流程結(jié)合了多種轉(zhuǎn)錄組數(shù)據(jù),包括常規(guī)RNA-seq、單端RNA-seq(ssRNA-seq)和Nanopore直接RNA測(cè)序(DRS)數(shù)據(jù)。通過(guò)整合這些不同來(lái)源的數(shù)據(jù),團(tuán)隊(duì)能夠更全面地識(shí)別基因的轉(zhuǎn)錄本結(jié)構(gòu)和表達(dá)模式。在這一過(guò)程中,他們首先將不同細(xì)胞階段的轉(zhuǎn)錄組數(shù)據(jù)組裝成初步的基因模型(草稿版本v1),然后通過(guò)與TGD2021版本的基因模型進(jìn)行比較,識(shí)別出那些在新組裝的轉(zhuǎn)錄本中與TGD2021完全一致的基因,這些基因被暫時(shí)認(rèn)為是“注釋良好的基因”。對(duì)于那些與TGD2021不一致的基因,團(tuán)隊(duì)進(jìn)一步利用NanoporeDRS數(shù)據(jù)和ssRNA-seq數(shù)據(jù)進(jìn)行優(yōu)化。NanoporeDRS技術(shù)以其超長(zhǎng)讀長(zhǎng)的優(yōu)勢(shì),能夠提供完整的轉(zhuǎn)錄本序列信息,包括UTR區(qū)域;而ssRNA-seq則能夠準(zhǔn)確地確定轉(zhuǎn)錄本的方向性。通過(guò)這些數(shù)據(jù)的輔助,團(tuán)隊(duì)成功識(shí)別了3,408個(gè)新基因,這些新基因大多位于TGD2021定義的基因間區(qū)域(圖2B)。此外,團(tuán)隊(duì)還對(duì)大量現(xiàn)有基因的注釋進(jìn)行了優(yōu)化,這些優(yōu)化主要包括以下幾類(lèi):外顯子結(jié)構(gòu)改變的基因:4,296個(gè)基因的外顯子結(jié)構(gòu)得到了修正(圖2C),這些修正包括外顯子邊界的調(diào)整和新外顯子的添加,使得基因模型更加準(zhǔn)確地反映了轉(zhuǎn)錄本的實(shí)際結(jié)構(gòu)。融合基因:2,858個(gè)原本被錯(cuò)誤拆分的基因被重新合并為1,314個(gè)基因(圖2D)。這些基因的合并是基于RNA-seq和DRS數(shù)據(jù)的支持,這些數(shù)據(jù)表明這些基因?qū)嶋H上是連續(xù)轉(zhuǎn)錄的單個(gè)基因。分割基因:518個(gè)基因被分割為1,036個(gè)基因(圖2E)。這些基因的分割是基于RNA-seq數(shù)據(jù)的中斷模式,表明這些基因在轉(zhuǎn)錄過(guò)程中存在明顯的斷裂點(diǎn),且沒(méi)有RNA-seq讀段跨越相鄰基因。方向反轉(zhuǎn)的基因:145個(gè)單外顯子基因的方向被反轉(zhuǎn)(圖2F)。這些基因的方向反轉(zhuǎn)是根據(jù)ssRNA-seq數(shù)據(jù)確定的,這些數(shù)據(jù)表明這些基因的實(shí)際轉(zhuǎn)錄方向與TGD2021中的注釋相反。通過(guò)這一系列的優(yōu)化,研究團(tuán)隊(duì)最終得到了一個(gè)包含27,643個(gè)基因的優(yōu)化基因模型(草稿版本v2),其中包括17,170個(gè)注釋良好的基因、3,408個(gè)新基因、4,296個(gè)外顯子結(jié)構(gòu)改變的基因、1,314個(gè)融合基因(來(lái)自2,858個(gè)基因)、1,036個(gè)分割基因(來(lái)自518個(gè)基因)、145個(gè)方向反轉(zhuǎn)的基因以及274個(gè)低置信度基因。這一優(yōu)化過(guò)程不僅大幅增加了基因的數(shù)量,還提高了基因模型的準(zhǔn)確性和完整性,為后續(xù)的基因功能研究和調(diào)控機(jī)制探索奠定了堅(jiān)實(shí)的基礎(chǔ)。A圖12.基于表觀遺傳學(xué)信息的基因模型進(jìn)一步優(yōu)化在基因組注釋的精細(xì)化進(jìn)程中,表觀遺傳學(xué)信息如同一盞明燈,為基因模型的優(yōu)化提供了關(guān)鍵指引。表觀遺傳學(xué)標(biāo)記,如H3K4me3、H2A.Z、6mA和核小體定位等,因其在基因轉(zhuǎn)錄起始和調(diào)控區(qū)域的富集特性,成為預(yù)測(cè)轉(zhuǎn)錄起始位點(diǎn)(TSS)和優(yōu)化基因模型的重要線索。研究團(tuán)隊(duì)巧妙地利用這些表觀遺傳學(xué)標(biāo)記,結(jié)合機(jī)器學(xué)習(xí)算法,進(jìn)一步提升了四膜蟲(chóng)基因組注釋的精度。研究團(tuán)隊(duì)首先開(kāi)發(fā)了一個(gè)基于隨機(jī)森林(RandomForest,RF)模型的預(yù)測(cè)算法,用于識(shí)別基因的轉(zhuǎn)錄起始位點(diǎn)(TSS)。他們以10,460個(gè)長(zhǎng)基因(>1kb)為訓(xùn)練集,這些基因的表觀遺傳學(xué)標(biāo)記信息豐富,能夠?yàn)槟P吞峁┏渥愕挠?xùn)練數(shù)據(jù)。通過(guò)分析這些基因在TSS區(qū)域的表觀遺傳學(xué)特征,RF模型成功學(xué)會(huì)了區(qū)分TSS區(qū)域與非TSS區(qū)域的特征模式(圖3A)。模型的性能通過(guò)ROC-AUC進(jìn)行評(píng)估,結(jié)果顯示,無(wú)論是訓(xùn)練數(shù)據(jù)還是測(cè)試數(shù)據(jù),ROC-AUC值均接近1,表明模型在預(yù)測(cè)TSS區(qū)域方面表現(xiàn)出色。在表觀遺傳學(xué)標(biāo)記的分布特征方面,研究團(tuán)隊(duì)發(fā)現(xiàn)H3K4me3、H2A.Z、6mA和核小體定位等標(biāo)記在基因體的5'端顯著富集(圖3B)。這種富集模式為預(yù)測(cè)TSS提供了有力的依據(jù)。利用RF模型,研究團(tuán)隊(duì)預(yù)測(cè)了24,351個(gè)TSS區(qū)域,并通過(guò)ATAC-seq數(shù)據(jù)進(jìn)一步驗(yàn)證這些預(yù)測(cè)的TSS。ATAC-seq能夠檢測(cè)染色質(zhì)開(kāi)放區(qū)域,其在TSS附近的富集模式與預(yù)測(cè)的TSS區(qū)域高度吻合。通過(guò)對(duì)比預(yù)測(cè)的TSS與ATAC-seq數(shù)據(jù)中的顯著峰,研究團(tuán)隊(duì)將這些峰的中心定義為候選TSS。其中,位于預(yù)測(cè)TSS區(qū)域200bp范圍內(nèi)的候選TSS被定義為表觀遺傳學(xué)支持的TSS(eTSS),而那些位于基因5'端但缺乏表觀遺傳學(xué)支持的候選TSS則被定義為潛在TSS(pTSS)。基于這些TSS預(yù)測(cè)結(jié)果,研究團(tuán)隊(duì)對(duì)基因模型進(jìn)行了進(jìn)一步優(yōu)化(圖3C)。在27,643個(gè)基因中,25,346個(gè)基因被賦予了eTSS或pTSS,其中20,825個(gè)基因具有eTSS,4,521個(gè)基因具有pTSS。這些TSS的識(shí)別不僅幫助團(tuán)隊(duì)發(fā)現(xiàn)了13個(gè)新的基因(圖3D),還促使他們對(duì)多個(gè)基因的注釋進(jìn)行了調(diào)整,包括:方向反轉(zhuǎn)的基因:24個(gè)單外顯子基因的方向被反轉(zhuǎn)(圖3E),因?yàn)樗鼈兊膃TSS位于之前注釋的3'UTR區(qū)域內(nèi)。TSS改變的基因:15,316個(gè)基因的TSS根據(jù)eTSS的位置進(jìn)行了調(diào)整(圖3F)。這些調(diào)整彌補(bǔ)了之前由于RNA-seq讀段覆蓋度有限而導(dǎo)致的TSS預(yù)測(cè)偏差。融合基因:146個(gè)基因被合并為73個(gè)基因(圖3G)。這些基因最初被錯(cuò)誤地拆分為兩個(gè)獨(dú)立的基因,但只有一個(gè)基因含有明確的eTSS,而另一個(gè)基因缺乏可識(shí)別的eTSS或pTSS。分割基因:67個(gè)基因被分割為134個(gè)基因(圖3H)。這些基因包含兩個(gè)不同的eTSS,根據(jù)eTSS的位置和方向,它們被分為三類(lèi):共向基因(19個(gè))、反向基因(43個(gè))和雙向基因(5個(gè))。為了驗(yàn)證這些預(yù)測(cè)的TSS的準(zhǔn)確性,研究團(tuán)隊(duì)進(jìn)一步采用了Cap-seq技術(shù),這是一種能夠以單堿基分辨率精確捕獲mRNA轉(zhuǎn)錄起始位點(diǎn)的技術(shù)。Cap-seq數(shù)據(jù)顯示,17,301個(gè)基因的準(zhǔn)確TSS(aTSS)中有85.01%位于預(yù)測(cè)的eTSS或pTSS的150bp范圍內(nèi),這一結(jié)果充分證明了研究團(tuán)隊(duì)預(yù)測(cè)方法的可靠性(圖3C)。此外,他們還發(fā)現(xiàn),隨著基因表達(dá)水平的提高,TSS預(yù)測(cè)的準(zhǔn)確性也隨之增加,這可能與高表達(dá)基因的表觀遺傳學(xué)標(biāo)記更強(qiáng)、染色質(zhì)開(kāi)放性更高有關(guān)。ABCDH圖33.UTR注釋與轉(zhuǎn)錄調(diào)控元件的鑒定在基因組注釋中,非翻譯區(qū)(UTR)和轉(zhuǎn)錄調(diào)控元件的精確注釋對(duì)于理解基因表達(dá)調(diào)控機(jī)制至關(guān)重要。UTR區(qū)域不僅包含轉(zhuǎn)錄起始和終止的信號(hào),還涉及mRNA的穩(wěn)定性、翻譯效率以及亞細(xì)胞定位等關(guān)鍵調(diào)控過(guò)程。因此,研究團(tuán)隊(duì)在優(yōu)化基因模型的基礎(chǔ)上,進(jìn)一步對(duì)四膜蟲(chóng)基因組中的UTR和轉(zhuǎn)錄調(diào)控元件進(jìn)行了詳細(xì)注釋。3.1UTR注釋為了準(zhǔn)確注釋UTR,研究團(tuán)隊(duì)利用了Nanopore直接RNA測(cè)序(DRS)數(shù)據(jù)來(lái)識(shí)別轉(zhuǎn)錄終止位點(diǎn)(TES)。DRS技術(shù)能夠提供完整的轉(zhuǎn)錄本序列,包括poly-A尾,從而使得TES的鑒定更加準(zhǔn)確。通過(guò)分析poly-A尾的切割位點(diǎn),研究團(tuán)隊(duì)成功為78%(21,660個(gè)基因)的基因注釋了TES(圖4A)。此外,1,915個(gè)基因被發(fā)現(xiàn)具有多個(gè)TES,這表明這些基因可能通過(guò)選擇性poly-A位點(diǎn)的使用來(lái)調(diào)控mRNA的長(zhǎng)度和穩(wěn)定性。在確定了TSS和TES之后,研究團(tuán)隊(duì)進(jìn)一步預(yù)測(cè)了編碼序列(CDS)和開(kāi)放閱讀框(ORF)。他們發(fā)現(xiàn),27,650個(gè)基因中有689個(gè)基因缺乏可預(yù)測(cè)的ORF,這些基因被分類(lèi)為潛在的非編碼RNA(圖4A)。對(duì)于具有明確TSS和TES的基因,其轉(zhuǎn)錄本中不包含CDS的區(qū)域被定義為5'UTR和3'UTR。最終,26,047個(gè)基因被注釋了完整的5'UTR和3'UTR,165個(gè)基因僅含有5'UTR,131個(gè)基因僅含有3'UTR,而344個(gè)基因和274個(gè)低置信度基因沒(méi)有注釋到UTR信息。5'UTR和3'UTR的平均長(zhǎng)度分別為192.54bp和238.61bp(圖4B),這些數(shù)據(jù)為后續(xù)的基因功能研究提供了重要的基礎(chǔ)。3.2轉(zhuǎn)錄調(diào)控元件的鑒定在轉(zhuǎn)錄調(diào)控元件的鑒定方面,研究團(tuán)隊(duì)重點(diǎn)關(guān)注了啟動(dòng)子區(qū)域的順式作用元件。通過(guò)對(duì)TSS上游的序列進(jìn)行分析,他們鑒定出多個(gè)核心啟動(dòng)子motif,這些motif可能在轉(zhuǎn)錄激活中發(fā)揮重要作用。例如,CCAAT框(P值=2.1×10??,出現(xiàn)頻率為6.93%)、TATA框(P值=5.6×10??,出現(xiàn)頻率為27.68%)、cAMP響應(yīng)元件(CRE,P值=2.5×10?3,出現(xiàn)頻率為0.18%)以及REB1結(jié)合位點(diǎn)(P值=1.8×10??,出現(xiàn)頻率為0.67%)等(圖4C)。這些motif的鑒定為理解四膜蟲(chóng)基因轉(zhuǎn)錄調(diào)控機(jī)制提供了重要線索。在轉(zhuǎn)錄終止區(qū)域,研究團(tuán)隊(duì)對(duì)poly-A信號(hào)(PAS)序列進(jìn)行了分析。他們發(fā)現(xiàn),四膜蟲(chóng)的PAS序列以AATAAA為主導(dǎo),同時(shí)還包括其他幾種變體,如ATTAAA、AATGAA等(圖4D)。與哺乳動(dòng)物不同,四膜蟲(chóng)的PAS序列上游富集AT基序,而下游則富集T基序(圖4E),這表明四膜蟲(chóng)可能具有獨(dú)特的mRNA切割和poly-A添加機(jī)制。此外,研究團(tuán)隊(duì)還對(duì)poly-A尾的長(zhǎng)度進(jìn)行了分析。他們發(fā)現(xiàn),四膜蟲(chóng)的poly-A尾長(zhǎng)度峰值約為18個(gè)核苷酸,與擬南芥、大豆、玉米和水稻等植物相似(圖4F)。在分析每個(gè)基因最長(zhǎng)的poly-A序列時(shí),他們觀察到poly-A尾長(zhǎng)度呈現(xiàn)出兩個(gè)顯著的峰值,分別位于13-30nt和95-100nt(圖4G)。通過(guò)將所有基因按照poly-A尾長(zhǎng)度分為短尾基因(5-19nt)、中等尾基因(19-239nt)和長(zhǎng)尾基因(>239nt),研究團(tuán)隊(duì)發(fā)現(xiàn),短尾基因主要富集在膜和離子轉(zhuǎn)運(yùn)相關(guān)功能中,而長(zhǎng)尾基因則富集在與線粒體、翻譯、RNA處理和核糖體相關(guān)功能中(圖4H和I)。此外,他們還發(fā)現(xiàn)poly-A尾長(zhǎng)度與基因表達(dá)水平呈正相關(guān)(圖4J),這表明長(zhǎng)poly-A尾可能有助于mRNA的穩(wěn)定性。ABCDEFGHIJ圖44.基因組拋光與人工校正的深度優(yōu)化在基因組學(xué)研究中,基因組拋光和人工校正是確保注釋質(zhì)量的關(guān)鍵環(huán)節(jié)。盡管自動(dòng)化注釋工具能夠高效處理大量數(shù)據(jù),但它們往往難以捕捉基因組的細(xì)微結(jié)構(gòu)和復(fù)雜性。因此,研究團(tuán)隊(duì)在整合轉(zhuǎn)錄組數(shù)據(jù)和表觀遺傳學(xué)信息的基礎(chǔ)上,進(jìn)一步通過(guò)人工校正和基因組拋光來(lái)優(yōu)化四膜蟲(chóng)基因組的注釋。4.1基因組拋光基因組拋光是通過(guò)糾正基因組序列中的錯(cuò)誤來(lái)提高注釋質(zhì)量的過(guò)程。研究團(tuán)隊(duì)利用全基因組測(cè)序數(shù)據(jù)對(duì)四膜蟲(chóng)基因組進(jìn)行了拋光,糾正了3,759個(gè)插入、135個(gè)缺失、43個(gè)轉(zhuǎn)換和48個(gè)顛換錯(cuò)誤(圖5A)。這些糾正的位點(diǎn)通過(guò)Sanger測(cè)序在代表性區(qū)域進(jìn)行了驗(yàn)證,確保了糾正的準(zhǔn)確性。在這些糾正的位點(diǎn)中,有1,696個(gè)位于基因區(qū)域,其中645個(gè)在外顯子中,1,051個(gè)在內(nèi)含子中。這些外顯子中的錯(cuò)誤可能導(dǎo)致編碼序列(CDS)預(yù)測(cè)不準(zhǔn)確。通過(guò)拋光后的基因組,研究團(tuán)隊(duì)重新預(yù)測(cè)了645個(gè)基因的CDS,使得438個(gè)基因獲得了更準(zhǔn)確和更完整的CDS。4.2人工校正人工校正涉及對(duì)基因模型的細(xì)致檢查和調(diào)整,以確保注釋的準(zhǔn)確性和完整性。研究團(tuán)隊(duì)使用GSAman軟件對(duì)所有180個(gè)非核糖體DNA(non-rDNA)染色體進(jìn)行了兩輪人工校正,重點(diǎn)關(guān)注具有多個(gè)eTSS(轉(zhuǎn)錄起始位點(diǎn))的基因以及既沒(méi)有eTSS也沒(méi)有pTSS(潛在轉(zhuǎn)錄起始位點(diǎn))的基因(圖5A)。通過(guò)人工校正,研究團(tuán)隊(duì)對(duì)以下幾類(lèi)基因進(jìn)行了優(yōu)化:多eTSS基因:研究團(tuán)隊(duì)檢查了3,937個(gè)具有多個(gè)eTSS的基因。其中,3,908個(gè)基因具有兩個(gè)eTSS,這些基因中有3,908個(gè)能夠轉(zhuǎn)錄出反義轉(zhuǎn)錄本,其中一個(gè)eTSS屬于蛋白編碼基因,另一個(gè)eTSS對(duì)應(yīng)于反義轉(zhuǎn)錄本(圖5B)。此外,還有27個(gè)基因包含兩個(gè)eTSS,其中一個(gè)eTSS作為蛋白編碼基因的替代TSS,而另外兩個(gè)基因則具有三個(gè)eTSS,表明存在三種替代TSS。重復(fù)基因:研究團(tuán)隊(duì)檢查了2,023個(gè)既沒(méi)有eTSS也沒(méi)有pTSS的重復(fù)基因。這些基因被分為兩類(lèi):一類(lèi)是849個(gè)串聯(lián)重復(fù)基因,它們?cè)趩蝹€(gè)基因組位點(diǎn)上以線性方式排列(圖5C);另一類(lèi)是1,174個(gè)具有多個(gè)短外顯子(大多小于100bp)的重復(fù)基因,這些基因分布在不同的染色體上(圖5D)。這些多短外顯子基因往往由于NanoporeDRS數(shù)據(jù)分析中默認(rèn)的Smith-Waterman算法而被錯(cuò)誤比對(duì)。這些基因大多屬于亮氨酸富集重復(fù)超家族,它們是最近進(jìn)化而來(lái)的,缺乏轉(zhuǎn)錄激活標(biāo)記,包括6mA。近全選擇性剪接基因:研究團(tuán)隊(duì)還檢查了15個(gè)表現(xiàn)出超高剪接多樣性的基因,這些基因的幾乎所有非編碼外顯子都受到選擇性剪接的影響(圖5E)。這種現(xiàn)象在人類(lèi)中也有觀察到,其中69%的人類(lèi)蛋白編碼外顯子被歸類(lèi)為選擇性外顯子,一些功能性的長(zhǎng)非編碼RNA(如XIST、HOTAIR、GOMAFU和H19)在每個(gè)位點(diǎn)上都表現(xiàn)出近全選擇性剪接。研究團(tuán)隊(duì)為這些15個(gè)基因注釋了它們最主導(dǎo)的異構(gòu)體。在人工校正過(guò)程中,研究團(tuán)隊(duì)還觀察到某些區(qū)域存在序列錯(cuò)誤。因此,他們利用全基因組測(cè)序數(shù)據(jù)對(duì)基因組序列進(jìn)行了拋光(圖5A),糾正了總共3,759個(gè)插入、135個(gè)缺失、43個(gè)轉(zhuǎn)換和48個(gè)顛換錯(cuò)誤。這些糾正通過(guò)在代表性位點(diǎn)進(jìn)行Sanger測(cè)序得到了驗(yàn)證(圖5F)。在這些糾正的位點(diǎn)中,有1,696個(gè)位于基因區(qū)域,其中645個(gè)在外顯子中,1,051個(gè)在內(nèi)含子中。外顯子中的錯(cuò)誤可能導(dǎo)致預(yù)測(cè)的CDS不準(zhǔn)確。利用經(jīng)過(guò)拋光的基因組,研究團(tuán)隊(duì)重新預(yù)測(cè)了645個(gè)基因的CDS,使得438個(gè)基因獲得了更準(zhǔn)確和更完整的CDS。4.3功能注釋更新為了更新功能注釋?zhuān)芯繄F(tuán)隊(duì)將預(yù)測(cè)的蛋白序列與多個(gè)公共蛋白數(shù)據(jù)庫(kù)進(jìn)行了比對(duì)。最終,他們注釋了25,846個(gè)功能基因,比TGD2021版本增加了1,732個(gè)功能基因。對(duì)于這些新注釋的基因,蛋白功能注釋揭示了它們?cè)诓煌Y(jié)構(gòu)域家族中的分布,其中某些家族的出現(xiàn)頻率更高,例如亮氨酸富集重復(fù)域、環(huán)核苷酸結(jié)合域和WD40/YVTN重復(fù)類(lèi)似物。此外,三個(gè)新注釋的蛋白與表觀遺傳調(diào)控相關(guān)。其中兩個(gè)具有與MLL5(KMT2E)同源的組蛋白H3K4特異性甲基轉(zhuǎn)移酶SET結(jié)構(gòu)域,這對(duì)于基因轉(zhuǎn)錄調(diào)控、細(xì)胞周期調(diào)控(G1/S轉(zhuǎn)換)和肌母細(xì)胞分化至關(guān)重要。另一個(gè)蛋白與16S核糖體RNA(rRNA)m5C甲基轉(zhuǎn)移酶NSUN4同源,其特征是存在RsmB結(jié)構(gòu)域。除了RNA聚合酶II(PolII)轉(zhuǎn)錄的基因外,研究團(tuán)隊(duì)還利用與TGD2021相同的方法注釋了PolI和PolIII轉(zhuǎn)錄的基因。對(duì)于PolI轉(zhuǎn)錄的基因,他們注釋了兩個(gè)18SrRNA和兩個(gè)28SrRNA在rDNA小染色體(chr181)上。意外的是,他們還注釋了173個(gè)8SrRNA,這些基因位于非rDNA區(qū)域。對(duì)于PolIII轉(zhuǎn)錄的基因,他們注釋了172個(gè)5SrRNA、691個(gè)轉(zhuǎn)運(yùn)RNA、58個(gè)小核仁RNA(snoRNA)和26個(gè)小核RNA(snRNA),與TGD2021相比,增加了57個(gè)snoRNA和22個(gè)snRNA。這些注釋的增加歸因于經(jīng)過(guò)拋光的基因組和更新的非編碼RNA數(shù)據(jù)庫(kù)。ABCDEF圖55.選擇性剪接(AS)轉(zhuǎn)錄本異構(gòu)體的注釋選擇性剪接(AlternativeSplicing,AS)是真核生物中一種重要的轉(zhuǎn)錄后調(diào)控機(jī)制,通過(guò)不同的剪接方式從同一原始RNA序列生成多種成熟的轉(zhuǎn)錄本。這一過(guò)程在基因表達(dá)調(diào)控中起著關(guān)鍵作用,能夠顯著增加基因組的編碼能力和轉(zhuǎn)錄本的多樣性。在四膜蟲(chóng)基因組的研究中,研究團(tuán)隊(duì)通過(guò)整合轉(zhuǎn)錄組數(shù)據(jù)和表觀遺傳學(xué)信息,對(duì)AS產(chǎn)生的轉(zhuǎn)錄本異構(gòu)體進(jìn)行了全面注釋。5.1.AS異構(gòu)體的鑒定與分類(lèi)研究團(tuán)隊(duì)利用Nanopore直接RNA測(cè)序(DRS)數(shù)據(jù)和IlluminaRNA-seq數(shù)據(jù),結(jié)合人工校正和基因組拋光的結(jié)果,對(duì)四膜蟲(chóng)基因組中的AS事件進(jìn)行了詳細(xì)分析。他們鑒定出六種AS事件類(lèi)型,包括外顯子跳躍(exonskipping)、替代性最后一個(gè)外顯子(alternativelastexon)、內(nèi)含子保留(intronretention)、互斥外顯子(mutuallyexclusiveexons)、替代性5'剪接位點(diǎn)(alternative5'splicesite)和替代性3'剪接位點(diǎn)(alternative3'splicesite)。這些AS事件在2,136個(gè)基因中產(chǎn)生8,339個(gè)異構(gòu)體,顯著高于TGD2021版本中的459個(gè)AS基因和516個(gè)異構(gòu)體(圖6A、B)。5.2.AS異構(gòu)體的表達(dá)模式通過(guò)對(duì)不同細(xì)胞階段(生長(zhǎng)、饑餓和交配)的轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行分析,研究團(tuán)隊(duì)發(fā)現(xiàn)AS異構(gòu)體的表達(dá)具有明顯的階段特異性。例如,某些AS異構(gòu)體僅在特定階段表達(dá),而另一些則在多個(gè)階段中表現(xiàn)出不同的表達(dá)水平(圖6C)。這種階段特異性表達(dá)模式可能與基因的功能調(diào)控密切相關(guān)。5.3.AS異構(gòu)體的功能分析為了進(jìn)一步理解AS異構(gòu)體的功能,研究團(tuán)隊(duì)進(jìn)行了基因本體(GeneOntology,GO)分析。結(jié)果顯示,AS異構(gòu)體主要富集在細(xì)胞周期和減數(shù)分裂相關(guān)的過(guò)程中。這表明AS在四膜蟲(chóng)的細(xì)胞周期調(diào)控和生殖過(guò)程中可能發(fā)揮重要作用。5.4.AS異構(gòu)體的驗(yàn)證為了驗(yàn)證AS注釋的可靠性,研究團(tuán)隊(duì)選擇了部分AS異構(gòu)體進(jìn)行RT-PCR驗(yàn)證。他們從每個(gè)AS類(lèi)型中選取了三到四個(gè)基因進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明約90%的AS異構(gòu)體得到了成功驗(yàn)證,驗(yàn)證成功率在不同AS類(lèi)型和表達(dá)水平組之間沒(méi)有顯著差異。ABC圖66.天然反義轉(zhuǎn)錄本(NATs)的鑒定與功能分析在四膜蟲(chóng)基因組的研究中,研究團(tuán)隊(duì)不僅關(guān)注了編碼蛋白的基因和選擇性剪接產(chǎn)生的轉(zhuǎn)錄本異構(gòu)體,還深入探索了天然反義轉(zhuǎn)錄本(NaturalAntisenseTranscripts,NATs)的存在與功能。NATs是一類(lèi)與正義鏈基因轉(zhuǎn)錄本互補(bǔ)的RNA分子,它們?cè)诨虮磉_(dá)調(diào)控中扮演著重要角色。這些反義轉(zhuǎn)錄本能夠通過(guò)與正義轉(zhuǎn)錄本的互補(bǔ)配對(duì),形成雙鏈RNA結(jié)構(gòu),從而影響正義基因的表達(dá)水平。NATs的存在和功能在多種生物中都有報(bào)道,但在四膜蟲(chóng)中的系統(tǒng)性研究尚屬首次。6.1NATs的鑒定研究團(tuán)隊(duì)通過(guò)整合轉(zhuǎn)錄組數(shù)據(jù)和表觀遺傳學(xué)信息(圖7A),鑒定出5,525個(gè)NATs,占四膜蟲(chóng)蛋白編碼基因的20%(5,525/26,961)。這些NATs大多缺乏可識(shí)別的開(kāi)放閱讀框(>100氨基酸),但有11個(gè)NATs被注釋為潛在的功能蛋白,112個(gè)顯示出高編碼潛力(圖7A)。NATs的鑒定基于以下兩個(gè)標(biāo)準(zhǔn):(i)從正義基因的反義鏈轉(zhuǎn)錄而來(lái),且在Nanopore直接RNA測(cè)序(DRS)數(shù)據(jù)中得到支持;(ii)定位在正義基因的上游或內(nèi)部,涵蓋內(nèi)含子或外顯子區(qū)域。6.2NATs的分類(lèi)研究團(tuán)隊(duì)根據(jù)NATs與正義基因轉(zhuǎn)錄本的位置關(guān)系,將它們分為以下幾類(lèi):?jiǎn)?dòng)子NATs(PromoterNATs):575個(gè)啟動(dòng)子NATs起源于正義基因轉(zhuǎn)錄本的雙向啟動(dòng)子(圖7B)。外顯子NATs(ExonicNATs):3,591個(gè)外顯子NATs位于正義基因轉(zhuǎn)錄本的1kb下游,并共享表觀遺傳學(xué)標(biāo)記(圖7C)。內(nèi)含子NATs(IntronicNATs):33個(gè)內(nèi)含子NATs轉(zhuǎn)錄自正義基因轉(zhuǎn)錄本的內(nèi)含子區(qū)域(圖7D)。6.3NATs的表達(dá)模式研究團(tuán)隊(duì)發(fā)現(xiàn),65%的NATs表現(xiàn)出與其正義編碼基因相反的時(shí)間特異性表達(dá)模式(圖7E)。這種反向表達(dá)模式表明,NATs可能通過(guò)降解正義mRNA或干擾其翻譯來(lái)誘導(dǎo)基因沉默,這與植物中正義和反義轉(zhuǎn)錄本相互排斥的現(xiàn)象一致。例如,在基因TTHERM_00412050中,隨著從生長(zhǎng)到饑餓再到交配的轉(zhuǎn)變,其N(xiāo)ATs的表達(dá)逐漸減少,而正義轉(zhuǎn)錄本的表達(dá)則逐漸增加(圖7F)。這種現(xiàn)象可能通過(guò)降解正義mRNA或干擾其翻譯來(lái)誘導(dǎo)基因沉默,從而在基因表達(dá)調(diào)控中發(fā)揮重要作用。6.4NATs的表觀遺傳學(xué)特征研究團(tuán)隊(duì)還觀察到,NATs的基因組位點(diǎn)也攜帶了表觀遺傳學(xué)標(biāo)記,如H3K4me3、H2A.Z、6mA和核小體定位(圖7G)。這些標(biāo)記不僅與正義基因共享,還可能參與調(diào)節(jié)NATs的表達(dá)。例如,H3K4me3和H2A.Z在NATs的轉(zhuǎn)錄起始區(qū)域富集,表明這些區(qū)域具有活躍的轉(zhuǎn)錄潛力。6.5NATs的剪接多樣性(ASD)研究團(tuán)隊(duì)進(jìn)一步分析了NATs的剪接多樣性(AlternativeSplicingDiversity,ASD),ASD定義為每個(gè)NAT位點(diǎn)的不同剪接位點(diǎn)數(shù)量與總讀段數(shù)的比值。結(jié)果顯示,NATs的ASD顯著高于其正義基因轉(zhuǎn)錄本(0.96vs.0.28,P<0.001)(圖7H)。這種高多樣性可能使NATs在基因表達(dá)調(diào)控中具有更大的靈活性和復(fù)雜性。6.6NATs的功能分析通過(guò)基因本體(GeneOntology,GO)分析,研究團(tuán)隊(duì)發(fā)現(xiàn)NATs富集在與細(xì)胞周期和減數(shù)分裂相關(guān)的過(guò)程中。這表明NATs可能在四膜蟲(chóng)的細(xì)胞周期調(diào)控和生殖過(guò)程中發(fā)揮重要作用。此外,NATs的表達(dá)模式與正義基因的表達(dá)模式呈反相關(guān),進(jìn)一步支持了它們?cè)诨虺聊械淖饔?。ABCDEFGH三、亮點(diǎn)與展望在基因組學(xué)的探索之旅中,四膜蟲(chóng)(Tetrahymenathermophila)以其獨(dú)特的生物學(xué)特性和豐富的基因組信息,一直被視為研究基因表達(dá)調(diào)控和基因組結(jié)構(gòu)的理想模型生物。然而,盡管四膜蟲(chóng)在基礎(chǔ)生物學(xué)研究中具有重要地位,其基因組注釋的準(zhǔn)確性一直是科學(xué)家們面臨的挑戰(zhàn),尤其是非翻譯區(qū)(UTR)和轉(zhuǎn)錄調(diào)控元件的注釋不足,限制了對(duì)基因表達(dá)調(diào)控機(jī)制的深入理解。在這項(xiàng)開(kāi)創(chuàng)性的研究中,研究團(tuán)隊(duì)通過(guò)整合多種測(cè)序技術(shù)和生物信息學(xué)方法,對(duì)四膜蟲(chóng)的大核基因組進(jìn)行了全面而深入的注釋。他們不僅優(yōu)化了基因模型,還精確地注釋了轉(zhuǎn)錄起始位點(diǎn)(TSS)、轉(zhuǎn)錄終止位點(diǎn)(TES)、UTR區(qū)域以及選擇性剪接(AS)產(chǎn)生的轉(zhuǎn)錄本異構(gòu)體。此外,他們還首次系統(tǒng)性地鑒定和分析了天然反義轉(zhuǎn)錄本(NATs),揭示了這些反義轉(zhuǎn)錄本在基因表達(dá)調(diào)控中的重要作用。Nanopore直接RNA測(cè)序(DRS)技術(shù)的卓越貢獻(xiàn)NanoporeDRS技術(shù)在這項(xiàng)研究中發(fā)揮了關(guān)鍵作用。其超長(zhǎng)讀長(zhǎng)和直接測(cè)序的特點(diǎn),使得研究團(tuán)隊(duì)能夠獲取完整的轉(zhuǎn)錄本序列,包括UTR區(qū)域和poly-A尾。這不僅顯著提高了基因模型的準(zhǔn)確性,還為
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐飲企業(yè)廢棄物資源化利用與循環(huán)經(jīng)濟(jì)研究報(bào)告
- 城市污水處理廠深度處理工藝在2025年城市污水處理廠升級(jí)改造評(píng)估報(bào)告
- 教師參觀廉政教育基地心得體會(huì)
- 市政維護(hù)環(huán)境整治方案(3篇)
- 2025年國(guó)際禁毒日禁毒知識(shí)競(jìng)賽題庫(kù)及答案(310題)
- 吉水砂石管理辦法
- 后勤區(qū)域管理辦法
- 吸糞車(chē)輛管理辦法
- 商業(yè)促銷(xiāo)管理辦法
- 商務(wù)商旅管理辦法
- 電子音樂(lè)行業(yè)發(fā)展建議
- 青少年田徑錦標(biāo)賽反興奮劑教育考試題
- Unit3TheworldofScience單詞講解教學(xué)設(shè)計(jì)-2023-2024學(xué)年高中英語(yǔ)外研版(2019)必修第三冊(cè)
- 2024年山東省濟(jì)南市中考數(shù)學(xué)試卷(官方含答案及解析)
- 專(zhuān)題 全等三角形壓軸題(30題)(解析版)
- 《輸血知識(shí)培訓(xùn)》課件
- 風(fēng)電項(xiàng)目風(fēng)機(jī)吊裝專(zhuān)項(xiàng)施工方案
- 體能訓(xùn)練行業(yè)市場(chǎng)調(diào)研分析報(bào)告
- 課件:道岔的作用與分類(lèi)講解
- DB11T 489-2024 建筑基坑支護(hù)技術(shù)規(guī)程
- 2023年全國(guó)行業(yè)職業(yè)技能競(jìng)賽-全國(guó)民政行業(yè)職業(yè)技能大賽公墓管理員職業(yè)競(jìng)賽項(xiàng)目參考賽題庫(kù)
評(píng)論
0/150
提交評(píng)論