




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1基因預測開放讀碼框GENSCANGenomeScanGeneMarkGLIMMER基因結構分析內含子/外顯子剪切位點NetGene2Spidey選擇性剪切ProSplicerSpidey轉錄調控序列分析啟動子/轉錄起始位點DBTSSPromoterScanCpG島CpGPlot轉錄終止信號Hcpolya序列組分分析GC含量cgview密碼子偏好性使用CodonW限制性核酸內切酶位點NEBcutter核酸序列分析基因預測:早期指預測DNA序列中編碼蛋白質的部分,即外顯子部分;現在指整個基因結構的預測,綜合各種外顯子預測的算法及對基因結構信號的認識,預測出可能的完整基因。(啟動子預測、重復序列預測、CpG島的預測等等)
通過生物信息學手段發(fā)現基因的一般過程①獲取DNA目標序列②查找ORF并將目標序列翻譯成蛋白質序列③在數據庫中進行序列搜索④多序列比對,查找基因家族⑤查找目標序列中的特定模序⑥預測目標序列的二級、三級結構⑦獲取相關蛋白質的功能信息3開放讀碼框的識別開放閱讀框開放閱讀框(英語:Openreadingframe;縮寫:ORF;其他譯名:開放閱讀框架、開放式閱讀框架,開放讀架等)是生物個體的基因組中,可能是蛋白質編碼序列的部分?;蛑械腛RF包含并位于開始編碼與終止編碼之間。由于一段DNA或RNA序列有多種不同讀取方式,因此可能同時存在許多不同的開放閱讀框架。開放閱讀框包含一段可以編碼蛋白的堿基序列,不能被終止子打斷。單鏈DNA序列可能有3種閱讀框,但通常只有一種具有編碼的作用,稱為開放閱讀框(openreadingframeorORF)。封閉閱讀框(blockreadingframe)
當一個新基因被識別,其DNA序列被解讀,DNA序列可以按六種框架閱讀和翻譯。例如一段5'-UCUAAAGGUCCA-3'序列。此序列共有3種讀取法:
UCUAAAGGUCCA
CUAAAGGUC
UAAAGGUCA
ORF識別包括檢測這六個閱讀框架并決定哪一個包含以啟動子和終止子為界限的DNA序列而其內部不包含啟動子或密碼子,符合這些條件的序列有可能對應一個真正的單一的基因產物。ORF的識別是證明一個新的DNA序列為特定的蛋白質編碼基因的部分或全部的先決條件。
基因結構分析(1)原核基因結構?原核生物基因組小,基因密度高,很少存在重復序列, 一個基因是由編碼一個蛋白質或RNA的開封閱讀框構成, 中間沒有間斷。?細菌的起始密碼子為:ATG,GTG,TTG?核糖體結合位點(Shine-Delgaronsequence)?終止密碼子較容易確定?轉錄終止子?密碼子偏好性翻譯起始位點翻譯終止位點編碼區(qū)轉錄終止子TTTTT
7轉錄起始位點
AGGAGGT
核糖體結合位點(2)真核基因結構
?基因組較大,基因密度低,富含重復序列和轉座元件;最重要 的是基因被插入的非編碼序列(內含子)切分成小段(外顯 子)。?初生的轉錄產物需要經過三個步驟轉變成成熟的可翻譯為蛋白的mRNA。?真核基因預測的主要問題是識別外顯子、內含子和間接位點。?真核基因中存在一些保守序列特征有助于進行計算預測,如:GT-AG規(guī)則,密碼子偏好性,六聚體頻率,kozak序列,CpG島,poly-A8名稱TATA框(TATAbox)CAAT框(CAATbox)GC框(GCbox)所處位置轉錄起始點上游約19~27bp處位于轉錄起始點上游70~80bp有兩個拷貝,分別位于CAAT框的兩側組成TATA(A/T)A(A/T)GG(T/C)CAATCTGGCGGG功能與轉錄因子TFⅡ結合,能夠準確識別轉錄起始點與轉錄因子CTF結合,促進轉錄與轉錄因子SP1結合,起增強轉錄效率的作用9原核和真核生物基因轉錄起始位點上游區(qū)結構原核生物真核生物TTGACATATAATAmRNA+1-10-35PyAPyTATAATGC區(qū)CAAT區(qū)mRNA+1-40-25-110增強子上游啟動子元件,UPE核心啟動子元件轉錄起始位點10轉錄終止信號加polyA信號:AAUAAA轉錄終止信號:GCrich二重對稱區(qū)、UUUUUUC-GC-GG-CG-CU-AG-CG-CC-GG-CUUUUUUUUURNA5’3’AAUAAACAAAAAAAAAAAAA成熟mRNA5’3’AAUAAACAGUmRNA前體5’3’真核基因組中的重復序列存在方式單一序列重復序列中度重復序列高度重復序列長度大于300bp2~200bp拷貝數出現一次或很少幾次拷貝數102~106之間拷貝數106~108之間功能編碼蛋白質的結構基因(3萬~4萬個)一般不編碼蛋白質,但在基因調控中起重要作用一般不能轉錄,但參與染色體結構的維持、形成結構基因間隔等,如構成著絲粒、端粒等的衛(wèi)星DNARepBase是真核生物DNA中重復序列數據庫Kozak序列(真核生物)
該序列是在起始密碼子之前與核糖體作用的位點,真核生物mRNA起始密碼AUG上游的第三個核苷酸常常是嘌呤,且多為A(-3A);其次緊跟在AUG后面的核苷酸,常常也是嘌呤,但多數情況下是G(+4G)。高等真核生物的Kozak同源序列為:GCCACC(ATG),弱Kozak同源序列是:CATTGG(ATG);酵母的Kozak同源序列是:AAAAAA(ATG),弱Kozak序列是:CGGTGT(ATG),而沒有起始功能的AUG附近的核苷酸序列則無此保守性。
不同生物對密碼子的使用有不同的偏好,在編碼區(qū)和非編碼區(qū),特定氨基酸密碼子的出現頻率是不同的,因而蛋白質編碼區(qū)密碼存在一定的規(guī)則性。
CodonW
/密碼子使用頻度142、
內含子/外顯子分析對基因組序列的讀碼框區(qū)域進行預測內含子5’端供體位點(donorsplicesite):GT內含子3’端受體位點(acceptorsplicesite):AG預測工具:GENSCAN,GENEMARKNetGene2,SpliceView
CpG島(CpGisland)是短的、分散的、非甲基化核酸序列,它常出現在持家基因和受調節(jié)表達的基因5’端,CpG島定義為長度超過200bp,p(CG)>0.6×p(C)×p(G)值,且GC含量大于50%的序列區(qū)域。統(tǒng)計表明在人和鼠的基因中80%含有CpG島。覆蓋5’啟動子區(qū)域,并常向3端延伸約1000bp,進入基因翻譯區(qū)。通過CpG島分析可幫助確定基因5’末端位置。分析序列中的CpG島可用WebGene或CpGplot。(三)、CpG島存在的主要問題?假陽性(FalsePositive,FP):多預測了假的編碼區(qū),即在非編碼區(qū)預測出編碼區(qū)。?假陰性FalseNegative,FN):漏掉了真實的編碼區(qū),即將編碼區(qū)預測為非編碼區(qū)。(Over?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 國際家庭日演講稿(14篇)
- 2025湖北咸寧市通城城市發(fā)展建設投資(集團)有限公司第一期招聘模擬試卷及答案詳解(考點梳理)
- 2025廣東東菀市社衛(wèi)中心招聘納入崗位管理編制外7人考前自測高頻考點模擬試題及參考答案詳解
- 2025年合肥巢湖學院招聘專職輔導員6人考前自測高頻考點模擬試題附答案詳解(考試直接用)
- 2025年專門用途燈具:工藝裝飾燈具合作協議書
- 2025安徽淮南市招聘村級后備干部81人模擬試卷及答案詳解1套
- 單位財務工作總結(14篇)
- 2025年航空輔助動力系統(tǒng)項目建議書
- 2025呼和浩特市玉泉區(qū)消防救援大隊招聘4名政府專職消防員考前自測高頻考點模擬試題附答案詳解(模擬題)
- 2025年山東省慢性病醫(yī)院(山東省康復中心)招聘工作人員(非編)模擬試卷及一套參考答案詳解
- 煤礦回收材料管理制度
- DB32T 5124.1-2025 臨床護理技術規(guī)范 第1部分:成人危重癥患者目標溫度管理
- DB34T 4985-2025“多規(guī)合一”實 用性村莊規(guī)劃編制規(guī)程
- 山東省威海市榮成市實驗中學(五四制)2024-2025學年八年級上學期期末考試數學試題(含部分答案)
- 2025年云南事業(yè)單位a類真題及答案
- 《非甾體抗炎藥物》課件
- 煙道供貨及安裝合同模板
- 美容皮膚臨床技術操作規(guī)范方案
- 2025年機關意識形態(tài)工作要點
- 交通安全設施培訓課件
- (高清版)DB36∕T 1324-2020 公路建設項目檔案管理規(guī)范
評論
0/150
提交評論