第二章生物信息學(xué)教程_第1頁
第二章生物信息學(xué)教程_第2頁
第二章生物信息學(xué)教程_第3頁
第二章生物信息學(xué)教程_第4頁
第二章生物信息學(xué)教程_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第二講

生物信息學(xué)常用數(shù)據(jù)庫介紹分子生物信息學(xué)數(shù)據(jù)庫概述一級(jí)數(shù)據(jù)庫簡介二級(jí)數(shù)據(jù)庫簡介數(shù)據(jù)庫格式分子生物信息學(xué)概述1960年,第一個(gè)分子生物學(xué)數(shù)據(jù)庫

——FredSanger的胰島素一級(jí)結(jié)構(gòu)的測定(1955)FredSangeratTheWelcomeTrustSangerInstitute——MargaretDayhoff:1960年,創(chuàng)立PSD,即PIR的前身1983,NIH資助建立了PIR

1984,NBRF(NationalBiomedicalResearchFoundation)開始負(fù)責(zé)維護(hù)該數(shù)據(jù)庫,數(shù)年后,著名的SWISS-PROT數(shù)據(jù)庫被組建

PioneerinBioinformaticsDr.MargaretO.Dayhoff(1925-1983)1982年,第一個(gè)核酸序列數(shù)據(jù)庫GenBank(LosAlamos)——1982年,606條序列,長度680,338bp——2004年,約43,322,756條序列,長度約7.1

1010bp2005:Internationalsequencedatabasesexceed100gigabases!一級(jí)數(shù)據(jù)庫直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類、整理和注釋。一級(jí)核酸數(shù)據(jù)庫:GenBank數(shù)據(jù)庫、EMBL數(shù)據(jù)庫、DDBJ數(shù)據(jù)庫一級(jí)蛋白質(zhì)序列數(shù)據(jù)庫:SWISS-PROT庫、PIR庫一級(jí)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫:PDB數(shù)據(jù)庫二級(jí)數(shù)據(jù)庫在一級(jí)數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上,針對(duì)不同的研究內(nèi)容和需要,對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步整理得到的數(shù)據(jù)庫。人類基因組圖譜庫GDB、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫TRANSFAC、蛋白質(zhì)序列功能位點(diǎn)數(shù)據(jù)庫Prosite等?;蚪M圖譜DNA序列蛋白質(zhì)序列蛋白質(zhì)結(jié)構(gòu)基因組數(shù)據(jù)庫核酸序列數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫二級(jí)數(shù)據(jù)庫復(fù)合數(shù)據(jù)庫

建立分子生物學(xué)信息庫的流程圖一個(gè)數(shù)據(jù)庫記錄(entry)一般由兩部分組成:1.原始序列數(shù)據(jù)(sequencedata)2.描述這些數(shù)據(jù)生物學(xué)信息的注釋(annotation)注釋中包含的信息與相應(yīng)的序列數(shù)據(jù)同樣重要和有應(yīng)用價(jià)值一個(gè)數(shù)據(jù)庫記錄(entry)一般由兩部分組成:

1.原始序列數(shù)據(jù)(sequencedata)2.描述這些數(shù)據(jù)生物學(xué)信息的注釋(annotation)注釋中包含的信息與相應(yīng)的序列數(shù)據(jù)同樣重要和有應(yīng)用價(jià)值數(shù)據(jù)的完整性和注釋工作量:1.序列數(shù)據(jù)廣,序列注釋不夠完整2.庫數(shù)據(jù)面窄,序列注釋全面數(shù)據(jù)庫的動(dòng)態(tài)更新:1.不斷增加2.不斷修正人類遺傳信息數(shù)據(jù)與科學(xué)家的社會(huì)責(zé)任

“如果你們想使你們一生的工作對(duì)人類有益,那么你們只了解應(yīng)用科學(xué)本身還是不夠的。關(guān)心人本身必須始終成為一切技術(shù)努力的目標(biāo),要關(guān)心如何組織人的勞動(dòng)和商品分配,從而以這樣的方式保證我們科學(xué)思維的結(jié)果可以造福于人類,而不致成為詛咒的禍害。當(dāng)你們沉思你們的圖表和方程式時(shí),永遠(yuǎn)不要忘記這一點(diǎn)!”—愛因斯坦人類遺傳數(shù)據(jù)國際宣言綱要(修正稿)

聯(lián)合國教科文組織國際生命倫理學(xué)委員會(huì)

2003年1月,巴黎

“…它們關(guān)系到對(duì)人權(quán)和基本自由的保護(hù),關(guān)系到在收集、處理和儲(chǔ)存科學(xué)數(shù)據(jù)以及醫(yī)療數(shù)據(jù)、個(gè)人數(shù)據(jù)和敏感數(shù)據(jù)時(shí)對(duì)人類尊嚴(yán)的尊重,承認(rèn)人類遺傳數(shù)據(jù)因其敏感的性質(zhì)所擁有的特殊地位,因?yàn)樗鼈兗瓤梢蕴峁┽t(yī)學(xué)信息又可以提供關(guān)系一生的個(gè)人信息,而且可能含有關(guān)于家庭的信息,包括子孫后代,或者在某種情況下涉及到當(dāng)事人所屬社群的信息,考慮到人類遺傳數(shù)據(jù)的收集、處理、使用和儲(chǔ)存對(duì)于科學(xué)與醫(yī)學(xué)的進(jìn)步,以及對(duì)于把它們用于非醫(yī)學(xué)目的、特別用于司法目的是至關(guān)重要的?!薄氨M管如此,意識(shí)到人類遺傳數(shù)據(jù)的收集、處理、使用和儲(chǔ)存,對(duì)于人權(quán)和基本自由的行使與遵守,以及對(duì)于人類尊嚴(yán)的尊重有著潛在的風(fēng)險(xiǎn),重申世界人類基因組與人權(quán)宣言制定的原則,以及平等、公正、團(tuán)結(jié)、尊重人類尊嚴(yán)、人權(quán)和基本自由的原則,既有研究的自由又有對(duì)隱私的保護(hù),這些必須是人類遺傳數(shù)據(jù)的收集、處理、使用和儲(chǔ)存的基礎(chǔ),宣布遵循這些原則.一級(jí)數(shù)據(jù)庫簡介核酸(DNA)序列數(shù)據(jù)庫

1.)GenBank(美國)71%2.)EMBL(歐洲)19.6%3.)DDBJ(日本)9.4%

并稱為世界三大核苷酸序列數(shù)據(jù)庫(公共序列數(shù)據(jù)庫,PublicSequenceDatabase

)GenBankEMBLDDBJ1.)

GenBank(美國國家生物技術(shù)信息中心,NCBI)1980sNIH(NationalInstituteofHealth)LosAlamosNationalLabNCBI(NationalCenterforBiotechnologyInformation)NLM(NationalLibraryofMedicine)

什么是GenBank?

GenBank是美國國立衛(wèi)生研究院維護(hù)的基因序列數(shù)據(jù)庫,匯集并注釋了所有公開的核酸序列。GenBank屬于一個(gè)序列數(shù)據(jù)庫的國際合作組織,包括EMBL和DDBJ。每個(gè)記錄代表了一個(gè)單獨(dú)的、連續(xù)的、帶有注釋的DNA或RNA片段。這些文件按類別分為幾組:有些按照分類學(xué)劃分,另外一些則按照生成DNA序列數(shù)據(jù)庫的直接提交。這些作者將序列數(shù)據(jù)庫作為論文的一部分來發(fā)表,或?qū)?shù)據(jù)庫直接公開。

GenBank

GenBank是一個(gè)有13億堿基,來自于100,000多種生物的核苷酸序列的數(shù)據(jù)庫。每條紀(jì)錄都有編碼區(qū)(CDS)特征的注釋,還包括氨基酸的翻譯。遺傳密碼-15個(gè)遺傳密碼的概要。用來確保GenBank中紀(jì)錄的編碼序列被正確的翻譯。

如何向GenBank提交序列

所有進(jìn)入GenBank的記錄都是靠直接遞交進(jìn)去,多數(shù)作者選用sequin或BankitNCBI網(wǎng)址:http://WWW./GenBank網(wǎng)址http://WWW./Genbank/

如何訪問GenBank

通過Entrez來查詢。用accessionnumber,作者姓名,物種,基因/蛋白名字,還有許多其他的文本術(shù)語來查詢。用BLAST在GenBank和其他數(shù)據(jù)庫中進(jìn)行序列相似搜索。另外一種選擇是可以用FTP下載整個(gè)的GenBank和更新數(shù)據(jù)。2.)EMBL(歐洲分子生物學(xué)實(shí)驗(yàn)室,EMBL)

EuropeanMolecularBiologyLaboratoryEBI(EuropeanBioinformaticsInstitute)

EMBL簡介

EMBL是歐洲的主要核苷酸數(shù)據(jù)庫,始建于1980年,由位于英國劍橋附近的歐洲生物信息學(xué)研究所(EBI)維護(hù)。EMBL數(shù)據(jù)庫已處理自1982年以來全世界范圍內(nèi)所公布數(shù)據(jù)。數(shù)據(jù)來源:基因組計(jì)劃的序列、各研究人員直接遞交的序列以及由歐洲專利事務(wù)所發(fā)送的專利序列。

EMBL數(shù)據(jù)庫包括:發(fā)行區(qū)(EMBLREL)序列每日增添區(qū)(EMBLNEW)EMBL被劃分為19個(gè)組(division),這些組的區(qū)分原則是根據(jù)分類學(xué)(如HUM代表人,PLN代表植物,PRO代表原核生物等)。此外,還有些根據(jù)資料特性進(jìn)行分類(如EST)EMBL數(shù)據(jù)庫結(jié)構(gòu)是按flatfile(平面文件)格式布局,包括四大類主要數(shù)據(jù)區(qū)(block)第一區(qū)包括描述和標(biāo)示符:如條目名稱、保密狀況、分子類型、分類、序列總長度第二區(qū)是引文區(qū):引文詳細(xì)內(nèi)容以及原遞交者姓名和聯(lián)系方式第三區(qū)是特征區(qū):包括序列的特征,如詳細(xì)來源、生物特征、特征性定位和限定詞第四區(qū):由序列資料、長度和堿基組成

EMBL序列提交Webin:通過一系列交互式WWW表格指導(dǎo)用戶發(fā)送和描述序列

sequin:是NCBI建立的一種新的適合多平臺(tái)使用的軟件工具,不限于提交到GenBank,也可發(fā)送到EMBL和DDBJ

FTP:

EMBL數(shù)據(jù)查詢簡單序列查找:50個(gè)條目SRS:檢索所有數(shù)據(jù)庫信息EMBL數(shù)據(jù)庫序列記錄增長趨勢43,322,756EMBL數(shù)據(jù)庫序列總長增長趨勢7.1

1010bp5.8

105bp3)DDBJ(日本國家遺傳學(xué)研究所,NIG)1986

DatabankofJapanNIG(NationalInstituteofGenetics)DDBJ文件分布與GenBank相似,劃分為不同區(qū)組(division),基本信息單位采用GenBank的flatfile格式。有三種序列提交方法:用Sakura提供WWW服務(wù)器用E-mail利用MSS大量發(fā)送Sequin進(jìn)入DDBJ的方法:GetentrySRSBLAST和FASTADDBJ網(wǎng)址http://www.ddbj.nig.ac.jp2.蛋白質(zhì)序列數(shù)據(jù)庫1.)SWISS-PROT(歐洲)2.)PIR(美國)

DNA序列EMBLTREMBLSWISS-PROT來自實(shí)驗(yàn)室的蛋白質(zhì)序列GenBankPATCHXPIR-PSDSequin&Banklt自動(dòng)翻譯手工校閱/注解數(shù)據(jù)交換自動(dòng)翻譯手工校閱/注解

蛋白質(zhì)序列數(shù)據(jù)庫產(chǎn)生流程圖1.)SWISS-PROT和TrEMBL日內(nèi)瓦大學(xué)醫(yī)學(xué)生物化學(xué)系和歐洲生物信息學(xué)研究所(EMBI)合作維護(hù)(1986年);在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像站點(diǎn);數(shù)據(jù)庫包括了從EMBL翻譯而來的蛋白質(zhì)序列,這些序列經(jīng)過檢驗(yàn)和注釋數(shù)據(jù)記錄包括兩部分:核心數(shù)據(jù)(序列資料、參考文獻(xiàn)、分類資料)注釋(結(jié)構(gòu)域、功能位點(diǎn)、跨膜區(qū)域、二硫鍵位置、翻譯后的修飾、突變體等)數(shù)據(jù)存在滯后性TrEMBL數(shù)據(jù)庫的建立TrEMBL數(shù)據(jù)庫(1995)

格式與SWISS-PROT格式相同,序列來自EMBL核苷酸數(shù)據(jù)庫編碼區(qū)的翻譯網(wǎng)絡(luò)服務(wù)器:ExPASy(http://WWW./)文本檢索方法:鍵入SWISS-PROT或TrEMBL中出現(xiàn)任何文本通過描述基因名稱和物種、作者、引文等進(jìn)行高級(jí)檢索SRS檢索SWISS-PROT數(shù)據(jù)庫中的行代碼SWISS-PROT的網(wǎng)址:/sprotTrEMBL的網(wǎng)址:http://www.ebi.ac.uk/trembl/index.html2.)PIR(proteininformationresource)

由美國NCBI翻譯自GenBank的DNA序列(1984年);在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像站點(diǎn);數(shù)據(jù)依據(jù)注釋的質(zhì)量分類P

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論