生物信息學論文
發(fā)布時間:2020-07-13 來源: 思想?yún)R報 點擊:
生物信息 學論文 嗜酸氧化亞鐵硫桿菌 6 M16 家族金屬肽酶 序列分析
學院
資源生物學院
任課老師
劉元東
班級 生物技術 1201 班
學號
0306120227
學生姓名
解昊明
摘要 :
現(xiàn)代生物信息學是應用計算機技術和信息論方法研究蛋白質及核酸序列等各種生物信息的采集、存儲、傳遞、檢索、分析和解讀,以幫助了解生物學和遺傳學信息的科學,其研究內容主要有基因組信息學、蛋白質的結構模擬以及藥物設計。本文是在生物信息學方法的基礎上,從已公布的AcidithiobacillusferrooxidansATCC23270 全基因組序列中挑選出肽酶的蛋白質序列,以所公布的序列及注釋信息為基礎,通過查詢、搜索和使用生物信息學相關的數(shù)據(jù)庫、服務器及軟件工具等,完成對該基因的背景信息了解、同源序列比對、系統(tǒng)發(fā)生分析、二級結構預測、信號肽分析、跨膜區(qū)分析、蛋白質同源分子結構信
息了解等任務。通過對該基因的序列分析歸納總結了生物信息學網(wǎng)站的使用方法和開展一般生物信息學探究的基本步驟。
關鍵詞 :
生物信息;嗜酸氧化亞鐵硫桿菌;M16 家族;肽酶;序列分析;序列比對;進化樹;二級結構預測;信號肽分析;跨膜區(qū)分析
一、 目標序列的獲取 與背景
1. 目標 序列的下載
打開網(wǎng)址:
找到序列:
MDRYGPLLLFPPDMTRAVEPLCTTLDNGVTVISERLPGRRSVAL SLTVGNGSRDQAPDENGFAHLLEHMLFKGSTERDGDALNAAMESLGGTINAFTDRESTVFHGTVLAEDAADAFTLLAELLTKPRFDHADLRLEKRVVAQEAAMAAEDVEDWAQERALAEIWGPHPLAWPVLGNAQCIRSASRKRLQAYHQRILAESPLIVTAVGEVEHGVLCAWAEAAFGGPHGGARTAVPAPRFHGGQKRLRRAQAQQAHLIWMAPGCSVAAEDYLAHVVANAILGGGTASYLFRELREKRGLAYQVFSHLDPLRDCGEWTLYAATPGAQHVQAVAAMAEVLATLLEHGPTAADMIWAKRSLRIQLLLGQEDAEIRMSRLTRQWLYLGRLVPAEESL
RTLAAVDADAVLRVLRKAWTERFELICLPARR 2. 目標序列的背景信息
打開網(wǎng)址.nlm.nih.gov/,輸入“peptidases”查詢相關數(shù)據(jù)庫。
從 PubMed 數(shù)據(jù)庫中查找了解該序列相關研究背景
結果如下:
肽酶 是一種能夠水解肽鏈的酶。
他們是所有生物存活所必需的一種酶,而且在所有蛋白質的編碼中,編碼肽酶的基因占了2% 。
在對 500 個人的肽酶的調查中發(fā)現(xiàn),有 14%的的肽酶可以作為藥物的靶點肽酶在許多生物過程中扮演重要的角色,包括消化食物蛋白、胞內蛋白循環(huán)、凝血級聯(lián)系統(tǒng)、抗原提呈作用及活化各種蛋白質,包括酶、肽類激素及神經(jīng)遞質等。
金屬肽酶
活性依賴一種或多種金屬離子,催化肽類和蛋白質中肽鍵水解的一類蛋白酶[1] 二、 序列分析
1 1、 、 同源序列比對
序列比對的基本思想是,基于生物學中序列決定結構,結構決定功能的普遍規(guī)律,將核酸序列和蛋白質一級結構上的序列都看成由基本字符組成的字符串,檢測序列之間的相似性,發(fā)現(xiàn)生物序列中的功能、結構和進化的信息。序列比對的理論基礎是進化學說,如果兩個序列之間具有足夠的相似性,就推測二者可能有共同的進化祖先,經(jīng)過序列內殘基的替換、殘基或序列片段的缺失、以及序列重組等遺傳變異過程分別演化而來。
序列相似和序列同源是不同的概念,序列之間的相似程度是可以量化的參數(shù),而序列是否同源需要有進化事實的驗證。
如果兩個序列有顯著的保守性,要確定二者具有共同的進化歷史,進而認為二者有近似的結構和功能還需要更多實驗和信息的支持。通過大量實驗和序列比對的分析,一般認為蛋白質的結構和功能比序列具有更大的保守性,因此粗略的說,如果序列之間的相似性超過30% ,它們就很可能是同源的。
利用 BLAST 工具[2]進行同源序列比對,輸入網(wǎng)址:
點擊 BLAST,得到序列比對結果:
。1)a.目標序列的簡單信息:名稱、描述、分子類型、序列長度等。其中分子類型為氨基酸,序列長度為 424. b.所比對數(shù)據(jù)庫的名稱、描述和所用程序。
。2)GraphicSummary——blast 結果圖形顯示 a.保守域:顯示輸入序列的保守域片段等信息,包括特殊片段、非特殊片段、超家族、多結構域。
b.Distributionof100BlastHitsontheQuerySequence 顯示 hits 在輸入序列上的分布
界面包括消息框(顯示 hits 的信息)、相似度顏色圖,代表 hits 的得分區(qū)間(黑、藍、綠、粉紅、紅,相似度由低到高)、輸入序列的坐標、比對序列(每一條線段代表一條 hit,點擊線段,會鏈接到 hit 的詳細信息描述)。
c.Describtion 顯示比對序列的相關信息,包括名稱、得分、輸入序列覆蓋值、E 評估值、相似度。得分越高、Evalue 越低、相似度越高,相似性的程度就越高。
d.Alignment
比對序列的名稱得分等信息,以及比對序列的具體顯示,可清楚的了解到哪些序列比對上,哪些序列是不一樣的,同時還要注意序列的位置。
2 2、 、 多重序列比對 ( MSA )
是對三個以上的生物學序列(biologicalsequence),如蛋白質序列、DNA 序列或 RNA 序列所作的序列比對。一般來說,是輸入一組假定擁有演化關系的序列。從 MSA 的結果可推導出序列的同源性,而種系發(fā)生關系也可引導出這些序列共同的演化始祖。
MSA 常用來研究序列的保守性(conservation),或是蛋白質結構域的三級結構與二級結構,甚至是個別的氨基酸或核苷酸。
輸入網(wǎng)址[3]:
輸入的六個序列,clustalx 快速的進行序列兩兩對比,計算序列間的距離,獲得一個距離矩陣,鄰接法構建一個引導樹,根據(jù)引導樹,漸進比對多個序列。
結果如圖,不同的殘基具有不同的顏色,可以清晰的看出各條序列之間殘基種類的異同,根據(jù)殘基異同對序列打分,可判斷出序列的相似性和同源性。在序列數(shù)據(jù)庫中,往往將各個序列按照同源關系進行分類,形成一系列的家族。
3 3、 、 系統(tǒng)發(fā)生分析
系統(tǒng)發(fā)生分析常用于進化研究,通過構建系統(tǒng)發(fā)育過程有助于通過物種間隱含的種系關系揭示進化動力的實質。
表型的(phenetic)和遺傳的(cladistic)數(shù)據(jù)有著明顯差異。這兩種關系可用于系統(tǒng)進化樹(phylogenetictree)或樹狀圖(dendrogram)來表示。表型分枝圖(phenogram)和進化分枝圖(cladogram)兩個術語已用于表示分別根據(jù)表型性的和遺傳性的關系所建立的關系樹。進化分枝圖可以顯示事件或類群間的進化時間,而表型分枝圖則不需要時間概念。文獻中,更多地是使用“系統(tǒng)進化樹”一詞來表示進化的途徑,另外還有系統(tǒng)發(fā)育樹、物種樹(speciestree)、基因樹等等一些相同或含義略有差異的名稱. 進入網(wǎng)址[4] :
每一條線段都有一定的長度,兩條序列之間的線段長度之和便為兩個序列之間的距離,由此可判斷出序列之間的親疏關系。
4 4、 、 二級結構預測
蛋白質二級結構(secondarystructureofprotein)指它的多肽鏈中有規(guī)則重復的構象,限于主鏈原子的局部空間排列,不包括與肽鏈其他區(qū)段的相互關系及側鏈構象。二級結構主要有 α-螺旋、β-折疊、β-轉角。常見的二級結構有 α-螺旋和 β-折疊。二級結構是通過骨架上的羰基和酰胺基團之間形成的氫鍵維持的,氫鍵是穩(wěn)定二級結構的主要作用力。
蛋白質在形成立體結構時,其多肽鏈部分首先折疊成 α-型螺旋(α-helix)和β-型(β-sheet)結構,并由此進一步可折疊成球形。此時,將 α 螺旋和 β 型結構稱為二級結構。在蛋白質以外,例如在 tRNA 有三葉草葉型結構,也可稱為二級結構。
打開網(wǎng)址[5]:,輸入目標序列,點擊 predict.
結果如下:
圖中顯示了每一個氨基酸的坐標和結構,粉紅色代表 helix,黃色代表 sheet,白色代表線性。我們以另一種形式進一步了解其預測的二級結構。
粉紅色的圓柱代表螺旋,黃色的箭頭代表折疊,直線代表線性結構。Conf代表預測的可信度,Pred 代表預測的二級結構,分別以圖形和字母表示。AA 代表輸入的目標序列。由此我們可以預測出該序列完整的二級結構。
5 5、 、 信號肽的分析
信號肽是引導新合成的蛋白質向分泌通路轉移的短(長度 5-30 個氨基酸)肽鏈。常指新合成多肽鏈中用于指導蛋白質的跨膜轉移(定位)的 N-末端的氨基酸序列(有時不一定在 N 端)。
信號肽包括三個區(qū):一個帶正電的 N 末端,稱為堿性氨基末端:一個中間疏水序列.以中性氨基酸為主,能夠形成一段 d 螺旋結構,它是信號肽的主要功能區(qū);一個較長的帶負電荷的 C 末端,含小分子氨基酸,是信號序列切割位點.也
稱加工區(qū)。當信號肽序列合成后,被信號識別顆粒(SRP)所識別,蛋白質合成暫停或減緩,信號識別顆粒將核糖體攜帶至內質網(wǎng)上,蛋白質合成重新開始。在信號肽的引導下,新合成的蛋白質進入內質網(wǎng)腔.而信號肽序列則在信號肽酶的作用下被切除。如終止轉運序列存在于新生肽鏈的 C 端,也可以不被信號肽酶切除。
信號肽假說認為,編碼分泌蛋白的 mRNA 在翻譯時首先合成的是 N 末端帶有疏水氨基酸殘基的信號肽,它被內質網(wǎng)膜上的受體識別并與之相結合。信號肽經(jīng)由膜中蛋白質形成的孔道到達內質網(wǎng)內腔,隨即被位于腔表面的信號肽酶水解,由于它的引導,新生的多肽就能夠通過內質網(wǎng)膜進入腔內,最終被分泌到胞外。翻譯結束后,核糖體亞基解聚、孔道消失,內質網(wǎng)膜又恢復原先的脂雙層結構。
輸入網(wǎng)址[6]:
輸入目標序列后,點擊 submit,結果如下:
結果分析:
C-score(Cleavagesitescore 剪切位置分值):通常信號肽剪切位置+1(就是成熟肽的第一個殘基)有個高的分值而其他位置有低的分值。
S-score(Signalpeptidescore 信號肽分值):剪切位置前的信號肽有高的分值,而非信號肽有低的分值。
Y-score(combinedcleavagesitescore):是綜合考慮 c 和 s-score。
S-mean 是從 N 端氨基酸開始到剪切位點處各氨基酸的平均 S 值。
D 值是 S-mean 和 Y-max 的平均值,對區(qū)分是否為分泌蛋白具有重要作用。
本圖分析結果表明,這個蛋白質并沒有明顯的信號肽剪切位點(Y 值和 S 值均沒有明顯的高點),所以得出的結論是:Signalpeptide 列中結果為 no,這個蛋白并不分泌。
6 6、 、 跨膜區(qū)分析
跨膜區(qū)指蛋白質序列中跨越細胞膜的區(qū)域,通常為 α-螺旋結構,約 20~25 個氨基酸殘基。該區(qū)域氨基酸大部分是疏水性氨基酸。
蛋白質跨膜區(qū)域的分析常采用 TMHMM 軟件進行。
進入網(wǎng)站[7]:
結果如下:
橫坐標是指氨基酸的位置,縱坐標指每一個氨基酸可能跨膜的概率,紅線、藍線、粉紅線分別指氨基酸跨膜、膜內、膜外的概率。
由圖可知,幾乎每一個氨基酸都有 100%的概率處于膜外,結論顯示為outside1424,該蛋白為膜外蛋白。
7 7、 、 同源分子結構信息
進入網(wǎng)址[8]:
輸入目標序列,結果如下:
三、歸納總結
1 1 、 探究過程中可以簡化操作的幾個技巧
。1)在全基因組中尋找具有相同功能的離散基因時可以使用 office 自帶的搜索功能。
如我要找到所有關于rhodanese-likedomainprotein(硫氰酸酶結構域蛋白)的基因時,按下 ctrl+f 打開搜索界面,輸入 rhodanese-likedomainprotein 即可。
可以看到我在全基因組中找到了分別離散與 AFE2558,AFE2364, AFE1502,AFE0529andAFE0151 位置的基因。
。2)在進行完序列的同源搜索后同源序列的列表,我們只需要將左邊勾選然后就可以直接下載同源序列。如此在之后的多重序列比對中我們可以直接上傳下載的序列文件而不用直接輸入序列
(3)在進行完多重序列比對之后直接點擊標題欄的 PhylogeneticTree 即可進入系統(tǒng)發(fā)生分析界面,無需再上傳一次基因序列。
2 2 、補充可以用到的生物信息學網(wǎng)站
(1)Rast Rast 是一個快速注釋宏基因組樣品的網(wǎng)頁服務器。它可以分析序列片段的注釋,他們的系統(tǒng)分類和初步的構建代謝途徑。它也可以用來比較宏基因組數(shù)據(jù)的分類和初步代謝途徑的構建
。2)Kaas Kaas 是基于基因數(shù)據(jù)庫,化學分子物質數(shù)據(jù)庫,以及基于基因和化學分子物質相互關系而建立起來的代謝路徑數(shù)據(jù)庫的快速檢索工具
3 3 、對新菌種開展研究的一般途徑
四、課程感言
隨著生命科學和計算機科學的迅猛發(fā)展,生物學科對于核酸和蛋白質的分析的算法越來越復雜,這樣利用電子計算機分析核算和蛋白質序列的學科就應運而生了,這就是這門生物信息學,他試圖從基因序列和蛋白質序列的分析中找到一般規(guī)律,從而探究生物自身的特性。對于新藥物的研究,疾病治療,和人體探秘等等有著重大意義。
通過這門課的學習,我感覺我學到的最重要的一點就是對于未知事物的屬性的探究和驗證方法,說簡單一點就是序列決定結構,結構決定功能。
就拿這次序列分析的情況看,從這個肽酶在序列上的屬性,比如是否帶有信號肽,是否跨膜就可以推測并驗證它的功能,雖然,我們事先已經(jīng)這種酶的屬性了,但是這種方法同樣是用于探索未知,比如,這個序列與另一個已知序列很1•分離純化2•測序3•16sRNA比對4•Rast/Kaas初步猜想構建代謝通路5•同源搜索、多重序列比對、系統(tǒng)發(fā)生分析6•二級結構預測、信號肽分析、跨膜區(qū)分析7•將測序后的DNA片段鏈接8•設計實驗 驗證
接近,或者說同源性很高,那么就可以猜測他們具有相似的功能,就為進一步研究提供了方向,再比如,我們知道一個未知蛋白可能是膜蛋白,那么他可能與呼吸作用等有關,等等。
所以,重要的是對于序列屬性的分析與推導,得到假設和猜想,然后再利用具體的實驗加以認證這樣的一個思路。生物信息學是一種手段,但是,他也符合這樣一種基本的探究方式,只不過為這種方式增加了計算機等科學的輔助手段。
這次學習還讓我熟悉了生物信息學這種工具的使用方法,通過各種序列分析網(wǎng)站的使用,讓我了解各個生物信息學實驗該如何開展。并通過一次實驗總結一般方法,F(xiàn)在我已初步了解了對一個新的未知菌進行生物信息學分析,構建代謝通路,分析各個基因及蛋白功能的基本方法。這將在我未來生物相關的學習中起到重要作用。
五、參考文獻 及網(wǎng)站
[1] [2] [3] [4] [5] [6] [7] [8] [9]
[10] ValdésJ,PedrosoI,QuatriniR,etal.Acidithiobacillusferrooxidansmetabolism:fromgenomesequencetoindustrialapplications.[J].BmcGenomics,2008,9(6):82-86. [11]朱玉賢,李毅,鄭曉峰,郭紅衛(wèi).現(xiàn)代分子生物學.北京:高等教育出版社,2013:53
熱點文章閱讀