生命所必需的幾乎所有基本生物學過程都是由蛋白質進行的。它們創造並維持細胞和組織的形狀。構成催化維持生命的化學反應的酶;充當分子工廠,運輸工具和汽車;充當蜂窩通信的信號和接收器;以及更多。
蛋白質由氨基酸的長鏈組成,通過將自身折疊成支配它們與其他分子相互作用方式的精確3D結構來執行這些無數的任務。由於蛋白質的形狀決定了其功能及其在疾病中的功能障礙的程度,因此闡明蛋白質結構的努力是所有分子生物學(尤其是治療科學以及救生和改變生命的藥物的開發)的核心。
近年來,基於蛋白質的氨基酸序列知識,計算方法在預測蛋白質如何折疊方面取得了長足進步。如果完全實現,這些方法實際上有可能改變生物醫學研究的所有方面。但是,當前的方法在可以確定的蛋白質的規模和範圍上受到限制。
現在,哈佛醫學院的科學家使用了一種稱為“深層”的人工智能形式。娛樂城推薦 學習根據氨基酸序列有效預測任何蛋白質的3D結構。
系統生物學家Mohammed AlQuraishi於4月17日在Cell Systems在線上發表了報告,詳細介紹了一種計算確定蛋白質結構的新方法-獲得與當前最先進方法相當的準確性,但速度提高了100萬倍。
“蛋白質折疊一直是生物化學家最重要的問題之一,在過去的半個世紀中,這種方法從根本上解決了這一挑戰,” HMS布拉瓦特尼克研究所(Blavatnik Institute)的系統生物學講師AlQuraishi說。系統藥理學實驗室。 “我們現在有了一個全新的前景,可以從中探索蛋白質折疊,我認為我們才剛剛開始涉足這一領域。”
儘管非常成功,但是使用物理工具識別蛋白質結構的過程既昂貴又耗時,即使採用了諸如冷凍電子顯微鏡這樣的現代技術也是如此。因此,絕大多數蛋白質結構以及致病突變對這些結構的影響仍然未知。
計算蛋白質如何折疊的計算方法有可能顯著降低確定結構所需的成本和時間。但是問題很棘手九州娛樂城經過近四十年的艱苦努力,仍然沒有解決。
蛋白質是從20種不同氨基酸的文庫中構建的。它們就像字母中的字母一樣,組合成單詞,句子和段落,以產生數量驚人的可能文本。但是,與字母不同,氨基酸是位於3D空間中的物理對象。通常,蛋白質的各個部分在物理上非常接近,但在序列上相隔較大距離,因為其氨基酸鏈形成環,螺旋,片層和扭曲。
AlQuraishi說:“關於這個問題的令人信服的是,它很容易陳述:按順序確定形狀。” “蛋白質開始時是必須呈3D形狀的非結構化弦,而弦可以折疊成的可能的形狀集非常多。許多蛋白質長數千個氨基酸,其複雜性很快超過了人類直覺甚至是最強大的計算機的能力。”
目錄
難以解決
為了應對這一挑戰,科學家利用氨基酸根據物理定律相互作用的事實,尋找能量上有利的狀態,例如滾下山坡的球落在谷底。
最先進的算法通過在超級計算機上運行來計算蛋白質結構,或者在諸如Rosetta @ Home和Folding @ Home之類的項目中通過眾包計算能力來模擬通過蠻力進行的氨基酸相互作用的複雜物理過程。為了減少大量的計算需求,這些項目依賴於將新序列映射到預先定義的模板上,這些模板是先前通過實驗確定的蛋白質結構。
谷歌的AlphaFold等其他項目通過利用人工智能的進步來預測蛋白質的結構,最近引起了極大的興奮。為此,這些方法解析了大量的基因組數據,其中包含蛋白質序列的藍圖。他們尋找可能跨越在一起的許多物種的序列,並使用這些序列作電競運彩玩法為物理上接近的指標來指導結構組裝。
但是,這些AI方法不能僅根據蛋白質的氨基酸序列預測結構。因此,它們在確定沒有先驗知識的蛋白質,進化獨特的蛋白質或人類設計的新型蛋白質的結構的能力上受到限制。
深入訓練
為了開發一種新方法,AlQuraishi應用了所謂的端到端差異化深度學習。人工智能的這一分支大大減少了解決圖像和語音識別等問題所需的計算能力和時間,從而使諸如Apple的Siri和Google Translate之類的應用成為可能。
本質上,可區分學習涉及一個巨大的數學函數(一種高中微積分方程的更複雜的版本),它被安排為一個神經網絡,網絡的每個組件都向前和向後饋送信息。
該功能可以以無法想像的複雜度反複調整和調整自身,以便精確地“學習”蛋白質序列在數學上與其結構之間的關係。
AlQuraishi開發了一種稱為循環幾何網絡的深度學習模型,該模型專注於蛋白質折疊的關鍵特徵。但是,在進行新的預測之前,必須使用先前確定的序列和結構對其進行訓練。
對於每種氨基酸,該模型預測最可能的化學鍵角度王者娛樂城 將氨基酸與其鄰居連接。它還可以預測圍繞這些鍵的旋轉角度,這會影響蛋白質的任何局部區域在幾何上如何與整個結構相關。
這是重複進行的,每次計算都通過其他氨基酸的相對位置進行了解和完善。一旦完成整個結構,該模型就會通過將其與蛋白質的“基本事實”結構進行比較來檢查其預測的準確性。
捕 魚 達人-大型 機 台 打 魚 完美移植通過學習模型並在每次迭代中提高其準確性,對數千種已知蛋白質重複了整個過程。
新遠景
訓練好模型後,AlQuraishi便測試了其預測能力。他將其今彩539開獎號碼預測性能與最近幾年《蛋白質結構預測的關鍵評估》中的其他方法進行了比較,該年度評估是一項年度實驗,測試計算方法使用已確定但未公開發布的蛋白質結構做出預測的能力。
他發現,新模型在預測不存在模板的蛋白質結構方面勝過所有其他方法,包括使用共同進化數據的方法。它也勝過娛樂城廣告當可以使用預先存在的模板進行預測時,除了最佳方法外,其他方法都已進行了重組。
儘管這些準確性的提高相對較小,但AlQuraishi指出,很難在這些測試的高端進行任何改進。並且由於此方法代表了一種全新的蛋白質折疊方法,因此它可以補充現有的計算和物理方法,從而確定比以前更廣泛的結構範圍。
令人驚訝的是,新模型執行預測的速度比現有計算方法快六至七個數量級。訓練模型可能要花費數月的時間,但是一旦訓練了模型,與使用其他方法花費的數小時甚至數天相比,它可以以毫秒為單位進行預測。這種巨大的改進部分是由於它所基於的單個數學函數,僅需要運行幾千行計算機代碼,而不是數百萬行。
AlQuraishi說,這種模型的預測速度很快,因此可以實現以前很難或難以實現的新應用,例如預測蛋白質與其他分子相互作用時如何改變形狀。
他補充說:“深度學習方法,不僅是我的方法,還將繼續以其預測能力和普及性增長,因為它們代表的是一種最小的簡單範例,比當前的複雜模型更易於集成新思想。”
AlQuraishi說,這種新模型還不能立即用於藥物發現或設計中,因為它的精確度目前大約在6埃左右-距離解析一個原子的完整原子結構所需的1-2埃還有一段距離。蛋白。他說,但是有很多機會可以優化方法,包括大發網g進一步整合從化學和物理中得出的規則。
“準確有效地預測蛋白質折疊一直是該領域的聖杯,我希望並期望這種方法與已開發的所有其他出色方法相結合,能夠在不久的將來實現這一目標, ” AlQuraishi說。 “我們可能很快會解決這個問題,我認為五年前沒有人會說過。這非常令人興奮,同時也令人震驚。”
為了幫助其他人參與方法開發,AlQuraishi通過GitHub軟件共享平台免費提供了他的軟件和結果。
彼得說:“ AlQuraishi的工作的顯著特點是,嵌入哈佛醫學院和波士頓生物醫學界豐富的研究生態系統中的一個研究員可以與Google等公司在計算機科學最熱門的領域競爭。” Sorger,HMS Blavatnik研究所的Otto Krayer系統藥理學教授,HMS系統藥理學實驗室主任和AlQuraishi的學術導師。
索爾格說:“低估像AlQuraishi這樣的才華橫溢的人在公共領域使用開源軟件的破壞性影響是不明智的。”
本文已從哈佛醫學院提供的材料中重新發布。注意:材料的長度和內容可能已被編輯。有關更多信息,請聯繫引用的來源。
參考
蛋白質結構的端到端差異學習。 Mohammed AlQuraishi。細胞系統,DOI:https://doi.org/10.1016/j.cels.2019.03.006。