開放獲取期刊中描述了一種新型的機器學習“工具箱”,該工具箱可以讀取和分析蛋白質序列 電子生活。 .
這項研究表明,當訓練以讀取序列數據時,稱為限制性玻爾茲曼機器(RBM)的人工神經網絡可以提供有關蛋白質結構,功能和進化特徵的大量信息。據信這是可以僅從序列數據中提取這種詳細程度的第一種方法。
蛋白質形成 娛樂城推薦稱為氨基酸的分子序列的序列,它們決定了給定蛋白質的結構和功能特性。但是,了解序列的哪些部分負責哪些屬性是具有挑戰性的。 “回答這個問題可能會對藥物開發產生重大影響,”共同作者,巴黎高等師範學院物理實驗室的前博士生JérômeTubiana解釋說,博弈娛樂城 法國巴黎。 “例如,它可以幫助設計具有所需功能的新蛋白質,或預測病原體等活生物體中蛋白質的未來序列進化,並確定合適的藥物靶標。”
為了探討這個問題,Tubiana和他的合作者將RBM應用於20個蛋白質“家族”,這是一組具有共同進化起源的蛋白質。研究人員介紹了四個蛋白質家族的詳細結果,其中包括兩個稱為Kunitz和WW的短蛋白質結構域,財神娛樂 一種稱為Hsp70的長分子伴侶蛋白,以及用於基準測試的合成晶格蛋白。
他們發現,學習後,RBM中的人工神經元之間的聯繫是可以解釋的,並且與蛋白質的結構,功能(線上麻將連線例如活性)或phylog有關皇璽會娛樂城eny –蛋白質序列之間的進化關係。此外,研究小組發現他們可以使用RBM通過隨意組合和調高或調低不同的人工神經單元來設計新的蛋白質序列大樂透加碼。
“我們的RBM模型顯示了機器學習技術如何解決複雜的數據識別並以可解釋的方式從數據中得出結論,”合著者,ENS物理實驗室CNRS研究總監西蒙娜·科科(Simona Cocco)說。 “這與傳統上用於數據科學的更複雜的黑匣子模型背道而馳,因為這些工具提供的統計分析在很大程度上無法解釋。我們方法的可解釋性對科學家來說是一個重大好處–它有望使他們以可控的方式產生具有所需功能的蛋白質。”
“現在將我們的模型應用於病原體中的蛋白質將很有趣,”高級驗證員補充道炫海娛樂城或RémiMonasson,也是ENS物理實驗室的CNRS研究主任,法國HenriPoincaré研究所(CNRS /索邦大學)副主任。 “病原體,尤其是病毒,通常可以通過使治療無效的突變而逃脫藥物。我們的方法可用於從功能蛋白的當前序列中預測功能性蛋白可接近的突變逃逸途徑,並有助於確定藥物應靶向哪種蛋白位點組合以阻斷所有途徑。”
本文已從電子生活。 提供的材料中重新發布。注意:材料的長度和內容可能已被編輯。有關更多信息,請聯繫引用的來源。
參考:JérômeTubiana,Simona Cocco和RémiMonasson。 2019.從序列數捕魚達人簽到據學習蛋白質組成基序。 電子生活。 DOI:10.7554 / 電子生活。 .39397。