近日,北京大學定量生物學中心錢瓏團隊研發(fā)、構(gòu)建了全球首個針對功能基因挖掘任務的大語言模型SYMPLEX。該模型能夠自動高效地從海量生物文獻中發(fā)現(xiàn)具有目標功能的關鍵基因,并進行精準篩選和功能驗證,為后續(xù)的蛋白質(zhì)功能設計、生物制劑開發(fā)以及生物制造的應用提供科學依據(jù)。團隊與中科院深圳先進技術研究院婁春波研究員合作,將SYMPLEX應用于mRNA加帽酶基因的挖掘,獲得的新加帽酶活性顯著優(yōu)于mRNA疫苗生產(chǎn)中采用的商業(yè)化酶,展示了大語言模型賦能生物制造的巨大潛力。相關研究成果日前發(fā)表于國際學術期刊《科學·進展》。
“自然界生物體內(nèi)蘊含著數(shù)量龐大的有用基因,這些基因經(jīng)過億萬年自然選擇,形成了豐富多樣的序列組成和基因組合,演化出各種精妙的功能,幫助生物在各種不同環(huán)境中更好地生存繁衍。隨著測序獲得的生物序列累計達數(shù)十億量級,這些天然基因也為生物制造與合成生物技術提供了基因元件的‘寶庫’?!卞X瓏告訴記者,盡管天然基因具備極為豐富的功能和潛力,但目前只有一小部分熱門基因被高質(zhì)量注釋并構(gòu)建了序列或結(jié)構(gòu)模型?!霸蛟谟冢谛蛄?、結(jié)構(gòu)或深度學習的基因挖掘與蛋白質(zhì)設計方法由于技術瓶頸無法拓展至復雜基因,進而制約了對高價值基因元件的挖掘與開發(fā)利用?!?/p>
針對上述問題,團隊創(chuàng)造性地將大型語言模型與結(jié)構(gòu)化生物知識庫深度融合,開發(fā)出SYMPLEX智能基因挖掘平臺。這一平臺是強大的功能基因搜索引擎,可通過自動化閱讀與理解千萬級體量的生物學文獻,在基因、功能和知識水平上對文獻內(nèi)容進行提取分析,并與專家數(shù)據(jù)庫進行概念對齊、交互和統(tǒng)計模式生成,從而產(chǎn)生高質(zhì)量候選基因集合。對比結(jié)果表明,SYMPLEX大模型相比傳統(tǒng)方法具有顯著優(yōu)勢。
研究團隊還通過大模型挖掘了mRNA加帽酶,并進行了實驗驗證?!耙郧埃琺RNA疫苗背后的一項關鍵工藝——mRNA 5’端加帽,一直是效率較低、成本高昂的‘卡脖子’環(huán)節(jié)。SYMPLEX發(fā)現(xiàn)了近2萬個新型加帽酶,并對其中十余個序列進行了驗證。我們從中找到了新酶,其活性超過當前mRNA疫苗制備使用的加帽酶的2倍。SYMPLEX挖掘的加帽酶數(shù)據(jù)庫,有望為mRNA疫苗和基于mRNA的基因療法研究提供關鍵技術?!卞X瓏介紹。
“本項研究開創(chuàng)了功能基因挖掘的新范式,為mRNA疫苗規(guī)?;a(chǎn)提供了關鍵酶資源庫?!卞X瓏表示,研究團隊正在利用這一大模型進行更多可用于合成生物學的關鍵酶元件挖掘,并將該平臺拓展至合成通路設計等領域,有望推動生物制造進入“人工智能驅(qū)動的科學研究”的新階段。(記者 晉浩天)