首頁>資訊 >
生命科學公司推出AIGP平臺,如何重塑行業(yè)?公司管理層詳答 2023-03-28 10:57:52  來源:36氪

隨著OpenAI、微軟、百度等大廠競相發(fā)布ChatGPT大模型產(chǎn)品,AIGC的落地應用逐漸成為新的關注焦點。大廠以外,初創(chuàng)公司已經(jīng)率先將探索的觸角伸向了生命科學領域。日前,創(chuàng)業(yè)企業(yè)百圖生科發(fā)布了其基于生命科學大模型xTrimo的AIGP(AI Generated Protein)平臺。

與依靠人力設計、動物模型篩選等方法進行的傳統(tǒng)蛋白質生成模式相比,百圖生科CEO劉維對《科創(chuàng)板日報》記者指出,AIGP在針對“難成藥”靶點的蛋白設計上,有機會向傳統(tǒng)的蛋白質設計模式發(fā)起挑戰(zhàn)。


(資料圖)

“傳統(tǒng)上,蛋白質篩選主要依靠動物實驗,后者已形成了非常成熟的體系。如果用AIGP去替代它們的部分工作流程,意義相對有限;而對于難成藥靶點,傳統(tǒng)方式已經(jīng)很難有所突破,AIGP有了更大的應用意義:它也許不能完全答對,但可以提出相關性預測,再通過多輪的迭代就能找到答案。”劉維稱。

《科創(chuàng)板日報》記者從發(fā)布會現(xiàn)場獲悉,該平臺已構建了千億級參數(shù)的預訓練模型以及多組學免疫圖譜,目前有40余個在研項目正經(jīng)由AI技術在推進研發(fā)中,另已在內測中為某創(chuàng)新免疫調控藥物提供了多個高性能彈頭、新功能傳感器。

在算法端,更多的應用及反饋數(shù)據(jù)有助于大模型算法的迭代升級。百圖生科也計劃將AIGP平臺的部分成熟功能對專業(yè)用戶開源。劉維在現(xiàn)場預計稱,該平臺會在今年6月迭代至1.5版本,并將部分功能模塊進一步向專業(yè)用戶開放;年內,該平臺將進一步迭代至2.0版本,并向更多合作伙伴推薦使用。

進一步資料顯示,百圖生科成立于2020年11月,由李彥宏牽頭創(chuàng)立并出任董事長; 2021年7月,百圖生科宣布完成上億美元的A輪融資,融資由GGV資本領投,百度、君聯(lián)資本、藍馳創(chuàng)投、真知資本、襄禾資本跟投,公司創(chuàng)始人李彥宏繼續(xù)追加投資。

記者獲悉,目前百圖生科正擬進行新一輪融資。

▌難以成藥靶點成新突破點

難成藥靶點指的是,那些因為其獨特的生物學特性、藥物設計上的挑戰(zhàn)、臨床研究上的難度等原因,而難以成藥的靶點。它是當前生物醫(yī)藥領域的一個熱點研究領域,也是科學家們想要挑戰(zhàn)的圣杯。

近年來,利用人工智能技術等新工具和方法來進行難成藥靶點新藥的研發(fā)逐漸在圈內流行,不少AI企業(yè)以及一些Biotech們都試圖通過在該類型靶點上進行突破而“出圈”。因此,百圖生科的選擇并不讓人意外。

在發(fā)布會現(xiàn)場,劉維對該問題的態(tài)度也顯得很坦然:“大模型對于難成藥靶點有泛化能力的,可以為科學家們進行賦能,反過來,來自專家的經(jīng)驗也可以進一步幫助算法模型繼續(xù)優(yōu)化迭代,進而形成正向循環(huán)?!?/p>

而且,進一步來看,由于缺少有效的開發(fā)方法,科學家們就難成藥靶點與AI企業(yè)進行跨界合作的意愿也會更強。這是因為,“對于難成藥靶點,其蛋白本身就難以制備,科學家們或許已經(jīng)窮盡了傳統(tǒng)的研究方法,進展卻非常有限,對于新方法的接受度也會更高?!眲⒕S稱,目前與百圖生科進行合作的伙伴,大部分是圍繞難成藥靶點所進行的。

合作數(shù)據(jù)上,百圖生科稱,已有近20家合作伙伴和百圖生科開展了AIGP聯(lián)合研發(fā)合作,方向覆蓋高性能彈頭設計、新功能蛋白質設計、靶點挖掘和調控蛋白設計等領域,其中多個項目取得了階段性的發(fā)現(xiàn)成果。

除生物醫(yī)藥外,百圖生科也計劃將AIGP技術應用到環(huán)保、材料、消費等更多場景。

▌蛋白質設計開啟新市場

針對難成藥靶點的蛋白設計為什么能由AI來“代筆”呢?在現(xiàn)場,百圖生科的CTO宋樂給出了一個生動的解釋。

以ChatGPT類比來看,ChatGPT通過大量的語料預訓練,其訓練邏輯是26個字母-詞語-句子-段落-文章,預訓練后,再通過人的評分反饋以及強化學習算法,反復迭代,最終ChatGPT能夠“自然流暢”地與人對話。

而蛋白質的自動生成,也存在著類似的邏輯鏈路。

“生命科學里中,最重要的語言是蛋白質,蛋白質是由20種氨基酸串成的一條鏈,前者類似于單詞,后者則像句子一樣。各個氨基酸鏈之間折疊成三維的蛋白質結構,再與其他蛋白質互相作用,這不就是聯(lián)系上下文嗎?進而又產(chǎn)生了復雜的蛋白質相互作用網(wǎng)絡,形成細胞功能?!彼螛方忉尫Q,如果仔細研究人體,會發(fā)現(xiàn)各種細胞分子之間的作用關系非常有趣,“有點像詞、句、段落的嵌套結構?!?/p>

據(jù)介紹,百圖生科AIGP平臺設置了3類功能模塊,分別是Function to Protein Design(F2P,根據(jù)結構、功能、可開發(fā)性等功能指標設計/優(yōu)化蛋白質)、Protein to Protein Design(P2P,給定抗原等目標蛋白,設計與之以特定方式結合的抗體等蛋白),以及Cell to Protein Design(C2P,給定細胞,發(fā)現(xiàn)調控細胞功能的靶點蛋白并設計相應的調控蛋白)。記者注意到,相較于其他同類型企業(yè),與百度頗有淵源的百圖生科或在大模型非常依賴的算力解決方案上更有優(yōu)勢。

▌大數(shù)據(jù)仍然關鍵

從數(shù)據(jù)上來看,百圖生科現(xiàn)有的數(shù)據(jù)量達到了千億級別。記者在現(xiàn) 場了解到,該數(shù)據(jù)中90%來自于公開和半公開的數(shù)據(jù)整理。

不同于日常語境下的聊天數(shù)據(jù),AI企業(yè)要獲取生命科學領域的數(shù)據(jù),其壁壘較高,而且數(shù)據(jù)的整理也更加復雜、成本更大。

“我們做了世界上最大的生命科學的數(shù)據(jù)圖譜。公開數(shù)據(jù)整理聽起來很容易,但是過程很難。因為這些數(shù)據(jù)散落在不同的數(shù)據(jù)集,甚至不是結構化數(shù)據(jù),是論文、專利,怎么把它們抽取出來?它們表面看似不相關但在更底層卻是有連接的,怎么關聯(lián)起來?我們有大量的專業(yè)人員,整理了幾億、幾十億的蛋白質實體,厘清了幾百億蛋白質的關系,這些都是給大模型非常重要的語料數(shù)據(jù)?!眲⒕S表示。

宋樂則進一步補充稱,要訓練出千億參數(shù)級別的大模型,需要近一千個GPU運行數(shù)月時間,才能夠訓練一版比較好的模型,成本較大。“從當前的角度來說,我們能夠達到最好的模型是大概是千億級的參數(shù),也許在未來一年或者三年時間,我們會訓練到萬億級別?!?/p>

在現(xiàn)場,劉維也坦言稱,企業(yè)在NLP算法以及算力上也和百度有相應的合作。

▌未來或可實現(xiàn)自動化蛋白質工廠

基于此,劉維向《科創(chuàng)板日報》記者描繪了一座“蛋白質工廠”:

由科研人員輸入對目標蛋白質的各種參數(shù)需求,算法在生成蛋白質后,該蛋白質可以被自動打印出來,這一系列工作可全部自動化完成??蒲腥藛T只拿著由算法自動化生產(chǎn)出來的蛋白質進一步科學驗證即可。

這樣一來,蛋白質設計、生產(chǎn)的整個流程將被極大簡化:“花大約幾十分鐘、幾個小時的時間來設計蛋白,用高通量的蛋白打印系統(tǒng),幾天時間能把蛋白制備出來?!眲⒕S稱,這一速度已經(jīng)是業(yè)內領先的。

據(jù)悉,百圖生科已經(jīng)在蘇州建立了高通量的蛋白打印中心,一年可實現(xiàn)幾萬個復雜蛋蛋白質的打印、制備、測定工作?!拔覀円院笙M堰@個能量再進一步擴展,從而支撐大量的研發(fā)項目?!眲⒕S稱。

如此一來,百圖生科實現(xiàn)了自身業(yè)務從設計到生產(chǎn)再到驗證的閉環(huán)。

關于商業(yè)模式,劉維表示,百圖生科AIGP平臺,最終目的不是面向商業(yè)客戶收取服務費,而是尋找公測的合作伙伴,利用AIGP領先的蛋白質從頭設計能力和合作伙伴在生命科學領域的其他能力,包括擴展到石油、環(huán)保等其他領域的專業(yè)能力,來共同建立前沿的藥物研發(fā)項目,或者獨特的生命科學/環(huán)保健康等等產(chǎn)品的研發(fā)項目,通過雙方的合作,讓這些研發(fā)項目更快取得成功,這樣既可創(chuàng)造社會效益,也可獲得經(jīng)濟效益回報。

關鍵詞:

相關閱讀:
熱點
圖片