【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(9)——AI+多肽預(yù)測(cè)
今天來分析一篇論文:

這篇論文是我實(shí)驗(yàn)室的師兄做的,發(fā)在Nature的大子刊上。這項(xiàng)工作真的挺不容易的,做了四年多,可以說非常磨煉人了。簡(jiǎn)要來說,本篇工作就是AI+生物/化學(xué)/醫(yī)學(xué)的工作。當(dāng)然,這個(gè)系列的專欄還是主要介紹相關(guān)工作的背景及相關(guān)知識(shí),對(duì)內(nèi)容解讀不會(huì)太深入(主要是我對(duì)這個(gè)領(lǐng)域也沒有那么熟)

1.AI+X
AI+X應(yīng)該也不是什么新鮮事了,和“互聯(lián)網(wǎng)+”差不多,就是要把AI技術(shù)和其他學(xué)科結(jié)合起來,這其實(shí)也不是太新鮮的事情,很多計(jì)算機(jī)技術(shù)早就落地到各行各業(yè)了,但是結(jié)合的仍然還不夠深。
本篇文章的主要目的AI預(yù)測(cè)多肽,簡(jiǎn)單來說就是找到一些多肽序列,使得這些多肽可能具有某些性質(zhì)(目的就是找的盡量準(zhǔn)確)。

2.AI+生物/化學(xué)/醫(yī)學(xué)
因?yàn)檠芯康鞍踪|(zhì)、多肽、DNA這些東西既涉及到化學(xué)又涉及到生物又涉及到醫(yī)學(xué),所以這里就稱為“AI+生物/化學(xué)/醫(yī)學(xué)”,之后就看心情用哪個(gè)了。
在這些領(lǐng)域的數(shù)據(jù)往往呈現(xiàn)一些獨(dú)特的特點(diǎn):
(1)一般是列多行少。
“列多”這個(gè)很好理解,你去醫(yī)院做檢查,往往檢查項(xiàng)目很多,包括血液測(cè)試就有大量的數(shù)據(jù)。有些醫(yī)學(xué)領(lǐng)域的表格有上萬列都是很正常的。這就是“列多”,或者說,特征多。
“行少”指的是樣本數(shù)少。特別是針對(duì)一些罕見病,我們可能只有少數(shù)幾條病例。常見病就不多提,只要有充足的樣本做機(jī)器學(xué)習(xí)還是比價(jià)方便的,“列多行少”的數(shù)據(jù)才是研究的重點(diǎn)
(2)搜索空間大,規(guī)律不明顯。
這個(gè)也不難理解,我們考慮一條多肽序列,每個(gè)位置都有幾十種候選氨基酸(好像是常見的有二十幾種來著,生物好久沒看有點(diǎn)忘記),所以每多一個(gè)多肽,候選多肽數(shù)量就會(huì)指數(shù)提升。要從這些候選對(duì)象中找到我們需要的對(duì)象真的是大海撈針。
“規(guī)律不明顯”指的是我們對(duì)蛋白質(zhì)、多肽等的研究還不夠深入,對(duì)于大部分蛋白質(zhì)、多肽我們?nèi)匀徊磺宄淦鹱饔玫木唧w原理,導(dǎo)致我們很難用理論的方式解釋這些物質(zhì)起作用的機(jī)理,更不要說簡(jiǎn)單地創(chuàng)造它們了
(3)與自然語言處理的不同。
多肽序列和我們的語言看似有很多相似的地方但也有很多不同的地方。我們的語言畢竟是約定俗稱的,有較為“明確”的上下文意義,但多肽序列不見得有這些特性,或者說,它“不講理”。

3.怎么開展研究
對(duì)于DNA、多肽、蛋白質(zhì)是有不同的一些特點(diǎn)的:
(1)DNA/RNA相對(duì)比較簡(jiǎn)單些,畢竟一共就那么幾種(脫氧)核糖核酸
(2)多肽稍微復(fù)雜一些,畢竟氨基酸的種類就豐富多了,整個(gè)搜索空間就急劇增大
(3)蛋白質(zhì)就更不要說了,和多肽完全不是一個(gè)量級(jí)的,不僅要考慮序列,還要考慮整體能量(能量方法也是傳統(tǒng)蛋白質(zhì)預(yù)測(cè)常用的方法),還要考慮空間結(jié)構(gòu)(怎樣建模空間結(jié)構(gòu)也是個(gè)難點(diǎn),例如建模蛋白質(zhì)之間的角度等)
一種方法就是要用好神經(jīng)網(wǎng)絡(luò)了,包括常用的類BERT方法,這里不展開。

4.簡(jiǎn)要介紹論文
論文其實(shí)是做了一個(gè)比較復(fù)雜的系統(tǒng),所以理論上并沒有太出彩的新方法。但整體流程確實(shí)比較復(fù)雜,如圖:

所以不細(xì)講,有興趣的可以去看原文或者這篇推送:


5.結(jié)語
其實(shí)我對(duì)現(xiàn)在的實(shí)驗(yàn)室還是挺滿意的,雖然導(dǎo)師一直在push,但是由于我們實(shí)驗(yàn)室研究方向比較雜(簡(jiǎn)而言之,AI的很多邊邊角角都在做),確實(shí)讓我了解到很多新東西。這之前其實(shí)我一直對(duì)AI+醫(yī)學(xué)不是很感興趣,不過聽過幾次組會(huì)后還是很有感觸的。