成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

轉(zhuǎn)換機(jī)器學(xué)習(xí):面向多學(xué)科問題,構(gòu)建機(jī)器學(xué)習(xí)新生態(tài)

人工智能 機(jī)器學(xué)習(xí)
近日發(fā)表在 PNAS 的一項(xiàng)研究開發(fā)了一種名為轉(zhuǎn)換機(jī)器學(xué)習(xí)的方法,能夠綜合利用多個(gè)相關(guān)任務(wù)的數(shù)據(jù)及多種學(xué)習(xí)方法,提取編碼于訓(xùn)練模型中不同來源的先驗(yàn)知識,尤其適用于藥物設(shè)計(jì)等對可解釋性有強(qiáng)需求的科學(xué)研究領(lǐng)域。

機(jī)器學(xué)習(xí)方法在生命、物理、社會經(jīng)濟(jì)等復(fù)雜系統(tǒng)的應(yīng)用日漸頻繁。如何針對特定任務(wù)選取合適的機(jī)器學(xué)習(xí)方法,如何綜合利用各類機(jī)器學(xué)習(xí)方法并各取其所長,成為機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)問題。近日發(fā)表在 PNAS 的一項(xiàng)研究開發(fā)了一種名為轉(zhuǎn)換機(jī)器學(xué)習(xí)的方法,能夠綜合利用多個(gè)相關(guān)任務(wù)的數(shù)據(jù)及多種學(xué)習(xí)方法,提取編碼于訓(xùn)練模型中不同來源的先驗(yàn)知識,尤其適用于藥物設(shè)計(jì)等對可解釋性有強(qiáng)需求的科學(xué)研究領(lǐng)域。更具有普適性的是,轉(zhuǎn)換機(jī)器學(xué)習(xí)提出了機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)構(gòu)建的新思路,學(xué)習(xí)任務(wù)、實(shí)例、方法、預(yù)測結(jié)果及元學(xué)習(xí)能夠相互促進(jìn),共同提升機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)中所有任務(wù)的性能和可解釋性。

論文題目:

Transformational machine learning: Learning how to learn from many related scientific problems

論文鏈接:

https://www.pnas.org/content/118/49/e2108013118

 

摘要

意義

1. 轉(zhuǎn)換機(jī)器學(xué)習(xí)簡介

2. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與其它方法的對比

3. 轉(zhuǎn)換機(jī)器學(xué)習(xí)可改進(jìn)原有算法

4. 轉(zhuǎn)換機(jī)器學(xué)習(xí)的可解釋性

5. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)的對比

6. 構(gòu)建機(jī)器學(xué)習(xí)的生態(tài)系統(tǒng)

7. 數(shù)據(jù)集,代碼與模型的開源

翻譯名詞對照

幾乎所有的機(jī)器學(xué)習(xí)都基于內(nèi)生 (intrinsic) 特征來表征訓(xùn)練數(shù)據(jù)。當(dāng)存在多個(gè)相關(guān)的機(jī)器學(xué)習(xí)任務(wù) (問題) 時(shí),可以先在目標(biāo)任務(wù)外的其余任務(wù)上訓(xùn)練機(jī)器學(xué)習(xí)模型,將內(nèi)生特征轉(zhuǎn)化為外生 (extrinsic) 特征,并用訓(xùn)練后的機(jī)器學(xué)習(xí)模型在目標(biāo)實(shí)例上進(jìn)行預(yù)測,產(chǎn)生新的表征,我們稱其為 轉(zhuǎn)換機(jī)器學(xué)習(xí) (transformational machine learning,TML) 。轉(zhuǎn)換機(jī)器學(xué)習(xí)與遷移學(xué)習(xí) (TL) 、多任務(wù)學(xué)習(xí) (MTL) 和疊加學(xué)習(xí) (stacking) 密切相關(guān),并具有協(xié)同作用,可用來改進(jìn)任何非線性的機(jī)器學(xué)習(xí)。我們使用最重要的幾類非線性機(jī)器學(xué)習(xí)來評價(jià)轉(zhuǎn)換機(jī)器學(xué)習(xí):隨機(jī)森林 (RF) 、梯度提升機(jī) (XGB) 、支持向量機(jī) (SVM) 、k-最近鄰 (KNN) 、神經(jīng)網(wǎng)絡(luò) (NN) 。為了保證評價(jià)的通用性和魯棒性,我們利用了來自藥物設(shè)計(jì)、基因表達(dá)預(yù)測和機(jī)器學(xué)習(xí)算法選擇這三個(gè)科學(xué)領(lǐng)域的數(shù)千個(gè)機(jī)器學(xué)習(xí)問題。

我們發(fā)現(xiàn),轉(zhuǎn)換機(jī)器學(xué)習(xí)在所有領(lǐng)域均顯著提高了所有機(jī)器學(xué)習(xí)的預(yù)測性能 (平均提高4% 至50%) ,并且轉(zhuǎn)換機(jī)器學(xué)習(xí)識別出的特征通常優(yōu)于內(nèi)生特征。轉(zhuǎn)換機(jī)器學(xué)習(xí)作為可解釋的機(jī)器學(xué)習(xí),還能夠增加科學(xué)認(rèn)識。在藥物設(shè)計(jì)中,我們發(fā)現(xiàn)轉(zhuǎn)換機(jī)器學(xué)習(xí)提供了關(guān)于藥物靶標(biāo)特異性、藥物間關(guān)系以及蛋白質(zhì)靶標(biāo)間關(guān)系的新知。轉(zhuǎn)換機(jī)器學(xué)習(xí)創(chuàng)建了一種基于生態(tài)系統(tǒng)的機(jī)器學(xué)習(xí)方法,在這種方法中,新的任務(wù)、實(shí)例、預(yù)測等相互協(xié)同,以提高預(yù)測性能。

機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,目標(biāo)是開發(fā)能從經(jīng)驗(yàn)中學(xué)習(xí)的計(jì)算系統(tǒng)。在有監(jiān)督機(jī)器學(xué)習(xí)中,機(jī)器學(xué)習(xí)系統(tǒng)從有標(biāo)簽的數(shù)據(jù)中,得到一個(gè)可泛化的預(yù)測未知數(shù)據(jù)標(biāo)簽的模型。數(shù)據(jù)通常用直接描述實(shí)例的特征來表征。例如,在藥物設(shè)計(jì)中,機(jī)器學(xué)習(xí)會將藥物的分子結(jié)構(gòu)作為特征。在存在多個(gè)相關(guān)機(jī)器學(xué)習(xí)問題的情況下,可以使用一種不同類型的特性,即通過機(jī)器學(xué)習(xí)模型對其它問題下的數(shù)據(jù)做出預(yù)測,我們稱之為轉(zhuǎn)換機(jī)器學(xué)習(xí)。我們表明,當(dāng)應(yīng)用于科學(xué)問題時(shí),該范式會帶來更好的預(yù)測性和可理解性。

1. 轉(zhuǎn)換機(jī)器學(xué)習(xí)簡介

機(jī)器學(xué)習(xí)開發(fā)從經(jīng)驗(yàn)中學(xué)習(xí)的計(jì)算系統(tǒng)。它在科學(xué)領(lǐng)域的應(yīng)用有著悠久的歷史[1-4],最早的一種機(jī)器學(xué)習(xí)程序是 Meta-Denral,它使用機(jī)器學(xué)習(xí)來改進(jìn)質(zhì)譜數(shù)據(jù)分析[5]。機(jī)器學(xué)習(xí)對科學(xué)的重要性已被廣泛認(rèn)可,且正被用于幾乎所有的科學(xué)領(lǐng)域,例如藥物發(fā)現(xiàn)[6]、有機(jī)合成規(guī)劃[7]、材料科學(xué)[8]、醫(yī)學(xué)[9]等。

大多數(shù)機(jī)器學(xué)習(xí)使用特征元組表征訓(xùn)練數(shù)據(jù),例如,數(shù)據(jù)可以放到單個(gè)表中,每一行代表一個(gè)實(shí)例,每一列代表一個(gè)特征。實(shí)例的特征也可稱為屬性 (attributes) 。目前,實(shí)例的特征幾乎都是內(nèi)生屬性。例如,如果某人希望了解一種藥物的藥理活性,那么藥物的分子結(jié)構(gòu)就是該實(shí)例有用的屬性。通常,選擇一個(gè)特征作為預(yù)測值,其它屬性則提供用于預(yù)測的信息。如果待預(yù)測的屬性是標(biāo)簽,那么這是判別/分類任務(wù);如果待預(yù)測的屬性是實(shí)數(shù),那么這是回歸問題。該研究主要討論回歸問題。

當(dāng)存在多個(gè)相關(guān)的機(jī)器學(xué)習(xí)任務(wù)時(shí),外生特征也可能被用到:使用在其余任務(wù)上訓(xùn)練的機(jī)器學(xué)習(xí),來對目標(biāo)實(shí)例進(jìn)行預(yù)測 。我們稱之為轉(zhuǎn)換機(jī)器學(xué)習(xí)。轉(zhuǎn)換機(jī)器學(xué)習(xí)將基于內(nèi)生屬性的表征,轉(zhuǎn)換為基于其余模型預(yù)測值的外生表征。我們接下來會論述,轉(zhuǎn)換機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)和疊加學(xué)習(xí)有密切的協(xié)同關(guān)系。它使得模型可以利用在其余相關(guān)任務(wù)中學(xué)到的的知識,而不必從頭開始學(xué)習(xí)。因此,轉(zhuǎn)換機(jī)器學(xué)習(xí)屬于元學(xué)習(xí) (meta learning) 的范式,可改進(jìn)任何非線性的機(jī)器學(xué)習(xí)算法,尤其適用于存在許多相關(guān)小型學(xué)習(xí)任務(wù)的場景。

直觀地說,以識別多種動物的學(xué)習(xí)任務(wù)為例。如果需要識別多種動物,并且還有待添加的物種,那么相比采用一個(gè)大型分類器而言,對每個(gè)物種都采用獨(dú)立的分類器更合理。標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)方法采用內(nèi)生特征 (例如動物是否有皮毛、皮毛的大小) 來訓(xùn)練分類器。轉(zhuǎn)換機(jī)器學(xué)習(xí)則是先采用標(biāo)準(zhǔn)方法 (圖1A左) 學(xué)習(xí)各種動物的預(yù)測模型,并使用基于這些模型的預(yù)測結(jié)果表征各種動物。比如,在通過標(biāo)準(zhǔn)方法獲得類馬程度、類貓程度、類兔程度等表征后,再以此訓(xùn)練 (元) 機(jī)器學(xué)習(xí)模型 (圖1A右) 。轉(zhuǎn)換機(jī)器學(xué)習(xí)適用于所有機(jī)器學(xué)習(xí)任務(wù)共享一組內(nèi)生特征和目標(biāo)變量的領(lǐng)域,而這在科學(xué)研究中很普遍,例如在藥物設(shè)計(jì)中,需要將化合物的分子表征與靶標(biāo) (蛋白質(zhì)) 相匹配 (圖1B)  轉(zhuǎn)換機(jī)器學(xué)習(xí)的有效性在于利用了編碼于先前訓(xùn)練模型中關(guān)于世界規(guī)律的知識。

圖1A. 標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)和轉(zhuǎn)換機(jī)器學(xué)習(xí)在預(yù)測動物物種上的對比。通過三個(gè)機(jī)器學(xué)習(xí)任務(wù)的實(shí)例來闡述轉(zhuǎn)換機(jī)器學(xué)習(xí):預(yù)測動物是驢、貓還是兔。標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)以內(nèi)生特征,如體型、耳朵、是否可食用來構(gòu)建預(yù)測模型:驢( ),兔( ),貓( )。將內(nèi)生特征輸入模型兔( ),輸出動物為兔子的概率。這三個(gè)模型的結(jié)果會作為訓(xùn)練轉(zhuǎn)換機(jī)器學(xué)習(xí)的外生特征。直覺上,可以看到轉(zhuǎn)換機(jī)器學(xué)習(xí)的表征是有意義的,因?yàn)橥煤腕H有相似之處,都有長耳朵,兔和貓的相似處在于體型都小且可愛。因此轉(zhuǎn)換后的外生表征能夠捕捉原始描述所不涉及的特征,例如是否可愛、眼睛是否位于頭部兩側(cè)(兔和驢共有的特征)。

圖1B. QSAR(結(jié)構(gòu)-活性定量關(guān)系)學(xué)習(xí)。QSAR預(yù)測模型給定一個(gè)靶標(biāo)(通常是蛋白質(zhì))以及一系列化合物(小分子)及其對應(yīng)活性(如抑制特定蛋白),以此學(xué)習(xí)從化合物分子表征到活性的映射。

圖1C. 標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)和轉(zhuǎn)換機(jī)器學(xué)習(xí)在QSAR上的對比。使用標(biāo)準(zhǔn)機(jī)器學(xué)習(xí),每個(gè)靶標(biāo)和多種藥物的內(nèi)生特征關(guān)聯(lián),例如是否包含特定的分子群,以此訓(xùn)練模型建立從分子表征到活性的映射。

2. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與其他方法的對比

轉(zhuǎn)換機(jī)器學(xué)習(xí)與其它機(jī)器學(xué)習(xí)方法有非常相似的地方。然而,具體的轉(zhuǎn)換機(jī)器學(xué)習(xí)概念之前沒有被系統(tǒng)性的地評價(jià)過。

轉(zhuǎn)換機(jī)器學(xué)習(xí)與 多任務(wù)學(xué)習(xí) [10]非常相似。多任務(wù)學(xué)習(xí)是“一種以相關(guān)任務(wù)的訓(xùn)練數(shù)據(jù)中包含的領(lǐng)域信息為歸納基準(zhǔn),從而提高泛化能力的歸納遷移方法”。在多任務(wù)學(xué)習(xí)中,相關(guān)問題 (任務(wù)) 是被同時(shí)學(xué)習(xí)的,目的是利用問題之間的相似性來提高預(yù)測性能。多任務(wù)學(xué)習(xí)以共享表征并行訓(xùn)練,來達(dá)成該目標(biāo);從每個(gè)任務(wù)所學(xué)到的知識可以幫助其它任務(wù)學(xué)得更好[10]。多任務(wù)學(xué)習(xí)和轉(zhuǎn)換機(jī)器學(xué)習(xí)之間有兩個(gè)主要區(qū)別:多任務(wù)學(xué)習(xí)的訓(xùn)練通常是并行的,而轉(zhuǎn)換機(jī)器學(xué)習(xí)通常逐個(gè)進(jìn)行訓(xùn)練;轉(zhuǎn)換機(jī)器學(xué)習(xí)在各個(gè)任務(wù)間共享數(shù)據(jù)表征,而多任務(wù)學(xué)習(xí)則使用單一模型。

轉(zhuǎn)換機(jī)器學(xué)習(xí)還與 遷移學(xué)習(xí) [13]有密切的關(guān)聯(lián)。遷移學(xué)習(xí)將信息從特定來源的問題轉(zhuǎn)移為特定目標(biāo)的問題。遷移學(xué)習(xí)的思想是從一個(gè)或多個(gè)源領(lǐng)域提取知識,并在數(shù)據(jù)稀缺的目標(biāo)領(lǐng)域復(fù)用這些知識,從而在目標(biāo)領(lǐng)域建立性能更好的學(xué)習(xí)模型。但是遷移學(xué)習(xí)通常不同于轉(zhuǎn)換機(jī)器學(xué)習(xí),因?yàn)檫w移學(xué)習(xí)只針對一個(gè)源任務(wù),而轉(zhuǎn)換機(jī)器學(xué)習(xí)需要應(yīng)對多源任務(wù)。遷移學(xué)習(xí)已成功應(yīng)用于藥物設(shè)計(jì),幾個(gè)前瞻性的應(yīng)用證明了其有效性[15]。

轉(zhuǎn)換機(jī)器學(xué)習(xí)與 疊加學(xué)習(xí) [16,17]也非常相似,后者是一種集成機(jī)器學(xué)習(xí)算法。疊加學(xué)習(xí)結(jié)合多種算法,以獲得比單獨(dú)使用任何一種算法更好的預(yù)測性能。在疊加多個(gè)基準(zhǔn)模型時(shí),首先訓(xùn)練基準(zhǔn)模型,然后使用基準(zhǔn)模型的輸出訓(xùn)練元模型。轉(zhuǎn)換機(jī)器學(xué)習(xí)和疊加學(xué)習(xí)的主要區(qū)別在于,轉(zhuǎn)換機(jī)器學(xué)習(xí)的訓(xùn)練是在一大組相關(guān)任務(wù)上進(jìn)行,每個(gè)任務(wù)對應(yīng)的訓(xùn)練集可能不同。而在疊加學(xué)習(xí)中,不同的基準(zhǔn)模型通常針對同一個(gè)任務(wù)進(jìn)行訓(xùn)練。

3. 轉(zhuǎn)換機(jī)器學(xué)習(xí)可改進(jìn)原有算法

轉(zhuǎn)換機(jī)器學(xué)習(xí)適用于任何非線性機(jī)器學(xué)習(xí)的改進(jìn)。為了評價(jià)轉(zhuǎn)換機(jī)器學(xué)習(xí),我們選擇了5種機(jī)器學(xué)習(xí)[1-4]:隨機(jī)森林 (RF) [21]、梯度增強(qiáng)算法 (XGB) [22]、支持向量機(jī) (SVM) [23]、k-最近鄰 (KNN) [3]和神經(jīng)網(wǎng)絡(luò) (NN) [3,4]。為了確保評價(jià)的普遍性和魯棒性,我們利用了來自三類重要科學(xué)問題——藥物發(fā)現(xiàn) (QSAR 學(xué)習(xí),即定量構(gòu)效關(guān)系) 、類基因表達(dá)的預(yù)測 (跨越不同組織類型和藥物治療) 、元機(jī)器學(xué)習(xí) (預(yù)測機(jī)器學(xué)習(xí)方法解決問題的效果) ——的數(shù)千個(gè)機(jī)器學(xué)習(xí)任務(wù)。

對于每一種機(jī)器學(xué)習(xí)方法和每一個(gè)問題領(lǐng)域,我們比較了轉(zhuǎn)換機(jī)器學(xué)習(xí)和基準(zhǔn)機(jī)器學(xué)習(xí)算法的表現(xiàn)。我們研究了兩種形式的預(yù)測改進(jìn):強(qiáng)改進(jìn)和聯(lián)合改進(jìn)。強(qiáng)改進(jìn)即使用新的轉(zhuǎn)換機(jī)器學(xué)習(xí)特征,得出的預(yù)測優(yōu)于使用基于基準(zhǔn) (內(nèi)生) 特征的得出預(yù)測。聯(lián)合改進(jìn)即以基準(zhǔn)特征作為新的轉(zhuǎn)換機(jī)器學(xué)習(xí)特征,以提高預(yù)測性能。為了增強(qiáng)轉(zhuǎn)換機(jī)器學(xué)習(xí)預(yù)測性能,我們使用了最簡單的疊加方法:組合預(yù)測結(jié)果。我們發(fā)現(xiàn),轉(zhuǎn)換機(jī)器學(xué)習(xí)在三個(gè)領(lǐng)域中均顯著提高了所有方法的平均預(yù)測性能 (提高幅度從4% 到50%) ,即針對新的外生特征訓(xùn)練的模型通常優(yōu)于針對內(nèi)生特征訓(xùn)練的模型 (表1) 

表1. 預(yù)測結(jié)果,表中數(shù)值為均方根誤差(RMSE)。加粗的數(shù)值為某應(yīng)用場景下的最優(yōu)結(jié)果。基準(zhǔn)結(jié)果使用標(biāo)準(zhǔn)內(nèi)生表征及對應(yīng)的機(jī)器學(xué)習(xí)算法得出的結(jié)果。轉(zhuǎn)換機(jī)器學(xué)習(xí)使用外生表征得出結(jié)果。均方根誤差為各應(yīng)用領(lǐng)域中數(shù)千次任務(wù)的平均值。我們測試了兩種疊加方式:最小二乘法(convex squares)(非負(fù)最小)和嶺回歸(ridge regression)。我們使用了兩種顯著性檢驗(yàn):t 檢驗(yàn)和 Wilcoxon 檢驗(yàn)。兩種方法都檢驗(yàn)了標(biāo)準(zhǔn)方法與轉(zhuǎn)換機(jī)器學(xué)習(xí)之間均方根誤差的差異是否顯著(p< 0.05),前者檢驗(yàn)了兩種方法的均方根誤差中位數(shù)是否存在統(tǒng)計(jì)上的差異,后者檢驗(yàn)了兩種方法的均方根誤差平均數(shù)是否存在統(tǒng)計(jì)上的差異。

幾乎所有的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法都被應(yīng)用于 QSAR 問題[23] ,但是仍未發(fā)現(xiàn)一種最好的方法[24,25]。 QSAR非常適合應(yīng)用轉(zhuǎn)換機(jī)器學(xué)習(xí),因?yàn)樗幬锓肿颖碚骺梢酝ㄟ^相關(guān)的靶蛋白而相互關(guān)聯(lián) 。例如,在小鼠和人類中抑制二氫葉酸還原酶 (DHFR ) 的問題是相似的,因?yàn)閮烧哂邢嗨频呐潴w結(jié)合位點(diǎn)[活性中心][26],而且它們涉及的分子相同或相關(guān)[26 -28]。為了評價(jià)用于 QSAR 學(xué)習(xí)的轉(zhuǎn)換機(jī)器學(xué)習(xí),我們使用了2219個(gè) QSAR 問題[24,25]。QSAR 基準(zhǔn) (內(nèi)生) 表征是1024位的分子指紋表征,這已經(jīng)被證明是有效的[25]。對于每種基準(zhǔn)機(jī)器學(xué)習(xí)算法 (RF,SVM,k-NN 和 NN) ,我們使用先前訓(xùn)練的模型所預(yù)測的化合物活性,獲得轉(zhuǎn)換機(jī)器學(xué)習(xí)的外生特征。然后使用基準(zhǔn)機(jī)器學(xué)習(xí)方法訓(xùn)練 QSAR 模型。在所有方法中,轉(zhuǎn)換機(jī)器學(xué)習(xí)預(yù)測效果均優(yōu)于基準(zhǔn)算法。有關(guān)結(jié)果見表1。我們發(fā)現(xiàn)總體結(jié)果最好的是疊加了梯度提升機(jī)的轉(zhuǎn)換機(jī)器學(xué)習(xí)模型,其結(jié)果相較于基準(zhǔn)梯度提升機(jī)提升了7%,其次是疊加了神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)換機(jī)器學(xué)習(xí)模型。值得注意的是,該數(shù)據(jù)集已被廣泛研究[18種學(xué)習(xí)方法和6種分子表征[25]] ,并且轉(zhuǎn)換機(jī)器學(xué)習(xí)顯著優(yōu)于之前的最佳結(jié)果。

對于第二個(gè)問題領(lǐng)域,我們使用了基于集成網(wǎng)絡(luò)的細(xì)胞特征數(shù)據(jù)庫 (LINCS) [29] ,它描述了在118050個(gè)實(shí)驗(yàn)條件下測量的978個(gè)標(biāo)志性人類基因的表達(dá)水平。我們將機(jī)器學(xué)習(xí)任務(wù)看作是在給定實(shí)驗(yàn)條件 (細(xì)胞類型、藥物和劑量) 下,為每個(gè)基因建立一個(gè)能夠預(yù)測其表達(dá)水平的模型。 基因表達(dá)預(yù)測問題也適合轉(zhuǎn)換機(jī)器學(xué)習(xí),因?yàn)榇嬖诨蜷g關(guān)系 (同源性、共同信號通路等) 和實(shí)驗(yàn)條件間關(guān)系 (藥物相似性等) ,可用于提高預(yù)測性能。使用與 QSAR 問題相同的方法,我們使用隨機(jī)森林、支持向量機(jī)、k-最近鄰和神經(jīng)網(wǎng)絡(luò)進(jìn)行了比較評價(jià),比較了使用內(nèi)生表征和轉(zhuǎn)換機(jī)器學(xué)習(xí)表征的模型,結(jié)果見表1。所有方法中,使用轉(zhuǎn)換機(jī)器學(xué)習(xí)的模型都優(yōu)于基準(zhǔn)機(jī)器學(xué)習(xí)。我們發(fā)現(xiàn),隨機(jī)森林的總體結(jié)果提升最大,相比基準(zhǔn)提升了4% ,其次提升較大的是梯度提升機(jī)和支持向量機(jī)模型。

第三個(gè)評價(jià)問題領(lǐng)域來自機(jī)器學(xué)習(xí), 其基本問題是選擇適用于新任務(wù)的最佳機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)是解決該問題的一個(gè)有效途徑,這被稱為元機(jī)器學(xué)習(xí) 。機(jī)器學(xué)習(xí)模型的任務(wù)是:給定訓(xùn)練數(shù)據(jù)的特征 (例如訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)分布) ,學(xué)習(xí)一個(gè)用于預(yù)測機(jī)器學(xué)習(xí)算法在新任務(wù) (給定特定的任務(wù)) 上性能的元模型。這一場景也適合轉(zhuǎn)換機(jī)器學(xué)習(xí),因?yàn)闄C(jī)器學(xué)習(xí)任務(wù)可以通過具有類似的數(shù)據(jù)分布和數(shù)據(jù)屬性 (如缺失值) 或包含由相似過程生成的數(shù)據(jù)而發(fā)生關(guān)聯(lián)。從 OpenML[31]中,我們對351個(gè)任務(wù)和53個(gè)機(jī)器學(xué)習(xí)方法進(jìn)行了10840個(gè)評價(jià),產(chǎn)生了351個(gè)元學(xué)習(xí)任務(wù),結(jié)果見表1。在所有方法中,使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征的算法都優(yōu)于基準(zhǔn)機(jī)器學(xué)習(xí)算法。總體來看,提升最大的是使用轉(zhuǎn)換機(jī)器學(xué)習(xí)的隨機(jī)森林,相比使用內(nèi)生特征的算法提高了50% 。使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征的梯度提升機(jī)也比基準(zhǔn)算法有相似程度的提升,對于支持向量機(jī)和神經(jīng)網(wǎng)絡(luò),使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征后,性能也有提升。對于 k-最近鄰,疊加轉(zhuǎn)換機(jī)器學(xué)習(xí)特征的效果最好。相比之前描述的場景,使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征,預(yù)測性能提高的百分比要大得多。這可能是因?yàn)樵?/span> (內(nèi)生) 特征對訓(xùn)練數(shù)據(jù)集的描述較差,而轉(zhuǎn)換機(jī)器學(xué)習(xí)特征編碼了更多關(guān)于算法在不同任務(wù)中的隱含信息。此外,相比之前的場景,預(yù)測性能的實(shí)驗(yàn)噪音較小。

4. 轉(zhuǎn)換機(jī)器學(xué)習(xí)的可解釋性

機(jī)器學(xué)習(xí)的一個(gè)越來越重要的分支是可解釋的人工智能,因?yàn)樵谠S多應(yīng)用 (例如醫(yī)學(xué)或金融) 中,有必要使預(yù)測具有可理解性。在科學(xué)領(lǐng)域,可解釋的機(jī)器學(xué)習(xí)預(yù)測模型會帶來科學(xué)新知。機(jī)器學(xué)習(xí)模型的可理解性取決于模型的簡單性,及模型表征與人類概念間的密切程度。概念結(jié)構(gòu)的標(biāo)準(zhǔn)理論起源于亞里士多德,以定義和解釋概念間存在充分必要條件為基礎(chǔ)。 轉(zhuǎn)換機(jī)器學(xué)習(xí)模型的可解釋性基于相似概念存在多種可替換的學(xué)習(xí)方法 [33,34]。

在藥物設(shè)計(jì)領(lǐng)域利用隨機(jī)森林模型,我們說明了轉(zhuǎn)換機(jī)器學(xué)習(xí)模型能夠以三種方式產(chǎn)生科學(xué)新知。首先,我們闡明了如何使用轉(zhuǎn)換機(jī)器學(xué)習(xí)模型為特定藥物靶標(biāo) H. sapiens DHFR 的 QSAR 預(yù)測提供解釋。表2列出了對 H. sapiens DHFR 藥物活性預(yù)測最重要的10個(gè)特征 (基準(zhǔn)模型) 。正如所料,該列表中還有其它 DFHR 靶標(biāo)的模型。但有趣的是,這些模型是細(xì)菌  L. casei,E. coli ,和 M. avium  的模型,而不是哺乳動物的模型。這三個(gè)細(xì)菌的 DHFR 模型對人類 DHFR 的預(yù)測有所貢獻(xiàn),其中 L. casei 的DHFR最像人類,而 E. coli  M. avium 的DHFR 明顯不同,因?yàn)镋. coli DHFR 與甲氧芐氨嘧啶抗生素結(jié)合緊密,而 M. avium 的 DHFR 具有耐藥性。這些信息有助于設(shè)計(jì)人類 DHFR 抑制劑,以更好地治療癌癥。表2中的其它特征也提供了類似的洞見。

表2. 預(yù)測人類 DHFR活性最佳的十種模型

轉(zhuǎn)換機(jī)器學(xué)習(xí)也可以通過聚類 (非監(jiān)督學(xué)習(xí)) 提供科學(xué)新知。化學(xué)信息學(xué)中一個(gè)基本問題是估計(jì)化合物之間的相似性。標(biāo)準(zhǔn)方法基于化學(xué)結(jié)構(gòu)的相似性來估計(jì)化合物間的相似性,比如根據(jù)分子指紋和圖相似性上的 Tanimoto (Jaccard) 系數(shù)距離估計(jì)。然而,當(dāng)比較藥物時(shí),功能相似性而不是結(jié)構(gòu)相似性更受關(guān)注[15]。功能相似性可以使用實(shí)驗(yàn)積累的信息來度量,這些信息被編碼于 QSAR 模型中,可用于預(yù)測藥物針對靶標(biāo)的活性 (圖2A) 。該預(yù)測結(jié)果可用于計(jì)算藥物和它們藥理特征間的距離。圖2B使用轉(zhuǎn)換機(jī)器學(xué)習(xí),將美國食品藥物管理局 (FDA) 批準(zhǔn)的藥物聚類成三簇。盡管這些化合物的藥理學(xué)關(guān)系很復(fù)雜,但這些藥品都與血清素和多巴胺受體相互作用有關(guān)。可以使用轉(zhuǎn)換機(jī)器學(xué)習(xí)對這一相互作用進(jìn)行預(yù)測,并將其用于聚類。可以根據(jù)聚類后化合物的相對位置,預(yù)測不同化合物的藥理學(xué)特征。


圖2.(A)轉(zhuǎn)換機(jī)器學(xué)習(xí)在聚類分析中的應(yīng)用 ,通過對藥物分子進(jìn)行表征來對藥物聚類。在這些表征中,每個(gè)元素都是藥物對其中一個(gè)靶標(biāo)(問題)的預(yù)測值。

(B)通過化合物在 QSAR 靶標(biāo)的預(yù)測活性對化合物聚類。該圖顯示了獲得 FDA 批準(zhǔn)的化合物(顏色代表簇)的聚類,以及三個(gè)密切相關(guān)的簇和放大的單簇。

(C)通過化學(xué)表征對藥物靶標(biāo)聚類。該圖顯示了 FDA 批準(zhǔn)的藥物的蛋白質(zhì)靶標(biāo)的整體聚類(顏色代表簇)和一個(gè)單簇的放大部分。

我們應(yīng)用類似的方法來估計(jì)蛋白質(zhì)靶標(biāo)相似性這一生物信息學(xué)問題 (圖2C) 。該任務(wù)的標(biāo)準(zhǔn)方法是使用序列對比估計(jì)進(jìn)化距離。然而,在大多數(shù)問題中,最重要的不是進(jìn)化距離,而是蛋白質(zhì)活性位點(diǎn)的功能相似性。我們可以使用轉(zhuǎn)換機(jī)器學(xué)習(xí) QSAR 模型中積累的信息估計(jì)功能相似性。我們刻畫了每一個(gè)靶標(biāo)的藥物活性預(yù)測,即 FDA 批準(zhǔn)的化合物對靶標(biāo)的活性預(yù)測。和化合物相似性預(yù)測一樣,我們認(rèn)為藥物設(shè)計(jì)的聚類比傳統(tǒng)的進(jìn)化距離提供了更多的洞見,因?yàn)樗腔诎袠?biāo)對化合物的實(shí)證響應(yīng)得出的。QSAR 相似性預(yù)測模型識別出的一個(gè)有趣的蛋白質(zhì) (藥物靶標(biāo)) 團(tuán)簇如圖2C 所示。盡管這一組蛋白質(zhì)沒有任何明顯的結(jié)構(gòu)相似性,但這些 (哺乳動物) 蛋白質(zhì)的功能與新陳代謝控制有著明確的關(guān)聯(lián)。

5. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)的對比

將轉(zhuǎn)換機(jī)器學(xué)習(xí)與當(dāng)前最重要的機(jī)器學(xué)習(xí)算法——深度神經(jīng)網(wǎng)絡(luò) (DNNs) [35]進(jìn)行比較是很有啟發(fā)性的。DNN 的輸入是典型的空間結(jié)構(gòu)或順序結(jié)構(gòu),輸入結(jié)構(gòu)的先驗(yàn)知識被編碼于網(wǎng)絡(luò)結(jié)構(gòu)。DNN 的成功在于它能夠利用多個(gè)神經(jīng)網(wǎng)絡(luò)層和大量數(shù)據(jù),學(xué)習(xí)如何將較差的輸入表征 (如圖像像素值) 映射到豐富和有效的潛在表征。這是通過使用可微學(xué)習(xí)模型和端到端學(xué)習(xí)來實(shí)現(xiàn)的。改善較差輸入表征的能力,使 DNN 能夠在原先被證明不適合機(jī)器學(xué)習(xí)的領(lǐng)域取得成功:例如在圍棋[36]等游戲中擊敗世界冠軍,比人類專家更好地診斷皮膚癌[9]。 從 DNN 的成功中得到的一個(gè)關(guān)鍵經(jīng)驗(yàn)是,利用機(jī)器學(xué)習(xí)能夠增強(qiáng)機(jī)器學(xué)習(xí)的表征,而這正是轉(zhuǎn)換機(jī)器學(xué)習(xí)所做的事情 。DNN最適用于有大量可用于訓(xùn)練良好表征的數(shù)據(jù),并且不要求所用符號模型適于人類認(rèn)知的問題。而大多數(shù)科學(xué)問題領(lǐng)域都不滿足這些標(biāo)準(zhǔn)。

標(biāo)準(zhǔn) DNN 算法在需要處理多任務(wù)問題時(shí),需要學(xué)習(xí)包含所有問題的單一大型模型。與轉(zhuǎn)換機(jī)器學(xué)習(xí)相比,DNN 問題間的關(guān)系和訓(xùn)練數(shù)據(jù)間的關(guān)系都不是以轉(zhuǎn)換特征的形式外顯化的。對于多任務(wù)問題,轉(zhuǎn)換機(jī)器學(xué)習(xí)還具有支持增量機(jī)器學(xué)習(xí)的優(yōu)勢:如果添加新數(shù)據(jù)或新任務(wù),那么無需重新學(xué)習(xí)任務(wù)模型。雖然轉(zhuǎn)換機(jī)器學(xué)習(xí)增加了一些額外的計(jì)算代價(jià),但是與 DNN 學(xué)習(xí)相比,轉(zhuǎn)換機(jī)器學(xué)習(xí)的額外代價(jià)很低。

6. 構(gòu)建機(jī)器學(xué)習(xí)的生態(tài)系統(tǒng)

機(jī)器學(xué)習(xí)的傳統(tǒng)方法是將每個(gè)學(xué)習(xí)任務(wù)看作一個(gè)單獨(dú)的問題。隨著多任務(wù)學(xué)習(xí)[10]、 遷移學(xué)習(xí) [13]、終身學(xué)習(xí) (life-long learning) [37]等方面的進(jìn)展,這種觀點(diǎn)開始發(fā)生變化。 轉(zhuǎn)換機(jī)器學(xué)習(xí)使我們對作為生態(tài)系統(tǒng)的機(jī)器學(xué)習(xí)有了更廣闊的視野。在這個(gè)生態(tài)系統(tǒng)中,學(xué)習(xí)任務(wù)、學(xué)習(xí)實(shí)例、機(jī)器學(xué)習(xí)方法、機(jī)器學(xué)習(xí)預(yù)測、元機(jī)器學(xué)習(xí)方法等等都能夠協(xié)同作用,以提升生態(tài)系統(tǒng)中所有任務(wù)的性能和可解釋性 。增加更多的訓(xùn)練數(shù)據(jù),不僅能夠改進(jìn)特定任務(wù)的模型 (使用特征選擇、集成學(xué)習(xí)、疊加學(xué)習(xí)、轉(zhuǎn)換機(jī)器學(xué)習(xí)、二階轉(zhuǎn)換機(jī)器學(xué)習(xí)等) ,還能改進(jìn)所有其它使用特定任務(wù)模型的模型 (轉(zhuǎn)換機(jī)器學(xué)習(xí)、二階轉(zhuǎn)換機(jī)器學(xué)習(xí)等) 。與此類似,添加了新任務(wù)能夠擴(kuò)展轉(zhuǎn)換后的表征,從而可通過轉(zhuǎn)換機(jī)器學(xué)習(xí)、二階轉(zhuǎn)換機(jī)器學(xué)習(xí)等方式改進(jìn)所有其它任務(wù)的模型。添加新的機(jī)器學(xué)習(xí)或元機(jī)器學(xué)習(xí)方法,那么所有的任務(wù)模型都會得到改進(jìn)。在這樣一個(gè)機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)中,隨著新知識的增加,預(yù)測性能將逐步提高[38]。因?yàn)閬碜栽S多不同來源的先驗(yàn)知識被用于所有預(yù)測任務(wù)中[38],預(yù)測也將更加可靠。

在機(jī)器學(xué)習(xí)領(lǐng)域,人們對 機(jī)器學(xué)習(xí)的自動化 越來越感興趣,并且存在許多或免費(fèi)或商業(yè)的系統(tǒng),這些系統(tǒng)能夠自動進(jìn)行機(jī)器學(xué)習(xí)以解決新的問題。例如,Auto-WEKA 和 Auto-sklearn [39]通過搜索可能的機(jī)器學(xué)習(xí)方法和超參數(shù)空間來優(yōu)化機(jī)器學(xué)習(xí)的預(yù)測性能。然而,目前還沒有一個(gè)機(jī)器學(xué)習(xí)自動化系統(tǒng),能夠發(fā)現(xiàn)一個(gè)有價(jià)值的機(jī)器學(xué)習(xí)新技巧,例如dropout、疊加等。盡管目前有越來越多將科學(xué)發(fā)現(xiàn)自動化的人工智能系統(tǒng)[40] ,但這些系統(tǒng)高度依賴機(jī)器學(xué)習(xí),而很少有工作將人工智能發(fā)現(xiàn)系統(tǒng)應(yīng)用于機(jī)器學(xué)習(xí)。發(fā)展能夠發(fā)現(xiàn)重要機(jī)器學(xué)習(xí)新技巧的機(jī)器學(xué)習(xí)系統(tǒng),將改變機(jī)器學(xué)習(xí)和整個(gè)世界。

7. 數(shù)據(jù)集,代碼與模型的開源

為實(shí)現(xiàn)可重復(fù)性,本文所涉及的數(shù)千個(gè)數(shù)據(jù)集 (QSAR,LINCS,Metalearning) ,代碼的鏈接 (TML,RF,XGB,SVM,k-NN,NN) ,以及包括所有決策樹的約50000個(gè)隨機(jī)森林模型都可以在開放科學(xué)平臺 (Open Science Platform,OSP) 的知識共享許可協(xié)議數(shù)據(jù)庫中獲得:https://osf.io/vbn5u/。總共有約100 GB 的壓縮數(shù)據(jù)。 很少有機(jī)器學(xué)習(xí)項(xiàng)目能將如此多的可重復(fù)數(shù)據(jù)放到網(wǎng)上 。為了最大化其附加價(jià)值,我們遵循了公開數(shù)字對象的FAIR原則 (Findability,Accessibility,Interoperability,and Reusability,即可發(fā)現(xiàn),可訪問,可互操作,可重用) [41]。

翻譯名詞對照

TL:transfer learning,遷移學(xué)習(xí)

MTL:multitask learning,多任務(wù)學(xué)習(xí)

RF:random forests,隨機(jī)森林

XGB:gradient boosting machine,梯度增強(qiáng)機(jī)

SVM:support vector machine,支持向量機(jī)

KNN:k-nearest neighbors,k-最近鄰

NN:neural network,神經(jīng)網(wǎng)絡(luò)

DNN:deep neural network,深度神經(jīng)網(wǎng)絡(luò)

QSAR:Quantitative structure–activity relationship,定量構(gòu)效關(guān)系

責(zé)任編輯:張燕妮 來源: 集智俱樂部
相關(guān)推薦

2019-03-08 09:28:42

Google 開源技術(shù)

2021-11-19 17:22:43

TensorFlow模型機(jī)器學(xué)習(xí)

2022-03-15 09:00:00

機(jī)器學(xué)習(xí)軟件開發(fā)MLOps

2017-07-07 14:41:13

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)JavaScript

2021-11-02 09:40:50

TensorFlow機(jī)器學(xué)習(xí)人工智能

2022-08-09 13:44:37

機(jī)器學(xué)習(xí)PySpark M數(shù)據(jù)分析

2020-11-24 10:21:14

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-11-17 17:28:29

機(jī)器學(xué)習(xí)技術(shù)人工智能

2021-03-15 11:35:28

人工智能機(jī)器學(xué)習(xí)

2021-04-12 10:46:15

人工智能機(jī)器學(xué)習(xí)

2015-04-14 10:40:31

云計(jì)算機(jī)器學(xué)習(xí)

2025-03-04 08:00:00

機(jī)器學(xué)習(xí)Rust開發(fā)

2017-05-05 09:56:08

神經(jīng)網(wǎng)絡(luò)模型繪畫

2019-12-04 15:08:04

AWS亞馬遜機(jī)器學(xué)習(xí)

2021-12-13 09:14:06

清單管理數(shù)據(jù)集

2021-05-26 16:21:59

亞馬遜云科技機(jī)器學(xué)習(xí)

2024-03-04 08:00:00

PythonOrange3機(jī)器學(xué)習(xí)

2017-02-25 20:32:36

2017-07-13 11:20:30

機(jī)器學(xué)習(xí)業(yè)務(wù)問題MVP

2017-07-21 13:45:48

機(jī)器學(xué)習(xí)分類器MVP模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产成人99久久亚洲综合精品 | 日韩中文字幕第一页 | 国产免费看 | 国内精品成人 | 亚洲国产一区在线 | 成人午夜黄色 | 夜夜爽99久久国产综合精品女不卡 | 久久久久久成人 | 久久久日韩精品一区二区三区 | 久久久久久综合 | 精品一区二区久久久久久久网站 | 成人免费观看男女羞羞视频 | 99久久婷婷国产综合精品电影 | 欧美久久天堂 | 国产亚洲精品一区二区三区 | 国产精品成人一区二区三区夜夜夜 | 国产精品一区在线观看 | 99精品欧美一区二区三区 | 久久黄网| av黄色在线观看 | www久久国产| 中文字幕精品一区二区三区在线 | 日产精品久久久一区二区福利 | 午夜不卡福利视频 | 狠狠色香婷婷久久亚洲精品 | hdfreexxxx中国妞 | 亚洲国产欧美日韩 | 欧美日韩一区二区视频在线观看 | 亚洲高清视频在线观看 | 国产我和子的乱视频网站 | 台湾佬成人网 | 日韩国产三区 | www在线| 美女久久视频 | 欧洲精品在线观看 | 欧洲在线视频 | 国产一卡二卡三卡 | 精品国产欧美一区二区三区成人 | 一区二区三区国产在线观看 | 黄色大片免费网站 | 91精品国产综合久久香蕉麻豆 |