機(jī)器教學(xué)入門(mén)指南
什么是機(jī)器教學(xué)?
盡管人工智能(AI)已在許多行業(yè)得到廣泛應(yīng)用,但根據(jù)麻省理工學(xué)院斯隆管理學(xué)院的研究,只有不到10%的采用人工智能的企業(yè)真正實(shí)現(xiàn)了預(yù)期的商業(yè)收益。要從人工智能中真正獲益,企業(yè)必須找到將人類與機(jī)器緊密結(jié)合的方式,這一概念被稱為“組織學(xué)習(xí)”。具體而言,許多企業(yè)在初期應(yīng)用人工智能時(shí),通常會(huì)選擇那些已經(jīng)具備大量可用數(shù)據(jù)且容易訓(xùn)練模型的低難度場(chǎng)景,比如客戶支持分流、社交媒體情感分析以及市場(chǎng)營(yíng)銷中的客戶細(xì)分等。雖然這些應(yīng)用場(chǎng)景較為普遍,但往往并不是企業(yè)中最具價(jià)值的部分。對(duì)于成功的企業(yè)來(lái)說(shuō),要利用人工智能創(chuàng)造最大價(jià)值,通常應(yīng)關(guān)注那些能夠增強(qiáng)領(lǐng)域?qū)<夷芰Φ膽?yīng)用場(chǎng)景。
然而,這也帶來(lái)了一個(gè)問(wèn)題:要利用人工智能來(lái)增強(qiáng)領(lǐng)域?qū)<业哪芰Γ捅仨氉屵@些專家參與到模型的訓(xùn)練過(guò)程中。例如,一家大型醫(yī)療機(jī)構(gòu)可能會(huì)選擇開(kāi)發(fā)一個(gè)人工智能系統(tǒng),用于診斷某些特定類型的癌癥。為了讓人工智能完成該任務(wù),必須使用由腫瘤學(xué)家和放射科醫(yī)生等專家標(biāo)注的高質(zhì)量數(shù)據(jù)進(jìn)行模型訓(xùn)練。然而,對(duì)大多數(shù)企業(yè)而言,這個(gè)過(guò)程成本過(guò)高,因?yàn)閷<屹Y源非常緊張,難以長(zhǎng)時(shí)間投入到數(shù)據(jù)標(biāo)注工作中。麻省理工學(xué)院的研究團(tuán)隊(duì)提出了“組織學(xué)習(xí)”的解決方案,即讓領(lǐng)域?qū)<遗c機(jī)器協(xié)作,共同學(xué)習(xí)。這種人機(jī)互學(xué)的模式被認(rèn)為是人工智能成功的關(guān)鍵。然而,要實(shí)現(xiàn)這種模式并不容易,首先是領(lǐng)域?qū)<冶揪拖∪保y以兼顧數(shù)據(jù)標(biāo)注工作和日常專業(yè)任務(wù)。因此,人機(jī)互學(xué)并未完全解決企業(yè)面臨的專家數(shù)量不足的核心問(wèn)題。
近年來(lái),機(jī)器教學(xué)日益受到關(guān)注,主要側(cè)重于解決人工智能的領(lǐng)域?qū)<移款i問(wèn)題。傳統(tǒng)的機(jī)器學(xué)習(xí)研究通常聚焦于優(yōu)化學(xué)習(xí)算法或網(wǎng)絡(luò)架構(gòu),而如今的機(jī)器教學(xué)則更關(guān)注如何提高人類在訓(xùn)練模型時(shí)的效率。雖然一個(gè)“更聰明的學(xué)生”(即創(chuàng)新的模型架構(gòu))能夠用更少的樣本比“普通學(xué)生”更快地學(xué)習(xí)專家知識(shí),但這種創(chuàng)新往往非常稀少且難以預(yù)測(cè)。與此相比,在任何人工智能/機(jī)器學(xué)習(xí)應(yīng)用中,無(wú)論“學(xué)生”模型有多么復(fù)雜,一個(gè)更高效的“老師”(即領(lǐng)域?qū)<?都能產(chǎn)生巨大的影響,可以在同一時(shí)間內(nèi)完成成百上千人的工作。
目前人工智能/機(jī)器學(xué)習(xí)實(shí)施中的最大制約因素是專家稀缺,但在現(xiàn)有的機(jī)器學(xué)習(xí)工作流程中,還存在其他重大障礙,妨礙各企業(yè)從投資中獲得應(yīng)有的回報(bào)。機(jī)器學(xué)習(xí)工作流程本身存在脫節(jié)和技術(shù)債務(wù),導(dǎo)致機(jī)器學(xué)習(xí)科學(xué)家發(fā)揮的效率遠(yuǎn)低于潛在水平。此外,隨著模型漂移問(wèn)題的出現(xiàn),幾乎無(wú)法保持工作流程的敏捷性,因?yàn)榘l(fā)生漂移的模型需要通過(guò)新的數(shù)據(jù)進(jìn)行重新訓(xùn)練,而這往往會(huì)耗費(fèi)專家標(biāo)注員大量的時(shí)間去維護(hù)原有模型管道。此外,現(xiàn)有的機(jī)器學(xué)習(xí)流程在可解釋性方面也存在問(wèn)題。如果訓(xùn)練數(shù)據(jù)集存在偏差且無(wú)法追溯到具體的標(biāo)注員(因?yàn)闃?biāo)注員太多或者相應(yīng)標(biāo)注員已經(jīng)離職),那就難以理解導(dǎo)致這些偏差的原因。
工作效率
軟件工程師長(zhǎng)期強(qiáng)調(diào)“心流狀態(tài)”(Flow State)對(duì)于編程的重要性,但在數(shù)據(jù)科學(xué)的工作流程中,這一概念并未得到足夠重視。例如,在開(kāi)始構(gòu)建模型之前,首先需要標(biāo)注好的數(shù)據(jù)才能進(jìn)入下一步。然而,在項(xiàng)目確定后,可能還需要等待數(shù)周才能完成數(shù)據(jù)標(biāo)注。這個(gè)標(biāo)注過(guò)程常常是整個(gè)工作流程中最為耗時(shí)的環(huán)節(jié),而在此環(huán)節(jié)完成之前,幾乎無(wú)法進(jìn)行其他任何后續(xù)工作。
“你永遠(yuǎn)都在標(biāo)注數(shù)據(jù)”是機(jī)器學(xué)習(xí)專家常常帶著憤怒說(shuō)出的一句話。即便模型已經(jīng)構(gòu)建并投入使用,標(biāo)注工作也沒(méi)有結(jié)束。模型并不會(huì)永遠(yuǎn)保持靜態(tài)。隨著時(shí)間的推移,由于數(shù)據(jù)環(huán)境的變化,模型會(huì)產(chǎn)生漂移,性能也會(huì)下降。為了應(yīng)對(duì)漂移,需要定期重新訓(xùn)練模型。然而,如何衡量模型漂移?盡管可以通過(guò)一些統(tǒng)計(jì)指標(biāo)(例如Kullback-Leibler散度、Jensen-Shannon散度或Kolmogorov-Smirnov檢驗(yàn))來(lái)追蹤模型輸入和輸出,但在沒(méi)有具體標(biāo)注數(shù)據(jù)可供參考的情況下,難以解讀這些統(tǒng)計(jì)指標(biāo)。與在開(kāi)發(fā)環(huán)境中一樣,通常通過(guò)查看精度、準(zhǔn)確率、召回率等指標(biāo)來(lái)評(píng)估模型性能,但這些指標(biāo)都是通過(guò)將模型預(yù)測(cè)結(jié)果與標(biāo)注數(shù)據(jù)對(duì)比得出的。在開(kāi)發(fā)環(huán)境中,可以使用驗(yàn)證數(shù)據(jù)集作為基準(zhǔn),然而在生產(chǎn)環(huán)境中,唯一可用的基準(zhǔn)標(biāo)注數(shù)據(jù),往往只能通過(guò)定期標(biāo)注生產(chǎn)數(shù)據(jù)來(lái)獲得。這一過(guò)程難以擴(kuò)展,因?yàn)槊總€(gè)生產(chǎn)模型都需要持續(xù)的人力投入來(lái)進(jìn)行維護(hù)。
簡(jiǎn)而言之,標(biāo)注工作是機(jī)器學(xué)習(xí)工作流程中最需要反復(fù)進(jìn)行的環(huán)節(jié),也是整個(gè)過(guò)程中的關(guān)鍵瓶頸。由于人工標(biāo)注需要耗費(fèi)大量時(shí)間,現(xiàn)有的機(jī)器學(xué)習(xí)工作流程往往存在脫節(jié)且效率低下的問(wèn)題,難以保持高效、流暢的進(jìn)展?fàn)顟B(tài)。
敏捷性
當(dāng)預(yù)測(cè)對(duì)象發(fā)生變化時(shí),模型會(huì)受到什么影響?例如,假設(shè)你正在構(gòu)建一個(gè)分類器,用以基于相關(guān)規(guī)則或法規(guī)來(lái)識(shí)別個(gè)人身份信息(PII),如果這些規(guī)則或法規(guī)發(fā)生變化,新增了某種全新的個(gè)人身份信息類型,那么模型該如何應(yīng)對(duì)?
再比如,假設(shè)你是電子郵件服務(wù)數(shù)據(jù)科學(xué)團(tuán)隊(duì)的一員。你們團(tuán)隊(duì)負(fù)責(zé)管理垃圾郵件檢測(cè)模型,并且曾投入大量精力,基于多個(gè)特征構(gòu)建了一個(gè)高效的模型,成功識(shí)別了垃圾郵件。可是,隨著時(shí)間的推移,你們發(fā)現(xiàn)模型的性能開(kāi)始下滑,誤報(bào)和漏報(bào)的比例逐漸增加。這很可能是因?yàn)檩斎霐?shù)據(jù)發(fā)生了變化,比如,用戶的行為發(fā)生了變化,可能用戶現(xiàn)在發(fā)送郵件的頻率大幅增加;或者垃圾郵件發(fā)送者改進(jìn)了策略,繞過(guò)了模型的檢測(cè)。
為了解決這些問(wèn)題,團(tuán)隊(duì)需要重新標(biāo)注數(shù)據(jù)并重新訓(xùn)練模型,但應(yīng)該多久進(jìn)行一次重新標(biāo)注和重新訓(xùn)練?應(yīng)該從什么時(shí)候開(kāi)始提前創(chuàng)建新的訓(xùn)練數(shù)據(jù)?重新標(biāo)注和重新訓(xùn)練的過(guò)程往往需要數(shù)周的時(shí)間,這意味著團(tuán)隊(duì)難以快速適應(yīng)變化,尤其是在發(fā)生突發(fā)事件(比如新冠疫情爆發(fā))時(shí),快速響應(yīng)至關(guān)重要,而目前的機(jī)器學(xué)習(xí)工作流程無(wú)法充分適應(yīng)這種需求,導(dǎo)致響應(yīng)速度較慢。
可解釋性
在模型開(kāi)發(fā)流程中,可解釋性是大多數(shù)機(jī)器學(xué)習(xí)從業(yè)者都非常重視的一個(gè)關(guān)鍵概念。為了提升模型的可解釋性,我們可以采取多種方法,例如使用Shapley值,或者選擇本身易于解讀的模型。然而,偏差問(wèn)題通常來(lái)源于訓(xùn)練數(shù)據(jù)本身。如果標(biāo)注員帶有偏見(jiàn),或數(shù)據(jù)采樣方式本身存在偏差,則模型很容易學(xué)習(xí)到這些偏差。通過(guò)各種方法提升模型的可解釋性,我們可以診斷出模型偏差,發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)中的問(wèn)題,但真正的挑戰(zhàn)在于如何解讀數(shù)據(jù)中標(biāo)注的標(biāo)簽。
雖然找出數(shù)據(jù)中存在的偏見(jiàn)和偏差很有幫助,但更重要的問(wèn)題是能否解釋其中原因,例如,為什么標(biāo)注員認(rèn)為某條包含仇恨言論的推文不屬于有毒內(nèi)容?為什么標(biāo)注員錯(cuò)誤地將某份來(lái)自少數(shù)群體的信貸申請(qǐng)打上了不合格標(biāo)簽?目前,唯一能夠獲得這種深層次可解釋性的方法就是直接詢問(wèn)標(biāo)注員,了解他們打上某個(gè)標(biāo)簽的具體原因,但這并非易事。標(biāo)注團(tuán)隊(duì)人員流動(dòng)率高,標(biāo)注員可能為了趕進(jìn)度而無(wú)法做到充分專注,而且有時(shí)難免會(huì)出現(xiàn)失誤。這些因素使得我們很難追溯到標(biāo)注錯(cuò)誤的根本原因,也導(dǎo)致數(shù)據(jù)團(tuán)隊(duì)難以快速解決模型中的問(wèn)題。
應(yīng)用場(chǎng)景覆蓋
如前文所述,大多數(shù)企業(yè)未能從人工智能投資中獲得預(yù)期回報(bào)的主要原因是,最具價(jià)值的應(yīng)用場(chǎng)景往往需要領(lǐng)域?qū)<腋冻龃罅繒r(shí)間和精力。目前,許多最具影響力的機(jī)器學(xué)習(xí)/人工智能解決方案都需要大量標(biāo)注數(shù)據(jù),往往被認(rèn)為太難實(shí)現(xiàn)或成本過(guò)高,甚至不值得嘗試。例如,假設(shè)你想開(kāi)發(fā)一個(gè)用于檢測(cè)磁共振(MRI)影像中特定類型癌癥的模型,就需要大量的放射科醫(yī)生和腫瘤學(xué)專家參與數(shù)據(jù)標(biāo)注工作。毫無(wú)疑問(wèn),如果這類模型能夠成功構(gòu)建,將會(huì)帶來(lái)巨大的價(jià)值,因此從影響力的角度來(lái)看,構(gòu)建這類模型的理由非常明確。然而,很多企業(yè)可能只有少數(shù)幾位這類領(lǐng)域?qū)<遥麄兊臅r(shí)間非常寶貴,難以投入到數(shù)據(jù)標(biāo)注工作中。于是,盡管該項(xiàng)目存在巨大的潛在價(jià)值,但由于專家資源稀缺,商業(yè)案例難以推進(jìn),最終導(dǎo)致項(xiàng)目擱置。
幾乎所有垂直行業(yè)都面臨這一挑戰(zhàn):領(lǐng)域?qū)<业某杀具^(guò)高,導(dǎo)致極具價(jià)值的模型難以獲得足夠的資源支持。而那些易于構(gòu)建的模型往往實(shí)際價(jià)值較低。這樣一來(lái),很多企業(yè)陷入困境,難以讓人工智能真正發(fā)揮出巨大的影響力。
機(jī)器教學(xué)解決方案的特性
通過(guò)聚焦于提高機(jī)器教師的效率,我們可以更有效地解決工作流程中的人工瓶頸,一舉解決上述四個(gè)問(wèn)題。一個(gè)高效的機(jī)器教學(xué)解決方案應(yīng)具備以下特性,才能顯著降低人力成本:
- 簡(jiǎn)便的數(shù)據(jù)探索領(lǐng)域?qū)<覒?yīng)能輕松瀏覽數(shù)據(jù),從中發(fā)現(xiàn)規(guī)律,提煉出有價(jià)值的信息。
- 表達(dá)能力強(qiáng)的信息和上下文捕捉接口在與數(shù)據(jù)交互的過(guò)程中,領(lǐng)域?qū)<覒?yīng)能夠記錄他們發(fā)現(xiàn)的模式及上下文信息。例如,用戶可能希望定義一個(gè)正則表達(dá)式或其他函數(shù),大致描述某一標(biāo)簽所對(duì)應(yīng)的數(shù)據(jù)特征。
- 緊密的反饋循環(huán)在工作過(guò)程中,領(lǐng)域?qū)<覒?yīng)能獲得平臺(tái)的反饋,指導(dǎo)他們?nèi)绾胃咝Ю脮r(shí)間。這些指導(dǎo)可能是對(duì)領(lǐng)域?qū)<乙寻l(fā)現(xiàn)模式的反饋,或是平臺(tái)提供的優(yōu)化建議,幫助專家將精力集中在最具影響力的方面。
- 以自動(dòng)化為核心最終,標(biāo)注員的工作應(yīng)僅限于系統(tǒng)完全接管前的階段。持續(xù)維護(hù)工作流程的成本應(yīng)盡可能接近零。
- 良好的可解釋性和推理能力由于高度依賴自動(dòng)化,機(jī)器教學(xué)平臺(tái)必須具備強(qiáng)大的可解釋性。這些系統(tǒng)用于訓(xùn)練并部署在生產(chǎn)環(huán)境中使用的模型,因此,關(guān)鍵在于能夠清晰地解釋“為什么標(biāo)簽是Y1而不是Y2”,并基于此做出相應(yīng)調(diào)整。
- 機(jī)器學(xué)習(xí)專家與領(lǐng)域?qū)<业穆氊?zé)分離在某些情況下,“領(lǐng)域?qū)<摇笨赡苁菣C(jī)器學(xué)習(xí)從業(yè)者,但大多數(shù)時(shí)候并非如此。因此,必須明確區(qū)分兩者的職責(zé):領(lǐng)域?qū)<覒?yīng)專注于提供專業(yè)知識(shí),而機(jī)器學(xué)習(xí)專家則專注于從這些領(lǐng)域知識(shí)中進(jìn)行機(jī)器學(xué)習(xí)和模型訓(xùn)練。將這一框架應(yīng)用于上述實(shí)際問(wèn)題,可以清晰地展現(xiàn)機(jī)器教學(xué)如何顯著改善現(xiàn)有工作流程。
工作效率
不再需要大量標(biāo)注員,通常只需一兩位領(lǐng)域?qū)<壹纯赏瓿蓸?biāo)注工作。
得益于高度自動(dòng)化,標(biāo)注過(guò)程從幾周縮短為幾小時(shí)或幾天。
敏捷性
隨著環(huán)境的變化,根據(jù)平臺(tái)中提煉出的上下文進(jìn)行調(diào)整時(shí)成本應(yīng)該可以忽略不計(jì)。如果類別定義發(fā)生變化,或者輸入數(shù)據(jù)出現(xiàn)漂移,平臺(tái)應(yīng)能輕松調(diào)整以適應(yīng)這些變化。
應(yīng)用場(chǎng)景覆蓋
由于機(jī)器教學(xué)工作流不需要大量領(lǐng)域?qū)<遥@就能夠輕松實(shí)現(xiàn)一些原本由于領(lǐng)域?qū)<页杀具^(guò)高而難以實(shí)現(xiàn)的應(yīng)用場(chǎng)景。只需一名領(lǐng)域?qū)<一ㄙM(fèi)幾小時(shí)啟動(dòng)系統(tǒng),等到自動(dòng)化技術(shù)開(kāi)始運(yùn)作,后續(xù)就只需偶爾檢查,處理模型在生產(chǎn)環(huán)境中出現(xiàn)的漂移。
可解釋性
可解釋性是機(jī)器教學(xué)平臺(tái)的核心特性,我們能夠獲得比單純模型輸出更為深入的解釋。通過(guò)機(jī)器教學(xué)平臺(tái),我們可以快速發(fā)現(xiàn)標(biāo)注錯(cuò)誤,并迅速分析原因(是概念提煉不準(zhǔn)確?環(huán)境發(fā)生了變化?還是平臺(tái)缺少足夠的信號(hào)來(lái)正確理解該類別?)