2021年機(jī)器學(xué)習(xí)的下一步是什么?
2020年啊!從全球醫(yī)療保健問題到技術(shù)采用和再利用方式的革命,已經(jīng)過去了一年。
每年年底,停下來思考一下機(jī)器學(xué)習(xí)(ML)的趨勢總是很有趣的,這種趨勢已經(jīng)出現(xiàn)了驚人的增長,尤其是在工具,資源和信息可訪問性方面。
作為PerceptiLabs視覺建模工具的開發(fā)人員,我們將始終關(guān)注這些趨勢,并詢問下一步將如何發(fā)展,因為我們將繼續(xù)增強(qiáng)工具的功能。這樣做意味著調(diào)查水晶球或黑匣子(取決于選擇的工具),以了解ML的未來前景。在最近進(jìn)行了這項練習(xí)之后,以下是我們對2021年ML的三大預(yù)測(倒計時)。
尖端模型的可用性
排名第三的是可用的尖端模型的增長。隨著ML的廣泛采用,我們看到了開放訪問模型的平行趨勢。一個促成因素是大型ML公司正在不斷提高模型性能的標(biāo)準(zhǔn)。他們之所以能夠做到這一點,是因為他們擁有龐大而全面的數(shù)據(jù)集,可以在專門的ML從業(yè)人員團(tuán)隊的支持下訓(xùn)練模型。
許多中小型公司和組織希望利用這些高性能模型,但可能無法從頭開始構(gòu)建它們。因此,許多人正在轉(zhuǎn)向遷移學(xué)習(xí),以便他們可以在經(jīng)過大量培訓(xùn)的這些模型的基礎(chǔ)上,甚至重新利用這些模型。相反,許多確實有資源開發(fā)此類模型的大型企業(yè)已經(jīng)意識到,他們?nèi)匀豢梢詮耐獠繉ζ淠P退龅呢暙I(xiàn)中受益。
學(xué)生,業(yè)余愛好者和其他嘗試ML的團(tuán)體也使用開源和公共模型,其中一些人使用或貢獻(xiàn)于這些模型來促進(jìn)他們的職業(yè)發(fā)展。
更好的ML支持工具
在2021年的頂級ML預(yù)測中排名第二的是為ML實踐者提供的更全面的工具支持。
僅僅生成一個可以做出相當(dāng)不錯的預(yù)測的ML模型已不再足夠。當(dāng)今的機(jī)器學(xué)習(xí)從業(yè)者要求模型具有可解釋性,需要理解為什么要進(jìn)行預(yù)測,也就是說,如果愿意,可以進(jìn)入眾所周知的黑匣子,然后決定是否應(yīng)將模型投入生產(chǎn)。這在企業(yè)中經(jīng)常要根據(jù)社會因素(包括道德,社會公正和公平)對預(yù)測進(jìn)行仔細(xì)檢查的情況下尤其重要。
模型卡的使用已成為模型開發(fā)的強(qiáng)大工具,我們希望它們在2021年變得更加普遍。從本質(zhì)上講,這些卡(實際上更像是設(shè)計文檔)正式描述了模型的各個方面。它們的內(nèi)容可以包括:
- 詳細(xì)概述:概述了模型的用途。
- 規(guī)格:層/神經(jīng)網(wǎng)絡(luò),輸入和輸出的類型。
- 后勤:作者,日期,其他文檔的鏈接,如何引用模型,許可證。
- 預(yù)期用途:適用用途,領(lǐng)域限制等。
- 限制和注意事項:速度/準(zhǔn)確性約束,道德和隱私問題,潛在的偏見等。
- 培訓(xùn):數(shù)據(jù)源,測試環(huán)境和設(shè)備等。
- 目標(biāo)和實際績效指標(biāo):諸如預(yù)期與實際準(zhǔn)確性之類的指標(biāo)。
有關(guān)模型卡的一些很好的示例,請從MediaPipe中查看此收藏集。
另一個關(guān)鍵工具是可視化。在設(shè)計,培訓(xùn)甚至審計過程中可視化模型的能力本身就是非常寶貴的。這就是PerceptiLabs的亮點,因為它為TensorFlow提供了GUI和可視化API。
這些方面補(bǔ)充了模型卡,因為團(tuán)隊成員可以根據(jù)模型卡上指定的內(nèi)容不斷評估模型。有關(guān)其他信息,請查看TensorFlow概述以及PerceptiLabs如何使其更容易。
在PerceptiLabs,我們還在尋求超越具有支持解釋功能的可視化功能。不久,我們將添加新的庫,這些庫不僅使您可以查看正在使用的數(shù)據(jù),還可以洞悉該數(shù)據(jù)的哪一部分(例如,圖像的某些部分,CSV數(shù)據(jù)的某些列等)。具有最大的影響預(yù)測。
邊緣機(jī)器學(xué)習(xí)
最后,在您一直等待的時刻,我們對2021年的ML預(yù)測(鼓聲):邊緣機(jī)器學(xué)習(xí)。
我們看到邊緣推理的趨勢正在增長,我們預(yù)計該細(xì)分市場將在2021年大幅增長。這有很多因素,包括物聯(lián)網(wǎng)的增長以及對遠(yuǎn)程工作設(shè)備的更多依賴。但是,要對此趨勢有所了解,最好將邊緣推理與"面向云的ML"進(jìn)行比較和對比,后者在面向企業(yè)的設(shè)備和消費類設(shè)備(例如Google Mini)中都可以找到。
支持云的ML可能會讓人聯(lián)想到可以訪問互聯(lián)網(wǎng)的微型設(shè)備的圖像,這些設(shè)備會收集數(shù)據(jù),將數(shù)據(jù)發(fā)送到云以進(jìn)行推斷,并且在某些情況下會在設(shè)備上接收數(shù)據(jù)(例如執(zhí)行某些操作)。這樣的部署對于許多情況(例如,對于檢測欺詐的銀行而言)是必要的,并且非常適合于可能不需要較長延遲的情況,需要第三方云托管的情況等。也就是說,5G的增長可能會使延遲成為過去。
但是,邊緣設(shè)備正在迅速獲得在邊緣執(zhí)行推理所需的處理能力。以Google的Coral為例,它具有板載張量處理單元(TPU),并且可以處理眾多IoT用例(例如,分析圖像和語音)。通過將此類技術(shù)封裝在一個小巧的外形中,現(xiàn)在就可以進(jìn)行推理,而無需Internet連接和云后端。此設(shè)置還通過將所有收集的數(shù)據(jù)保留在設(shè)備上來增加安全性,這一方面在設(shè)備上得到了進(jìn)一步增強(qiáng)。
從技術(shù)角度來看,此類部署通常需要更小的ML模型,這些模型可以快速轉(zhuǎn)移并適合有限的嵌入式設(shè)備存儲。一種流行的解決方案是在模型中使用量化(降低數(shù)值精度)來減小模型的大小。當(dāng)然,確定正確的量化數(shù)量必須與不可避免的準(zhǔn)確性降低保持平衡。有關(guān)更多信息,請查看我們的珊瑚手語教程,該教程演示在PerceptiLabs中的模型導(dǎo)出過程中使用全整數(shù)量化以將權(quán)重從32位浮點數(shù)減少到8位定點值,以及如何將模型加載到Coral開發(fā)板上。
結(jié)論
2020年是唱片業(yè)的一年,但將被銘記為即使是最艱巨的挑戰(zhàn)也要克服的時代。我們希望認(rèn)為這不僅適用于全球性事件,而且還適用于ML工具,資源和信息的演變和民主化。
雖然我們的主題是2020年,但我們今年的主要預(yù)測之一是MLOps的增長。MLOps可以按照MLOps:僅適用于機(jī)器學(xué)習(xí)的"運維"中所述的不同級別采用。
總體而言,這是值得反思的一年,我們期待看到我們對ML的預(yù)測在新的一年中得以實現(xiàn)。