成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

半監督學習:如何克服數據標簽缺乏問題 原創

發布于 2024-8-16 08:12
瀏覽
0收藏

本文將深入理解半監督學習的概念,探索其原理、應用以及徹底改變人們處理數據密集型機器學習任務的方式的潛力。

所有成功實施的機器學習模型都至少由兩個強大的組件支持:數據和模型。一些機器學習工程師表示,他們寧愿把時間花費在模型開發上,也不愿將大量的時間用于數據準備上,其中包括監督學習中的數據標簽。當已解決大多數問題時,對大量數據添加標簽的難度遠遠超過最初獲取數據的難度。

無標簽數據在訓練過程中無法達到所需的準確性,而為監督學習的大量數據集添加標簽既耗時又昂貴。如果數據添加標簽的預算有限怎么辦?哪些數據應該首先添加標簽?這些只是那些寧愿做有成效的工作的機器學習工程師所面臨的令人望而生畏的問題中的一部分。

事實上,在許多領域,標簽缺乏是很自然的情況。以下是一些字段的例子,可以觀察到數據標簽缺乏以及發生這種情況的原因。

研究人員和從業人員已經制定了幾種策略來應對數據標簽缺乏的挑戰:

  • 遷移學習和領域適應
  • 合成數據生成
  • 半監督學習
  • 主動學習

在這些方法中,半監督學習作為一種特別有前途的解決方案脫穎而出。這種技術用戶允許同時使用少量標簽數據和大量無標簽數據。通過結合監督學習和無監督學習的優點,半監督學習在保持模型性能的同時,為應對數據標簽缺乏的挑戰提供了一個潛在的解決方案。

本文將深入理解半監督學習的概念,探索其原理、應用以及徹底改變人們處理數據密集型機器學習任務的方式的潛力。

一、理解半監督學習

半監督學習是一種結合監督學習和無監督學習的機器學習方法,通過訓練模型與少量有標簽數據和大量無標簽數據相結合。這種方法可以用以下的數學方法表示:

  • Let DS:(x, y) ~ p(x,y)是一個小型有標簽數據集,DU:x ~ p(x)是一個大型的無標簽數據集。像往常一樣,使用有標簽數據進行監督學習,使用無標簽數據進行無監督學習。
  • 在半監督學習中,使用兩個數據集來最小化一個結合監督學習和無監督學習成分的損失函數:L=μsLs+μuLu。
  • 該損失函數允許模型同時從有標簽數據和無標簽數據中學習。值得一提的是,該方法在有標簽數據量較大的情況下更加成功。

當獲取一組全面的有標簽數據成本過于昂貴或不切實際時,半監督學習尤其有用。然而,其有效性取決于這樣一個假設,即無標簽數據可以為模型訓練提供有意義的信息,但情況并非總是如此。

其難點在于平衡使用有標簽數據和無標簽數據,以及確保模型不會強化無標簽數據生成的錯誤偽標簽。

二、半監督學習的核心概念

業界已經引入了一些半監督學習的概念,以下了解最具影響力的幾個概念。

置信度和熵

熵最小化的主要思想是確保在有標簽數據上訓練的分類器對無標簽數據也能做出置信度更高的預測(也就是說以最小的熵產生預測)。在這種情況下,熵指的是模型預測的不確定性。熵越小,置信度越高。這種方法已被證明對分類器具有正則化效果。

一個類似的概念是偽標簽,在一些文獻中也被稱為自我訓練,其中包括:

(1)要求分類器預測無標簽數據的標簽。

(2)使用置信度最高的預測樣本作為下一次訓練迭代的額外真實標簽。

這是一種基本類型的半監督學習,應該謹慎應用。如果管理不當,對模型的強化效應可能會潛在地放大初始偏差或錯誤。

類似方法的其他例子包括:

  • 聯合訓練
  • 多視圖訓練
  • Noisy student

這些方法的典型過程通常遵循以下幾個階段:

(1)首先在一部分有標簽數據上訓練模型。

(2)該模型通過為更大規模的無標簽數據預測標簽來生成偽標簽。

(3)選擇置信度最高的標簽(具有最小熵)來豐富訓練數據集。

(4)使用步驟3的豐富數據集對模型進行重新訓練。

這個迭代過程的目的是利用模型不斷增長的信心來提高它在有標簽數據和無標簽數據上的性能。

標簽一致性和正則化

這種方法基于這樣的想法——如果對樣本應用簡單的增強,預測不應該改變類。簡單的增強是指對輸入數據進行微小的修改,例如對圖像進行輕微的旋轉、裁剪或顏色更改。

然后,該模型在無標簽的數據上進行訓練,以確保樣本與其增強版本之間的預測是一致的。這個概念類似于基于一致性約束的自監督學習方法。

使用這種方法的技術示例包括:

  • Pi-Model
  • Temporal Ensembling(時序集成)
  • Mean Teacher
  • FixMatch算法
  • 虛擬對抗訓練(VAT)

這種方法的主要步驟是:

(1)獲取一個無標簽數據的樣本。

(2)創建所選樣本的幾個不同視圖(增強視圖)。

(3)應用分類器并確保這些視圖的預測大致相似。

該方法利用了這樣一個假設,即輸入的微小變化不會顯著地改變模型的預測,從而鼓勵模型從無標簽數據中學習更健壯和可推廣的特征。

與專注于最大化預測置信度的置信度和熵方法不同,標簽一致性和正則化方法強調跨相似輸入的預測的穩定性。這有助于防止對特定數據點的過度擬合,并鼓勵模型學習更有意義的表示。

生成模型

半監督學習中的生成模型使用與監督學習中的遷移學習類似的方法,其中在一個任務中學習到的特征可以轉移到其他下游任務中。

然而,有一個關鍵的區別:生成模型能夠學習數據分布p(x),從該分布中生成樣本,并最終通過改進具有給定目標標簽y的給定樣本x的p(y|x)建模來增強監督學習。這種方法在半監督學習中特別有用,因為它可以利用大量無標簽數據來學習底層數據分布,然后為監督學習任務提供信息。

用于增強半監督學習的最流行的生成模型類型是:

  • GAN(生成對抗網絡)
  • VAE(變分自動編碼器)

該過程通常遵循以下步驟:

(1)構造損失函數的生成部分和監督部分。

(2)使用組合損失函數同時訓練生成模型和監督模型。

(3)對目標任務使用訓練好的監督模型。

在這個過程中,生成模型從有標簽數據和無標簽數據中學習,幫助捕獲數據空間的底層結構。然后,這種學習結構可以為監督模型提供信息,從而可能提高其性能,特別是在有標簽數據缺失的情況下。

基于圖形的半監督學習

基于圖形的半監督學習方法使用圖形數據結構將有標簽數據和無標簽數據表示為節點。這種方法在捕獲數據點之間的復雜關系方面特別有效,當數據具有固有的結構或關系屬性時非常有用。

在這種方法中,標簽通過圖形進行傳播。從無標簽節點到有標簽節點的路徑數有助于確定其標簽。這種方法利用了一個假設——相似的數據點(通過圖中的邊連接)可能具有相似的標簽。

該過程通常遵循以下步驟:

(1)構造一個圖形,其中的節點表示數據點(有標簽數據和無標簽數據)。

(2)通過邊連接節點,通常基于數據點之間的相似性度量(例如,k近鄰或高斯核)。

(3)使用圖形算法(例如標簽傳播或圖神經網絡)將標簽從有標簽節點傳播到無標簽節點。

(4)根據傳播的信息為無標簽節點分配標簽。

(5)可選地重復該過程以優化無標簽節點上的標簽。

當處理具有自然圖形結構的數據(例如社交網絡和引文網絡)或當數據點之間的關系對分類至關重要時,這種方法特別有利。然而,性能對圖形的構造方法和相似度度量的選擇很敏感。這種方法的常用算法包括標簽傳播、標簽擴散以及最近的圖形神經網絡。

三、研究實例

半監督學習在許多領域取得了重大進展,包括語音識別、網頁內容分類和文本文檔分析。這些進步不僅提高了標簽數據有限的任務的性能,還引入了有效利用無標簽數據的新方法。

以下推薦的一些論文代表了半監督學習領域最具影響力和最有趣的貢獻。這些論文塑造了人們對這一主題的理解,并繼續影響著當前的研究和應用。

半監督學習的時間整合(2017):Laine和Aila

本文介紹了一致性正則化的概念,這是后來許多半監督學習方法的基礎。本文作者首先提出了Pi-Model,該模型對每個無標簽的輸入應用兩次隨機增強,并鼓勵對兩個版本進行一致的預測。這種方法利用了模型應該為同一輸入的擾動版本產生類似輸出的想法。

半監督學習:如何克服數據標簽缺乏問題-AI.x社區

在Pi-Model的基礎上,作者引入了Temporal Ensembling(時序集成)方法。該方法通過降低一致性目標中的噪聲,解決了Pi-Model的一個關鍵局限性。Temporal Ensembling沒有比較兩個并發過程的預測,而是為每個無標簽的示例保持過去預測的指數移動平均值(EMA)。EMA作為一致性損失的更穩定的目標,有效地整合了模型隨時間的預測。

Temporal Ensemblin方法在Pi-Model的基礎上得到了顯著改進,表現出更好的性能和更快的收斂速度。這項工作對該領域產生了重大影響,為半監督學習中許多基于一致性的方法奠定了基礎,并展示了如何利用模型自己的預測來改進對無標簽數據的學習。

虛擬對抗訓練(2018):Miyato等人

虛擬對抗訓練(VAT)巧妙地將對抗性攻擊的概念應用于半監督學習。這個想法源于眾所周知的圖像分類中的對抗性示例現象,其中輸入圖像的微小、難以察覺的擾動可能會極大地改變模型的預測。研究人員通過使用反向傳播來最大化模型輸出的變化,但相對于輸入而不是模型權重,發現了這些擾動。

虛擬對抗訓練(VAT)的關鍵創新是將這種對抗性擾動概念應用于半監督學習設置中的無標簽數據。虛擬對抗訓練(VAT)不是使用反向傳播來尋找改變模型預測的擾動,而是使用它來尋找最顯著地改變模型預測分布的擾動。然后對模型進行訓練以抵抗這些擾動,即使在輸入對抗性的小變化情況下也能鼓勵一致的預測。

該方法解決了半監督學習中提高模型魯棒性和泛化能力的問題。虛擬對抗訓練(VAT)的影響是顯著的,它展示了如何在半監督學習中有效地使用對抗性技術,并為對抗性魯棒性和半監督學習的交叉研究開辟了新的途徑。它表明,對抗性機器學習的原理可以被重新用于從無標簽數據中提取更多信息,從而提高半監督學習的性能。

Mean Teacher (2017):Tarvainen和Valpola

Mean Teacher方法引入了一種簡單而有效的方法在半監督學習中創建高質量的一致性目標。其關鍵創新是使用模型權重的指數移動平均來創建一個“教師”(teacher)模型,該模型為“學生”(student)模型提供了目標。這解決了穩定訓練和提高半監督學習性能的問題。

雖然Mean Teacher和Temporal Ensembling都使用EMA,但它們的應用方式不同:

(1)Temporal Ensembling將EMA應用于不同時代的每個數據點的預測。這創建了穩定的目標,但更新緩慢,特別是對于每個示例不經常出現的大型數據集。

(2)另一方面,Mean Teacher將EMA應用于模型自身權重。這創建了一個“教師”模型,它是最近“學生”模型的集合。然后,“教師”模型可以為任何輸入生成一致性目標,包括不可見的增強,從而允許更頻繁的更新。

這種微妙的差異使Mean Teacher能夠更快地適應新數據,并提供更一致的目標,特別是在訓練的早期和更大的數據集。它還允許對學生和教師模型使用不同的增強,從而可能捕獲更廣泛的不變性。

Mean Teacher演示了簡單的平均技術可以顯著提高半監督學習性能。它激發了對半監督學習中師生模型的進一步研究,并展示了如何擴展和改進Temporal Ensembling的思想。

無監督數據增強(2020):Xie等人

無監督數據增強(UDA)利用先進的數據增強技術在半監督學習中實現一致性正則化。關鍵的創新是使用了最先進的數據增強方法,特別是在NLP任務中,這些技術的探索較少。

通過“高級數據增強”,作者指的是超越簡單擾動的更復雜的轉換:

(1)對于圖像任務:UDA使用RandAugment,它會自動搜索最優的增強策略。這包括顏色調整、幾何變換和各種濾鏡的組合。

(2)對于文本任務:UDA引入了使用TF-IDF的回譯和單詞替換等方法。回譯包括將一個句子翻譯成另一種語言,然后再翻譯回原文,創造一個意譯版本。基于TF-IDF.的單詞替換將單詞與同義詞交換,同時保留句子的整體含義。

這些高級增強功能創建了輸入數據的更多樣化和語義上有意義的變體,幫助模型學習更健壯的表示。UDA解決了在不同領域提高半監督學習性能的問題,特別關注文本分類任務。它的影響是顯著的,展示了半監督學習中特定于任務的數據增強的強大功能,并在有標簽數據有限的幾個基準測試中獲得了最先進的結果。

UDA的成功凸顯了在半監督學習中精心設計數據增強策略的重要性,特別是在傳統增強技術有限的領域。

FixMatch (2020):Sohn等人

FixMatch代表了半監督學習技術的顯著簡化,同時實現了最先進的性能。關鍵的創新在于其巧妙地結合了兩個主要思想:

(1)一致性正則化:FixMatch對無標簽數據使用強增強和弱增強。模型對弱增強數據的預測必須與對強增強數據的預期相匹配。

(2)偽標簽:當模型的預測置信度高(高于設定的閾值)時,它只保留弱增強的無標簽數據的偽標簽。

FixMatch的獨特之處在于它對一致性正則化組件使用了極強的增強(如RandAugment),并結合了一種簡單的基于閾值的偽標簽機制。這種方法允許模型從弱增強圖像中生成可靠的偽標簽,并從強增強圖像中學習魯棒表示。

FixMatch在有標簽數據極其有限的情況下表現出色,有時每個類只使用10個標簽示例。它的成功表明,設計良好并且簡單的半監督學習算法可以超越更復雜的方法,在該領域樹立新的基準,并影響后續在低標簽體系下的研究。

Noisy Student (2020):Xie等

Noisy Student為半監督學習引入了一種帶有噪聲注入的迭代自我訓練方法,這是該領域的一個重要里程碑。關鍵的創新是使用一個大型的EfficientNet模型作為“學生”,在“教師”模型的嘈雜預測上進行訓練,并迭代地重復這個過程。

Noisy Student的獨特之處在于其開創性的表現:

(1)超越監督學習:它是第一個超越純監督學習的半監督學習方法,即使在有大量有標簽數據可用的情況下也是如此。這一突破挑戰了半監督學習僅在低標簽數據體系中有用的傳統觀念。

(2)規模和有效性:該方法表明,通過利用大量無標簽的數據(3億張無標簽的圖像),它可以改進在所有128萬張標簽的ImageNet圖像上訓練的最先進的監督模型。

(3)噪聲注入:“噪聲”方面涉及在訓練期間對“學生”應用數據增強、丟棄和隨機深度,這有助于學習更健壯的特征。

Noisy Student在像ImageNet這樣具有挑戰性的大規模數據集上突破了性能的界限。它表明,即使在具有豐富的有標簽數據的場景中,半監督學習技術也是有益的,從而擴展了半監督學習的潛在應用。該方法還激發了對可擴展半監督學習技術及其應用的進一步研究,以改進各個領域的最新模型。

Noisy Student在使用大量有標簽數據的情況下,成功地超越了監督學習,標志著研究人員和實踐者如何看待半監督學習技術的潛力的范式轉變。

半監督學習與深度生成模型(2014):Kingma等人

這篇開創性的論文介紹了一種使用變分自編碼器(VAE)進行半監督學習的新方法。關鍵的創新在于它如何在一個框架內結合生成學習和判別學習。

該方法的核心是組合損失函數,它有兩個主要組成部分:

(1)生成組件:這部分損失確保模型學習有效地重構輸入數據,捕獲底層數據分布p(x)。

(2)判別組件:這部分側重于分類任務,優化對標記數據的準確預測。

組合損失函數允許模型同時從有標簽數據和無標簽數據中學習。對于有標簽數據,這兩個組件都使用。對于無標簽數據,只有生成組件是活躍的,但它通過學習更好的表示間接提高了判別性能。

這種方法解決了利用無標簽數據來提高分類性能的問題,特別是在標簽數據缺失的情況下。它為在半監督學習中使用深度生成模型開辟了新的方向。該方法還展示了生成模型如何改進判別任務,彌合無監督學習和有監督學習之間的差距,并激發了生成建模和半監督學習交叉領域的大量后續研究。

這項工作為半監督學習的許多未來發展奠定了基礎,展示了如何有效地利用深度生成模型從無標簽數據中提取有用的信息以進行分類任務。

四、應用實例

半監督學習已經在各個領域取得了重大進展,證明了它在處理大量無標簽數據方面的多功能性和有效性。以下是一些值得注意的應用:

語音識別

2021年,Meta公司(其前身為Facebook)在一個基礎模型上使用半監督學習進行自我訓練,該模型訓練了100小時有標簽的音頻和500小時的無標簽數據。這種方法將單詞錯誤率降低了33.9%,顯示了半監督學習在改進語音識別系統方面的潛力。

網頁內容分類

像Google這樣的搜索引擎使用半監督學習對網頁內容進行分類并提高搜索相關性。該應用程序對于處理龐大且不斷增長的網頁量至關重要,可以實現更準確和有效的內容分類。

文本文檔分類

半監督學習已經被證明在構建文本分類器方面是有效的。例如,韓國延世大學開發的SALnet文本分類器利用LSTM等深度學習神經網絡進行情感分析等任務。這展示了半監督學習在自然語言處理任務中管理大型無標簽數據集的能力。

醫學圖像分析

2023年,斯坦福大學的研究人員利用半監督學習技術提高了MRI掃描中腦腫瘤分割的準確性。通過利用一小部分有標簽的圖像和大量無標簽數據,與監督學習相比,他們在腫瘤檢測精度方面提高了15%。這個應用程序突出了半監督學習在醫學成像中的潛力,在醫學成像領域,有標簽數據往往稀缺且獲取成本高昂,但無標簽數據卻很多。

結論

半監督學習如今已經成為一種重要的機器學習技術,有效地彌合了大量無標簽數據和有標簽數據稀缺之間的差距。通過巧妙地結合監督學習和無監督學習方法,半監督學習為數據標記的長期挑戰提供了實用而有效的解決方案。本文深入研究了各種半監督學習方法,從基本的一致正則化技術(例如Temporal Ensembling)到尖端的方法(如FixMatch和Noisy Student)。

半監督學習的多功能性在其跨廣泛領域(包括語音識別、網頁內容分類和文本文檔分析)的成功實現中得到了突出的體現。在這個數據生成遠遠超過標記能力的時代,半監督學習成為機器學習發展的關鍵技術,使研究人員和從業者能夠利用大量無標簽數據集的潛力。

展望未來,半監督學習將在人工智能和機器學習領域扮演更重要的角色。盡管挑戰依然存在,例如利用極其有限的標簽數據增強性能,以及將半監督學習技術應用于更復雜的現實場景,但該領域的快速發展表明將會繼續創新。這些發展可能會導致模型訓練和數據解釋的突破性方法。

半監督學習的核心原則可能會影響并與機器學習的其他新興領域交叉,包括小樣本學習和自監督學習。這種思想的交叉融合有望進一步擴大半監督學習的影響,并有可能重塑人們對從有限的標簽數據中學習的理解。

半監督學習不僅代表了一組技術,還代表了人們如何處理從數據中學習這一基本問題的范式轉變。隨著半監督學習的不斷發展,它很可能是釋放數字時代特征的大量無標簽數據資源的全部潛力的關鍵。

原文標題:Semi-Supervised Learning: How To Overcome the Lack of Labels,作者:Aleksandr Timashov

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 宅女噜噜66国产精品观看免费 | 天天视频一区二区三区 | va在线| 国产精品99999 | 亚洲www| 精品一区在线免费观看 | 午夜丰满寂寞少妇精品 | 免费精品 | 中文字幕日韩一区 | a国产视频 | 久久新视频 | 日韩综合在线 | 欧美国产91 | 亚洲精品日韩综合观看成人91 | 日本三级全黄三级三级三级口周 | 欧美一级片中文字幕 | 亚洲国产精品一区二区第一页 | 日韩免费视频一区二区 | 在线免费黄色小视频 | 成人精品一区二区 | 国产精品无码久久久久 | 国产精品成人69xxx免费视频 | 欧美一级淫片免费视频黄 | 99综合在线 | 欧美日韩1区2区 | 国产亚洲网站 | 国产精品国产 | 超碰成人在线观看 | 九九久久精品 | 中文字幕加勒比 | 久久久久99| 在线国产视频 | 国产精品久久久乱弄 | 国产精品99久久久久久www | 91久久国产 | 亚洲福利在线视频 | 成人免费视频 | 伊人伊人伊人 | 国产精品亚洲欧美日韩一区在线 | 婷婷综合在线 | 两性午夜视频 |