成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深入探討語音轉文本技術的演進

發布于 2025-1-6 11:19
瀏覽
0收藏

語音轉文本 (STT),也稱為自動語音識別 (ASR),是一種將口語轉錄成書面文本的 AI 技術,現在越來越多的公司利用 STT 在現有應用程序中嵌入新的音頻功能,并為一系列用例創建智能助手。 

語音轉文本模型簡史

首先,一些背景信息。語音轉文本是 AI 中自然語言處理 (NLP) 分支的一部分。它的目標是使機器能夠理解人類語音并將其轉錄成書面格式。 

你可能會想,轉錄語音有多難。簡短的回答是:非常難。與可以以相對簡單的方式放入矩陣中的圖像不同,音頻數據受背景噪聲、音頻質量、口音和行業術語的影響,這使得機器難以掌握。 

幾十年來,研究人員一直在努力應對這些挑戰。這一切都始于 1949 年 Weaver 的備忘錄,它激發了使用計算機處理語言的想法。早期的自然語言處理 (NLP) 模型使用隱馬爾可夫模型 (HMM) 等統計方法來轉錄語音,但它們準確識別不同口音、方言和語音風格的能力受到限制。 

在接下來的幾十年里,從語法理論到符號 NLP 再到統計模型,見證了許多重要的發展,所有這些都為我們今天所知道的 ASR 系統鋪平了道路。但該領域真正的重大變化發生在 2010 年代,隨著機器學習 (ML) 和深度學習的興起。 

統計模型被 ML 算法所取代,例如深度神經網絡 (DNN) 和遞歸神經網絡 (RNN),這些算法能夠捕獲以前難以檢測的慣用表達和其他細微差別。不過,仍然存在上下文問題:模型無法根據整個句子推斷特定單詞的含義,這不可避免地導致了錯誤。 

然而,這十年來最大的發明是 2017 年發明 Transformers。Transformers 的自注意力機制徹底改變了 ASR。 與以前的所有模型不同,Transformers 成功地捕獲了不同詞性之間的長期依賴關系,使它們能夠考慮每個轉錄句子的更廣泛上下文。 

深入探討語音轉文本技術的演進-AI.x社區

基于 Transformers 的 ASR 模型的出現重塑了語音識別領域。其卓越的性能和效率為各種應用程序提供支持,從語音助手到高級轉錄和翻譯服務。 

許多人認為,正是在那時,我們從單純的“語音識別”過渡到更全面的“語言理解”領域。 

由于最新的突破,ASR 系統的整體性能(在速度和質量方面)多年來得到了顯著提高,這得益于開源存儲庫的可用性、來自 Web 的大型訓練數據集以及更易于訪問的 GPU/CPU 硬件成本。 

Speech-to-Text 的工作原理

如今,尖端的 ASR 解決方案依靠各種模型和算法來產生快速準確的結果。但是 AI 究竟是如何將語音轉換為書面形式的呢? 

轉錄是一個復雜的過程,涉及多個階段和 AI 模型協同工作。以下是 speech-to-text 中關鍵步驟的概述: 

  1. 預處理。 在轉錄輸入音頻之前,它通常會經歷一些預處理步驟。這可能包括降噪、回聲消除和其他提高音頻信號質量的技術。
  2. 特征提取。 然后將音頻波形轉換為更適合分析的表示形式。這通常涉及從音頻信號中提取特征,以捕獲聲音的重要特征,例如頻率、振幅和持續時間。梅爾頻率倒譜系數 (MFCC) 是語音處理中常用的特征。
  3. 聲學建模。 涉及訓練一個統計模型,該模型將提取的特征映射到音素,音素是語言中的最小聲音單位。
  4. 語言建模。 語言建模側重于語音的語言方面。它涉及創建一個概率模型,說明單詞和短語在特定語言中的可能顯示方式。這有助于系統根據句子中的前一個單詞,就哪些單詞更有可能出現做出明智的決定。
  5. 譯碼。 在解碼階段,系統使用聲學和語言模型將音頻轉錄為單詞或標記序列。此過程涉及搜索與給定音頻特征對應的最可能的單詞序列。
  6. 后處理。 解碼后的轉錄可能仍包含錯誤,例如誤識別或同音異義詞(發音相同但含義不同的單詞)。在生成最終輸出之前,應用后處理技術(包括語言約束、語法規則和上下文分析)來提高轉錄的準確性和連貫性。

STT 模型的主要類型

轉錄發生的確切方式取決于所使用的 AI 模型。一般來說,我們可以區分聲學遺留系統和基于端到端深度學習模型的系統。 

聲學系統依賴于隱馬爾可夫模型 (HMM) 和深度神經網絡 (DNN) 等傳統模型的組合來執行一系列子過程來執行上述步驟。 

這里的轉錄過程是通過傳統的聲學-語音匹配完成的,即系統嘗試根據聲音猜測單詞。由于每個步驟都由單獨的模型執行,因此這種方法容易出錯,并且由于需要獨立訓練所涉及的每個模型,因此成本相當高且效率低下。 

相比之下,由 CNN、RNN 和/或變壓器提供支持的端到端系統作為單個神經網絡運行,所有關鍵步驟都合并到一個互連的過程中。一個值得注意的例子是 OpenAI 的 Whisper ASR。 

深入探討語音轉文本技術的演進-AI.x社區

這種方法旨在解決遺留系統的局限性,由于采用了更精細的基于嵌入的機制,因此可以提高準確性,從而根據每個給定單詞的語義接近性實現語言的上下文理解。 

關于微調的注意事項

盡管上一代轉錄模型非常準確,但得益于新技術和大型語言模型 (LLMs) 的支持,它們仍然需要一點幫助才能應用于特定用例,而不會影響輸出準確性。更具體地說,這些模型可能需要額外的工作才能用于特定的轉錄或音頻智能任務。 

微調包括通過在特定于任務的數據上訓練預先訓練的神經網絡,使其適應新的應用程序。這是使高質量 STT 具有商業可行性的關鍵。 

在音頻中,微調用于使模型適應技術專業領域(即醫學詞匯、法律術語)、口音、語言、噪音水平、特定說話人等。在我們的微調 ASR 模型的指南中,我們更詳細地探討了這項技術的機制、用例和應用。 

主要特點和參數

除了核心轉錄技術之外,如今大多數提供商還提供一系列附加功能,從說話人分類到摘要,再到情感分析,統稱為“音頻智能”。 

深入探討語音轉文本技術的演進-AI.x社區

使用 API,基礎轉錄輸出并不總是由負責 “智能” 層的同一模型執行。事實上,商業語音文本提供商通常使用多種模型的組合來創建高質量和多功能的企業級 STT API。 

轉錄:關鍵概念

有許多參數會影響轉錄過程,并可能影響一個人對 STT 解決方案或提供者的選擇。以下是需要考慮的關鍵因素。 

輸入

  • 格式: 大多數轉錄模型根據音頻文件格式(m4a、mp3、mp4、mpeg)提供不同級別的質量,其中一些模型只接受特定格式。根據轉錄是異步轉錄還是實時轉錄,格式的應用會有所不同。
  • 音頻編碼:音頻編碼是將音頻文件從一種格式更改為另一種格式的過程,例如,為了減少傳輸音頻信息所需的位數。
  • 頻率: 對于語音轉文本模型,聲音可以理解的最小頻率。目前生成的大多數音頻文件的最低頻率為 40 kHz,但某些類型的音頻(例如來自呼叫中心的電話錄音)的頻率較低,導致錄音頻率為 16 kHz 甚至 8 kHz。需要對更高的頻率(如 128Khz 的 mp3 文件)進行重新采樣。
  • 位深度: 位深度表示錄制了音頻樣本的振幅量。它有點像圖像分辨率,但用于聲音。具有較高位深度的文件將表示更廣泛的聲音范圍,從非常柔和到非常響亮。例如,大多數 DVD 的音頻為 24 位,而大多數電話的音頻為 8 位。
  • 渠道: 輸入音頻可以有多個通道:單聲道(單聲道)、立體聲(雙聲道); 多通道(多個軌道)。

輸出

任何轉錄輸出都應該包含一些基本組件,并且通常以一系列轉錄文本的形式出現,其中包含關聯的 ID 和時間戳。 

除此之外,請務必考慮轉錄輸出的格式。大多數提供商至少會提供至少包含上述數據點的轉錄文本的 JSON 文件。有些還將提供轉錄的純文本版本,例如 .txt 文件,或適合字幕的格式,例如 SRT 或 VTT。 

性能

延遲

延遲是指模型接收到輸入(即語音或音頻信號)與開始生成輸出(即轉錄文本)之間的延遲。在 STT 系統中,延遲是一個關鍵因素,因為它直接影響用戶體驗。延遲越短,響應時間越短,聽錄體驗越實時。 

推理

在 AI 中,推理是指根據數據和以前的學習“推斷”輸出的操作。在 STT 中,在推理階段,該模型利用其學到的語音模式和語言知識來生成準確的轉錄。 

推理的效率和速度會影響 STT 系統的延遲。 

準確性

STT 模型的性能結合了許多因素,例如: 

  • 端到端延遲(上傳、編碼等期間)
  • 在惡劣環境(例如背景噪聲或靜電)下的穩健性。
  • 涵蓋復雜的詞匯和語言。
  • 模型架構、訓練數據數量和質量。

單詞錯誤率 (WER) 是用于評估語音識別系統或機器翻譯系統準確性的行業范圍指標。它測量系統輸出中與參考或真實文本中的單詞不同的單詞的百分比。 

深入探討語音轉文本技術的演進-AI.x社區

用于對準確性進行基準測試的其他指標是誤差率 (DER),它評估說話人分類和單詞級時間戳的平均絕對對齊誤差 (MAE)。 

語言

即使是最先進的多語言模型,如 OpenAI 的 Whisper,也嚴重偏向于某些語言,如英語、法語和西班牙語。發生這種情況是因為用于訓練它們的數據,或者因為模型在轉錄過程中權衡不同參數的方式。 

為了擴展語言和方言的范圍,需要額外的微調和優化技術,尤其是在涉及開源模型的情況下。 

音頻智能

對于越來越多的使用案例,僅靠轉錄是不夠的。如今,大多數商業 STT 提供商都至少提供一些附加功能,也稱為附加組件,旨在使成績單更易于消化和提供信息,以及獲得演講者的見解。以下是一些示例: 

深入探討語音轉文本技術的演進-AI.x社區

安全

在數據安全方面,托管架構起著重要作用。希望將 Language AI 集成到現有技術堆棧中的公司需要決定底層網絡基礎設施的位置以及他們希望誰擁有它:云多租戶 (SaaS)、云單租戶、本地、氣隙。 

可以使用 Speech-to-Text 構建什么

AI 語音轉文本是一項用途廣泛的技術,可解鎖各行各業的一系列用例。借助專門的 API,可以將 Language AI 功能嵌入到現有應用程序和平臺中,讓你的用戶能夠享受轉錄、字幕、關鍵字搜索和分析。還可以構建全新的支持語音的應用程序,例如虛擬助手和機器人。 

一些更具體的例子: 

  • 轉錄服務:采訪、講座、會議等的書面記錄。
  • 呼叫中心自動化:將客戶互動的錄音轉換為文本以供分析和處理。
  • 語音筆記和聽寫:允許用戶聽寫筆記、消息或電子郵件,并將其轉換為書面文本。
  • 實時字幕:為實時活動、會議、網絡研討會或視頻提供實時字幕和配音。
  • 譯本:用于多語言交流的實時翻譯服務。
  • 語音和關鍵字搜索:使用語音命令或語義搜索搜索信息。
  • 語音分析:分析錄制的音頻以進行情緒分析、客戶反饋或市場研究。
  • 輔助功能:開發應用程序,通過將口語轉換為文本來幫助殘障人士,以便于溝通和理解。

語音轉文本 AI 的終極詞匯表

  • 語音轉文本也稱為自動語音識別 (ASR),它是將口語轉換為書面文本的技術。
  • 自然語言處理 (NLP)AI 的一個子領域,專注于計算機和人類語言之間的交互。
  • 機器學習人工智能的一個領域,涉及開發算法和模型,使計算機能夠根據數據學習并做出預測或決策,而無需為特定任務明確編程。
  • 神經網絡一種以人腦結構為模型的機器學習算法。
  • 深度學習 機器學習的一個子集,涉及使用深度神經網絡。
  • 聲學模型用于語音識別的模型,用于將聲學特征映射到語音單元。
  • 語言模型NLP 中用于確定單詞序列概率的統計模型。
  • 大型語言模型(LLM)像 GPT-3 這樣的高級 AI 系統,它們經過大量文本數據的訓練,以生成類似人類的文本并執行各種自然語言處理任務。
  • 音素語言中的最小聲音單位,由特定符號表示。
  • Transformers一種依賴于多頭自我注意機制的神經網絡架構 - 除其他外 - 它允許模型關注輸入序列的不同部分以捕獲其關系和依賴關系。
  • 編碼器在神經網絡的上下文中,將輸入數據轉換為壓縮或抽象表示的組件,通常用于特征提取或創建嵌入等任務。
  • 解碼器一種神經網絡組件,它采用壓縮表示(通常來自編碼器)并重建或生成有意義的輸出數據,經常用于語言生成或圖像合成等任務。
  • 嵌入對象(如單詞或圖像)在低維空間中的數字表示形式,其中保留了對象之間的關系。嵌入通常用于將分類數據轉換為適合 ML 算法的格式,并捕獲單詞之間的語義相似性。
  • 依賴關系給定文本中單詞和句子之間的關系。可以與語法和句法相關,也可以與內容的含義相關。
  • 說話人分類分離和識別錄音或音頻流中發言者的過程。
  • 說話人適應調整語音識別模型以更好地識別特定說話人的聲音的過程。
  • Language Identification自動識別錄音中所說的語言的過程。
  • 關鍵字識別檢測錄音中特定單詞或短語的過程。
  • 自動字幕為視頻或音頻錄制生成字幕或字幕的過程。
  • 說話人驗證驗證說話人身份的過程,通常用于安全或身份驗證目的。
  • 語音合成從書面文本生成口語的過程,也稱為文本轉語音 (TTS) 技術。
  • 單詞錯誤率 (WER)用于衡量語音識別系統準確性的指標。
  • 遞歸神經網絡 (RNN)一種特別適合于序列數據(如語音)的神經網絡。
  • 微調與優化微調涉及在特定數據集或域上訓練預先存在的模型,以使其適應以獲得更好的性能,而優化側重于微調超參數和訓練設置,以最大限度地提高模型的整體效率。這兩個過程都有助于提高語音轉文本模型對特定應用程序或領域的準確性和適用性。
  • 模型并行性使大型模型的不同部分能夠分布在多個 GPU 上,從而允許使用 AI 芯片以分布式方式訓練模型。通過將模型劃分為更小的部分,可以并行訓練每個部分,與在單個 GPU 或處理器上訓練整個模型相比,訓練過程更快。

本文轉載自 ??芝士AI吃魚??,作者: 芝士AI吃魚

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产一二三区电影 | 久热免费在线 | 久久精品国产一区 | 男人久久天堂 | 国产精品久久福利 | 欧美成人一区二区三区 | 理论片午午伦夜理片影院 | 日韩亚洲一区二区 | 精品成人一区二区 | 亚洲电影在线播放 | 成人精品鲁一区一区二区 | 成人国产精品久久 | 欧美激情综合网 | 日日操夜夜摸 | 特黄毛片 | 精品一区二区三区中文字幕 | 久久久国产精品视频 | 超碰免费在线 | 毛片网站在线观看 | 亚洲第一福利网 | 精品国产色| 中文字幕一区二区视频 | 欧美精品网站 | 国产精品成人一区二区三区 | 七七婷婷婷婷精品国产 | 国产婷婷在线视频 | 伊人久久成人 | 韩国毛片一区二区三区 | 亚洲精品视频在线 | www国产成人免费观看视频,深夜成人网 | 视频在线一区二区 | 成人中文字幕在线 | 亚洲成av人影片在线观看 | 日韩综合网| 精品亚洲一区二区三区 | 色一级 | 欧美a区 | 精品少妇一区二区三区在线播放 | 日韩影院在线 | 国产高清在线视频 | 狠狠干网站 |