成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用OpenAI的Whisper 模型進(jìn)行語音識(shí)別

人工智能
語音識(shí)別是人工智能中的一個(gè)領(lǐng)域,它允許計(jì)算機(jī)理解人類語音并將其轉(zhuǎn)換為文本。該技術(shù)用于 Alexa 和各種聊天機(jī)器人應(yīng)用程序等設(shè)備。而我們最常見的就是語音轉(zhuǎn)錄,語音轉(zhuǎn)錄可以語音轉(zhuǎn)換為文字記錄或字幕。

語音識(shí)別是人工智能中的一個(gè)領(lǐng)域,它允許計(jì)算機(jī)理解人類語音并將其轉(zhuǎn)換為文本。該技術(shù)用于 Alexa 和各種聊天機(jī)器人應(yīng)用程序等設(shè)備。而我們最常見的就是語音轉(zhuǎn)錄,語音轉(zhuǎn)錄可以語音轉(zhuǎn)換為文字記錄或字幕。

wav2vec2、Conformer 和 Hubert 等最先進(jìn)模型的最新發(fā)展極大地推動(dòng)了語音識(shí)別領(lǐng)域的發(fā)展。這些模型采用無需人工標(biāo)記數(shù)據(jù)即可從原始音頻中學(xué)習(xí)的技術(shù),從而使它們能夠有效地使用未標(biāo)記語音的大型數(shù)據(jù)集。它們還被擴(kuò)展為使用多達(dá) 1,000,000 小時(shí)的訓(xùn)練數(shù)據(jù),遠(yuǎn)遠(yuǎn)超過學(xué)術(shù)監(jiān)督數(shù)據(jù)集中使用的傳統(tǒng) 1,000 小時(shí),但是以監(jiān)督方式跨多個(gè)數(shù)據(jù)集和領(lǐng)域預(yù)訓(xùn)練的模型已被發(fā)現(xiàn)表現(xiàn)出更好的魯棒性和對持有數(shù)據(jù)集的泛化,所以執(zhí)行語音識(shí)別等任務(wù)仍然需要微調(diào),這限制了它們的全部潛力 。為了解決這個(gè)問題OpenAI 開發(fā)了 Whisper,一種利用弱監(jiān)督方法的模型。

本文將解釋用于訓(xùn)練的數(shù)據(jù)集的種類以及模型的訓(xùn)練方法,以及如何使用Whisper 

Whisper 模型介紹

使用數(shù)據(jù)集:

Whisper模型是在68萬小時(shí)標(biāo)記音頻數(shù)據(jù)的數(shù)據(jù)集上訓(xùn)練的,其中包括11.7萬小時(shí)96種不同語言的演講和12.5萬小時(shí)從”任意語言“到英語的翻譯數(shù)據(jù)。該模型利用了互聯(lián)網(wǎng)生成的文本,這些文本是由其他自動(dòng)語音識(shí)別系統(tǒng)(ASR)生成而不是人類創(chuàng)建的。該數(shù)據(jù)集還包括一個(gè)在VoxLingua107上訓(xùn)練的語言檢測器,這是從YouTube視頻中提取的短語音片段的集合,并根據(jù)視頻標(biāo)題和描述的語言進(jìn)行標(biāo)記,并帶有額外的步驟來去除誤報(bào)。

模型:

主要采用的結(jié)構(gòu)是編碼器-解碼器結(jié)構(gòu)。

重采樣:16000 Hz

特征提取方法:使用25毫秒的窗口和10毫秒的步幅計(jì)算80通道的log Mel譜圖表示。

特征歸一化:輸入在全局內(nèi)縮放到-1到1之間,并且在預(yù)訓(xùn)練數(shù)據(jù)集上具有近似為零的平均值。

編碼器/解碼器:該模型的編碼器和解碼器采用Transformers。

編碼器的過程:

編碼器首先使用一個(gè)包含兩個(gè)卷積層(濾波器寬度為3)的詞干處理輸入表示,使用GELU激活函數(shù)。

第二個(gè)卷積層的步幅為 2。

然后將正弦位置嵌入添加到詞干的輸出中,然后應(yīng)用編碼器 Transformer 塊。

Transformers使用預(yù)激活殘差塊,編碼器的輸出使用歸一化層進(jìn)行歸一化。

模型框圖:

圖片

解碼的過程:

在解碼器中,使用了學(xué)習(xí)位置嵌入和綁定輸入輸出標(biāo)記表示。

編碼器和解碼器具有相同的寬度和數(shù)量的Transformers塊。

訓(xùn)練

為了改進(jìn)模型的縮放屬性,它在不同的輸入大小上進(jìn)行了訓(xùn)練。

通過 FP16、動(dòng)態(tài)損失縮放,并采用數(shù)據(jù)并行來訓(xùn)練模型。

使用AdamW和梯度范數(shù)裁剪,在對前 2048 次更新進(jìn)行預(yù)熱后,線性學(xué)習(xí)率衰減為零。

使用 256 個(gè)批大小,并訓(xùn)練模型進(jìn)行 220次更新,這相當(dāng)于對數(shù)據(jù)集進(jìn)行兩到三次前向傳遞。

由于模型只訓(xùn)練了幾個(gè)輪次,過擬合不是一個(gè)重要問題,并且沒有使用數(shù)據(jù)增強(qiáng)或正則化技術(shù)。這反而可以依靠大型數(shù)據(jù)集內(nèi)的多樣性來促進(jìn)泛化和魯棒性。

Whisper 在之前使用過的數(shù)據(jù)集上展示了良好的準(zhǔn)確性,并且已經(jīng)針對其他最先進(jìn)的模型進(jìn)行了測試。

優(yōu)點(diǎn):

  • Whisper 已經(jīng)在真實(shí)數(shù)據(jù)以及其他模型上使用的數(shù)據(jù)以及弱監(jiān)督下進(jìn)行了訓(xùn)練。
  • 模型的準(zhǔn)確性針對人類聽眾進(jìn)行了測試并評(píng)估其性能。
  • 它能夠檢測清音區(qū)域并應(yīng)用 NLP 技術(shù)在轉(zhuǎn)錄本中正確進(jìn)行標(biāo)點(diǎn)符號(hào)的輸入。
  • 模型是可擴(kuò)展的,允許從音頻信號(hào)中提取轉(zhuǎn)錄本,而無需將視頻分成塊或批次,從而降低了漏音的風(fēng)險(xiǎn)。
  • 模型在各種數(shù)據(jù)集上取得了更高的準(zhǔn)確率。

Whisper在不同數(shù)據(jù)集上的對比結(jié)果,相比wav2vec取得了目前最低的詞錯(cuò)誤率

圖片

模型沒有在timit數(shù)據(jù)集上進(jìn)行測試,所以為了檢查它的單詞錯(cuò)誤率,我們將在這里演示如何使用Whisper來自行驗(yàn)證timit數(shù)據(jù)集,也就是說使用Whisper來搭建我們自己的語音識(shí)別應(yīng)用。

使用Whisper 模型進(jìn)行語音識(shí)別

TIMIT 閱讀語音語料庫是語音數(shù)據(jù)的集合,它專門用于聲學(xué)語音研究以及自動(dòng)語音識(shí)別系統(tǒng)的開發(fā)和評(píng)估。它包括來自美國英語八種主要方言的 630 位演講者的錄音,每人朗讀十個(gè)語音豐富的句子。語料庫包括時(shí)間對齊的拼字、語音和單詞轉(zhuǎn)錄以及每個(gè)語音的 16 位、16kHz 語音波形文件。該語料庫由麻省理工學(xué)院 (MIT)、SRI International (SRI) 和德州儀器 (TI) 共同開發(fā)。TIMIT 語料庫轉(zhuǎn)錄已經(jīng)過手工驗(yàn)證,并指定了測試和訓(xùn)練子集,以平衡語音和方言覆蓋范圍。

安裝:

!pip install git+https://github.com/openai/whisper.git
!pip install jiwer
!pip install datasets==1.18.3

第一條命令將安裝whisper模型所需的所有依賴項(xiàng)。jiwer是用來下載文字錯(cuò)誤率包的datasets是hugface提供的數(shù)據(jù)集包,可以下載timit數(shù)據(jù)集。

導(dǎo)入庫

import whisper
from pytube import YouTube
from glob import glob
import os
import pandas as pd
from tqdm.notebook import tqdm

加載timit數(shù)據(jù)集

from datasets import load_dataset, load_metric

timit = load_dataset("timit_asr")

計(jì)算不同模型尺寸下的Word錯(cuò)誤率

考慮到過濾英語數(shù)據(jù)和非英語數(shù)據(jù)的需求,我們這里選擇使用多語言模型,而不是專門為英語設(shè)計(jì)的模型。

但是TIMIT數(shù)據(jù)集是純英文的,所以我們要應(yīng)用相同的語言檢測和識(shí)別過程。另外就是TIMIT數(shù)據(jù)集已經(jīng)分割好訓(xùn)練和驗(yàn)證集,我們可以直接使用。

要使用Whisper,我們就要先了解不同模型的的參數(shù),大小和速度。

圖片

加載模型

model = whisper.load_model('tiny')

tiny可以替換為上面提到的模型名稱。

定義語言檢測器的函數(shù)

def lan_detector(audio_file):
print('reading the audio file')
audio = whisper.load_audio(audio_file)
audio = whisper.pad_or_trim(audio)
mel = whisper.log_mel_spectrogram(audio).to(model.device)
_, probs = model.detect_language(mel)
if max(probs, key=probs.get) == 'en':
return True
return False

轉(zhuǎn)換語音到文本的函數(shù)

def speech2text(audio_file):
text = model.transcribe(audio_file)
return text["text"]

在不同模型大小下運(yùn)行上面的函數(shù),timit訓(xùn)練和測試得到的單詞錯(cuò)誤率如下:

從u2b上轉(zhuǎn)錄語音

與其他語音識(shí)別模型相比,Whisper 不僅能識(shí)別語音,還能解讀一個(gè)人語音中的標(biāo)點(diǎn)語調(diào),并插入適當(dāng)?shù)臉?biāo)點(diǎn)符號(hào),我們下面使用u2b的視頻進(jìn)行測試。

這里就需要一個(gè)包pytube,它可以輕松的幫助我們下載和提取音頻

def youtube_audio(link):
youtube_1 = YouTube(link)
videos = youtube_1.streams.filter(only_audio=True)

name = str(link.split('=')[-1])
out_file = videos[0].download(name)

link = name.split('=')[-1]
new_filename = link+".wav"
print(new_filename)
os.rename(out_file, new_filename)
print(name)
return new_filename,link

獲得wav文件后,我們就可以應(yīng)用上面的函數(shù)從中提取文本。

總結(jié)

本文的代碼在這里

https://drive.google.com/file/d/1FejhGseX_S1Ig_Y5nIPn1OcHN8DLFGIO/view

還有許多操作可以用Whisper完成,你可以根據(jù)本文的代碼自行嘗試。

責(zé)任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2023-11-09 09:00:00

OpenAI人工智能Whisper

2023-11-05 10:01:37

AI模型

2023-03-07 13:32:33

谷歌模型

2024-05-28 08:11:44

SpringTensorFlow訓(xùn)練

2022-10-08 08:36:02

UbuntuLinux語音識(shí)別

2017-03-20 10:14:03

語音識(shí)別匹配算法模型

2012-07-25 13:23:32

ibmdw

2023-06-16 08:00:00

語音助手GPTWhisper

2023-08-31 13:25:09

AI模型

2019-11-20 12:30:21

Python編程語言語音識(shí)別

2021-04-27 15:47:12

人工智能語音識(shí)別Transformer

2024-10-28 09:38:16

OpenAIWhisper人工智能

2018-05-02 11:38:14

語音識(shí)別法院

2024-12-13 15:53:58

VLM小型視覺語言模型LLM

2023-05-19 11:14:35

2025-04-09 11:01:19

2024-10-28 07:15:00

OpenAIWhisper語音轉(zhuǎn)錄工具

2025-04-02 08:55:13

人工智能帖子生成器事件驅(qū)動(dòng)

2024-08-27 08:38:34

2025-05-16 09:12:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 成人在线精品视频 | 亚洲天堂一区 | 久久久久久久一区 | 中文字幕视频一区二区 | 欧美成人精品一区二区三区 | 久久成人精品一区二区三区 | 中文字幕一区二区三区在线观看 | 91精品国产综合久久婷婷香蕉 | www.午夜| 国产在线精品一区二区三区 | 天天色综 | 日韩免费一区二区 | 亚洲欧美国产精品久久 | 中文在线播放 | 久久婷婷色 | 欧美激情视频一区二区三区在线播放 | 欧美区日韩区 | 亚洲国产一区在线 | 99久久夜色精品国产亚洲96 | 国外激情av| 午夜小视频在线观看 | 91精品国产高清一区二区三区 | 动漫www.被爆羞羞av44 | 精品国产乱码久久久久久中文 | 99视频久 | 国产精品亚洲一区二区三区在线观看 | 日日夜夜精品视频 | 免费视频一区二区 | 欧美国产日韩在线观看成人 | 日韩欧美成人一区二区三区 | 久久久久久久亚洲精品 | 国产丝袜一区二区三区免费视频 | 在线色网 | 欧美在线一区二区三区 | 欧美看片 | 黄色在线免费观看 | 日韩中文久久 | 日韩一级| 国产在线网站 | 国产精品视频中文字幕 | jdav视频在线观看免费 |