使用OpenAI的Whisper模型將語音轉換成文本

作者：布加迪 2023-11-09 09:00:00

本文介紹了如何使用WhisperAI模型將音頻轉換成文本。

譯者 | 布加迪

審校 | 重樓

圖1. OpenAI Whisper模型的工作原理圖

在這個日益數字化的世界，將語音轉換成文本的需求變得越來越重要。無論為了可訪問性、內容創建、數據分析還是其他用途，將口語轉換成書面語都是一個需要有效解決方案的問題。OpenAI開發的人工智能模型Whisper就能做到這一點：將口語轉化成易于理解的文本。

本文將逐步介紹Whisper是什么、它是如何工作的以及如何有效使用它。目前Whisper在AIModels.fyi排名第19位，這款功能強大的工具可以在各種應用中發揮巨大作用。本文還將探討如何使用AIModels.fyi找到適合您獨特需求的類似模型。

Whisper模型簡介

由OpenAI開發的AI模型Whisper旨在將音頻文件中的語音轉換為文本。其應用非常廣泛，從生成視頻字幕到轉錄采訪或會議文字，不一而足。Whisper的運行次數超過了200萬人次，在同類產品中脫穎而出，是一種可靠且受歡迎的模型。

該模型接受音頻輸入并將其轉錄成書面文字，有效地彌合了口語和書面語之間的差距。此外，它支持大量語言，因而成為適合多語言項目的出色工具。關于該模型的更多詳細信息可以在詳情頁面上找到。

了解Whisper模型的輸入和輸出

在深入研究Whisper模型的使用之前，了解模型的輸入和輸出很重要。

輸入

Whisper的主要輸入是一個音頻文件，它對其進行處理并轉錄成文本。額外的輸入參數允許您定制模型的操作方式：

model string：允許您從不同版本的Whisper模型中選擇。
transcription string：允許您選擇轉錄的格式，有純文本、srt或vtt等選項。
translate boolean：使您能夠將文本翻譯成英語。
language string：允許您指定音頻中所說的語言。
temperature number：該參數控制模型輸出的“創造性”。
suppress_tokens string：您不希望模型輸出的token id列表。

輸出

模型輸出含有已轉錄文本的對象，帶有幾個字段：

segments：轉錄內容分成幾個片段。
srt_file & txt_file：轉錄結果可以以這些格式獲得。
translation：如果啟用了翻譯選項，這里提供翻譯后的文本。
transcription：這是最終的已轉錄文本。
detected_language：模型檢測到的語言。

我們已了解了模型的輸入和輸出，不妨看看如何使用它來解決我們的轉錄問題！

使用Whisper模型將語音轉錄成文本

無論您是喜歡動手操作的程序員，還是偏愛交互性較強的演示方法，使用Whisper模型都簡單又直接。

第1步：身份驗證

首先，需要安裝Replicate Node.js客戶軟件，并使用API令牌進行身份驗證。這允許您以編程方式與Whisper模型進行交互。

npm install replicate

 export REPLICATE_API_TOKEN=your_api_token_here

第2步：運行模型

完成身份驗證后，您可以用音頻輸入來運行模型：

import Replicate from "replicate";

const replicate = new Replicate({
 auth: process.env.REPLICATE_API_TOKEN,
});

const output = await replicate.run(
 "openai/whisper:91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7",
 {
 input: {
 audio: "your_audio_here"
 }
 }

您還可以設置預測完成后所調用的Web鉤子（webhook），這適用于異步處理：

const prediction = await replicate.predictions.create({
 version: "91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7",
 input: {
 audio: "your_audio_here"
 },
 webhook: "https://example.com/your-webhook",
 webhook_events_filter: ["completed"]
});

更進一步：使用AIMmodels.fyi找到其他音頻到文本模型

也許您想將Whisper與其他模型進行比較，或者探究同一問題領域的其他模型。怎樣才能找到它們？AIModels.fyi正是滿足這個用途的上佳資源，它有一個完全可搜索和可過濾的數據庫，列有來自各種平臺的AI模型。

第1步：訪問AIModels.fyi

進入到AIModels.fyi，開始尋找類似的模型。

第2步：使用搜索欄

使用頁面頂部的搜索欄，搜索具有特定關鍵字的模型，比如“audio-to-text”或“transcription”。這將顯示相關模型列表。

第3步：篩選結果

使用搜索欄后，您可以通過使用頁面左側的過濾器進一步縮小結果范圍。可以根據各種標準來篩選和搜索模型，包括如下：

平臺：托管模型所用的平臺，比如OpenAI和Hugging Face等。
創建者：模型背后的創建者或組織。
成本：使用模型的價格范圍。
描述：該模型的功能和用途。

第4步：探究模型細節

一旦您找到了一個感興趣的模型，點擊它來查看更多的細節。您能夠看到闡述全面的模型特點，包括其輸入和輸出、性能指標和用例。

結語

無論您是經驗豐富的開發人員還是AI領域的新手，OpenAI的Whisper都是一個易于使用且功能強大的工具，可以將語音轉換成文本。若結合AIModels.fyi之類的資源，現在比以往任何時候更容易找到適合您獨特項目需求的完美模型。立即開始探究起來吧！

原文標題：Converting Speech into Text with OpenAI's Whisper Model，作者：Mike Young

責任編輯：華軒來源： 51CTO

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看