成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用OpenAI的Whisper模型將語音轉換成文本

譯文
人工智能
本文介紹了如何使用WhisperAI模型將音頻轉換成文本。

譯者 | 布加迪

審校 | 重樓

圖1. OpenAI Whisper模型的工作原理圖圖1. OpenAI Whisper模型的工作原理圖

這個日益數字化的世界,將語音轉換文本的需求變得越來越重要。無論為了可訪問性、內容創建、數據分析還是其他用途,將口語轉換書面語都是一個需要有效解決方案的問題。OpenAI開發的人工智能模型Whisper就能做到這一點將口語轉化易于理解的文本。

文將逐步介紹Whisper是什么、它是如何工作的以及如何有效使用它。目前WhisperAIModels.fyi排名第19,這款功能強大的工具可以在各種應用中發揮巨大作用。本文還將探討如何使用AIModels.fyi找到適合您獨特需求的類似模型

Whisper模型簡介

OpenAI開發的AI模型Whisper旨在將音頻文件中的語音轉換為文本。應用非常廣泛,從生成視頻字幕到轉錄采訪或會議文字,不一而足Whisper的運行次數超過了200次,在同類產品中脫穎而出,是一種可靠且受歡迎的模型

該模型接受音頻輸入并將其轉錄成書面文字,有效地彌合了口語和書面語之間的差距。此外,它支持大量語言,因而成為適合多語言項目的出色工具。關于該模型的更多詳細信息可以在詳情頁面上找到

Whisper模型的輸入和輸出

在深入研究Whisper模型的使用之前,了解模型的輸入和輸出很重要

輸入

Whisper的主要輸入是一個音頻文件,它對其進行處理并轉錄成文本。額外的輸入參數允許您定制模型的操作方式

  • model string:允許您從不同版本的Whisper模型中選擇。
  • transcription string:允許您選擇轉錄的格式,有純文本srtvtt選項。
  • translate boolean使您能夠將文本翻譯成英語。
  • language string:允許您指定音頻中所說的語言。
  • temperature number:該參數控制模型輸出的創造性
  • suppress_tokens string您不希望模型輸出的token id列表。

輸出

模型輸出含有已轉錄文本的對象,帶有幾個字段

  • segments:轉內容分成幾個片段。
  • srt_file & txt_file轉錄結果可以以這些格式獲得。
  • translation如果啟用了翻譯選項,這里提供翻譯后的文本。
  • transcription:這是最終的轉錄文本。
  • detected_language模型檢測到的語言。

我們了解了模型的輸入和輸出,不妨看看如何使用它來解決我們的轉錄問題

使用Whisper模型將語音轉錄文本

無論是喜歡動手操作的程序員,還是偏愛交互性較強的演示方法,使用Whisper模型都簡單直接。

第1身份驗證

首先,需要安裝Replicate Node.js客戶軟件,并使用API令牌進行身份驗證。這允許您以編程方式與Whisper模型進行交互。


npm install replicate

 export REPLICATE_API_TOKEN=your_api_token_here

第2步:運行模型

完成身份驗證后,您可以用音頻輸入來運行模型:

import Replicate from "replicate";

const replicate = new Replicate({
 auth: process.env.REPLICATE_API_TOKEN,
});

const output = await replicate.run(
 "openai/whisper:91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7",
 {
 input: {
 audio: "your_audio_here"
 }
 }

您還可以設置預測完成后所調用的Web鉤子(webhook),這適用于異步處理:

const prediction = await replicate.predictions.create({
 version: "91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7",
 input: {
 audio: "your_audio_here"
 },
 webhook: "https://example.com/your-webhook",
 webhook_events_filter: ["completed"]
});

進一步使用AIMmodels.fyi找到其他音頻到文本模型

也許您想將Whisper與其他模型進行比較,或者探究同一問題領域的其他模型。怎樣才能找到它們?AIModels.fyi正是滿足這個用途上佳資源,它有一個完全可搜索和可過濾的數據,列有來自各種平臺的AI模型

1訪問AIModels.fyi

進入到AIModels.fyi,開始尋找類似的模型。

2使用搜索欄

使用頁面頂部的搜索欄搜索具有特定關鍵字的模型,比如“audio-to-text”或“transcription”。這將顯示相關模型列表。

第3篩選結果

使用搜索欄后,您可以通過使用頁面左側的過濾器進一步縮小結果范圍。可以根據各種標準篩選和搜索模型,包括如下:

  • 平臺:托管模型所用的平臺,比如OpenAI和Hugging Face等。
  • 創建者模型背后的創建者或組織。
  • 成本使用模型的價格范圍。
  • 描述該模型的功能和用途。

第4:探究模型細節

一旦找到了一個感興趣的模型,點擊它來查看更多的細節。您能夠看到闡述全面的模型特點,包括輸入和輸出、性能指標和用例。

結語

無論是經驗豐富的開發人員還是AI領域的新手,OpenAI的Whisper都是一個易于使用且功能強大的工具,可以將語音轉換文本。若結合AIModels.fyi之類的資源,現在比以往任何時候更容易找到適合您獨特項目需求的完美模型。立即開始探究起來吧!

原文標題:Converting Speech into Text with OpenAI's Whisper Model,作者:Mike Young


責任編輯:華軒 來源: 51CTO
相關推薦

2021-03-15 08:00:00

音頻框架數據

2023-01-30 17:14:40

人工智能語音識別

2019-09-06 08:00:00

開源技術 語音

2023-10-20 08:00:00

人工智能MusicGen

2023-12-11 09:00:00

人工智能3D模型

2022-07-19 10:53:57

模型算法智能

2019-12-13 09:48:48

開源技術 軟件

2023-08-29 09:00:00

人工智能img2prompt

2021-08-31 09:12:18

StringIntLong

2021-07-14 14:50:08

LinuxASCII圖片

2011-02-25 10:22:03

ibmdwXMLDB2

2011-12-09 21:13:29

iOS

2021-06-07 17:30:23

LinuxASCII圖片轉換

2011-08-02 09:46:04

iOS開發 XML

2011-08-02 10:08:32

IOS開發 XML

2011-03-23 09:54:47

數據模型數據庫設計

2022-10-12 08:00:00

語音識別Node.js音頻質量

2010-03-23 10:29:28

Python程序編譯轉

2024-09-14 15:19:11

2018-06-22 10:05:04

Arch LinuxDEB軟件包
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一级看片免费视频囗交动图 | 国产精品九九九 | 淫片一级国产 | 色播久久久 | 久久成人人人人精品欧 | 国产在视频一区二区三区吞精 | 久久久久久国产精品 | 黄色一级毛片 | 91亚洲国产成人久久精品网站 | 国产精品1区2区3区 男女啪啪高潮无遮挡免费动态 | 国产精品久久久久无码av | 美人の美乳で授乳プレイ | 99精品热视频 | 久久99深爱久久99精品 | 色综合一区二区 | 中文字幕在线一区二区三区 | 日韩欧美在线播放 | 欧美综合在线视频 | 欧美另类视频 | av黄色在线 | 国产精品99久久久久久动医院 | 国产精品日产欧美久久久久 | 国产精品美女久久久久aⅴ国产馆 | 网页av | 日本羞羞影院 | 99在线资源| 日韩一级一区 | 亚洲免费在线观看 | 色婷婷综合久久久中字幕精品久久 | 天天澡天天狠天天天做 | 狠狠操狠狠操 | 欧美成人a∨高清免费观看 欧美日韩中 | 国产精品久久久久久一区二区三区 | 欧美成人精品二区三区99精品 | 久一精品 | 精品久久久久久久 | 免费在线观看黄视频 | 国产免费xxx | 欧美亚洲日本 | 欧美操操操 | 亚洲 中文 欧美 日韩 在线观看 |