成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

帶你了解語音識別技術的發展歷史

移動開發 移動應用
可能大多數人覺得語音識別是近些年才出現的技術,其實不然,下面讓我們一起從語音技術的歷史展開來看。

作者|楊軍,單位:中國移動雄安產業研究院

Labs 導讀

語音識別相信大家并不陌生,近些年來語音識別技術的應用層出不窮,同時也更加智能。從開始我們簡單的詢問“你是誰”,到現在可以與我們進行多輪對話,理解我們的意思甚至是心情,語音識別已經實現了長足的發展。可能大多數人覺得語音識別是近些年才出現的技術,其實不然,下面讓我們一起從語音技術的歷史展開來看。

Part 01  語音識別近70年發展史

1952年,貝爾實驗室發明了自動數字識別機,科學家對智能語音有了模糊的概念,可能這時科學家們就已經在暢想我們如今實現的這一切。

圖片

1964年,IBM在世界博覽會上推出了數字語音識別系統,語音技術也自此走出了實驗室,為更多人知曉,貝爾實驗室的夢想也變成了更多人的夢想。

1980年,聲龍推出了第一款語音識別產品Dragon Dictate,這是第一款面向消費者的語音識別產品。雖然夢想第一次照進了現實,但其高達9000美元的售價,很大程度增加了智能語音技術的普及難度。

圖片

1997年,IBM推出它的第一個語音識別產品Via Voice。在中國市場,IBM適配了四川、上海、廣東等地方方言,Via Voice也真正的為更多消費者接觸、使用到。

2011年,蘋果首次在iphone4s上加入智能語音助手Siri。至此,智能語音與手機深度綁定,進入廣大消費者的日常生活。隨后國內各大手機廠商也先后跟進,為手機消費者提供了五彩繽紛的語音識別功能。

圖片

此后,語音識別技術的應用,并沒有局限于手機,而是擴展到了各種場景。從各種智能家居,如智能機器人、智能電視、智能加濕器等,到現在智能汽車,各大傳統廠商以及造車新勢力紛紛積極布局智能座艙。可見智能語音技術已經在我們的衣食住行各個方面得到了廣泛應用。

Part 02 語音識別技術簡介

語音識別技術,也被稱為自動語音識別(Automatic Speech Recognition,ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入。語音識別技術屬于人工智能方向的一個重要分支,涉及許多學科,如信號處理、計算機科學、語言學、聲學、生理學、心理學等,是人機自然交互技術中的關鍵環節。

Part 03  語音識別基本流程

圖片

ASR:指自動語音識別技術(Automatic Speech Recognition),是一種將人的語音轉換為文本的技術。

NLU:自然語言理解(Natural Language Understanding, NLU)是所有支持機器理解文本內容的方法模型或任務的總稱。

NLG:自然語言生成(Natural Language Generation,NLG)是一種通過計算機在特定交互目標下生成語言文本的自動化過程,其主要目的是能夠自動化構建高質量的生成人類能夠理解的語言文本。

上圖展示了一個語音識別的基本流程,用戶發出指令后,mic收集音頻,完成聲音到波形圖的轉換,通過波形圖與人類發音的波形圖做對比,可以識別出說的具體音節,通過音節,組合成詞、句子,再結合大數據分析出說的最匹配的話,然后NLU模塊開始工作,分析出這句話的意圖(intent)、域(Domain)等各種信息。分析出意圖后開始對話管理DM(Dialog Manager),通過后臺數據查詢應該給用戶什么反饋。然后交給NLG模塊,通過查出來的信息,生成自然語言,最后通過TTS模塊,將文字轉回成波形圖并播放聲音。

上面的流程涉及到的學科、知識都比較多,由于篇幅原因,不一一展開描述,在這里我節選出ASR來進行相對詳細些的學習。

Part 04 ASR實現原理簡單剖析

我們首先從ASR聲音源來看,當一位用戶發出指令,比如說:我愛你。這時麥克風會收集音頻到存儲設備。我們通過音頻處理軟件(如Audacity)打開后可以發現音頻是一段波形圖。

圖片

但是這段波形圖并沒有什么直觀的有意義的信息,它的高低只代表了聲音的大小,橫軸也僅僅是時間。語音識別本身是基于大數據的分析技術,分析的基礎是數據的準確,聲音大小和發音的時間長短很難有什么統計學的意義,所以此時我們需要對音頻進行處理。(這段波形圖是四句我愛你的波形圖)。

處理的一種常用方法是傅里葉變換,通過傅里葉變換,我們可以將時間維度的波形圖,轉換成頻率維度的波形圖。

圖片

為什么要處理成頻率的維度呢?

因為我們都知道,人類發出的聲音,能聽到的聲音大概在一個頻段內。這涉及到生物學、聲學的知識,我們人類的身體構造大致相同,這里想當然一下,盡管有個體差異、有性別差異,我們發出的聲音的頻率相差不會很大。這樣我們就把沒有統計意義的聲音波形圖處理成了頻率圖。

但是我們的時間維度也不能丟掉,我們在將聲音分割之后(這里涉及到聲音預處理、分幀等知識,暫不展開),可以根據本地的聲學模型做比對,看每一幀時間內發出的音素是什么。中文的話,音素指的是我們發音的一個字母,比如“我”由兩個音素組成:w和o。

到現在我們知道了如何將聲音從音頻文件處理成音素。之后再通過語言學、統計學等技術,結合具體語境,將音素組合成詞,將詞組成句子,從而識別出用戶說的語句,ASR大致流程就完成了。

上面的方式其實屬于語音識別各種技術中較為簡單的一部分,在實際應用中可能還包括各種各樣的技術,比如聲學特征提取的MFCC方式、上面聲音預處理的降噪、分幀、加窗、端點檢測等技術。

Part 05  語音識別及相關技術展望和我們能做的事情 

隨著硬件技術提升、5G技術普及,我們可以在后端對海量的數據進行處理,依靠5G技術的穩定和低時延,為用戶提供更可靠、順暢的服務,可以預見在不久的將來,語音識別及其相關技術必將更加智能、更加穩定。中國移動作為國內擁有絕對用戶基礎數量優勢的電信運營商,可以依靠5G優勢、規模優勢為用戶提供更好的服務,為智慧城市提供有力的保障,為國家發展作出更多的貢獻。

責任編輯:未麗燕 來源: 移動Labs
相關推薦

2024-08-19 08:07:52

2021-11-17 10:37:39

語音識別技術人工智能

2019-10-29 08:00:00

語音識別

2017-03-19 16:09:00

語音識別

2018-06-05 17:40:36

人工智能語音識別

2022-12-01 07:03:22

語音識別人工智能技術

2020-12-10 08:44:35

WebSocket輪詢Comet

2021-04-14 14:49:47

語音識別技術人工智能

2024-03-11 11:32:38

語音識別

2009-10-15 10:39:31

綜合布線解決方案

2009-08-21 15:28:23

C#英文

2022-07-06 13:21:52

語音識別

2023-02-28 12:12:21

語音識別技術解碼器

2010-02-04 11:15:12

數據交換技術

2020-08-12 10:25:39

JavaScript開發技術

2021-01-18 14:17:41

MagSafeMacBook接口

2020-12-24 14:41:03

人工智能人工智能技術

2009-09-21 10:32:22

網絡分析技術的發展

2015-05-11 11:35:58

2021-11-01 12:37:47

Python肉類蔬菜
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩在线不卡视频 | 国产我和子的乱视频网站 | 999视频| 国产成人网| 亚洲人人 | 国产精品久久久久久亚洲调教 | 欧美激情综合色综合啪啪五月 | 黄色片网站在线观看 | 中文字幕在线观看视频一区 | 久久国产综合 | 在线免费观看毛片 | 日本一区二区三区在线观看 | 天天干狠狠干 | 日韩美av | 成人av电影免费在线观看 | 黄色毛片一级 | 国产精品福利在线观看 | 91久久久久久 | 国产欧美日韩在线一区 | 成人在线免费电影 | 中文一区 | 亚洲视频在线播放 | 欧美日韩精品一区二区天天拍 | 97精品超碰一区二区三区 | 91视频亚洲 | 成人午夜在线 | 手机av网 | 国产女人与拘做受免费视频 | 国产精品午夜电影 | 久久久性色精品国产免费观看 | 亚洲aⅴ | 亚洲欧美久久 | 美国a级毛片免费视频 | 欧美在线视频一区二区 | 亚洲免费视频一区 | 自拍偷拍第一页 | re久久 | 久久久成人免费视频 | 亚洲欧洲激情 | 不卡视频一区二区三区 | 男女午夜激情视频 |