中英實時語音翻譯 Skype Translator中文預覽版登陸中國
今天,我們正式宣布在中國市場推出Skype Translator實時語音翻譯技術的中文預覽版。自此,英文和中文普通話之間的實時語音對話將成為現實。Skype Translator不僅凝聚了微軟在語音識別、自動翻譯和機器學習等科技領域幾十年的研究成果,更深刻地體現了微軟“用戶體驗至上”的理念。自2014年12月Skype Translator 推出英文和西班牙文之間的實時語音翻譯之后,此次在中國市場的發布是Skype Translator旅程中又一個令人無比興奮的里程碑,Windows 8.1用戶在Skype Translator注冊頁面 完成中文版的注冊后,就可以立即試用了。
眾所周知,中文的美麗***,同時它也是一門***挑戰性的語言,甚至對于Skype Translator來說也是如此。中文有大約一萬個常用漢字以及多種多樣的語音、語調,這對于母語為英語的學習者來說是***的困難之一,有類似困難的語言還有阿拉伯語、日語和韓語。
微軟作為語音翻譯領域的先驅者,在2012年***演示了英文和中文普通話之間的實時語音翻譯技術原型。微軟在北京的研究團隊與位于美國雷蒙德的同事們密切合作,經過多年的辛勤研究和專注投入,完成了普通話的語言模型,使Skype Translator的中文語音翻譯在今天變為現實。
不僅如此,近段時間,得益于深層神經網絡與微軟成熟的統計機器翻譯技術的結合,語音識別能力被進一步提高,隨之得到的更準確的翻譯結果讓一對一的語音交談成為現實。Skype一直致力于幫助人們進行無障礙的溝通,而Skype Translator就是達到這一目標的***科技產物。
Skype Translator預覽版適用于Windows 8.1或Windows 10技術預覽版的客戶端或平板電腦客戶端。除了英文和中文普通話的語音翻譯之外,還支持四十多種語言的即時文本翻譯。預覽階段對Skype Translator的開發與優化極其重要,因為用戶在使用產品的同時所提供的有價值的反饋,可幫助我們進行產品優化,不斷幫助該技術進行智能化的提升, 支持更多種語言的應用。
Skype Translator如何運作
機器學習是指軟件學習訓練數據的能力。Skype Translator構建于強大的機器學習平臺之上。通過在預覽版階段獲取的訓練數據,加之其中的細微差別,軟件就能夠針對真實使用者的不同話題、口音與語言轉換進行學習,實現更好的識別和翻譯。
Skype Translator的機器學習協議訓練并優化語音識別和機器翻譯任務,就像黏住這些元素的膠水一樣,該協議促進對被識別的文本進行更好的翻譯。這個過程包括去除造成不流利的字詞(例如“啊”“嗯”以及重復措辭)、將文本分解成句子、添加標點符號和大小寫識別。
語音識別和機器翻譯的訓練數據來源多種多樣,包括翻譯的網頁、配有字幕的視頻,以及預先翻譯且轉錄成文字的一對一談話。Skype Translator通過記錄這些對話來分析對話文本并訓練系統更好地“學習”各種語言。已經有很多人與我們分享了他們過去的對話記錄,我們對其進行了分析并為統計模型創造訓練數據,該統計模型教會語音識別和機器翻譯引擎如何將收集到的語音轉換為文本信息,然后將文本信息轉換為另一種語言。使用Skype Translator的用戶都會在對話開始前得到清晰的系統提示,即對話將被錄制并用于提高微軟翻譯和語音識別服務的質量。
在準備好的數據被錄入機器學習系統后,機器學習軟件會在這些對話和環境涉及到的單詞中搭建一個統計模型。當用戶說話時,軟件會在該統計模型中尋找相似的內容,之后應用到預先“學到”的轉化程序中,使得音頻轉換為文本再從文本轉換成另一種語言。
雖然語音識別一直是近幾十年來的重要研究課題,但是該技術的發展普遍被錯誤率高、麥克風敏感度差異、噪音環境等因素阻礙。微軟研究院率先將深層神經網絡(DNNs)技術引入語音識別,極大程度地降低了錯誤率,提高了可靠性,最終使這項語音翻譯技術得以更廣泛地應用,包括Skype Translator。
Skype Translator的機器翻譯部分負責將文本從一種語言翻譯成另一種語言。它采用了和必應在線翻譯同樣的技術:開創性地結合了句法和統計模型,此外更加有針對性地訓練對話性語言。這點非常有挑戰性,因為現在用來搭建文本翻譯系統的典型訓練數據都是優化過的清晰、結構嚴謹的書面語言。我們的系統在包含必應翻譯的豐富語言知識的同時,還額外加入了口語對話中出現的單詞及短語。
另外,我們創造了一個定制化的機器人程式來協調整個產品體驗。如電話中的第三方一樣,它負責建立電話連接、發送音頻流至語音引擎獲取翻譯文本,并分別在雙方結束說話時翻譯其所說的內容。
要創造這樣的程式,需要微軟研究院和Skype團隊集合雙方共同的專業知識和工程能力,形成一個復雜的架構,但希望對用戶來說獲取的則是簡單而直接的體驗。
克服挑戰
語言像是一只野獸,它時刻變化著,口音和語種層出不窮,書面語言和口語表達又有著非常大的區別。為提供***的體驗,我們不得不克服各種語言挑戰。
人類終究不是神,人類會犯錯誤,會思考,會改變想法。這些思考過程在口語中則表現為不流利的溝通。就像之前提到的,人們在說話時會停頓、重復,并且會有例如“嗯”“啊”之類的語氣詞。理想情況下,這些細微之處都不應該出現在翻譯和翻譯文本中,但我們的機器學習模型針對以上問題會相應處理這些停頓。在預覽版中您會看到部分語氣詞停頓被移除,而對于其他沒有被移除的部分,我們希望通過用戶的反饋進行優化。
人類的獨特之處在于,我們溝通時的口語和俚語會相應地體現出我們所在的地區、國家以及文化特征。基于多年在各社交媒體網站的實踐,Microsoft Translator已經在俚語翻譯方面擁有了不錯的表現。這也幫助Skype Translator進一步提高了日常短語和術語的翻譯能力。Skype Translator預覽版會幫助系統觀察和學習更多的日常對話,從而將真實的對話語言更加準確的翻譯出來。
另外,在語言翻譯的用戶體驗中也存在一些固有的挑戰。比如,Skype Translator的自動翻譯器會以類似于第三方通話者的角色出現。我們發現,過去使用過現場翻譯服務的用戶能很快適應這種溝通方式,而其他用戶則需要更多的時間來適應。
雖然此次預覽版的發布對于參與開發的團隊來說是一個重大的突破,但這只是我們在創造***翻譯體驗之路上邁出的一步。我們將在預覽版用戶提供的反饋和數據基礎上提升技術并優化Skype Translator所創造的獨特體驗。雖然我們打下了穩固的基礎,但對此項技術來說,這只是起步,在某些方面我們的工作才剛剛開始。
相較于2014年12 月推出的英文和西班牙文之間的實時語音對話,本次推出中文預覽版的功能更新如下:
• 語音讀取文字信息
用戶可以通過語音收聽到對話方發送給自己的即時消息,語音的語言可以自選。
• 持續性識別
在對方發送語音信息期間可持續性的進行文字翻譯。
• 自動聲量控制
您的對話方可以在實時語音翻譯期間不間斷地說話。同時,您可收聽到較高音量的語音翻譯,對話方本身的語音信息呈現出較低音量,所以您只要將注意力集中在語音翻譯上即可,這可以保證翻譯信息的收聽流暢。
• 語言翻譯靜音功能
您可以任意開啟或關閉語音翻譯的聲音,并直接讀取文字翻譯。
除了語音翻譯現有的四種語言(英語,西班牙語,中文普通話,意大利語), Skype Translator 的即時通訊文本翻譯更是在原有40多種語言的基礎上加入了塞爾維亞語,波斯尼亞語,克羅地亞語,瑪雅語和奧托米語。
今天,我們將見證Skype Translator的另一個新篇章,世界各地的人們與親朋好友溝通交流的方式變得更加豐富。我們的愿景,是在盡可能多的平臺實現盡可能多的語種翻譯,為全球3億多的Skype用戶在各個相關平臺提供***體驗。我們將繼續研發這項技術,期待與您在未來一同分享更多的里程碑。謝謝您的一路同行!
現在開始,中英實時語音翻譯的大幕已經拉開。現在通過Skype Translator預覽版網頁注冊,開啟您的體驗之旅吧。