成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

專訪字節跳動王明軒:機器翻譯和人工翻譯實質是兩個賽道 | T前線

原創 精選
人工智能 機器學習
聊一聊機器翻譯的那些年,這些事

技術的進步,往往意味著行業的進化發現了新的方向。翻譯行業也不例外。隨著全球化進程不斷加快,人們在進行涉外活動時都離不開跨語言的交流。機器翻譯的出現極大地擴充了翻譯的應用場景,固然它還遠遠稱不上完善,但卻在人類挑戰巴別塔的路上跨出了堅實的一步。51CTO特邀字節跳動AI Lab機器翻譯負責人王明軒,聊一聊機器翻譯發展的這些年、那些事。

從基于規則,到基于統計模型,再到基于神經網絡

機器翻譯的發展與計算機技術、信息論、語言學等學科的發展緊密相關。進入21世紀以后,隨著硬件能力的提升和算法的優化,機器翻譯技術迎來了空前的躍進,并成功邁出象牙塔,走上了普惠之路。

51CTO:縱觀歷史,機器翻譯經歷了哪些重要的發展節點?

王明軒:機器翻譯實質是一個非常古老的問題,機器翻譯的歷史可以追溯到17世紀笛卡爾、萊布尼茨等哲學家提出的「通用語言」。1946年等計算機正式誕生后,人們期望計算機能將一種語言翻譯成另一種語言。美國科學家瓦倫·韋弗在《翻譯備忘錄》中正式定義了機器翻譯的概念和思想。這一時期,在冷戰背景下,美蘇兩國也基于搜集信息的需要,投入了大量資金用于機器翻譯相關研究。

一開始大家相對較樂觀,覺得這事很快就可以搞定了。第一版的翻譯系統非常簡單,主要是基于詞典,比如把“太陽”翻譯為“sun”,但這種詞對詞的翻譯很快遇到了瓶頸,因為一詞多義的現象比較多,比如“bank”,既可以是“銀行”,也可以是“河岸”,具體語境中會面臨很多選詞的困境。結合語言學家制定的語義規則可以解決一部分歧義,但發展到后期,規則越多,沖突的地方也會越多,系統會越來越復雜,依然無法解決問題。

1966年美國公布了報告《語言與機器》,全面否定了機器翻譯的可行性,并建議停止對機器翻譯項目的資金支持。受此影響,機器翻譯陷入低潮期。

直到90年代,IBM提出基于詞對齊的翻譯模型,標志著現代統計機器翻譯方法的誕生。基于統計的機器翻譯原理很簡單,比如要在語境中判斷bank應該翻譯成“銀行”還是“河岸”,那就進行大量的相關語料統計,會發現上下文里有“錢”相關的,那就更有可能翻譯成“銀行”,上下文里提到“河流”,那更可能對應的是“河岸”。如此一來,不用詞典與文法規則,而是按照概率來判斷具體場景下的語義。這是劃時代的變化,機器翻譯的質量得到了巨大的提升。很快,機器翻譯開始在很多實用場景落地。

從1993到2014年基本都屬于統計的時代,但雖說是基于統計,還是需要人工去定義很多特征、模板,再進一步設計細節,因而也不是非常靈活,模型的能量也不是很強大。

而后到了神經網絡時代,神經網絡翻譯從模型上說主要包含編碼器和解碼器。編碼器把源語言經過一系列神經網絡變換后表示成一個高維向量,解碼器負責把這個高維向量重新解碼成目標語言。2014年Seq2Seq的提出,讓神經網絡翻譯慢慢開始比統計機器翻譯做得更好。

到2017年時,谷歌提出Transformer,模型更大、結構更靈活、并行化程度更高,這進一步提升了翻譯質量。同年,AlphaGo的勝利也讓大家對人工智能的信心更充分。也正是在2017年之后,機器翻譯的產業化迎來了爆發期,直到現在,整體大框架沒有發生太大變化,但小細節上出現了很多創新。

挑戰“巴別塔”

從詞典匹配,到結合語言學專家知識的規則翻譯,再到基于語料庫的統計機器翻譯,以及目前主流的神經網絡機器翻譯,相比之前,機器翻譯的質量有了飛躍式的提升,但依舊面臨著重重挑戰。

51CTO:目前機器翻譯面臨的主要挑戰在哪里?

王明軒:挑戰其實還比較多。

第一,如何做稀缺語種的機器翻譯。這是機器翻譯從誕生以來一直就面臨的問題。語種越小,數據量越少,語料的稀缺會是長期的挑戰。

第二,如何做多模態的機器翻譯。近年來,我們經常需要做語音翻譯、視頻翻譯,事實上這類翻譯需要AI做一些前處理之后再做翻譯。如果AI處理錯了,翻譯就可能出現錯誤。再比如,在同聲傳譯的場景,通常是邊說邊翻,拿不到完整的上下文信息。這在多模態翻譯中都是常見問題。

第三,最為本質的問題在于,目前的機器翻譯還是基于數據驅動,并沒有在理解層面做得更為深入。模型的學習依舊是依靠語言的貢獻,而非真正地理解語義。這一點極大地局限了機器翻譯的上限。

51CTO:火山翻譯作為字節跳動旗下機器翻譯品牌,如何應對語料稀疏問題?

王明軒:有兩個比較直接的方法。

第一種是擴充語料,努力讓稀缺語料“不再稀缺”。這種思路是,通過一些模型,盡可能從互聯網上獲取語料。比如冰島語,我們能收集大量冰島語的單語語料,在互聯網上就可以去收集與單語語料相近的英文文本,我們去找這種可能對齊的語料,形成雙語去對。當然我們有時也用人工標注,但更多的是靠智能的方法自行增加。

第二種是利用語言的共性。大家生活在同一個星球,雖然使用的語言不同,但其實在描述同一個世界,因此語言在高層次上是有很多共性的。我們會借助一些遷移學習或者預訓練的方法來解決這類問題,比如讓英語的模型去幫助法語的模型,或者讓德語的模型幫助法語的模型。主要就是這兩個思路。

51CTO:在多模態的機器翻譯中,要減少噪聲干擾的話,火山翻譯采取了哪些應對策略?

王明軒:應對噪聲干擾的話,首先,進行了多種模態的聯合建模。我們會拿語音信號和文本信號一起去做下游的任務,這樣一來,錯誤傳遞會減少很多。當前,構建多模態的統一語義在學術界也是非常火熱的話題,所以我們也會吸收其他領域的很多東西。

其次,我們在文本這塊也會做很多魯棒性訓練,盡量讓模型在有錯誤輸入的情況下,還能保證正確的輸出,或者不擴大這種錯誤,相當于把自動糾錯和機器翻譯做到了一個模型里面。因為人其實是有這種自動糾錯能力的,比如人工譯員在聽到錯誤的信息時,會進行自動糾正,所以我們在模型里面也會考慮這些信息。

51CTO:同聲傳譯對延時的要求很高。但是如果沒有結合上下文的語境或者聽完完整的語義,準確率又很難保證。機器翻譯如何平衡這兩者之間的矛盾?

王明軒:這一點在工業界很有挑戰性,因為不僅關乎延時和準確率的trade off,實際上需要優化的地方更多。

比如在某些會議場景中,翻譯字幕需要展示在大屏幕上,觀眾接受字幕的速度也是關鍵問題之一,包括每次字幕展示的長度、字幕彈出的頻率,都關系到如何讀起來更舒服。其中有很多細節需要我們反復和產品經理溝通,深入用戶調研來看整體滿意度。因此,這不僅僅是準確率的問題,要把用戶的實際使用體驗都作為要素考慮進去,再來調整模型。

此外,延時可能是用戶滿意度的指標之一,但延時也并非越短越好。通常有個合適的gap反而更好。因為延時很短的話,字幕彈出的速度也會很快,用戶的接受效果反而不太好。在這方面,我們也會借鑒業界的很多成熟做法,比如動態控制字幕翻譯的間隔。總體而言,這是一個非常工程化、產品化的問題。

未來趨向

機器翻譯仍然不是完美的,但從業者們正在努力讓其變得質量更高,可用性更強,適用性更廣。讓我們來觀察一下它的發展趨勢,尤其是當機器翻譯與專業譯員發生“碰撞”時,翻譯服務場景又會產生哪些化學反應。

51CTO:隨著技術的發展,機器翻譯是否會衍生出更多有趣的應用場景?

王明軒:之前我們推出的火山翻譯AR眼鏡就是類似的嘗試。今年谷歌I/O大會上壓軸發布的AR翻譯眼鏡也是很有意思的應用,使用者佩戴后可以實時看到對話者的譯文,類比字幕效果。

這其實都反映出了一種比較樸素的理想:我們希望大家能生活在一個溝通無障礙的世界。比如:出國旅游時,戴上眼鏡就可以理解任何語言的文字提示,你看到的路牌是德語的,而顯示在眼鏡上的是中文。日常交流時,別人跟你說話,對話信息自動變成你所理解的文字,顯示在眼鏡下方。這都是能更有效地獲取信息的場景。

51CTO:長遠來看,機器翻譯將如何發展?

王明軒:應用方面,我覺得機器翻譯可能會和多模態應用結合得更為緊密,比如視頻內容、音頻內容的翻譯需求會越來越多。另外,機器翻譯可能會更多地與業務出海、文化出海聯系在一起。因為國內很多公司都在積極地進行海外業務的擴張,我認為這個領域會對機器翻譯的發展起到很大幫助。

技術方面,我能看到的已經在發生的趨勢是:一是大數據和大模型的訓練。從事這一領域的人越來越多,模型越來越大,數據量也越來越大,很多人認為這種變化有可能會給機器翻譯的能力帶來質變。二是翻譯和模態的結合。不止在翻譯方面,業界很多人都在試圖構建不同模態的統一語義表示,之前幾年,不同模態之間界限還比較分明,大家交流相對也少。如今,模型越來越一致。未來可能出現一個模型,既能做文本翻譯,也能做語音翻譯,甚至能做視頻翻譯。

51CTO:未來,機器翻譯是否有可能在特定場景中完全取代人工翻譯?

王明軒:按目前這種做法肯定是取代不了人工的。不過我覺得機器翻譯和人工翻譯可能不屬于一個賽道。

機器翻譯的特點,一是速度非常快,二是可以規模化,所以它適合處理的是海量且需要及時處理的信息。舉個例子,如果現在有一千萬個視頻要從英語翻譯成法語,那么純靠人工是不太能做到的,但是機器可以做。這一點就可以讓機器在它的賽道里發揮很重要的作用,長期看來是大有裨益的,因為它開闊了整個市場,讓跨語言的市場變得更大。

但是對于很精細的翻譯場景,機器翻譯可能就力有不逮。就像有人提到的,機器翻譯能翻得了《紅樓夢》嗎?我認為,這就不屬于機器翻譯的任務范疇。小說或詩歌之類的翻譯,這一類型的翻譯必須要依仗專家。還有規格很高的會議同傳,也肯定需要專業譯員擔任,而不可能是機器。但在一些重要性不是很高的會議上,機器翻譯的成本優勢就會展現出來。

機器翻譯跟專業譯員,兩者隸屬賽道不同,區分還是很鮮明的。不過某種程度上,兩者也存在互幫互助的關系。這體現在:一方面,機器翻譯需要的語料就是專業譯員生產的。專業譯員在工作過程中不斷地生產大量的語料,這些語料能夠持續幫助機器翻譯去提升能力。另一方面,機器翻譯也可以幫人減輕負擔,處理要求沒有那么高的任務。現在也有很多譯員在做譯后編輯,很多翻譯公司讓機器先做翻譯,譯員再做編輯,效率也能因此大幅提升。

嘉賓介紹

王明軒,字節跳動AI-Lab機器翻譯團隊負責人,研究方向主要為機器翻譯和自然語言處理。在機器翻譯領域,發表包括 ACL、EMNLP 等頂級會議論文超過40 篇,多次拿到 WMT等國際翻譯評測比賽第一。同時還擔任EMNLP2022贊助主席,和NeurIPS 2022、NLPCC 2022、AACL2022 等會議領域主席。

欄目介紹

“T前線”是51CTO內容中心專為技術人物開設的深度訪談欄目之一,通過邀請技術界內的業務負責人、資深架構師、資深技術專家等對當下的技術熱點、技術實踐和技術趨勢進行深度的解讀和洞察,推動前沿科技的傳播與發展。

責任編輯:張潔 來源: 51CTO技術棧
相關推薦

2021-10-13 18:59:42

AI

2020-10-11 22:05:22

機器翻譯谷歌AI

2017-03-22 12:39:33

人工智能機器翻譯

2021-10-28 17:52:51

機器翻譯人工智能AI

2021-10-13 18:57:59

AI

2017-08-21 16:00:14

機器學習機器翻譯

2017-09-05 14:23:22

人工智能機器翻譯神經網絡

2020-04-27 10:37:53

機器翻譯腦機接口腦波

2021-10-21 13:13:57

數字化

2019-10-25 16:18:34

機器學習人工智能計算機

2012-02-09 09:49:48

2023-02-28 12:38:22

谷歌數據集機器翻譯

2018-07-10 15:46:57

機器翻譯語言翻譯

2018-03-22 08:51:38

分音塔AI技術跨語言溝通

2024-06-13 09:05:36

2020-10-27 14:34:42

算法MIT機器翻譯

2021-06-22 18:50:00

機器翻譯人工智能計算機

2020-05-27 09:53:19

大數據機器翻譯冠狀病毒

2017-02-16 14:29:42

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 四虎永久免费在线 | 正在播放国产精品 | 一区二区三区不卡视频 | 亚洲欧美激情精品一区二区 | 国产精品国色综合久久 | 国产传媒在线播放 | 精品视频一区二区三区 | 成人国产精品久久 | 日韩性在线 | 精品综合| 狠狠干影院 | 巨大荫蒂视频欧美另类大 | 国产精品久久久久无码av | 黄片毛片 | a毛片 | 一区二区免费高清视频 | 五月天国产视频 | 日韩av美女电影 | 国产一区 | 亚洲精品乱码久久久久久黑人 | 99色综合 | 欧美中文字幕在线观看 | 欧洲视频一区 | 日本免费在线 | 99久久久久久 | 国产一区二区精品在线观看 | 国产精品视频在线观看 | 国产99热精品 | 日本二区在线观看 | 国产福利视频导航 | 国产精品日韩在线观看一区二区 | 精品国产青草久久久久福利 | 欧美性乱 | 一区二区三区在线 | 美女日皮网站 | 国产在线区 | 麻豆精品国产91久久久久久 | 69av在线视频 | 国产精品日韩欧美 | 久久久久久国产精品免费免费 | 天堂精品 |