人工智能已經掌握人類語言了嗎?外表有時會騙人
人工智能領域的成就很容易被誤讀和高估。這一點在人類語言處理領域表現得最為明顯,在人類語言領域中,表象可能會錯誤地暗示出深層次的能力。
在過去的一年里,很多公司給人的印象是他們的聊天機器人、機器人和其他應用程序可以像人類一樣進行有意義的對話。只需要看看谷歌的Duplex、Hanson Robotics的Sophia及其他許多故事,就會相信我們已經到了一個人工智能可以展示人類行為的階段。
但是掌握人類的語言需要的不僅僅是模仿人類的聲音或者創造出完整的句子。它需要常識和對環境、創造力的理解,而目前的人工智能趨勢并不具備這些。
事實上,深度學習和其他人工智能技術已經在讓人類和電腦更接近彼此方面取得了長足的進展。但是在電路和二進制數據的世界以及人類大腦的奧秘之間仍然存在著巨大的鴻溝。除非我們不理解和承認人工智能和人類智能之間的差異,否則我們將會對未實現的期望感到失望,并錯失人工智能發展提供的真正機會。
為了理解人工智能與人類語言關系的真正深度,我們將場分解為幾個子域來看看。
語音文字轉換
語音轉錄是人工智能算法取得***進展的領域之一。平心而論,這甚至不應該被認為是人工智能,但人工智能的定義是有點模糊的,而且由于許多人可能會錯誤地將自動轉錄解釋為智能的表現,我們決定在這里研究它。
較早的技術迭代要求程序員經歷冗長乏味的過程,即發現并編纂語音樣本分類和轉換為文本的規則。由于深度學習和深層神經網絡的進步,語音到文本的轉換發生了巨大的飛躍,變得更加簡單和精確。使用神經網絡,您可以提供大量的語音樣本和相應的文本,而不是編碼規則。神經網絡發現單詞發音的共同模式,然后“學習”將新的語音記錄映射到相應的文本。
這些進步使許多服務能夠向用戶提供實時轉錄服務。
人工智能的語音到文本有很多用途。谷歌最近推出了Call Screen,這是Pixel手機上的一項功能,可以處理詐騙電話,并實時顯示通話的文本。YouTube使用深度學習提供自動的近距字幕。
但是,人工智能算法可以將語音轉換為文本,這并不意味著它明白自己在處理什么。
語音合成
語音到文本的另一面是語音合成。同樣,這不是智力,因為它與理解人類語言的意義和語境無關。但它仍然是許多應用程序中不可或缺的一部分,這些應用程序以自己的語言與人類交互。
和語音到文本一樣,語音合成也已經存在很長時間。我記得90年代在實驗室里***次看到計算機語音合成。失去聲音的漸凍癥患者數十年來一直在使用這種技術,他們通過輸入句子并讓電腦為他們讀出來,從而與人進行交流。盲人還使用這項技術來閱讀他們看不見的文字。
然而,在過去,計算機產生的聲音聽起來不像人類,而語音模型的創建需要數百小時的編碼和調整。現在,在神經網絡的幫助下,合成人類聲音變得不那么麻煩了。
這個過程包括使用生成對抗網絡(GAN),這是一種人工智能技術,將神經網絡相互對立以創建新的數據。首先,神經網絡會攝取一個人聲音的大量樣本,直到它能分辨出一個新的聲音樣本是否屬于同一個人。然后,第二個神經網絡生成音頻數據并在***個網絡中運行,以查看是否驗證它屬于主題。如果沒有,生成器將糾正其示例并通過分類器重新運行它。這兩個網絡重復這個過程,直到它們能夠生成聽起來很自然的樣本。
有幾個網站可以讓您用神經網絡合成自己的聲音。這個過程很簡單,只要您提供足夠的聲音樣本就可以了,這遠遠低于老一代的技術要求。
這種技術有很多好的用途。例如,公司正在使用人工智能的語音合成技術來提高他們的客戶體驗,讓他們的品牌擁有自己獨特的聲音。在醫學領域,人工智能正在幫助漸凍癥患者恢復他們的真實聲音,而不是使用計算機化的聲音。當然,谷歌也在使用這項技術,它的Duplex功能能代表用戶用自己的聲音打電話。
人工智能語音合成也有其邪惡的用途,它可以被用來偽造,用目標人物的聲音打電話,或者通過模仿國家元首或知名政治家的聲音來傳播假新聞。
我想我不需要提醒您,如果一臺電腦說話聽起來像個人,那并不意味著它能理解它所說的。
處理人類語言命令
這就是我們突破表面并深入人工智能與人類語言關系的地方。近年來,我們看到了自然語言處理領域(NLP)的巨大進步,這也是得益于深度學習的進步。
NLP是人工智能的一個子集,它使計算機能夠識別書面文字的含義,無論是將語音轉換為文本,通過聊天機器人等文本界面接收它們,還是從文件中讀取它們。然后,他們可以使用這些詞語背后的含義來執行特定的動作。
但NLP是一個非常廣泛的領域,可能涉及許多不同的技能。NLP最簡單的形式是幫助計算機通過文本命令執行給它們的命令。
智能語音和智能手機AI助手使用NLP處理用戶的命令。基本上,這意味著用戶不必嚴格遵守命令的順序,并且可以使用相同句子的不同變體。
在其他地方,NLP是谷歌搜索引擎用來理解用戶查詢的更廣泛含義并返回與查詢相關的結果的技術之一。
NLP在分析工具(如谷歌Analytics和IBM Watson)中非常有用,在這些工具中,用戶可以使用自然語言語句來查詢數據,而不是編寫復雜的查詢語句。
NLP的一個有趣用法是Gmail的智能回復特性。谷歌審查了電子郵件的內容,并提出了回答建議。該功能的范圍有限,只適用于簡短回答有意義的電子郵件,比如當谷歌的人工智能算法檢測到預定的會議,或者發件人希望聽到一句簡單的“謝謝”或“我看看”。但有時,它會給出相當簡潔的答案,可以節省幾秒鐘的打字時間,尤其是在移動設備上。
但僅僅因為一個智能語音或AI助手能夠對詢問天氣的不同方式做出反應,并不意味著它完全理解人類的語言。目前的NLP只擅長理解意義非常明確的句子。人工智能助手越來越擅長執行基本命令,但如果您認為您可以與他們進行有意義的對話,并與他們討論抽象話題,您就會大失所望。
用人類語言說話
NLP的另一面是自然語言生成(NLG),這是一門讓計算機生成對人類有意義的文本的人工智能學科。這一領域同樣得益于人工智能的進步,尤其是在深度學習方面。NLG算法的輸出可以像聊天機器人一樣以文本形式顯示,也可以像智能語音和AI助手一樣,通過語音合成轉換為語音并為用戶播放。
在許多情況下,NLG與NLP關系密切,與NLP一樣,NLG是一個非常廣闊的領域,可能涉及不同程度的復雜性。NLG的基本水平有一些非常有趣的用途。例如,NLG可以將圖表和電子表格轉換成文本描述。Siri和Alexa等AI助手也使用NLG來生成對查詢的響應。
Gmail的自動完成功能以一種非常有趣的方式使用NLG。當您輸入一個句子時,Gmail會為您提供一個完成句子的建議,您可以按tab鍵或輕敲它來選擇。這個建議考慮了您的郵件的主題,也就是說也涉及到NLP。
一些出版物正在使用人工智能來編寫基本的新聞報道。盡管一些記者編造了人工智能將如何很快取代人類作家的故事,但他們的觀點與事實相去甚遠。這些新聞寫作機器人背后的技術是NLG,它通過分析人類記者撰寫報道的方式,基本上把事實和數據變成故事。它不能提出新的想法,不能寫出講述個人經歷的故事,不能寫出介紹和闡述觀點的專欄文章。
另一個有趣的案例研究是谷歌的Duplex。谷歌的AI助手將人工智能對人類語言的掌握能力和局限性結合起來。Duplex以非常出色的方式結合了語音到文本、NLP、 NLG和語音合成,使許多人相信它可以像打電話的人那樣進行交互。但谷歌Duplex是狹義的人工智能,這意味著它將擅長執行公司演示的任務類型,比如預訂餐廳或安排沙龍聚會。這些領域的問題空間是有限的和可預測的。當您討論在餐廳預訂餐桌時,您要說的話很有限。
但是Duplex并不理解對話的上下文。它只是將人類語言轉換為計算機命令,將計算機輸出轉換為人類語言。它無法就抽象話題進行有意義的對話,而這些話題可能會帶來不可預測的方向。
一些夸大了人工智能語言處理和生成能力的公司最終雇傭人類員工來彌補不足。
機器翻譯
2016年,《紐約時報》雜志刊登了一篇長篇特寫,解釋了人工智能(更具體地說,是深度學習)是如何讓谷歌廣受歡迎的翻譯引擎的準確性突飛猛進的。誠然,谷歌翻譯已經大大改善。
但人工智能翻譯也有其自身的局限性,我也經常遇到這種情況。神經網絡使用一種機械的、統計的過程來翻譯不同的語言。他們舉例說明在目標語言中單詞和短語出現的不同模式,并嘗試在翻譯時選擇最方便的模式。換句話說,它們是基于數學值的映射,而不是翻譯單詞的意思。
相比之下,當人們進行翻譯時,他們會考慮語言的文化和語境,詞匯和諺語背后的歷史。他們在做決定之前會先對話題的背景進行研究。這是一個非常復雜的過程,涉及到很多常識和抽象的理解,而這些是人工智能所不具備的。
印第安納大學認知科學和比較文學教授道格拉斯·霍夫斯塔特(Douglas Hofstadter)在《大西洋月刊》上發表的文章中,揭示了人工智能翻譯的局限性。
需要明確的是,人工智能翻譯有很多非常實用的用途。當我將法語翻譯成英語時,我經常使用它來加快我的工作速度。翻譯簡單、真實的句子幾乎是***的。例如,如果您在和不懂您的語言的人交流,而且您對理解一個句子的意思比對翻譯的質量更感興趣,像谷歌這樣的人工智能應用程序可能是一個非常有用的工具。
但不要指望人工智能能在短時間內取代專業譯者。
我們需要了解AI對人類語言的理解
首先,我們需要認識到深度學習的局限性,它目前是人工智能的前沿。目前,深度學習還無法理解人類語言。當有人破解代碼,創造出能夠像人類思維那樣理解世界的人工智能時,情況可能會發生變化。但這不會很快實現。
正如大多數例子所顯示的那樣,人工智能是一種增強人類能力的技術,可以幫助提高或減輕使用人類語言的任務的速度。但是仍然缺乏常識和抽象地解決問題的能力,使它能夠完全自動化需要掌握人類語言的學科。
所以,當您面對一種聽起來、看起來和行為都很像人類的人工智能技術時,不妨看看它對人類語言的掌握有多深。您將能夠更好地理解它的功能和限制。外表有時會騙人。