Google探索全新NLU任務(wù)「自然語言評估」，正式面試前讓AI幫你熱個身！

作者：新智元 2022-11-01 12:35:31

人工智能

谷歌基于「自然語言評估」任務(wù)還開發(fā)了一個網(wǎng)站Interview Warmup，免費當(dāng)你的「面試陪練員」！

「刷題」可以說是貫穿人生的始終了，有些題目可以獨自解決，比如考試題；但諸如面試類需要互動的題目時，一個人就很難刷動了。

這種互動不同于一般的問答，通常需要「陪練方」在特定情境下對問題進行回答，并引導(dǎo)用戶進行思考，以達到最終目標(biāo)。

比如面試官不會只負(fù)責(zé)提問，還需要引導(dǎo)你說出對問題的理解思路，以及可選的解決方案。這類問題也可能是開放式的，比如自我介紹等。

AI的終極目標(biāo)，就是一切人可以做的事，都可以由模型替代，這類「面試陪練員」也不例外。

但在當(dāng)下的自然語言處理領(lǐng)域，這種能力還沒有得到足夠的重視，并且在技術(shù)上很具有挑戰(zhàn)性。

最近Google在官方博客上介紹了一個重要的自然語言理解（NLU）能力，即自然語言評估（Natural Language Assessment, NLA），并討論了如何能夠在教育的背景下有所幫助。

典型的 NLU 任務(wù)關(guān)注用戶的意圖，而 NLA 允許從多個角度評估答案。

在用戶想知道他們的答案有多好的情況下，NLA 可以提供一個關(guān)于答案與預(yù)期有多接近的分析。

在可能沒有「正確」答案的情況下，NLA 可以提供細(xì)微的洞察力，包括主題性、相關(guān)性、冗長問題等等。

研究人員制定了 NLA 的范圍，提出了一個實用的模型來執(zhí)行主題性NLA，并展示了如何使用 NLA 來幫助求職者練習(xí)回答面試問題。

自然語言評估概述

NLA 的目標(biāo)是根據(jù)一組期望（expectations）來評估用戶給出的答案。

比如說有一個與學(xué)生交互的NLA系統(tǒng)，有以下幾個組成部分：

向?qū)W生提出一個問題；
期望定義了用戶預(yù)期在回答中得到什么。例如一個具體的文本回答或者是一組用戶期望答案涵蓋的主題，并且回答需要簡潔。
由學(xué)生提供的答案；
評估結(jié)果。包括正確性、信息缺失、過于具體或籠統(tǒng)、文體反饋、發(fā)音等。
可選項：上下文。例如一本書或一篇文章中的某一段。

使用 NLA，對答案的期望和對答案的評估都可以非常寬泛，這使得師生之間的互動更具表現(xiàn)力且更有細(xì)節(jié)。

有具體正確答案的問題

即使在有明確的正確答案的情況下，也可以比簡單的正確或不正確更細(xì)微地評估答案。

上下文（Context）：哈利波特與魔法石
問題（Question）：霍格沃茨是什么?
期望（Expectation）：霍格沃茨是一所魔法學(xué)校
回答（Answer）：我不是很確定，但我認(rèn)為這是一所學(xué)校。

對于問答系統(tǒng)來說，上面這個回答可能因為缺少關(guān)鍵細(xì)節(jié)「魔法」而被標(biāo)記為不正確，因為用戶會認(rèn)為這個答案并非完全正確，也沒有太大意義。

NLA可以提供更細(xì)節(jié)的理解力，例如認(rèn)定學(xué)生的回答太過于籠統(tǒng)，并且學(xué)生本人對該回答不夠確信。

這種細(xì)微的評估，以及注意到學(xué)生所表達的不確定性，對于幫助學(xué)生在會話環(huán)境中建立技能非常重要。

主題預(yù)期

在許多情況下，提問者并不期望得到具體答復(fù)。

例如，如果一個學(xué)生被問到一個觀點類問題，并沒有具體的文本期望，提問者更關(guān)注的是回答相關(guān)性以及觀點，或許答案的簡潔度和流暢性也在提問者的評估范圍內(nèi)。

問題：請進行自我介紹。（Tell me a little about yourself?）
期望：一個主題集合，可能包括「教育」、「經(jīng)歷」、「興趣」等
回答：我在加州的薩利納斯長大，后來去了斯坦福大學(xué)，主修經(jīng)濟學(xué)，但后來對科技產(chǎn)業(yè)感到興奮，所以接下來我...

在這種情況下，一個有用的評估輸出將把用戶的答案映射到所涉及的主題的子集，可能還有文本的哪些部分與哪個主題相關(guān)的標(biāo)記。

從自然語言處理的角度來看，這很有挑戰(zhàn)性，因為答案可能很長，主題也可能是混合的，而且每個主題本身可能是多方面的。

主題性NLA模型

原則上，主題性NLA（Topicallity NLA）是一個標(biāo)準(zhǔn)的多分類任務(wù)，開發(fā)者可以根據(jù)常用的模型很容易地訓(xùn)練出一個分類器。

但對于NLA來說，可用的訓(xùn)練數(shù)據(jù)很少，收集每個問題和主題的訓(xùn)練數(shù)據(jù)成本很高，也很耗時。

谷歌的解決方案是將每個主題分解成可以使用大型語言模型(LLM)進行標(biāo)識的細(xì)粒度組件，并進行簡單的通用調(diào)優(yōu)。

研究人員將每個主題映射到一個潛在問題列表，并定義如果句子包含對這些潛在問題之一的答案，那么它就涵蓋了該主題。

對于經(jīng)歷（Experience）這個主題，模型可以選擇一些潛在的問題，比如:

你在哪里工作？
你是學(xué)什么的？
...

再比如興趣（Interests）這個主題下，也有一些基本問題，如

你對什么感興趣？
你喜歡做什么？
...

這些基本問題是通過迭代的手工過程設(shè)計的。

重要的是，由于這些問題是足夠細(xì)粒度的，當(dāng)前的語言模型可以捕獲這些句子內(nèi)的語義（比如What和Where的區(qū)別），也使得開發(fā)者可以為NLA的主題任務(wù)提供一個zero-shot設(shè)置: 模型訓(xùn)練一次后，即可不斷添加新的問題和新的主題，或通過修改基本內(nèi)容期望改編現(xiàn)有的主題，而不需要收集主題特定的數(shù)據(jù)。

幫助求職者準(zhǔn)備面試

為了探索NLA的應(yīng)用場景，谷歌的開發(fā)者還與求職者合作開發(fā)了一個新工具Interview Warmup，幫助用戶在IT Support和用戶體驗設(shè)計等快速增長的就業(yè)領(lǐng)域為面試做準(zhǔn)備。

網(wǎng)站上提供了大量的問題，求職者自己在家就能練習(xí)回答行業(yè)專家提出的問題，以幫助在真人面試中變得更加自信和從容。

谷歌也是受求職者的啟發(fā)，了解面試過程中的難點后提出了NLA研究。

Interview Warmup并不對答案進行評分或判斷，它只為用戶提供一個獨自練習(xí)的環(huán)境，并且?guī)椭脩暨M行自我改進。

每當(dāng)用戶回答一個面試問題后，該答案會被NLA模型逐句解析，然后用戶可以在不同的談話要點之間切換，看看在他們的答案中發(fā)現(xiàn)了哪些要點。

研究人員意識到，在向用戶發(fā)出信號表示他們的反饋是「good」時，存在許多潛在的陷阱，尤其是當(dāng)模型只檢測到有限的主題集時。

相反，該系統(tǒng)把控制權(quán)掌握在用戶手中，只使用機器學(xué)習(xí)來幫助用戶發(fā)現(xiàn)如何改進。

到目前為止，該工具已經(jīng)幫助了大量來自世界各地的求職者，取得了很大的成果，并且開發(fā)團隊最近已經(jīng)將其擴展到非洲，并計劃繼續(xù)與求職者合作，迭代并使該工具對數(shù)百萬正在尋找新工作的人更有幫助。

自然語言評估(NLA)是一個具有技術(shù)挑戰(zhàn)性和有趣的研究領(lǐng)域。

NLA為新的會話應(yīng)用鋪平了道路，通過從多個角度對答案進行細(xì)致入微的評估和分析，促進了學(xué)習(xí)。

通過與社區(qū)合作，從求職者和企業(yè)到課堂教師和學(xué)生，可以確定NLA有潛力幫助用戶進行學(xué)習(xí)、參與和發(fā)展各種學(xué)科的技能的情況，以一種負(fù)責(zé)任的方式建立應(yīng)用程序，使用戶能夠評估自己的能力，并找到改進的方法。

參考資料：https://ai.googleblog.com/2022/10/natural-language-assessment-new.html

責(zé)任編輯：武曉燕來源：新智元

NLU 任務(wù)任務(wù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Google探索全新NLU任務(wù)「自然語言評估」，正式面試前讓AI幫你熱個身！

自然語言評估概述

主題性NLA模型

幫助求職者準(zhǔn)備面試