擔(dān)心GPT-3被喂假消息？谷歌新研究，將知識(shí)圖譜轉(zhuǎn)“人話”來訓(xùn)練

作者：蕭簫 2021-06-04 16:15:36

他們做了個(gè)名為TEKGEN的AI模型，直接將知識(shí)圖譜用“人話”再描述一遍，生成語(yǔ)料庫(kù)，再喂給NLP模型訓(xùn)練。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

還在擔(dān)心大語(yǔ)言模型“啥都吃”，結(jié)果被用假信息訓(xùn)練了？

放在以前，這確實(shí)是訓(xùn)練NLP模型時(shí)值得擔(dān)心的一個(gè)難題。

現(xiàn)在，谷歌從根本上解決了這個(gè)問題。

他們做了個(gè)名為TEKGEN的AI模型，直接將知識(shí)圖譜用“人話”再描述一遍，生成語(yǔ)料庫(kù)，再喂給NLP模型訓(xùn)練。

這是因?yàn)椋R(shí)圖譜的信息來源往往準(zhǔn)確靠譜，而且還會(huì)經(jīng)過人工篩選、審核，質(zhì)量有保障。

目前，這項(xiàng)研究已經(jīng)被NAACL 2021接收。

谷歌用來描述知識(shí)圖譜的TEKGEN模型，全名Text from KG Generator（知識(shí)圖譜文本生成器）。

它會(huì)讀取一個(gè)知識(shí)圖譜中的所有詞語(yǔ)，捋清它們之間的關(guān)系，再用“人話”說出來。

從下圖中來看，轉(zhuǎn)換語(yǔ)句分為2步：

首先，將關(guān)系圖譜中的詞語(yǔ)，按邏輯進(jìn)行排列；然后，再添加一些詞語(yǔ)、并調(diào)整語(yǔ)句間的邏輯關(guān)系，將它們變成一段完整的話。

為了實(shí)現(xiàn)這個(gè)功能，TEKGEN包含4個(gè)部分：

三元組（包含主語(yǔ)、賓語(yǔ)、關(guān)系詞）生成器。將維基百科的知識(shí)圖譜、和維基百科文本描述進(jìn)行對(duì)應(yīng)，生成訓(xùn)練數(shù)據(jù)集。
T5的文本-文本生成器，用于將三元組轉(zhuǎn)換成文本信息。
實(shí)體子圖創(chuàng)建器。用于將三元組中的文本信息轉(zhuǎn)換成語(yǔ)句。
語(yǔ)義質(zhì)量濾波器。這部分用來處理低質(zhì)量的輸出，保證生成的語(yǔ)句質(zhì)量。