成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

華人博士發127頁長文:自然語言處理中圖神經網絡從入門到精通

新聞 深度學習 自然語言處理
圖不但包含數據,也包含數據之間的依賴關系,因而圖神經網絡(GNN)在自然語言處理(NLP)方面的表現有著非常大的潛力。近期,一位華人博士團隊便針對這些研究發表了一篇非常詳盡的綜述。

 圖是一種可用來描述和建模復雜系統的通用語言。

圖在NLP的世界里無處不在,比如用來描述句法信息的dependency tree和constituency tree,以及描述語義信息的AMR graph。

相比于簡單地把自然語言建模成詞袋(bag)或者序列(sequence),圖能捕捉到自然語言更豐富和細致的信息。

因此,對于許多NLP任務而言,圖是一種非常合理的表示方式。

例如,對于跨文本閱讀理解任務,如果能夠抽取出文本中的實體信息,并以圖的形式建立起它們之間各種聯系,將能有效幫助文本理解。

而圖神經網絡(GNN)恰恰最擅長處理和建模圖結構數據的。

GNN的原理

GNN的工作原理簡單概況就是,聚合節點的鄰居節點/邊的信息,來更新節點的向量表征。

近年來,深度學習已經成為NLP領域的主要技術手段。

在GNN被引入和廣泛應用之前,深度學習領域一直缺少一種神經網絡架構,能夠像CNN適合處理網格數據那樣,適合處理任意圖結構數據。

隨著GNN研究的持續火熱,越來越多的研究開始嘗試用GNN來解決各類NLP問題。

近期,來自京東硅谷研發中心的首席科學家吳凌飛博士和他的團隊就發表了第一篇詳細的關于GNNs for NLP的綜述。

華人博士發127頁長文:自然語言處理中圖神經網絡從入門到精通

論文:
https://arxiv.org/pdf/2106.06090.pdf

Github:https://github.com/graph4ai/graph4nlp/

本文從「NLP圖構建」、「NLP圖表示學習」、「基于GNN的Encoder-decoder模型」和「GNN在NLP任務中的應用」四個維度對現有研究進展作了詳細的回顧與解讀。

整篇綜述總共127頁,其中包含87頁正文,12種圖構建方法,12個應用場景涉及NLP各方各面。

除此之外,其中覆蓋了500篇頂級AI/ML/NLP的文章,并在最后對目前所面臨的挑戰與未來的研究方向作出了獨到的總結。

華人博士發127頁長文:自然語言處理中圖神經網絡從入門到精通

NLP圖構建、NLP圖表示學習、基于GNN的Encoder-decoder模型和GNN在NLP任務中的應用

不論是想要了解該方向的最新研究進展,概覽GNNs for NLP應用pipeline,抑或是對其中某個子模塊感興趣,本文都將讓你有所收獲。

作者所在團隊還為本文配備了graph4nlp library,已在github上發布,給想要動手實操的研究者們提供了非常好的機會。

GNN4NLP研究面臨的挑戰

盡管在各類NLP任務上,GNN已經大獲成功,但是GNN4NLP仍然是一個相對年輕且快速發展的研究領域,并面臨諸多挑戰:

  1. 如何自動地把文本數據轉換成有效的圖結構數據,并保留對下游任務有幫助的重要信息;
  2. 如何針對不同類型的圖結構數據,開發出有效的GNN模型;
  3. 如何端到端地學習復雜類型數據之間的映射關系(例如Graph2Seq, Graph2Tree, Graph2Graph)。

自動化圖構建

不同類型的NLP任務往往需要不同層面的文本信息。例如,詞性、句法等信息對于命名實體識別任務比較有幫助;而對于閱讀理解任務而言,實體關系等語義信息會很有幫助。

另一方面,不同類型的圖通常包含不同類型的信息。所以,如何選擇合適的圖構建方式對于GNN在下游任務的表現至關重要。

本文將目前已知的所有圖構建方式分為兩類:靜態構圖方式和動態構圖方式。

華人博士發127頁長文:自然語言處理中圖神經網絡從入門到精通

靜態圖構建

靜態圖構建有兩大特點:

  1. 引入先驗的領域知識來擴充文本信息;
  2. 在預處理階段完成。
華人博士發127頁長文:自然語言處理中圖神經網絡從入門到精通

dependency graph和constituency graph兩種靜態圖構建方式

本文從以往發表的文獻中,總結出10余種有代表性的靜態圖構建方式,并將其歸類為句法信息、語義信息、主題信息等多個維度。

華人博士發127頁長文:自然語言處理中圖神經網絡從入門到精通

動態圖構建

動態圖構建是近兩年來新興出現的一種自動構圖方式,其最大的特點是:

  1. 針對下游NLP任務,對圖結構和圖表征進行端到端聯合學習;
  2. 可以動態進行。

動態圖構建的常見流程:

  1. 圖相似度量學習模塊計算節點之間的相似關系,返回一個全連通加權圖;
  2. 圖稀疏化模塊對全連通圖進行稀疏化處理,得到稀疏圖;
  3. 如果已知初始的圖結構信息,那么也可以將初始的圖結構和學習到的隱圖結構結合起來,獲得更有效的圖結構信息。
華人博士發127頁長文:自然語言處理中圖神經網絡從入門到精通

同時,本文總結了各類目前已知有效的動態圖構建方式,并歸納出如下4個技術維度和相應的代表性技術。

華人博士發127頁長文:自然語言處理中圖神經網絡從入門到精通

圖表示學習

當從非結構化的文本中獲取到了想要的圖,又該如何進行圖表示學習?

不要慌,本文從幾百篇文獻中,系統性的總結了實際研究中碰到的圖的類型,以及怎么轉化,最終怎么用、用什么GNN進行編碼學習的流程。

首先,根據圖的節點和邊的屬性是否唯一,將圖歸類為:

  1. 具有單一節點和邊屬性的同構圖(homogeneous graph);
  2. 具有單一節點屬性,但邊屬性不唯一的關系圖(multi-relational graph);
  3. 節點屬性不唯一的異構圖(heterogeneous graph)。

其次,這些圖之間是存在互相轉化的可能的,因此本文總結了這些不同的圖可能存在的轉化模式,比如說如何從一個異構圖轉化成多關系圖等等。

這些轉化為圖神經網絡的應用提供了更多的可能與選擇。

最后,當搞清楚圖的結構和轉化后,該如何選擇合適的圖神經網絡進行學習?

本文總結了針對每一種圖目前已有的經典的圖神經網絡,讓使用起來不再感到無從下手!

  1. 對于同構圖,我們總結了一類成為homogeneous GNN的圖神經網絡類型。最常見的比如GCN,GAT等等。特別的,我們注意到很多GNN比如GCN是針對無向圖而實際中很多同構圖是有向的,因此我們針對有向圖和無向圖進行了詳盡的討論。
  2. 對于多關系圖,由于針對邊的屬性如何被應用,總結了不同的multi-relational GNN。最常見的有R-GCN, R-GGNN等等。值得一提的是,我們發現火爆全網的Transformer也被研究者用來學習多關系圖使用。我們將它視為一種特殊的多關系圖,進行了系統的分析。
  3. 對于異構圖,由于圖的節點和邊的屬性都不限,因此這方面的工作自由度很高,我們統稱為heterogeneous graph。常見的有基于元路徑的(meta-path based),關系神經網絡延伸的(R-GNN based)等等。
華人博士發127頁長文:自然語言處理中圖神經網絡從入門到精通

流程圖

編碼器-解碼器模型

Encoder-decoder架構可以說是近年來NLP領域中應用最為廣泛的框架之一。

但在不同任務場景中,如何因地制宜地設計encoder,decoder,也是極為重要的問題。

結合GNN對圖結構數據的強大建模能力,許多研究者開始關注如何在Encoder-decoder架構中用好GNN。

本文對這個方向的研究進展作了系統地梳理和回顧,并將相關文獻分為以下三個類別:

  • Graph2Seq(圖到序列)
  • Graph2Tree(圖到樹)
  • Graph2Graph(圖到圖)
華人博士發127頁長文:自然語言處理中圖神經網絡從入門到精通

Graph2Seq&Graph2Tree示意圖

對于這三個角度,本文詳細介紹了Graph based encoder-decoder模型的發展脈絡。

其中不僅包括GNN的使用,也有各種各樣相關的decoding techniques。

同時,對于最近備受關注的基于graph transformer的生成模型,本文也對此進行了分析對比,并總結了一些現在面臨的關鍵挑戰。

NLP應用任務

那么,圖神經網絡究竟被用到哪兒了呢?

本文總結了來自12個不同的方向,26個任務共百余篇文獻,帶來最詳盡的實際應用解讀:

  • 自然語言生成(NLG):1. 機器翻譯(Neural Machine Translation),2. 摘要生成(Summarization),3. 結構化數據到文本的生成(Structural-data to text),4. 文本問題生成(Neural Question Generation)
  • 機器閱讀理解與問題回答(MRC and QA):1. 機器閱讀理解(Machine Reading Comprehension), 2. 基于知識庫的問題回答(Knowledge Base Question Answering),3. 開放領域的問題回答(Open-domain Question Answering),4. 基于社區的問題回答(Community Question Answering)
  • 對話系統(Dialog Systems):1. 對話狀態跟蹤(Dialog State Tracking),2. 對話回應生成(Dialog Response Generation),3. 下一個話語選擇(Next Utterance Selection)
  • 文本分類(Text Classification):1. 文本分類(Text Classification)
  • 文本匹配(Text Matching):1. 文本匹配(Text Matching)
  • 主題模型(Topic Modeling):1. 主題模型(Topic Modeling)
  • 情感分類(Sentiment Classification):1. 情感分類(Sentiment Classification)
  • 知識圖譜(Knowledge Graph):1. 知識圖譜補全(Knowledge Graph Completion),2. 知識圖譜對齊(Knowledge Graph Alignment)
  • 知識抽?。↖nformation Extraction):1. 命名實體識別(Named Entity Recognition),2. 關系抽?。≧elation Extraction),3. 聯合學習模型(Joint Learning Models)
  • 句法解析和語義分析(Parsing):1.句法解析(syntactic parsing) 2. 語義分析(semantic parsing)
  • 推理(Reasoning):1. 解決數學應用題(Math Word Problem Solving),2. 自然語言推理(Natural Language Inference),3. 常識推理(Commonsense Reasoning)
  • 語義角色標注(Semantic Role Labelling):1. 語義角色標注(Semantic Role Labelling)

對于每一個任務,按照以下三點進行剖析:

  1. 該任務的研究背景(background)和使用圖神經網絡的動機(motivation);
  2. 使用圖神經網絡的方法(methodology);
  3. 該任務已有的數據集(benchmark)和評測指標(evaluation)。

針對最關心的方法部分,本文做了如下總結:

  1. 構圖技巧;
  2. 圖表示學習方法;
  3. 一些特殊方法的層次進行詳細的說明。
華人博士發127頁長文:自然語言處理中圖神經網絡從入門到精通

總結

團隊介紹

本文的作者是:

京東硅谷研發中心(JD.COM Silicon Valley Research Center)的首席科學家吳凌飛博士;西蒙弗雷澤大學的裴健教授;京東零售集團搜索和推薦平臺部副總裁龍波博士等研究者。

Graph4NLP 相關軟件包,綜述,講座和文獻:

Survey: http://arxiv.org/abs/2106.06090

Library: https://github.com/graph4ai/graph4nlp

Demo: https://github.com/graph4ai/graph4nlp_demo

Tutorials: Graph4NLP-NAACL'21(Slides: google drive, baidu netdisk(drs1))

Literature Review: https://github.com/graph4ai/graph4nlp_literature

論文地址:

https://arxiv.org/pdf/2106.06090.pdf

 

責任編輯:張燕妮 來源: 新智元
相關推薦

2018-02-27 09:32:13

神經網絡自然語言初探

2017-09-19 13:56:46

神經網絡自然語言深度學習

2021-11-12 15:43:10

Python自然語言數據

2021-05-18 07:15:37

Python

2018-07-03 16:10:04

神經網絡生物神經網絡人工神經網絡

2021-05-13 07:17:13

Snownlp自然語言處理庫

2017-03-10 12:16:46

機器學習

2024-02-05 14:18:07

自然語言處理

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2021-05-17 09:00:00

自然語言人工智能技術

2019-07-24 05:36:32

神經網絡語言模型NNLM

2017-10-19 17:05:58

深度學習自然語言

2017-04-10 16:15:55

人工智能深度學習應用

2023-07-30 15:22:47

2023-07-31 09:54:12

2023-09-03 12:57:39

神經網絡AI

2024-04-24 11:38:46

語言模型NLP人工智能

2010-02-06 15:31:18

ibmdwAndroid

2009-07-22 14:55:16

ibmdwAndroid

2016-12-08 22:39:40

Android
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩av啪啪网站大全免费观看 | 无毛av| 国产午夜亚洲精品不卡 | 国产在线视频一区二区 | 国产精品久久毛片av大全日韩 | 国产精品久久a | 青草青草久热精品视频在线观看 | 视频二区国产 | 羞羞视频网站免费观看 | 成人自拍视频网站 | 黄色片视频网站 | 精品在线一区二区 | 亚洲欧洲在线视频 | 午夜性视频 | 久久久噜噜噜久久中文字幕色伊伊 | 亚洲欧美综合网 | 精品婷婷| 日韩综合网| 久久久网 | 黄色av观看| 在线看一区二区三区 | 一区免费| 最新中文字幕久久 | 精品日韩一区二区 | 国产成人精品一区二区三区四区 | 综合国产第二页 | 亚洲精品视频播放 | 久草福利 | 午夜免费精品视频 | 毛片免费视频 | 欧美视频在线播放 | 欧美1区 | 亚洲国产精品一区二区第一页 | www四虎com| 久久久久国产精品一区二区 | 成人在线视频网 | 久久午夜剧场 | 国产精品日韩在线观看一区二区 | 亚洲欧美一区二区三区在线 | 久久久精品国产 | 在线亚洲人成电影网站色www |