成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

利用人工智能對文本內容進行自動摘要 原創

發布于 2024-4-10 08:35
瀏覽
0收藏

隨著互聯網上各種 UGC 越來越多,各種原創性的長文本內容也不斷地涌現出來。例如,在人工智能領域的三大頂會之一的  ICML,許多論文的長度都達到了二三十頁。因此,如何快速的從長文本中提取出有用的信息,成為困擾許多包括科研人員在內的互聯網網民的難題。

在 2023 年結束的人工智能領域頂會 AAAI 2023 上,來自中國浙江大學的研究團隊,發表了一篇題為 Document Summarization Based on Data Reconstruction 的論文。該篇論文提出了 DSDR 算法,描述了如何利用貪心算法進行文本摘要提取的方法。論文下載地址在這里:??Document Summarization Based on Data Reconstruction (nju.edu.cn)??。下面我們介紹一下他們的方法。

所謂的文本自動摘要問題,本質上就是從原始的長文本中抽取一個文本的子集合,使得利用這個子集合的線性組合能盡可能的恢復出原始文本。我們按照如下方式定義文本自動摘要問題:

利用人工智能對文本內容進行自動摘要-AI.x社區


其中, f 是線性組合摘要句子之后的轉換函數。X 是摘要生成的句子,a 是線性組合的系數,而  v 是原始文本,也就是輸入數據。

首先,f 可以是線性組合,也就是:

利用人工智能對文本內容進行自動摘要-AI.x社區

 

因此,文本自動摘要問題轉換成為了下述問題:

利用人工智能對文本內容進行自動摘要-AI.x社區

上述損失函數公式,等價于下面的公式:

利用人工智能對文本內容進行自動摘要-AI.x社區

利用貪心算法,我們設計了如下損失函數:

利用人工智能對文本內容進行自動摘要-AI.x社區

整個算法的偽代碼流程如下所示:

利用人工智能對文本內容進行自動摘要-AI.x社區

在上面介紹的算法中,線性組合的系數 a 有可能是負數,為了保證 a 非負,我們重構了算法的損失函數:

利用人工智能對文本內容進行自動摘要-AI.x社區

經過重新設計之后,算法的偽代碼如下:

利用人工智能對文本內容進行自動摘要-AI.x社區

通過對比實驗,我們發現新設計的算法,取得了優異的實驗結果:

利用人工智能對文本內容進行自動摘要-AI.x社區

文本自動摘要,對于閱讀長篇幅的文本,比如博士畢業論文、咨詢報告、審計報告等內容,非常有幫助。對于趕時間的當代人來說,文本自動摘要無疑是隨身辦公的文書利器。希望通過本文,廣大的互聯網從業者能夠有所收獲。

作者介紹

汪昊,前 Funplus 人工智能實驗室負責人。曾在 ThoughtWorks, 豆瓣,百度,新浪,網易等公司有超過 13 年的技術研發和技術高管經驗。先后在科技公司上線過 10 余款成功的商業產品。擔任過創業公司的 CTO和技術副總裁。精通數據挖掘、計算機圖形學和數字博物館領域的技術、技術管理和技術變現等內容。在國際學術會議和期刊如  IEEE TVCG 和  IEEE / ACM ASONAM 上發表論文 39 篇,獲得最佳論文獎 1 次(IEEE SMI 2008)和最佳論文報告獎 4 次(ICBDT 2020 / IEEE ICISCAE 2021 / AIBT 2023 / ICSIM 2024)。

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 丁香久久 | 久久99精品久久久久久噜噜 | 国产精品久久国产精品 | 毛片a区 | 中文在线一区二区 | 日韩欧美亚洲 | 久久久不卡网国产精品一区 | 久久噜噜噜精品国产亚洲综合 | 欧美日韩专区 | 亚洲精品一 | 日本欧美国产 | 国产成人综合网 | 精品国产91乱码一区二区三区 | 91精品国产91久久久久久吃药 | 久久成人人人人精品欧 | 成人在线视频网 | 久久精品国产亚洲 | 久久91精品国产一区二区三区 | 久久精品亚洲成在人线av网址 | 亚洲欧美日韩成人在线 | 99久久精品免费看国产四区 | 亚洲狠狠 | 色婷婷九月 | 久草视频在线播放 | 亚洲国产网址 | 亚洲欧洲在线看 | 九九视频在线观看 | 国产激情第一页 | 国产精品激情 | 国产成人免费在线观看 | 亚洲精品久久久久久国产精华液 | 99福利视频 | 日日干干夜夜 | 乱码av午夜噜噜噜噜动漫 | 麻豆一区二区三区 | 日韩一区三区 | 欧州一区二区三区 | 网站黄色在线免费观看 | 麻豆视频在线看 | 亚洲精品一区二区三区中文字幕 | 亚洲精品国产成人 |