成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RAG分塊優(yōu)化之語(yǔ)義分塊方法CrossFormer模型技術(shù)思路

人工智能
語(yǔ)義分段的方式筆者在很早實(shí)踐過(guò)一個(gè)思路,不管是RAG分塊還是基于規(guī)則分塊,都會(huì)或多或少的都是段落信息,如何通過(guò)語(yǔ)義的方式分割段落?筆者之前的思路最初的想法來(lái)源于序列標(biāo)注模型,那么是否能應(yīng)用序列標(biāo)注的方法,來(lái)預(yù)測(cè)文本行之間的跳轉(zhuǎn)概率?

筆者在前期文章中總結(jié)了RAG的分塊《RAG常見(jiàn)13種分塊策略大總結(jié)(一覽表)》,本文介紹一個(gè)語(yǔ)義分段的工作,該工作解決的問(wèn)題是文本語(yǔ)義分割,即將文檔分割成多個(gè)具有連續(xù)語(yǔ)義的段落。傳統(tǒng)方法通常依賴于預(yù)處理文檔以分段來(lái)解決輸入長(zhǎng)度限制問(wèn)題,但這會(huì)導(dǎo)致段間關(guān)鍵語(yǔ)義信息的丟失。RAG系統(tǒng)中的文本分塊方法主要分為基于規(guī)則和基于LLM的方法。

插入一個(gè)思路,其實(shí),語(yǔ)義分段的方式筆者在很早實(shí)踐過(guò)一個(gè)思路,不管是RAG分塊還是基于規(guī)則分塊,都會(huì)或多或少的都是段落信息,如何通過(guò)語(yǔ)義的方式分割段落?筆者之前的思路最初的想法來(lái)源于序列標(biāo)注模型,那么是否能應(yīng)用序列標(biāo)注的方法,來(lái)預(yù)測(cè)文本行之間的跳轉(zhuǎn)概率?答案是肯定的,以pdf為例,具體實(shí)施步驟如下: 先放上筆者之前的老圖:

標(biāo)注方式標(biāo)注方式

  1. 從pdf讀取程序或ocr引擎中得到文本行及其坐標(biāo);
  2. 使用神經(jīng)網(wǎng)絡(luò)對(duì)第i行的文本進(jìn)行編碼,得到文本嵌入向量text_emb(i);
  3. 提取對(duì)應(yīng)行的圖像,得到圖像嵌入向量img_emb(i);
  4. 提取字號(hào)、文字長(zhǎng)度特征,并進(jìn)行歸一化得到特征向量;
  5. 聚合步驟2、3、4得到的向量,得到行嵌入line_emb(i);
  6. 使用神經(jīng)網(wǎng)絡(luò)對(duì)行向量序列[line_emb(i)]進(jìn)行序列標(biāo)注。

整體方案流程圖如下:

圖片圖片

接下來(lái),本文介紹的方法有異曲同工之處,也是采用序列標(biāo)注的方式進(jìn)行,供參考。

方法-CrossFormer

圖片圖片

任務(wù)定義

文檔預(yù)處理

圖片圖片

由于文本語(yǔ)義分割任務(wù)通常涉及長(zhǎng)文檔,需要采用適當(dāng)?shù)慕7椒▉?lái)有效處理這些文檔。論文中采用了截?cái)嗪头侄蔚姆椒ā2襟E如下:

跨段融合模塊 (CSFM)

CSFM 是 CrossFormer 的核心組件,用于增強(qiáng)文檔段之間的語(yǔ)義連貫性。原理如下:

訓(xùn)練模型使用交叉熵?fù)p失函數(shù)即可。

通過(guò)這種方式,CSFM 能夠有效地捕捉文檔段之間的語(yǔ)義依賴關(guān)系,提高分割性能。

CrossFormer 作為 RAG 文本塊分割器

圖片圖片

CrossFormer 可以作為RAG系統(tǒng)中的文本塊分割器,生成更具語(yǔ)義連貫性的文本塊。流程如下:

流程圖流程圖

  1. 分割長(zhǎng)文檔:首先使用 CrossFormer 對(duì)輸入文檔進(jìn)行分割,生成一系列文本塊。
  2. 長(zhǎng)度評(píng)估:評(píng)估每個(gè)文本塊的長(zhǎng)度。如果長(zhǎng)度超過(guò)預(yù)設(shè)閾值,則將其輸入分割隊(duì)列進(jìn)行進(jìn)一步處理,直到確定不需要額外分割或文本塊長(zhǎng)度低于指定閾值。
  3. 檢索和生成:使用分割后的文本塊進(jìn)行檢索和生成。通過(guò)檢索器和問(wèn)題提示進(jìn)行相關(guān)性檢索,生成上下文,并將其輸入到LLM中以獲得最終答案。
局限性
  • CrossFormer不能精確控制文本塊長(zhǎng)度的上限。因此,可能需要結(jié)合基于規(guī)則的方法來(lái)輸出合適的長(zhǎng)度。
  • 作為線性文本語(yǔ)義分割模型,CrossFormer不能輸出部分重疊的文本塊,這在RAG系統(tǒng)的某些場(chǎng)景中是必需的。

實(shí)驗(yàn)效果

文本語(yǔ)義分割的結(jié)果文本語(yǔ)義分割的結(jié)果

在RAG基準(zhǔn)測(cè)試上的結(jié)果在RAG基準(zhǔn)測(cè)試上的結(jié)果

圖片圖片

參考文獻(xiàn):CrossFormer: Cross-Segment Semantic Fusion for Document Segmentation,https://arxiv.org/pdf/2503.23671v1

責(zé)任編輯:武曉燕 來(lái)源: 大模型自然語(yǔ)言處理
相關(guān)推薦

2025-05-07 08:35:11

2024-08-05 10:23:36

2025-05-09 03:55:00

2025-01-23 08:00:00

2025-03-21 14:34:17

2024-12-23 08:03:13

2025-05-06 10:05:23

2025-05-14 01:40:00

RAG數(shù)據(jù)工具

2025-03-10 03:25:00

2025-06-30 04:15:00

2025-03-27 02:50:00

2020-08-14 11:01:32

數(shù)據(jù)Pandas文件

2025-06-24 09:51:10

2011-04-28 09:40:26

flush高性能Web開(kāi)發(fā)

2025-03-05 08:57:55

2025-05-08 01:00:00

2025-04-30 08:31:40

2024-11-04 10:40:00

AI模型

2025-03-10 08:00:00

RAG檢索Reranker

2025-05-15 08:20:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 蜜桃在线视频 | se婷婷| 亚洲理论在线观看电影 | 91精品国产91久久久久久 | 亚洲国产aⅴ成人精品无吗 欧美激情欧美激情在线五月 | 午夜午夜精品一区二区三区文 | 日韩精品在线免费观看 | 国产精品视频导航 | 国产精品国产精品国产专区不卡 | 天天拍天天射 | 日韩免费视频一区二区 | 欧美日韩精品国产 | 久久综合久久综合久久综合 | 欧美一级二级三级视频 | 青青草社区 | 中文字幕在线中文 | 美女中文字幕视频 | 国产精品毛片久久久久久久 | 一区二区三区影院 | 久久久久亚洲国产| 成人午夜影院 | 日韩在线一区二区三区 | 午夜久久久久久久久久一区二区 | 福利视频一区二区三区 | 91精品欧美久久久久久久 | 欧美日韩在线视频观看 | 日韩av大片免费看 | 国内精品视频在线 | 永久精品 | 日本成人在线观看网站 | 国外成人在线视频 | 日韩三 | 中文一区二区 | 国产美女视频一区 | 午夜在线视频 | 国产视频第一页 | 黄色一级特级片 | 免费看黄视频网站 | 日韩一区在线观看视频 | 亚洲精品自在在线观看 | 国产丝袜一区二区三区免费视频 |