成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

告別傳統的文檔切塊!JinaAI提出Late Chunking技巧

發布于 2024-9-5 12:50
瀏覽
0收藏

今天給大家分享JinaAI提出的一個新的技巧。

正常在處理大規模數據建索引的時候,一般我們需要先對文檔進行分塊,建立向量索引。 而這個分塊大小,設置的都是比較短的,比如512。 一方面是早期bert的處理長度的限制,另一個方面是如果文本太長,包含的信息就越多,那么可能比較難用一個向量來表征出來。

告別傳統的文檔切塊!JinaAI提出Late Chunking技巧-AI.x社區圖片

對于前者,如果持續關注向量模型的同學可以發現,無論是開源的BGE系列,還是閉源的API,都在往一個較長的上下文靠齊(比如說8192)。那這就有一些矛盾了,如果工業界只需要512的上下文的向量模型,為什么還要往更長的8192模型發展呢?

對于傳統的分塊,類似于固定長度的分塊。帶來的一個比較大的問題是,上下文缺失。就像下圖一樣,一個句子的主語在段落開頭,后面的段落/句子中,有一些代詞比如 It's, The city等等來表示主語。這種情況下確實主語的句子基本上就變得比較斷章取義了~

告別傳統的文檔切塊!JinaAI提出Late Chunking技巧-AI.x社區圖片

與先分塊后向量化不同,JinaAI最新提出的“Late Chunking”方法是一個相反的步驟,首先將整個文本或盡可能多的文本輸入到嵌入模型中。在輸出層會為每個token生成一個向量表示,其中包含整個文本的文本信息。然后我們可以按照需要的塊大小對對向量進行聚合得到每個chunk的embedding。這樣的優勢是,充分利用長上下文模型的優勢,同時又不會讓每個塊的信息過多,干擾向量表征。

告別傳統的文檔切塊!JinaAI提出Late Chunking技巧-AI.x社區圖片

在測試中,在所有情況下,與常規的分塊相比,Late Chunking提高了召回ndcg@10。在某些情況下,它的性能也優于將整個文檔編碼為單個嵌入。并且,文檔越長,Late Chunking策略就越有效。

告別傳統的文檔切塊!JinaAI提出Late Chunking技巧-AI.x社區圖片

開源的實驗代碼:??https://colab.research.google.com/drive/15vNZb6AsU7byjYoaEtXuNu567JWNzXOz?usp=sharing&ref=jina-ai-gmbh.ghost.io??

本文轉載自 ??探索AGI??,作者: 獼猴桃

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 免费观看国产视频在线 | 午夜视频免费在线观看 | 一级毛片视频 | 国产伦精品一区二区三区精品视频 | 人人人干 | www..99re| 中文字幕一区二区三区四区五区 | 污片在线免费观看 | 久久亚洲一区二区 | 国产99久久精品 | 蜜桃在线一区二区三区 | 日韩欧美在线一区 | 精品久久香蕉国产线看观看亚洲 | 国内精品久久精品 | 国产精品久久久久久久久久免费看 | 青青草综合网 | 91免费在线| 精品欧美一区二区精品久久 | 91精品在线播放 | 欧美一级二级在线观看 | 欧美a级成人淫片免费看 | 91麻豆精品国产91久久久久久久久 | 五月天国产在线 | 久久国产精品亚洲 | 久久精品二区亚洲w码 | 成人免费毛片在线观看 | 欧美国产一区二区 | 欧美啊v在线观看 | 国产精品国产a级 | 喷水毛片| 久久精品国产清自在天天线 | 成人福利在线观看 | 亚洲福利 | 性高朝久久久久久久3小时 av一区二区三区四区 | 亚洲视频在线看 | 午夜精品久久久久久久久久久久 | 91一区二区在线观看 | 情侣酒店偷拍一区二区在线播放 | 玖玖在线免费视频 | 在线看日韩av| 欧美黄色网 |