一個輕量級RAG文本切塊項目Chonkie
Chonkie:實用的RAG分塊庫,輕量級、速度快,可隨時對文本進行分塊。
圖片
支持的方法
Chonkie 提供了多個分塊器,可高效地為RAG應用程序拆分文本。以下是可用分塊器的簡要概述:
- TokenChunker:將文本分割成固定大小的標記塊。
- WordChunker:根據單詞將文本分成塊。
- SentenceChunker:根據句子將文本分成塊。
- SemanticChunker:根據語義相似性將文本分成塊。
- SDPMChunker:使用語義雙重合并方法分割文本。
基準(VS LangChain LlamaIndex)
尺寸
- 默認安裝: 9.7MB(其他版本為 80-171MB)
- 具有語義:仍然比競爭對手更輕!
圖片
速度
- token分塊:比最慢的替代方案快 33 倍
- 句子分塊:比競爭對手快近 2 倍
- 語義分塊:比其他方法快 2.5 倍
####
pip install chonkie
# First import the chunker you want from Chonkie
from chonkie import TokenChunker
# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer
tokenizer = Tokenizer.from_pretrained("gpt2")
# Initialize the chunker
chunker = TokenChunker(tokenizer)
# Chunk some text
chunks = chunker("Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe.")
# Access chunks
for chunk in chunks:
print(f"Chunk: {chunk.text}")
print(f"Tokens: {chunk.token_count}")
https://github.com/bhavnicksm/chonkie
https://pypi.org/project/chonkie/
本文轉載自??PaperAgent??
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦