成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一個輕量級RAG文本切塊項目Chonkie

發布于 2024-11-13 15:17
瀏覽
0收藏

Chonkie:實用的RAG分塊庫,輕量級、速度快,可隨時對文本進行分塊。

一個輕量級RAG文本切塊項目Chonkie-AI.x社區圖片

支持的方法

Chonkie 提供了多個分塊器,可高效地為RAG應用程序拆分文本。以下是可用分塊器的簡要概述:

  • TokenChunker:將文本分割成固定大小的標記塊。
  • WordChunker:根據單詞將文本分成塊。
  • SentenceChunker:根據句子將文本分成塊。
  • SemanticChunker:根據語義相似性將文本分成塊。
  • SDPMChunker:使用語義雙重合并方法分割文本。

基準(VS LangChain LlamaIndex)

尺寸

  • 默認安裝: 9.7MB(其他版本為 80-171MB)
  • 具有語義:仍然比競爭對手更輕!

一個輕量級RAG文本切塊項目Chonkie-AI.x社區圖片

速度

  • token分塊:比最慢的替代方案快 33 倍
  • 句子分塊:比競爭對手快近 2 倍
  • 語義分塊:比其他方法快 2.5 倍

一個輕量級RAG文本切塊項目Chonkie-AI.x社區

####
pip install chonkie


# First import the chunker you want from Chonkie 
from chonkie import TokenChunker


# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer 
tokenizer = Tokenizer.from_pretrained("gpt2")


# Initialize the chunker
chunker = TokenChunker(tokenizer)


# Chunk some text
chunks = chunker("Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe.")


# Access chunks
for chunk in chunks:
    print(f"Chunk: {chunk.text}")
    print(f"Tokens: {chunk.token_count}")

https://github.com/bhavnicksm/chonkie
https://pypi.org/project/chonkie/

本文轉載自??PaperAgent??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美一级在线观看 | 免费一级大片 | 看a网站| 青青久久 | 成人a免费| 91成人在线 | 天天干精品 | 中国一级大黄大片 | 日日摸日日爽 | 亚洲一区综合 | 欧美日韩视频在线 | 夜夜爆操 | 欧美日韩在线一区二区三区 | 欧美一级欧美三级在线观看 | 正在播放国产精品 | 国产乱码精品一区二区三区中文 | 午夜精品福利视频 | a免费在线 | 天堂久久av | 亚洲免费成人 | 波多野结衣中文字幕一区二区三区 | 国产精品视频导航 | 免费性视频 | 一级毛片免费完整视频 | av黄色在线 | 国产女人与拘做受免费视频 | 中文视频在线 | 国产精品99久久久精品免费观看 | 中文字幕日韩一区二区 | 亚洲成人免费在线观看 | 亚洲第一成年免费网站 | 日韩午夜| 亚洲国产成人精品女人久久久野战 | 精品国模一区二区三区欧美 | 一区二区三区在线 | 国产精品一区二 | 亚洲国产专区 | 91在线电影 | 久久国产精品免费一区二区三区 | 2021天天躁夜夜看 | 久草青青草 |