成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

本地運(yùn)行性能超越 OpenAI Text-Embedding-Ada-002 的 Embedding 服務(wù),太方便了!

人工智能
本文我們將使用 nomic-embed-text[2] 模型。它是一種文本編碼器,在短的上下文和長的上下文任務(wù)上,性能超越了 OpenAI text-embedding-ada-002 和 text-embedding-3-small。

Ollama[1] 是一款超級(jí)好用的工具,讓你能夠在本地輕松跑  Llama 2, Mistral, Gemma 等開源模型。本文我將介紹如何使用 Ollama 實(shí)現(xiàn)對文本的向量化處理。如果你本地還沒有安裝 Ollama,可以閱讀這篇文章。

本文我們將使用 nomic-embed-text[2] 模型。它是一種文本編碼器,在短的上下文和長的上下文任務(wù)上,性能超越了 OpenAI text-embedding-ada-002 和 text-embedding-3-small。

啟動(dòng) nomic-embed-text 服務(wù)

當(dāng)你已經(jīng)成功安裝好 ollama 之后,使用以下命令拉取 nomic-embed-text 模型:

ollama pull nomic-embed-text

待成功拉取模型之后,在終端中輸入以下命令,啟動(dòng) ollama 服務(wù):

ollama serve

之后,我們可以通過 curl 來驗(yàn)證 embedding 服務(wù)是否能正常運(yùn)行:

curl http://localhost:11434/api/embeddings -d '{
  "model": "nomic-embed-text",
  "prompt": "The sky is blue because of Rayleigh scattering"
}'

使用 nomic-embed-text 服務(wù)

接下來,我們將介紹如何利用 langchainjs 和 nomic-embed-text 服務(wù),實(shí)現(xiàn)對本地 txt 文檔執(zhí)行 embeddings 操作。相應(yīng)的流程如下圖所示:

圖片圖片

1.讀取本地的 txt 文件

import { TextLoader } from "langchain/document_loaders/fs/text";

async function load(path: string) {
  const loader = new TextLoader(path);
  const docs = await loader.load();
  return docs;
}

在以上代碼中,我們定義了一個(gè) load 函數(shù),該函數(shù)內(nèi)部使用 langchainjs 提供的 TextLoader 讀取本地的 txt 文檔。

2.把 txt 內(nèi)容分割成文本塊

import { RecursiveCharacterTextSplitter } from "langchain/text_splitter";
import { Document } from "langchain/document";

function split(documents: Document[]) {
  const splitter = new RecursiveCharacterTextSplitter({
    chunkSize: 500,
    chunkOverlap: 20,
  });
  return splitter.splitDocuments(documents);
}

在以上代碼中,我們使用 RecursiveCharacterTextSplitter 對讀取的 txt 文本進(jìn)行切割,并設(shè)置每個(gè)文本塊的大小是 500。

3.對文本塊執(zhí)行 embeddings 操作

const EMBEDDINGS_URL = "http://127.0.0.1:11434/api/embeddings";

async function embedding(path: string) {
  const docs = await load(path);
  const splittedDocs = await split(docs);

  for (let doc of splittedDocs) {
    const embedding = await sendRequest(EMBEDDINGS_URL, {
      model: "nomic-embed-text",
      prompt: doc.pageContent,
    });

    console.dir(embedding.embedding);
  }
}

在以上代碼中,我們定義了一個(gè) embedding 函數(shù),在該函數(shù)中,會(huì)調(diào)用前面定義的 load 和 split 函數(shù)。之后對遍歷生成的文本塊,然后調(diào)用本地啟動(dòng)的 nomic-embed-text embedding 服務(wù)。其中 sendRequest 函數(shù)用于發(fā)送 embeding 請求,它的實(shí)現(xiàn)代碼很簡單,就是使用 fetch API 調(diào)用已有的 REST API。

async function sendRequest(url: string, data: Record<string, any>) {
  try {
    const response = await fetch(url, {
      method: "POST",
      body: JSON.stringify(data),
      headers: {
        "Content-Type": "application/json",
      },
    });
    if (!response.ok) {
      throw new Error(`HTTP error! status: ${response.status}`);
    }
    const responseData = await response.json();
    return responseData;
  } catch (error) {
    console.error("Error:", error);
  }
}

接著,我們繼續(xù)定義一個(gè) embedTxtFile 函數(shù),在該函數(shù)內(nèi)部直接調(diào)用已有的 embedding 函數(shù)并添加相應(yīng)的異常處理。

async function embedTxtFile(path: string) {
  try {
    embedding(path);
  } catch (error) {
    console.dir(error);
  }
}

embedTxtFile("langchain.txt")

最后,我們通過 npx esno src/index.ts 命令來快速執(zhí)行本地的 ts 文件。若成功執(zhí)行 index.ts 中的代碼,在終端將會(huì)輸出以下結(jié)果:

圖片圖片

其實(shí),除了使用上述的方式之外,我們還可以直接利用 @langchain/community 模塊中的 [OllamaEmbeddings](https://js.langchain.com/docs/integrations/text_embedding/ollama "OllamaEmbeddings") 對象,它內(nèi)部封裝了調(diào)用 ollama embedding 服務(wù)的邏輯:

import { OllamaEmbeddings } from "@langchain/community/embeddings/ollama";

const embeddings = new OllamaEmbeddings({
  model: "nomic-embed-text", 
  baseUrl: "http://127.0.0.1:11434",
  requestOptions: {
    useMMap: true,
    numThread: 6,
    numGpu: 1,
  },
});

const documents = ["Hello World!", "Bye Bye"];
const documentEmbeddings = await embeddings.embedDocuments(documents);
console.log(documentEmbeddings);

本文介紹的內(nèi)容涉及開發(fā) RAG 系統(tǒng)時(shí),建立知識(shí)庫內(nèi)容索引的處理過程。如果你對 RAG 系統(tǒng)還不了解的話,可以閱讀相關(guān)的文章。

參考資料

[1]Ollama: https://ollama.com/

[2]nomic-embed-text: https://ollama.com/library/nomic-embed-text

責(zé)任編輯:武曉燕 來源: 全棧修仙之路
相關(guān)推薦

2024-09-27 15:24:15

Spring數(shù)據(jù)加解密

2022-07-15 14:26:36

開源工具IP

2024-09-30 05:51:08

2021-09-24 15:00:26

微信PC電腦移動(dòng)應(yīng)用

2021-09-24 09:59:59

復(fù)制粘貼PythonPDF

2019-07-24 10:50:56

Python 開發(fā)編程語言

2025-03-03 00:00:55

Spring文件下載開發(fā)

2025-03-21 07:00:00

2022-09-30 08:07:22

Embedding轉(zhuǎn)換概率

2022-09-14 10:16:12

MyBatis加密解密

2020-07-28 08:43:02

微信加油移動(dòng)應(yīng)用

2020-06-30 16:00:48

Embedding機(jī)器學(xué)習(xí)人工智能

2024-12-02 09:46:27

2021-02-08 11:46:17

Python自動(dòng)化郵件

2025-03-06 08:20:00

RAG嵌入模型

2025-03-18 10:00:00

Embedding向量嵌入

2024-08-08 15:58:35

2022-08-30 09:26:24

數(shù)字人民幣
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 户外露出一区二区三区 | 特级做a爰片毛片免费看108 | 男人av网 | 成人av资源在线 | 亚洲一区不卡在线 | 亚洲精品小视频在线观看 | 97av在线 | 国产精品日韩一区二区 | 国产网站在线播放 | 国产精品高潮呻吟 | 亚洲色综合 | 日日干干| 欧州一区二区三区 | 国产精品久久久久不卡 | 黄 色 毛片免费 | 亚洲中字在线 | 欧美性受xxx | www.激情.com | a在线免费观看 | 羞羞视频在线观看 | 国产精品一区一区 | 免费精品| 很黄很污的网站 | 欧美自拍一区 | 亚洲综合在线视频 | 午夜精品在线观看 | 国产精品高清在线 | 国产成人精品一区二区三区四区 | 国产jizz女人多喷水99 | 一级久久久久久 | 国产精品久久久久久一区二区三区 | 日韩精品免费 | 国产精品视频网站 | 日韩精品一区二区不卡 | 成人超碰 | 综合二区 | 亚洲国产一区二区视频 | 久久久噜噜噜久久中文字幕色伊伊 | 亚洲一区在线日韩在线深爱 | 国产美女自拍视频 | 国产精品视频不卡 |