成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

探索 mcdse-2b-v1:全新高效的多語(yǔ)言文檔檢索模型 原創(chuàng)

發(fā)布于 2024-11-15 10:35
瀏覽
0收藏

01、概述

在信息時(shí)代的浪潮中,各類數(shù)據(jù)以驚人的速度不斷產(chǎn)生,涵蓋文檔、演示文稿、圖像等多種格式。這些信息的多樣性為有效檢索帶來(lái)了巨大的挑戰(zhàn)。傳統(tǒng)的檢索模型在處理純文本查詢時(shí)表現(xiàn)良好,但面對(duì)復(fù)雜的多模態(tài)內(nèi)容(如截圖或幻燈片)時(shí),卻往往力不從心。這對(duì)于需要從包含文本和視覺元素的文檔中提取信息的企業(yè)、研究人員和教育工作者來(lái)說(shuō),尤為棘手。因此,迫切需要一種能夠高效處理這些多樣化內(nèi)容的模型。

02、引入 mcdse-2b-v1:文檔檢索的新方法

今天,我們要向大家介紹 mcdse-2b-v1,這是一款全新的人工智能模型,能夠嵌入頁(yè)面或幻燈片截圖,并通過自然語(yǔ)言進(jìn)行查詢。與依賴文本進(jìn)行索引和搜索的傳統(tǒng)檢索系統(tǒng)不同,mcdse-2b-v1 讓用戶可以處理包含文字、圖片和圖表的截圖或幻燈片,這為經(jīng)常處理非純文本文檔的用戶打開了新的可能性。用戶只需截取一張演示文稿的截圖或信息圖文檔,將其嵌入模型中,就能通過自然語(yǔ)言搜索獲得相關(guān)信息。

mcdse-2b-v1 架起了傳統(tǒng)文本查詢與更復(fù)雜視覺數(shù)據(jù)之間的橋梁,非常適合那些需要頻繁分析演示文稿、報(bào)告或其他視覺文檔內(nèi)容的行業(yè)。這一能力使得該模型在信息豐富的環(huán)境中顯得尤為重要,因?yàn)槭謩?dòng)瀏覽這些視覺密集的文檔往往耗時(shí)且效率低下。與其費(fèi)力尋找那一張?zhí)囟ǖ幕脽羝蚴侵痦?yè)翻閱密集的報(bào)告,不如利用自然語(yǔ)言直接搜索嵌入內(nèi)容,既節(jié)省了時(shí)間,又提升了工作效率。

03、技術(shù)細(xì)節(jié)與優(yōu)勢(shì)

mcdse-2b-v1(??)基于 MrLight/dse-qwen2-2b-mrl-v1,并采用 DSE 方法進(jìn)行訓(xùn)練。它是一款高效、可擴(kuò)展且多語(yǔ)言的文檔檢索模型,能夠無(wú)縫處理混合內(nèi)容源。該模型提供了一種嵌入機(jī)制,有效捕捉文本與視覺成分,使得在多模態(tài)數(shù)據(jù)類型之間進(jìn)行強(qiáng)大的檢索操作成為可能。

mcdse-2b-v1 最顯著的特點(diǎn)之一是其資源效率。例如,它可以在僅 10 GB 的空間內(nèi)嵌入 1 億個(gè)頁(yè)面。這種優(yōu)化水平使其非常適合數(shù)據(jù)存儲(chǔ)緊張的應(yīng)用場(chǎng)景,如本地解決方案或邊緣計(jì)算部署。此外,該模型的體積可以縮小至原來(lái)的六分之一,且性能損失極小,這使其能夠在資源有限的設(shè)備上運(yùn)行,同時(shí)保持高檢索準(zhǔn)確性。

另一個(gè)優(yōu)勢(shì)是 mcdse-2b-v1 與常用框架如 Transformers 或 vLLM 的兼容性,這使得其對(duì)廣泛用戶而言變得更加可及。這種靈活性使得開發(fā)者和數(shù)據(jù)科學(xué)家可以輕松將該模型集成到現(xiàn)有的機(jī)器學(xué)習(xí)工作流中,無(wú)需進(jìn)行大幅修改,極大地方便了使用。

#如何使用

初始化模型和處理器

from transformers import AutoProcessor, Qwen2VLForConditionalGeneration
from PIL import Image
import torch
import math

model = Qwen2VLForConditionalGeneration.from_pretrained(
    'marco/mcdse-2b-v1',
    attn_implementation="flash_attention_2",
    torch_dtype=torch.bfloat16,
    device_map="cuda:0"
).eval()

min_pixels = 1 * 28 * 28
max_pixels = 960 * 28 * 28

processor = AutoProcessor.from_pretrained(
    'marco/mcdse-2b-v1',
    min_pixels=min_pixels,
    max_pixels=max_pixels
)

model.padding_side = "left"
processor.tokenizer.padding_side = "left"

document_prompt = "<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n<|vision_start|><|image_pad|><|vision_end|>What is shown in this image?<|im_end|>\n<|endoftext|>"

query_prompt = "<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n<|vision_start|><|image_pad|><|vision_end|>Query: %s<|im_end|>\n<|endoftext|>"

對(duì)查詢進(jìn)行編碼

def encode_queries(queries: list[str], dimension: int):
    dummy_image = Image.new('RGB', (56, 56))
    inputs = processor(
        text=[query_prompt % x for x in queries],
        images=[dummy_image for _ in queries],
        videos=None,
        padding='longest',
        return_tensors='pt'
    ).to('cuda:0')

    cache_position = torch.arange(0, len(queries))
    inputs = model.prepare_inputs_for_generation(
        **inputs, cache_position=cache_position, use_cache=False)

    with torch.no_grad():
        output = self.model(
            **inputs,
            return_dict=True,
            output_hidden_states=True
        )
    
    embeddings = output.hidden_states[-1][:, -1]
    return torch.nn.functional.normalize(embeddings[:, :dimension], p=2, dim=-1)

對(duì)文檔進(jìn)行編碼

def round_by_factor(number: float, factor: int) -> int:
    return round(number / factor) * factor

def ceil_by_factor(number: float, factor: int) -> int:
    return math.ceil(number / factor) * factor

def floor_by_factor(number: float, factor: int) -> int:
    return math.floor(number / factor) * factor

def smart_resize(height: int, width: int) -> tuple[int, int]:
        h_bar = max(28, round_by_factor(height, 28))
        w_bar = max(28, round_by_factor(width, 28))
        if h_bar * w_bar > max_pixels:
            beta = math.sqrt((height * width) / max_pixels)
            h_bar = floor_by_factor(height / beta, 28)
            w_bar = floor_by_factor(width / beta, 28)
        elif h_bar * w_bar < min_pixels:
            beta = math.sqrt(min_pixels / (height * width))
            h_bar = ceil_by_factor(height * beta, 28)
            w_bar = ceil_by_factor(width * beta, 28)
        return h_bar, w_bar

def resize(image: Image.Image):
    new_size = smart_resize(image.height, image.width)
    return image.resize(new_size)

def encode_documents(documents: list[Image.Image], dimension: int):
    inputs = processor(
        text=[document_prompt] * len(documents),
        images=[resize(x) for x in documents],
        videos=None,
        padding='longest',
        return_tensors='pt'
    ).to('cuda:0')

    cache_position = torch.arange(0, len(queries))
    inputs = model.prepare_inputs_for_generation(
        **inputs, cache_position=cache_position, use_cache=False)

    with torch.no_grad():
        output = self.model(
            **inputs,
            return_dict=True,
            output_hidden_states=True
        )
    
    embeddings = output.hidden_states[-1][:, -1]
    return torch.nn.functional.normalize(embeddings[:, :dimension], p=2, dim=-1)

對(duì)比結(jié)果

探索 mcdse-2b-v1:全新高效的多語(yǔ)言文檔檢索模型-AI.x社區(qū)

04、mcdse-2b-v1 的重要性

mcdse-2b-v1 的意義不僅在于其高效的信息檢索能力,更在于它如何使復(fù)雜文檔分析變得更加平易近人。傳統(tǒng)的文檔檢索方法往往需要精確的結(jié)構(gòu)化,并且常常忽視現(xiàn)代文檔中豐富的視覺元素。而 mcdse-2b-v1 的出現(xiàn),讓用戶可以像進(jìn)行文本查詢一樣,輕松訪問嵌入在圖表、圖示及其他非文本組件中的信息。

初步結(jié)果顯示,即使在壓縮至原始大小的六分之一時(shí),mcdse-2b-v1 依然能夠持續(xù)提供高檢索準(zhǔn)確率。這種性能使其適合于大規(guī)模部署,而不必?fù)?dān)心典型的計(jì)算開銷。此外,其多語(yǔ)言能力意味著它可以為全球范圍內(nèi)的用戶提供服務(wù),對(duì)于在多個(gè)語(yǔ)言環(huán)境中運(yùn)作的跨國(guó)組織或?qū)W術(shù)機(jī)構(gòu)而言,尤其寶貴。

對(duì)于那些從事多模態(tài)檢索增強(qiáng)生成(RAG)工作的人員來(lái)說(shuō),mcdse-2b-v1 提供了一種可擴(kuò)展的解決方案,能夠?yàn)榘谋竞鸵曈X內(nèi)容的文檔提供高性能的嵌入。這種結(jié)合增強(qiáng)了下游任務(wù)的能力,如回答復(fù)雜用戶查詢或從多模態(tài)輸入中生成詳細(xì)報(bào)告。

05、結(jié)語(yǔ)

mcdse-2b-v1 通過嵌入頁(yè)面和幻燈片截圖,具備了可擴(kuò)展性、效率和多語(yǔ)言能力,從而解決了多模態(tài)文檔檢索的挑戰(zhàn)。它簡(jiǎn)化了與復(fù)雜文檔的互動(dòng),使用戶免于繁瑣的手動(dòng)搜索過程。用戶將獲得一種強(qiáng)大的檢索模型,有效處理多模態(tài)內(nèi)容,認(rèn)識(shí)到現(xiàn)實(shí)數(shù)據(jù)的復(fù)雜性。這一模型重新定義了我們?nèi)绾卧L問和與嵌入文本和視覺知識(shí)互動(dòng),為文檔檢索設(shè)定了新的標(biāo)準(zhǔn)。

通過以上的介紹,相信大家對(duì) mcdse-2b-v1 有了更深入的了解。這一模型不僅將推動(dòng)文檔檢索技術(shù)的發(fā)展,也將改變我們處理信息的方式,讓知識(shí)獲取變得更加高效和便捷。歡迎大家繼續(xù)關(guān)注這一領(lǐng)域的最新動(dòng)態(tài)!

參考:

  1. ??https://huggingface.co/marco/mcdse-2b-v1??



本文轉(zhuǎn)載自公眾號(hào)Halo咯咯 作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/JKLE-CuZzBvG53gJKxDScw??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: chengrenzaixian| 免费观看日韩精品 | 日本视频免费观看 | 久久蜜桃av| 黄色毛片黄色毛片 | 国产精品久久久久9999鸭 | 欧美色图综合网 | 操亚洲| 天天色天天射天天干 | 久久久久久99 | 午夜精品一区 | 天堂资源最新在线 | 男女羞羞在线观看 | 99国内精品久久久久久久 | av网站在线看 | 91精品国产一区二区三区香蕉 | 在线成人 | 男女羞羞视频免费看 | 天天精品在线 | av日日操| 亚洲精品久久久一区二区三区 | 国产在线视频一区二区 | 精品国产乱码久久久久久88av | 精品视频在线一区 | 久久久成人免费一区二区 | 第一区在线观看免费国语入口 | 久久不卡日韩美女 | 成人福利电影 | 欧美日韩福利视频 | 人人干人人超 | 最新国产精品 | 小h片免费观看久久久久 | 99久热 | 成人av看片| 日本欧美国产在线观看 | 亚洲成人av在线播放 | 日韩在线综合网 | 亚洲福利在线观看 | 日批av| 国产高清视频在线观看 | 国产精品日日摸夜夜添夜夜av |