成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開源垂直領域高質量數據合成框架!專業QA自動生成,無需人工標注,來自上海AI Lab

人工智能 新聞
通過“知識圖譜引導+雙模型協同”機制,顯著增強模型對垂域的理解能力。

垂域模型訓練,高質量問答數據稀缺一直是行業痛點。

在垂直領域大模型訓練中,人工標注成本高昂,合成數據又常陷入質量與專業性難以兼得的困境。

為此,上海AI實驗室等提出GraphGen。

通過“知識圖譜引導+雙模型協同”機制,顯著增強模型對垂域的理解能力。

同時,研究團隊已經在OpenXLab部署了Web應用,上傳你的文本塊(如海事、海洋知識)、填寫SliconCloud API Key,即可在線生成LLaMA-Factory、XTuner所需的訓練數據。

背景說明

垂域模型(如醫療、農業)訓練中,獲取QA(問答對)數據常常面臨以下難題:

量大。只是學習回復風格只需數百條,尚且能人工標注;用SFT(Supervised Fine-Tuning)給模型注入新知識,需要數十萬的樣本量,此時數據合成手段是剛需。

專業背景。開源LLM在小眾領域已經表現不錯,但垂域應對的是真正的“硬骨頭”。面對領域數據,普通人可能每個字都認識,但連在一起并不知道什么含義。比如,不借助工具,請試著讀懂這句:

1AGIS_Os01g033640是一個怎樣的數量性狀基因(QTG),與鹽脅迫表達是否有關聯?

質量把控。“LLM-RAG-打分”通常也被拿來合成 SFT 數據,但這條pipeline存留一些問題:

正確性。在LLM不具備領域知識時,直接給領域問答數據打分,容易陷入“先有雞先有蛋”的難題

簡單的關聯度得分也不足以衡量數據質量,不僅沒有回復長度、信息豐度等指標,更缺少語義層面的保證

方案介紹

為了解決以上問題,上海AI Lab開源了GraphGen,一個在知識圖譜引導下的合成數據生成框架,旨在知識密集型任務中生成問答

這是基于GraphGen和SiliconCloud Qwen2.5-7B-Instruct API實跑的 QA 樣例:

1Q:隆兩優1212是什么品種的水稻,其機播時間是什么時候?
2A:首先,隆兩優1212是一種早熟品種,于2017年引入福建省龍巖市長汀縣試種。這種水稻在煙草收獲后進行種植,因此被稱為煙后稻。隆兩優1212的機播時間定在了6月15日。隨著時間的推移,到了2019年,隆兩優1212進一步擴大了示范種植的范圍。此外,隆兩優1212還具有抽穗整齊的生長特點,這進一步證明了其優良的種植性能。
3
4Q:What role does the BG1 gene play in plant growth and development, and how is its expression regulated?
5A:AUXIN, a class of plant hormones that regulate various aspects of plant growth and development, plays a crucial role in the induction of the BG1 gene. Specifically, BG1 is induced by auxin treatment, indicating its involvement in auxin transport regulation. This gene is preferentially expressed in the vascular tissue of culms, further highlighting its localization in these tissues. The function of BG1 extends beyond auxin transport regulation, as it is also linked to the regulation of grain size and tiller angle. Tiller angle, a critical architectural feature of rice plants that influences grain yield, is directly affected by the expression of BG1. Therefore, the role of BG1 in regulating both grain size and tiller angle underscores its importance in plant architecture and overall yield.

GraphGen會使用到兩個LLM,一個是合成模型,負責構建知識圖譜、合成數據等;另一個是學生模型,用來識別它自己的知識盲點,方便針對性的選擇數據。

圖片

上圖是GraphGen工作流:

首先輸入一段原始文本,使用合成模型從源文本構建細粒度的知識圖譜。

然后,利用預期校準誤差(Expected Calibration Error, 簡稱 ECE)來識別學生模型的知識盲點,針對知識盲點優先生成針對高價值、長尾知識的問答對。

接著,GraphGen框架結合多跳鄰域采樣來捕捉復雜的關聯信息,并采用風格控制生成技術來使生成的問答數據多樣化。

最終得到一系列和原始文本相關的問答對。用戶可以直接用這批數據在llama-factory或者xtuner這樣的訓練框架中進行SFT。

優秀的數據合成方法有很多,研究團隊在論文中做了對比測試:

圖片

研究團隊采用的是客觀指標:

MTLD(Measure of Textual Lexical Diversity)通過計算文本中連續詞串的平均長度來評估詞匯的多樣性

Uni(Unieval Score)是基于對話模型的自然度、一致度、可理解度評價指標

Rew(Reward Score)是BAAI和OpenAssistant開源的兩個Reward Model計算的得分

由上圖可見,GraphGen能給出相對較好的合成數據。

同時研究團隊在開源數據集(SeedEval、PQArefEval、HotpotEval 分別對應農業、醫學、通用)訓練測試,結果表明GraphGen自動合成的數據能夠降低Comprehension Loss(越低代表學生模型的知識盲點越少),增強模型對垂域的理解力。

圖片

工具使用

研究團隊已經在OpenXLab平臺推出了一個便捷的Web應用。用戶可以輕松上傳各類文本塊(例如海事、海洋知識等),并通過填寫SiliconCloud API Key,快速生成適配LLaMA-Factory和XTuner訓練框架所需的高質量訓練數據。

圖片

需要注意的是:

為了方便試用,默認配置免費的7B模型。真實業務中請用更大的合成模型(14B 及以上),并開啟Trainee 難例挖掘

Web應用默認配置SiliconCloud做API Key,也支持本地vllm部署,請自行修改base URL

GitHub 和論文地址:https://github.com/open-sciencelab/GraphGenOpenXLab Web

體驗地址:https://g-app-center-000704-6802-aerppvq.openxlab.space

責任編輯:張燕妮 來源: 量子位
相關推薦

2020-12-01 13:56:56

人工智能AI數據

2025-02-18 15:03:58

數據AI模型

2025-04-15 09:22:00

AI訓練模型

2025-04-15 09:08:51

系統數據模型

2022-08-25 16:46:29

人工智能AI

2024-05-09 08:33:33

2022-11-03 15:10:24

前端數據結構算法

2015-06-19 16:28:28

InformaticaCRM廣州銀行

2023-12-10 15:17:59

開源模型3D

2015-08-19 08:54:23

Android開發框架

2025-06-18 08:47:00

2025-06-25 08:53:00

模型AI強化學習

2024-06-11 07:02:00

大模型3D內容生成技術

2025-04-25 09:20:00

數據模型AI

2010-07-06 11:52:59

數據庫RationalJazz

2023-09-01 14:42:39

數據研究

2023-07-04 08:35:52

MetaGPT開源

2024-01-12 13:51:00

數據訓練

2024-11-05 13:30:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 人人爽日日躁夜夜躁尤物 | 激情的网站 | 精品一区二区三区不卡 | 欧洲一区视频 | 欧美日韩三区 | 日本黄色的视频 | 欧美日韩国产中文字幕 | 毛片网在线观看 | 亚洲国产精品人人爽夜夜爽 | 久草免费福利 | 久久久久久免费免费 | 欧美在线视频免费 | 蜜月va乱码一区二区三区 | 中文字幕国产在线 | 天天综合干 | 一级h片 | 国产一区免费视频 | 99精品久久久国产一区二区三 | 日韩中文电影 | 亚洲精品免费观看 | 在线播放第一页 | 观看毛片 | 日本不卡一区二区三区在线观看 | 久久久久亚洲精品 | 日本国产精品视频 | 国产色片| 成人午夜在线 | 亚洲乱码国产乱码精品精98午夜 | 国产一区二区三区视频 | 国产精品欧美一区二区 | 国产精品精品久久久 | 一区二区三区视频在线观看 | 欧美一区二区三区精品免费 | 日韩在线欧美 | 久久精品一级 | 久久69精品久久久久久久电影好 | 国产精品久久国产精品 | 逼逼网 | 午夜欧美一区二区三区在线播放 | 在线成人 | 久久亚洲欧美日韩精品专区 |