成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

復(fù)旦大學(xué)團(tuán)隊(duì)發(fā)布中文醫(yī)療健康個(gè)人助手,同時(shí)開源47萬高質(zhì)量數(shù)據(jù)集

人工智能 新聞
復(fù)旦大學(xué)數(shù)據(jù)智能與社會(huì)計(jì)算實(shí)驗(yàn)室(FudanDISC)發(fā)布中文醫(yī)療健康個(gè)人助手 ——DISC-MedLLM。

隨著遠(yuǎn)程醫(yī)療的興起,在線問診、咨詢?cè)桨l(fā)成為患者尋求便捷高效的醫(yī)療支持的首選項(xiàng)。近來大語言模型(LLM)展示出強(qiáng)大的自然語言交互能力,為健康醫(yī)療助手走進(jìn)人們的生活帶來了希望。

醫(yī)療健康咨詢場(chǎng)景通常較為復(fù)雜,個(gè)人助手需要有豐富的醫(yī)學(xué)知識(shí),具備通過多個(gè)輪次對(duì)話了解病人意圖,并給出專業(yè)、詳實(shí)回復(fù)的能力。通用語言模型在面對(duì)醫(yī)療健康咨詢時(shí),往往因?yàn)槿狈︶t(yī)療知識(shí),出現(xiàn)避而不談或者答非所問的情況;同時(shí),傾向于針對(duì)當(dāng)前輪次問題完成咨詢,缺少令人滿意的多輪追問能力。除此之外,當(dāng)前高質(zhì)量的中文醫(yī)學(xué)數(shù)據(jù)集也十分難得,這為訓(xùn)練強(qiáng)大的醫(yī)療領(lǐng)域語言模型構(gòu)成了挑戰(zhàn)。

復(fù)旦大學(xué)數(shù)據(jù)智能與社會(huì)計(jì)算實(shí)驗(yàn)室(FudanDISC)發(fā)布中文醫(yī)療健康個(gè)人助手 ——DISC-MedLLM。在單輪問答和多輪對(duì)話的醫(yī)療健康咨詢?cè)u(píng)測(cè)中,模型的表現(xiàn)相比現(xiàn)有醫(yī)學(xué)對(duì)話大模型展現(xiàn)出明顯優(yōu)勢(shì)。課題組同時(shí)公開了包含 47 萬高質(zhì)量的監(jiān)督微調(diào)(SFT)數(shù)據(jù)集 ——DISC-Med-SFT,模型參數(shù)和技術(shù)報(bào)告也一并開源。

  • 主頁地址:https://med.fudan-disc.com
  • Github 地址:https://github.com/FudanDISC/DISC-MedLLM
  • 技術(shù)報(bào)告:https://arxiv.org/abs/2308.14346

1、樣例展示

圖 1:對(duì)話示例

患者感到身體不適時(shí),可以向模型問診,描述自身癥狀,模型會(huì)給出可能的病因、推薦的治療方案等作為參考,在信息缺乏時(shí)會(huì)主動(dòng)追問癥狀的詳細(xì)描述。

圖片

圖 2:?jiǎn)栐\場(chǎng)景下的對(duì)話

用戶還可以基于自身健康狀況,向模型提出需求明確的咨詢問題,模型會(huì)給予詳盡有助的答復(fù),并在信息缺乏時(shí)主動(dòng)追問,以增強(qiáng)回復(fù)的針對(duì)性和準(zhǔn)確性。

圖片

圖 3:基于自身健康狀況咨詢的對(duì)話

用戶還可以詢問與自身無關(guān)的醫(yī)學(xué)知識(shí),此時(shí)模型會(huì)盡可能專業(yè)地作答,使用戶全面準(zhǔn)確地理解。

圖片

圖 4:與自身無關(guān)的醫(yī)學(xué)知識(shí)詢問對(duì)話

2、DISC-MedLLM 介紹

DISC-MedLLM 是基于我們構(gòu)建的高質(zhì)量數(shù)據(jù)集 DISC-Med-SFT 在通用領(lǐng)域中文大模型 Baichuan-13B 上訓(xùn)練得到的醫(yī)療大模型。值得注意的是,我們的訓(xùn)練數(shù)據(jù)和訓(xùn)練方法可以被適配到任何基座大模型之上。

DISC-MedLLM 具有三個(gè)關(guān)鍵特點(diǎn):

  • 可靠豐富的專業(yè)知識(shí)。我們以醫(yī)學(xué)知識(shí)圖譜作為信息源,通過采樣三元組,并使用通用大模型的語言能力進(jìn)行對(duì)話樣本的構(gòu)造。
  • 多輪對(duì)話的問詢能力。我們以真實(shí)咨詢對(duì)話紀(jì)錄作為信息源,使用大模型進(jìn)行對(duì)話重建,構(gòu)建過程中要求模型完全對(duì)齊對(duì)話中的醫(yī)學(xué)信息。
  • 對(duì)齊人類偏好的回復(fù)。病人希望在咨詢的過程中獲得更豐富的支撐信息和背景知識(shí),但人類醫(yī)生的回答往往簡(jiǎn)練;我們通過人工篩選,構(gòu)建高質(zhì)量的小規(guī)模指令樣本,對(duì)齊病人的需求。

模型的優(yōu)勢(shì)和數(shù)據(jù)構(gòu)造框架如圖 5 所示。我們從真實(shí)咨詢場(chǎng)景中計(jì)算得到病人的真實(shí)分布,以此指導(dǎo)數(shù)據(jù)集的樣本構(gòu)造,基于醫(yī)學(xué)知識(shí)圖譜和真實(shí)咨詢數(shù)據(jù),我們使用大模型在回路和人在回路兩種思路,進(jìn)行數(shù)據(jù)集的構(gòu)造。

圖 5:DISC-Med-SFT 的構(gòu)造

3、方法:數(shù)據(jù)集 DISC-Med-SFT 的構(gòu)造

在模型訓(xùn)練的過程中,我們向 DISC-Med-SFT 補(bǔ)充了通用領(lǐng)域的數(shù)據(jù)集和來自現(xiàn)有語料的數(shù)據(jù)樣本,形成了 DISC-Med-SFT-ext,詳細(xì)信息呈現(xiàn)在表 1 中。

圖片

表 1:DISC-Med-SFT-ext 數(shù)據(jù)內(nèi)容介紹

重構(gòu) AI 醫(yī)患對(duì)話

數(shù)據(jù)集。分別從兩個(gè)公共數(shù)據(jù)集 MedDialog 和 cMedQA2 中隨機(jī)選擇 40 萬個(gè)和 2 萬個(gè)樣本,作為 SFT 數(shù)據(jù)集構(gòu)建的源樣本。

重構(gòu)。為了將真實(shí)世界醫(yī)生回答調(diào)整為所需的高質(zhì)量的統(tǒng)一格式的回答,我們利用 GPT-3.5 來完成這個(gè)數(shù)據(jù)集的重構(gòu)過程。提示詞(Prompts)要求改寫遵循以下幾個(gè)原則:

  • 去除口頭表達(dá),提取統(tǒng)一表達(dá)方式,糾正醫(yī)生語言使用中的不一致之處。
  • 堅(jiān)持原始醫(yī)生回答中的關(guān)鍵信息,并提供適當(dāng)?shù)慕忉屢愿尤妗⒑虾踹壿嫛?/span>
  • 重寫或刪除 AI 醫(yī)生不應(yīng)該發(fā)出的回復(fù),例如要求患者預(yù)約。

圖 6 展示了一個(gè)重構(gòu)的示例。調(diào)整后醫(yī)生的回答與 AI 醫(yī)療助手的身份一致,既堅(jiān)持原始醫(yī)生提供的關(guān)鍵信息,又為患者提供更豐富全面的幫助。

圖片

圖 6:對(duì)話重新改寫的例子

知識(shí)圖譜問答對(duì)

醫(yī)學(xué)知識(shí)圖譜包含大量經(jīng)過良好組織的醫(yī)學(xué)專業(yè)知識(shí),基于它可以生成噪聲更低的 QA 訓(xùn)練樣本。我們?cè)?CMeKG 的基礎(chǔ)上,根據(jù)疾病節(jié)點(diǎn)的科室信息在知識(shí)圖譜中進(jìn)行采樣,利用適當(dāng)設(shè)計(jì)的 GPT-3.5 模型 Prompts,總共生成了超過 5 萬個(gè)多樣化的醫(yī)學(xué)場(chǎng)景對(duì)話樣本。

行為偏好數(shù)據(jù)集

在訓(xùn)練的最終階段,為了進(jìn)一步提高模型的性能,我們使用更符合人類行為偏好數(shù)據(jù)集進(jìn)行次級(jí)監(jiān)督微調(diào)。從 MedDialog 和 cMedQA2 兩個(gè)數(shù)據(jù)集中人工挑選了約 2000 個(gè)高質(zhì)量、多樣化的樣本,在交給 GPT-4 改寫幾個(gè)示例并人工修訂后,我們使用小樣本的方法將其提供給 GPT-3.5,生成高質(zhì)量的行為偏好數(shù)據(jù)集。

其他

通用數(shù)據(jù)。為了豐富訓(xùn)練集的多樣性,減輕模型在 SFT 訓(xùn)練階段出現(xiàn)基礎(chǔ)能力降級(jí)的風(fēng)險(xiǎn),我們從兩個(gè)通用的監(jiān)督微調(diào)數(shù)據(jù)集 moss-sft-003 和 alpaca gpt4 data zh 隨機(jī)選擇了若干樣本。

MedMCQA。為增強(qiáng)模型的問答能力,我們選擇英文醫(yī)學(xué)領(lǐng)域的多項(xiàng)選擇題數(shù)據(jù)集 MedMCQA,使用 GPT-3.5 對(duì)多項(xiàng)選擇題中的問題和正確答案進(jìn)行了優(yōu)化,生成專業(yè)的中文醫(yī)學(xué)問答樣本約 8000 個(gè)。

4、實(shí)驗(yàn)

訓(xùn)練。如下圖所示,DISC-MedLLM 的訓(xùn)練過程分為兩個(gè) SFT 階段。

圖片

圖 7:兩階段訓(xùn)練過程

評(píng)測(cè)。在兩個(gè)場(chǎng)景中評(píng)測(cè)醫(yī)學(xué) LLMs 的性能,即單輪 QA 和多輪對(duì)話。

  1. 單輪 QA 評(píng)測(cè):為了評(píng)估模型在醫(yī)學(xué)知識(shí)方面的準(zhǔn)確性,我們從中國國家醫(yī)療執(zhí)業(yè)醫(yī)師資格考試(NMLEC)和全國碩士研究生入學(xué)考試(NEEP)西醫(yī) 306 專業(yè)抽取了 1500 + 個(gè)單選題,評(píng)測(cè)模型在單輪 QA 中的表現(xiàn)。
  2. 多輪對(duì)話評(píng)測(cè):為了系統(tǒng)性評(píng)估模型的對(duì)話能力,我們從三個(gè)公共數(shù)據(jù)集 —— 中文醫(yī)療基準(zhǔn)評(píng)測(cè)(CMB-Clin)、中文醫(yī)療對(duì)話數(shù)據(jù)集(CMD)和中文醫(yī)療意圖數(shù)據(jù)集(CMID)中隨機(jī)選擇樣本并由 GPT-3.5 扮演患者與模型對(duì)話,提出了四個(gè)評(píng)測(cè)指標(biāo) —— 主動(dòng)性、準(zhǔn)確性、有用性和語言質(zhì)量,由 GPT-4 打分。

評(píng)測(cè)結(jié)果

比較模型。將我們的模型與三個(gè)通用 LLM 和兩個(gè)中文醫(yī)學(xué)對(duì)話 LLM 進(jìn)行比較。包括 OpenAI 的 GPT-3.5, GPT-4, Baichuan-13B-Chat; BianQue-2 和 HuatuoGPT-13B。

單輪 QA 結(jié)果。單項(xiàng)選擇題評(píng)測(cè)的總體結(jié)果顯示在表 2 中。GPT-3.5 展現(xiàn)出明顯的領(lǐng)先優(yōu)勢(shì)。DISC-MedLLM 在小樣本設(shè)置下取得第二名,在零樣本設(shè)置中落后于 Baichuan-13B-Chat,排名第三。值得注意的是,我們的表現(xiàn)優(yōu)于采用強(qiáng)化學(xué)習(xí)設(shè)置訓(xùn)練的 HuatuoGPT (13B)。

圖片

表 2:?jiǎn)雾?xiàng)選擇題評(píng)測(cè)結(jié)果

多輪對(duì)話結(jié)果。在 CMB-Clin 評(píng)估中,DISC-MedLLM 獲得了最高的綜合得分,HuatuoGPT 緊隨其后。我們的模型在積極性標(biāo)準(zhǔn)中得分最高,凸顯了我們偏向醫(yī)學(xué)行為模式的訓(xùn)練方法的有效性。結(jié)果如表 3 所示。

圖片

表 3:CMB-clin 結(jié)果

在 CMD 樣本中,如圖 8 所示,GPT-4 獲得了最高分,其次是 GPT-3.5。醫(yī)學(xué)領(lǐng)域的模型 DISC-MedLLM 和 HuatuoGPT 的整體表現(xiàn)分?jǐn)?shù)相同,在不同科室中表現(xiàn)各有出色之處。

圖片

圖 8:CMD 結(jié)果

CMID 的情況與 CMD 類似,如圖 9 所示,GPT-4 和 GPT-3.5 保持領(lǐng)先。除 GPT 系列外,DISC-MedLLM 表現(xiàn)最佳。在病癥、治療方案和藥物等三個(gè)意圖中,它的表現(xiàn)優(yōu)于 HuatuoGPT。

圖片

圖 9:CMID 結(jié)果

各模型在 CMB-Clin 和 CMD/CMID 之間表現(xiàn)不一致的情況可能是由于這三個(gè)數(shù)據(jù)集之間的數(shù)據(jù)分布不同造成的。CMD 和 CMID 包含更多明確的問題樣本,患者在描述癥狀時(shí)可能已經(jīng)獲得了診斷并表達(dá)明確的需求,甚至患者的疑問和需求可能與個(gè)人健康狀況無關(guān)。在多個(gè)方面表現(xiàn)出色的通用型模型 GPT-3.5 和 GPT-4 更擅長處理這種情況。

5、總結(jié)

DISC-Med-SFT 數(shù)據(jù)集利用現(xiàn)實(shí)世界對(duì)話和通用領(lǐng)域 LLM 的優(yōu)勢(shì)和能力,對(duì)三個(gè)方面進(jìn)行了針對(duì)性強(qiáng)化:領(lǐng)域知識(shí)、醫(yī)學(xué)對(duì)話技能和與人類偏好;高質(zhì)量的數(shù)據(jù)集訓(xùn)練了出色的醫(yī)療大模型 DISC-MedLLM,在醫(yī)學(xué)交互方面取得了顯著的改進(jìn),表現(xiàn)出很高的可用性,顯示出巨大的應(yīng)用潛力。

該領(lǐng)域的研究將為降低在線醫(yī)療成本、推廣醫(yī)療資源以及實(shí)現(xiàn)平衡帶來更多前景和可能性。DISC-MedLLM 將為更多人帶來便捷而個(gè)性化的醫(yī)療服務(wù),為大健康事業(yè)發(fā)揮力量。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-09-27 19:03:17

模型AI

2020-01-09 11:30:40

AI 數(shù)據(jù)人工智能

2023-10-20 12:54:00

數(shù)據(jù)訓(xùn)練

2023-09-22 15:18:53

數(shù)智醫(yī)療

2023-10-25 12:44:20

2022-11-03 15:10:24

前端數(shù)據(jù)結(jié)構(gòu)算法

2025-02-11 16:11:12

2016-09-07 14:20:15

銳捷

2017-06-19 07:58:40

2020-12-01 13:56:56

人工智能AI數(shù)據(jù)

2015-06-19 16:28:28

InformaticaCRM廣州銀行

2024-03-11 00:50:00

AI框架數(shù)據(jù)

2025-02-18 15:03:58

數(shù)據(jù)AI模型

2025-04-14 09:26:00

2024-07-22 13:10:12

2010-07-06 11:52:59

數(shù)據(jù)庫RationalJazz

2024-01-12 13:51:00

數(shù)據(jù)訓(xùn)練

2023-06-27 09:14:52

微軟LLM AI 模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 尤物视频在线免费观看 | 九九精品在线 | 欧美性生活视频 | 国产精品美女久久久久aⅴ国产馆 | 亚洲人成在线播放 | 亚洲欧美一区二区三区国产精品 | 不卡一区二区三区四区 | 亚洲一区日韩 | 欧美不卡网站 | 国产精品视频一二三区 | 免费看a | 亚洲国产欧美日韩 | 国产精品不卡一区 | 2021天天躁夜夜看 | 青青久久久 | 国产伦精品一区二区三区精品视频 | 91久久久久久久久久久久久 | 五月婷婷导航 | 久久国产精品一区二区三区 | 91精品国产91久久久久久三级 | 精品一区二区三 | 99pao成人国产永久免费视频 | 国产高清视频一区 | 亚洲一区二区欧美 | 草草视频在线播放 | 日本中文字幕一区 | 国产精品一区二区av | 国产精品免费一区二区 | 日韩精品视频在线播放 | 91精品国产乱码久久久久久 | 欧美性猛交一区二区三区精品 | 视频一区二区国产 | 欧美激情在线播放 | 中文字幕欧美日韩一区 | 精品国产18久久久久久二百 | 欧美精品一区二区免费 | 一级毛片免费视频观看 | 日韩精品久久 | 亚洲成人av一区二区 | 一区二区三区国产精品 | 久久www免费人成看片高清 |