成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

醫(yī)療復雜推理開源大模型——華佗GPT-o1

人工智能 新聞
為了輔助醫(yī)生實現(xiàn)更高效的推理,香港中文大學(深圳)和深圳市大數(shù)據(jù)研究院聯(lián)合開源了專用于醫(yī)療領域的復雜大模型——華佗GPT-o1。

在醫(yī)學領域涉及大量復雜的推理過程,從癥狀分析到疾病診斷,每一步都需要綜合考慮眾多因素。例如,在診斷一種罕見疾病時,醫(yī)生不僅要熟悉各種疾病的癥狀表現(xiàn),還要了解患者的病史、家族遺傳史、生活環(huán)境等多方面信息,通過層層推理才能做出準確的判斷。

為了輔助醫(yī)生實現(xiàn)更高效的推理,香港中文大學(深圳)和深圳市大數(shù)據(jù)研究院聯(lián)合開源了專用于醫(yī)療領域的復雜大模型——華佗GPT-o1。

圖片

開源地址:https://huggingface.co/FreedomIntelligence/HuatuoGPT-o1-7B

Github:https://github.com/FreedomIntelligence/HuatuoGPT-o1

高質(zhì)量醫(yī)學數(shù)據(jù)集

開發(fā)高質(zhì)量可驗證醫(yī)學數(shù)據(jù)集是華佗GPT-o1實現(xiàn)高質(zhì)量推理的重要基石,研究人員從MedQA-USMLE和MedMCQA訓練集中精心收集了192K醫(yī)學多項選擇題。

涵蓋了內(nèi)科學、外科學、婦產(chǎn)科學、兒科學、神經(jīng)病學等眾多醫(yī)學學科的知識點,能全面地反映了醫(yī)學領域的知識體系。

但原始數(shù)據(jù)存在諸多問題,需要進行嚴格篩選。首先,許多題目過于簡單,無法有效訓練模型的復雜推理能力。例如,一些題目僅考查單一知識點,且答案一目了然,對于模型來說缺乏挑戰(zhàn)性。其次,部分題目答案不唯一或存在歧義,這會給模型的學習和驗證帶來困擾。此外,一些題目不適合轉(zhuǎn)化為開放式問題,不利于模型進行深入推理。

為了篩選出合適的題目,研究人員采用了多輪篩選方法。第一輪,利用小型語言模型對題目進行初步篩選,去除那些所有小型模型都能輕易回答正確的簡單題目。第二輪,由人工對剩余題目進行審核,排除答案不明確或存在歧義的題目。

最后,借助GPT-4o模型對篩選后的題目進行進一步優(yōu)化和驗證,確保每個題目都具有明確的、唯一的正確答案,并且能夠轉(zhuǎn)化為開放式問題。經(jīng)過層層篩選,最終得到了一個包含40K可驗證醫(yī)學問題的數(shù)據(jù)集。

兩階段訓練模式

在第一階段,華佗GPT-o1首先會對給定的可驗證醫(yī)學問題進行初步分析,生成一個初始的思維鏈(CoT)和答案。例如,對于一個關于患者癥狀分析的問題,模型可能會根據(jù)癥狀的表現(xiàn)、出現(xiàn)的時間順序、伴隨癥狀等因素,初步推測可能的疾病范圍,并給出一個初步診斷。

然后,醫(yī)學驗證器會對這個初始答案進行嚴格驗證。如果答案不正確,模型將啟動迭代優(yōu)化過程。它會從預先設定的四種搜索策略(探索新路徑、回溯、驗證、修正)中隨機選擇一種,對之前的推理過程進行改進。

圖片

假設模型在診斷過程中忽略了某個重要癥狀,導致初步診斷錯誤。如果選擇探索新路徑策略,模型會嘗試從新的角度分析癥狀,考慮其他可能的疾病因素;如果選擇回溯策略,模型會回到之前的推理步驟,重新審視癥狀與疾病之間的關聯(lián);

如果選擇驗證策略,模型會對當前的推理過程進行再次評估,檢查是否存在邏輯漏洞;如果選擇修正策略,模型會根據(jù)驗證器的反饋,糾正之前推理中的錯誤,調(diào)整診斷方向。

模型會不斷重復這個過程,直到找到正確的答案。每次迭代都會生成新的CoT和答案,驗證器會繼續(xù)對新答案進行驗證,直到答案被確認為正確為止。通過這種方式,模型能夠在不斷的嘗試和改進中,學習到正確的醫(yī)學推理方法,提高推理的準確性和可靠性。

圖片

當模型成功找到正確的推理軌跡后,這個軌跡將被重新格式化為一種更加自然、連貫的復雜CoT形式。例如,原始的推理過程可能是一系列分散的步驟和結(jié)論,經(jīng)過格式化后,會變成一個邏輯清晰、語言流暢的推理敘述,使用自然的過渡詞(如“嗯”“而且”“等等”)將各個步驟有機地連接起來,使整個推理過程更加符合人類的思維方式。

在格式化過程中,模型會突出關鍵的推理步驟和依據(jù),使復雜CoT能夠清晰地展示模型的思考過程。然后,模型會根據(jù)這個復雜CoT生成一個正式的回答,這個回答不僅包含最終的結(jié)論,還會對推理過程進行簡要總結(jié),以便更好地與用戶進行溝通和解釋

通過構(gòu)建SFT訓練數(shù)據(jù),模型能夠?qū)W習到如何在回答問題之前進行深入的思考和推理,將復雜的醫(yī)學知識和推理過程整合起來,形成一個完整的解決方案。這種訓練方式有助于提高模型在實際應用中的表現(xiàn),使其能夠更好地應對各種復雜的醫(yī)學問題。

實驗數(shù)據(jù)

為了評估華佗GPT-o1的性能,在MedQA、MMLU-Pro、MedMCQA、PubMedQA等醫(yī)學基準中進行了綜合測試。結(jié)果顯示,華佗GPT-o1-70B版本超越了其他所有開源模型,在多個數(shù)據(jù)集上取得了領先成績。

圖片

例如,在MMLU-Pro的健康和生物學賽道上,其準確率分別達到了73.6%和71.0%,在GPQA的遺傳學和分子生物學賽道上,準確率也分別達到了66.5%和56.2%。

責任編輯:張燕妮 來源: AIGC開放社區(qū)
相關推薦

2024-10-17 14:05:34

2022-06-01 16:47:53

AI模型開源

2024-09-24 11:01:03

2024-12-26 07:10:00

2024-09-29 13:07:16

2025-06-06 14:17:11

模型訓練AI

2025-04-30 16:48:07

2023-05-05 13:29:04

模型推理

2024-09-06 13:00:29

2025-04-11 09:10:00

模型開源AI

2024-09-13 06:32:25

2025-02-03 14:17:27

2025-01-21 10:10:56

2024-09-13 12:34:54

2024-08-14 12:54:46

2025-02-08 17:00:11

2025-06-27 03:00:00

2024-11-21 14:00:00

模型AI

2023-05-15 15:38:59

AI模型

2024-09-19 13:32:24

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品国产乱码久久久久久果冻传媒 | 中文字幕欧美日韩一区 | 极品粉嫩国产48尤物在线播放 | 在线亚洲欧美 | 免费国产一区二区 | 深爱激情综合 | 成人在线播放网站 | 免费色网址 | 国产精品一卡二卡三卡 | 亚洲国产成人精品久久 | 国产成人在线观看免费 | 亚洲一区欧美 | 久久久久久久久久久久亚洲 | 在线三级电影 | 日本一区二区三区在线观看 | 欧美极品一区二区 | 成人精品国产 | 国产区久久 | 好姑娘影视在线观看高清 | 欧美爱爱视频网站 | 日本不卡一区二区三区在线观看 | 久久精品一区二区 | 男女羞羞视频在线观看 | 久草精品视频 | 国产精品久久久久久久久久久久午夜片 | 日日天天 | 免费一级片 | 瑟瑟视频在线看 | 国产黄色在线观看 | 久久一区二区三区电影 | 偷拍自拍网 | 丁香五月网久久综合 | 国产精品久久久久久妇女6080 | 久久一区二区视频 | 日本三级在线网站 | 国产成人精品综合 | 成人在线一级片 | 黄色片视频免费 | 国产精品视频入口 | 久久久久av | 欧美大片一区二区 |