醫(yī)療復雜推理開源大模型——華佗GPT-o1

作者：AIGC開放社區(qū) 2025-01-15 10:28:21

為了輔助醫(yī)生實現(xiàn)更高效的推理，香港中文大學（深圳）和深圳市大數(shù)據(jù)研究院聯(lián)合開源了專用于醫(yī)療領域的復雜大模型——華佗GPT-o1。

在醫(yī)學領域涉及大量復雜的推理過程，從癥狀分析到疾病診斷，每一步都需要綜合考慮眾多因素。例如，在診斷一種罕見疾病時，醫(yī)生不僅要熟悉各種疾病的癥狀表現(xiàn)，還要了解患者的病史、家族遺傳史、生活環(huán)境等多方面信息，通過層層推理才能做出準確的判斷。

開源地址：https://huggingface.co/FreedomIntelligence/HuatuoGPT-o1-7B

Github：https://github.com/FreedomIntelligence/HuatuoGPT-o1

高質(zhì)量醫(yī)學數(shù)據(jù)集

開發(fā)高質(zhì)量可驗證醫(yī)學數(shù)據(jù)集是華佗GPT-o1實現(xiàn)高質(zhì)量推理的重要基石，研究人員從MedQA-USMLE和MedMCQA訓練集中精心收集了192K醫(yī)學多項選擇題。

涵蓋了內(nèi)科學、外科學、婦產(chǎn)科學、兒科學、神經(jīng)病學等眾多醫(yī)學學科的知識點，能全面地反映了醫(yī)學領域的知識體系。

但原始數(shù)據(jù)存在諸多問題，需要進行嚴格篩選。首先，許多題目過于簡單，無法有效訓練模型的復雜推理能力。例如，一些題目僅考查單一知識點，且答案一目了然，對于模型來說缺乏挑戰(zhàn)性。其次，部分題目答案不唯一或存在歧義，這會給模型的學習和驗證帶來困擾。此外，一些題目不適合轉(zhuǎn)化為開放式問題，不利于模型進行深入推理。

為了篩選出合適的題目，研究人員采用了多輪篩選方法。第一輪，利用小型語言模型對題目進行初步篩選，去除那些所有小型模型都能輕易回答正確的簡單題目。第二輪，由人工對剩余題目進行審核，排除答案不明確或存在歧義的題目。

最后，借助GPT-4o模型對篩選后的題目進行進一步優(yōu)化和驗證，確保每個題目都具有明確的、唯一的正確答案，并且能夠轉(zhuǎn)化為開放式問題。經(jīng)過層層篩選，最終得到了一個包含40K可驗證醫(yī)學問題的數(shù)據(jù)集。

兩階段訓練模式

在第一階段，華佗GPT-o1首先會對給定的可驗證醫(yī)學問題進行初步分析，生成一個初始的思維鏈（CoT）和答案。例如，對于一個關于患者癥狀分析的問題，模型可能會根據(jù)癥狀的表現(xiàn)、出現(xiàn)的時間順序、伴隨癥狀等因素，初步推測可能的疾病范圍，并給出一個初步診斷。

然后，醫(yī)學驗證器會對這個初始答案進行嚴格驗證。如果答案不正確，模型將啟動迭代優(yōu)化過程。它會從預先設定的四種搜索策略（探索新路徑、回溯、驗證、修正）中隨機選擇一種，對之前的推理過程進行改進。

假設模型在診斷過程中忽略了某個重要癥狀，導致初步診斷錯誤。如果選擇探索新路徑策略，模型會嘗試從新的角度分析癥狀，考慮其他可能的疾病因素；如果選擇回溯策略，模型會回到之前的推理步驟，重新審視癥狀與疾病之間的關聯(lián)；

如果選擇驗證策略，模型會對當前的推理過程進行再次評估，檢查是否存在邏輯漏洞；如果選擇修正策略，模型會根據(jù)驗證器的反饋，糾正之前推理中的錯誤，調(diào)整診斷方向。

模型會不斷重復這個過程，直到找到正確的答案。每次迭代都會生成新的CoT和答案，驗證器會繼續(xù)對新答案進行驗證，直到答案被確認為正確為止。通過這種方式，模型能夠在不斷的嘗試和改進中，學習到正確的醫(yī)學推理方法，提高推理的準確性和可靠性。

當模型成功找到正確的推理軌跡后，這個軌跡將被重新格式化為一種更加自然、連貫的復雜CoT形式。例如，原始的推理過程可能是一系列分散的步驟和結(jié)論，經(jīng)過格式化后，會變成一個邏輯清晰、語言流暢的推理敘述，使用自然的過渡詞（如“嗯”“而且”“等等”）將各個步驟有機地連接起來，使整個推理過程更加符合人類的思維方式。

在格式化過程中，模型會突出關鍵的推理步驟和依據(jù)，使復雜CoT能夠清晰地展示模型的思考過程。然后，模型會根據(jù)這個復雜CoT生成一個正式的回答，這個回答不僅包含最終的結(jié)論，還會對推理過程進行簡要總結(jié)，以便更好地與用戶進行溝通和解釋。

通過構(gòu)建SFT訓練數(shù)據(jù)，模型能夠?qū)W習到如何在回答問題之前進行深入的思考和推理，將復雜的醫(yī)學知識和推理過程整合起來，形成一個完整的解決方案。這種訓練方式有助于提高模型在實際應用中的表現(xiàn)，使其能夠更好地應對各種復雜的醫(yī)學問題。

實驗數(shù)據(jù)

為了評估華佗GPT-o1的性能，在MedQA、MMLU-Pro、MedMCQA、PubMedQA等醫(yī)學基準中進行了綜合測試。結(jié)果顯示，華佗GPT-o1-70B版本超越了其他所有開源模型，在多個數(shù)據(jù)集上取得了領先成績。

例如，在MMLU-Pro的健康和生物學賽道上，其準確率分別達到了73.6%和71.0%，在GPQA的遺傳學和分子生物學賽道上，準確率也分別達到了66.5%和56.2%。

責任編輯：張燕妮來源： AIGC開放社區(qū)

AI 模型數(shù)據(jù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

醫(yī)療復雜推理開源大模型——華佗GPT-o1

高質(zhì)量醫(yī)學數(shù)據(jù)集

兩階段訓練模式

實驗數(shù)據(jù)