谷歌AI通過圖靈測試，大模型醫(yī)生來了？GPT-4竟診斷出難倒17個醫(yī)生的怪病

作者：新智元 2024-01-15 00:19:24

AI在醫(yī)療領(lǐng)域再次發(fā)光！谷歌DeepMind團隊發(fā)布的全新診斷對話式AI在測試中擊敗醫(yī)生，通過了圖靈測試，再次引領(lǐng)醫(yī)療AI的革命。

我們需要研發(fā)對人類有益AGI的原因之一：

我妻子的身體5年來經(jīng)歷了種種痛苦，最終被檢查出一種叫肢體活動過度Ehlers-Danlos綜合征的遺傳病。現(xiàn)在的醫(yī)療體系是根據(jù)不同科室劃分，而這個遺傳病hEDS會影響人體各個系統(tǒng)和器官。大多醫(yī)生都只關(guān)注自己專業(yè)相關(guān)的癥狀，很難整體診斷。

OpenAI聯(lián)創(chuàng)Greg Brockman的一番話點明，當前先進AI系統(tǒng)還需不斷演進，有望破解人類醫(yī)學難題。

圖片

這足以成為巨大游戲規(guī)則的改變者。眾所周知，醫(yī)患對話是醫(yī)學的基石。

當前醫(yī)學大模型已取得很大的進展，以同理心回應(yīng)患者情緒，總結(jié)醫(yī)學摘要，根據(jù)臨床病史鑒別診斷病情等等。

不過，若想研發(fā)一個與臨床醫(yī)生專業(yè)知識相當?shù)腁I，并且擁有強大的對話診斷能力，是一個巨大的挑戰(zhàn)。

如今，谷歌DeepMind研究團隊推出全新的醫(yī)學對話AI——AMIE，竟通過了「圖靈測試」！

圖片

論文地址：https://arxiv.org/pdf/2401.05654.pdf

具體來說，AMIE采用了一種強化學習算法中「自我博弈」方法，可以在一個模擬環(huán)境中自我對弈，并通過自動反饋機制，可在各種疾病、醫(yī)學專科和環(huán)境中進行擴展學習。

圖片

在病人雙盲文本測試中，AMIE在診斷呼吸系統(tǒng)和心血管疾病等疾病直接擊敗醫(yī)生，比初級保健醫(yī)生（PCP）更準確。

與此同時，AMIE還表現(xiàn)出一致的同理心。

圖片

論文稱，雖然在AMIE在臨床應(yīng)用之前還需要進一步的研究，但代表著邁向?qū)υ捠皆\斷人工智能的一個里程碑。

足見，谷歌最新研究暗示了AI驅(qū)動的診斷對話的未來。不久的將來，Greg口中的AGI便會降臨。

谷歌AI醫(yī)生通過圖靈測試，診斷對話AI里程碑

除了開發(fā)和優(yōu)化用于診斷對話的人工智能系統(tǒng)外，如何評估此類系統(tǒng)也是難題。

受現(xiàn)實世界中用于衡量會診質(zhì)量和臨床溝通技巧的工具的啟發(fā)，研究人員構(gòu)建了一個試驗性評估標準，按照病史采集、診斷準確性、臨床管理、臨床溝通技巧、關(guān)系培養(yǎng)和移情等標準來評估診斷對話的過程。

圖片

然后，研究人員設(shè)計了一項隨機、雙盲交叉研究，讓經(jīng)過驗證的患者與經(jīng)過認證的初級保健醫(yī)生（PCP）或針對診斷對話進行優(yōu)化的人工智能系統(tǒng)通過文字聊天的方式進行互動。

研究人員以客觀結(jié)構(gòu)化臨床考試（OSCE）的形式設(shè)置咨詢場景。

OSCE是現(xiàn)實世界中常用的實用評估方法，以標準化和客觀的方式考察臨床醫(yī)生的技能和能力。

在典型的OSCE考試中，臨床醫(yī)生可能會輪流經(jīng)過多個工作場景，每個工作場景都模擬了真實的臨床場景。

例如與標準化病人演員（經(jīng)過嚴格訓練以模擬患有特定疾病的病人）進行會診。

會診是通過同步文本聊天工具進行的，模仿的是當今大多數(shù)使用LLM的消費者所熟悉的界面。

圖片

AMIE：基于LLM的對話式診斷研究AI系統(tǒng)

研究人員在真實世界的數(shù)據(jù)集上訓練AMIE，這些數(shù)據(jù)集包括醫(yī)學推理、醫(yī)學總結(jié)和真實世界的臨床對話。

使用通過被動收集和轉(zhuǎn)錄個人臨床訪問而開發(fā)的真實世界對話來訓練LLM是可行的，但是，有兩個重大挑戰(zhàn)限制了它們在訓練醫(yī)學對話LLM方面的有效性。

首先，現(xiàn)有的真實世界數(shù)據(jù)往往無法捕捉到大量的醫(yī)療條件和場景，這阻礙了數(shù)據(jù)的可擴展性和全面性。

其次，從真實世界對話記錄中獲得的數(shù)據(jù)往往是嘈雜的，包含含糊不清的語言（包括俚語、行話、幽默和諷刺）、中斷、不合語法的語句和不明確的引用。

為了解決這些局限性，研究人員設(shè)計了一個基于自演的模擬學習環(huán)境，該環(huán)境具有自動反饋機制，用于虛擬醫(yī)療環(huán)境中的診斷性醫(yī)療對話，使研究人員能夠在多種醫(yī)療條件和環(huán)境中擴展AMIE的知識和能力。

除了所描述的真實世界數(shù)據(jù)的靜態(tài)語料庫之外，研究人員還利用該環(huán)境通過不斷變化的模擬對話集對AMIE進行了反復(fù)微調(diào)。

這一過程包括兩個自我循環(huán)：

（1）「內(nèi)部」自演循環(huán)，即AMIE利用上下文中批評者的反饋來完善其與人工智能患者模擬器進行模擬對話的行為；

（2）「外部」自演循環(huán)，即完善的模擬對話集被納入后續(xù)的微調(diào)迭代中。

由此產(chǎn)生的新版AMIE可以再次參與內(nèi)循環(huán)，形成良性的持續(xù)學習循環(huán)。

此外，研究人員還采用了推理時間鏈策略（ inference time chain-of-reasoning strategy），使AMIE能夠根據(jù)當前對話的情況逐步完善自己的回答，從而得出有理有據(jù)的答復(fù)。

圖片

研究人員采用上述隨機方法測試了模擬患者（由專業(yè)的演員扮演）的問診表現(xiàn)，并與20名真實初級保健醫(yī)生的問診表現(xiàn)進行了對比。

在一項隨機、雙盲交叉研究中，研究人員從專科主治醫(yī)師和模擬患者的角度對AMIE和初級保健醫(yī)生進行了評估，該研究包括來自加拿大、英國和印度OSCE提供者的149個病例場景，涉及各種專科和疾病。值得注意的是，研究人員的研究既不是為了模仿傳統(tǒng)的面對面OSCE評估，也不是為了模仿臨床醫(yī)生通常使用的文本、電子郵件、聊天或遠程醫(yī)療方式。

相反，研究人員的實驗反映了當今消費者與LLM交互的最常見方式，這是人工智能系統(tǒng)參與遠程診斷對話的潛在可擴展且熟悉的機制。

圖片

AMIE擊敗醫(yī)生

在這種情況下，研究人員觀察到AMIE在模擬診斷對話中的表現(xiàn)至少與初級保健醫(yī)生不相上下。

從專科醫(yī)生的角度來看，AMIE的診斷準確性更高，在32個指標中的28個指標上表現(xiàn)更優(yōu)，從患者的角度來看，在26個指標中的24個指標上表現(xiàn)更優(yōu)。

圖片

AMIE在研究人員設(shè)定的評估中各個指標上都超越了初級保健醫(yī)生。

圖片

專家評定的top-k診斷準確率。在149種情況下，AMIE和初級保健醫(yī)生的頂k鑒別診斷(DDx)準確率與基本真實診斷（a）和公認鑒別診斷中列出的所有診斷（b）進行比較。引導法（n=10,000）證實，經(jīng)過誤診率（FDR）校正后，AMIE 和 PCP DDx 準確性之間的所有 top-k 差異均具有顯著性，p <0.05。

圖片

由專科醫(yī)生評估的診斷性對話和推理質(zhì)量：在32個指標中的28個指標上，AMIE的性能優(yōu)于初級保健醫(yī)生，而其他指標的性能相當。

AMIE成為臨床醫(yī)生助手的潛力

在最近發(fā)布的一篇預(yù)發(fā)表論文中，研究人員評估了 AMIE 系統(tǒng)早期迭代版本單獨生成 DDx 或作為臨床醫(yī)生輔助工具的能力。

二十名全科臨床醫(yī)生評估了303個來自《新英格蘭醫(yī)學雜志》（NEJM）臨床病理會議（CPC）的具有挑戰(zhàn)性的真實醫(yī)療病例。

每份病例報告都由兩名臨床醫(yī)生進行評估，他們被隨機分配了兩種輔助方式之一：

1）搜索引擎和標準醫(yī)學資源的輔助，

2）這些工具之外的AMIE輔助。

在使用相應(yīng)的輔助工具之前，所有臨床醫(yī)生都提供了無輔助的基線 DDx。

圖片

AMIE的獨立性能超過了無輔助臨床醫(yī)生（前 10 名的準確率為59.1%，醫(yī)生為33.6%，P= 0.04）。

比較兩個輔助研究方式，與沒有AMIE輔助的臨床醫(yī)生（24.6%，p<0.01）和使用搜索的臨床醫(yī)生（5.45%，p=0.02）相比，有 AMIE 輔助的臨床醫(yī)生的前10名準確率更高。

此外，與沒有AMIE輔助的臨床醫(yī)生相比，有AMIE輔助的臨床醫(yī)生得出的鑒別清單更全面。

圖片

值得注意的是，NEJM CPCs并不代表日常臨床實踐。它們是僅針對幾百人的不常見的病例報告，為探討公平或公正等重要問題提供的空間還比較有限。

大膽而負責任的醫(yī)療保健研究--可能的藝術(shù)

在世界各地，獲得臨床專業(yè)知識的機會仍然很少。

雖然人工智能在特定的臨床應(yīng)用中顯示出巨大的前景，但參與臨床實踐中的動態(tài)、對話式診斷過程需要許多人工智能系統(tǒng)尚未表現(xiàn)出的能力。

醫(yī)生不僅要掌握知識和技能，還要恪守各種原則，包括安全和質(zhì)量、溝通、伙伴關(guān)系和團隊合作、信任和專業(yè)精神。

在人工智能系統(tǒng)中實現(xiàn)這些特質(zhì)是一項鼓舞人心的挑戰(zhàn)，研究人員應(yīng)該以負責任的態(tài)度謹慎對待。

AMIE是研究人員對「可能的藝術(shù)」的探索，它是一個研究性的系統(tǒng)，用于安全地探索未來的愿景，在這個愿景中，人工智能系統(tǒng)可能會更好地與受托為研究人員提供醫(yī)療服務(wù)的技術(shù)嫻熟的臨床醫(yī)生的特質(zhì)保持一致。

它只是早期的實驗性工作，而不是產(chǎn)品，有一些局限性，研究人員認為值得進行嚴格而廣泛的進一步科學研究，以展望未來，讓會話式、移情式和診斷式人工智能系統(tǒng)變得安全、有用和易用。

局限性

研究人員的研究存在一些局限性，在解釋時應(yīng)保持適當?shù)闹斏鳌?/span>

首先，研究人員的評估技術(shù)很可能低估了人類對話在現(xiàn)實世界中的價值，因為研究人員研究中的臨床醫(yī)生僅限于使用一個陌生的文本聊天界面，該界面允許大規(guī)模的 LLM 患者互動，但并不代表通常的臨床實踐。

其次，任何此類研究都必須被視為漫長旅程中的第一步探索。要從研究人員在本研究中評估的LLM研究原型過渡到可供人們和護理人員使用的安全、強大的工具，還需要進行大量的額外研究。

還有許多重要的限制因素需要解決，包括在真實世界限制條件下的實驗表現(xiàn)，以及對健康公平與公正、隱私、穩(wěn)健性等重要主題的專門探索，以確保技術(shù)的安全性和可靠性。

AI或?qū)氐赘淖冡t(yī)學

過去一年中大模型的發(fā)展，也讓許多人看到AI在醫(yī)學中的應(yīng)用潛力。

谷歌便是這個垂類模型領(lǐng)域的典型代表。

谷歌的Med-PaLM 2根據(jù)14項標準進行了測試，結(jié)果發(fā)現(xiàn)可以達到醫(yī)學專家的水平。

圖片

還記得去年，一位4歲小男孩得了「怪病」，3年來看了17位醫(yī)生，但他們都無法解釋疼痛的具體原因。

直到小男孩母親注冊ChatGPT之后，將病情上傳，才終于得到了正確的診斷結(jié)果。

近來，有網(wǎng)友發(fā)文表示，在ChatGPT幫助下，發(fā)現(xiàn)了女朋友的過敏反應(yīng)。

圖片

凌晨4點，她全身起了大面積的蕁麻疹，去醫(yī)院后醫(yī)生給她靜脈注射了皮質(zhì)類固醇，然后就好了。醫(yī)生說可能是防腐劑/保鮮劑/食品化學物質(zhì)引起的，但我們一直都吃得很干凈，怎么會這樣呢？

圖片

緊接著，他們把過去24小時內(nèi)吃的所有東西告訴GPT-4，然后讓它對最可能的過敏原進行排名。

圖片

GPT-4起初以為是巧克力里的榛子的原因，但后來網(wǎng)友突然想起昨天從超市買的肉，便從垃圾桶撿出來把它配料輸給GPT-4……

配料：牛肉(86%)、水、面包屑(大米和玉米粉、淀粉、玉米、鹽、葡萄糖)、鹽、甜菜提取物、香料和芳香草藥、天然香氣和防腐劑E223(亞硫酸鹽)。

圖片

GPT-4立即將亞硫酸鹽列為可能導致蕁麻疹的最主要過敏原，通過谷歌搜索，證實它會是蕁麻疹原因之一。

圖片

最后發(fā)現(xiàn)，這與醫(yī)生所說的相符，很可能是食物防腐劑過敏。

另外一位網(wǎng)友也分享了自己的心路歷程，以及利用GPT發(fā)現(xiàn)醫(yī)生們遺漏的病情聯(lián)系。

一年前，我的身體在與自己作戰(zhàn)，我的病情惡化速度之快超出了專家們的理解。然后，GPT成為了我的Copilot。

圖片

現(xiàn)在，谷歌推出的AMIE系統(tǒng)再次引領(lǐng)了醫(yī)療AI革命。

論文作者表示，「據(jù)我們所知，這是第一次為診斷對話和記錄臨床病史而設(shè)計的對話式人工智能系統(tǒng)」。

AI醫(yī)學，未來可期。

參考資料：https://blog.research.google/2024/01/amie-research-ai-system-for-diagnostic_12.html

責任編輯：武曉燕來源：新智元

AI 谷歌測試

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看