由哈佛醫(yī)學(xué)院和斯坦福大學(xué)組成的科研團(tuán)隊(duì)近日對(duì)OpenAI的o1-preview模型進(jìn)行了深入評(píng)估,發(fā)現(xiàn)該模型在診斷復(fù)雜醫(yī)療案例時(shí)表現(xiàn)出色,準(zhǔn)確率顯著高于人類醫(yī)生。
研究報(bào)告顯示,o1-preview模型在78.3%的測(cè)試案例中做出了正確診斷,在70個(gè)特定案例的對(duì)比測(cè)試中,準(zhǔn)確率更是高達(dá)88.6%,遠(yuǎn)超其前身GPT-4的72.9%。此外,使用醫(yī)學(xué)推理質(zhì)量評(píng)估標(biāo)準(zhǔn)量表R-IDEA,o1-preview在80個(gè)案例中取得了78個(gè)滿分,而經(jīng)驗(yàn)豐富的醫(yī)生僅在28個(gè)案例中獲得滿分,住院醫(yī)生則僅為16例。
在25位專家設(shè)計(jì)的復(fù)雜案例中,o1-preview模型的得分高達(dá)86%,是使用GPT-4的醫(yī)生(41%)和使用傳統(tǒng)工具的醫(yī)生(34%)的兩倍多。
盡管如此,研究人員也承認(rèn)該測(cè)試存在局限性,部分測(cè)試案例可能包含在o1-preview的訓(xùn)練數(shù)據(jù)中,且測(cè)試主要集中于系統(tǒng)單獨(dú)工作,并未充分考慮其與人類醫(yī)生協(xié)同工作的場(chǎng)景。此外,o1-preview建議的診斷測(cè)試成本高昂,在實(shí)際應(yīng)用中存在局限性。
這一研究結(jié)果引發(fā)了關(guān)于AI在醫(yī)療領(lǐng)域應(yīng)用的廣泛討論,盡管AI在診斷準(zhǔn)確性上表現(xiàn)出色,但其高昂的成本和與人類醫(yī)生協(xié)同工作的挑戰(zhàn)仍需進(jìn)一步解決。