近幾天,全國很多地方都是高溫酷暑,但是周圍不少影像科醫(yī)生因為看到醫(yī)學影像“人機大戰(zhàn)”的文章,感覺被澆了一盆冷水,急著跑來問我醫(yī)學影像科醫(yī)生的出路到底在哪?鑒于文章廣泛的社會影響力,我覺得應該站出來提出一些自己的疑問和看法。
作為早一批接觸人工智能的醫(yī)生,近兩年我見證了整個領域的飛速發(fā)展。很多企業(yè)從一開始的無人問津,火熱到現(xiàn)在的動輒幾億元融資。在眾多博人眼球的新聞報道和企業(yè)宣傳文章中,有效或傳播力度具爆炸性的恐怕就是所謂的“人機大戰(zhàn)”了。
從“IBM深藍”到“谷歌AlphaGo”,一個個棋類大師“倒在”機器人手下,直到今天醫(yī)學影像界的“人機大戰(zhàn)”也不期而至。我早接觸醫(yī)學影像人機大戰(zhàn)是在2017年底,當時央視有一檔“機智過人”節(jié)目,一個號稱“啄醫(yī)生”的機器人工智能模型和15個醫(yī)學影像專家在節(jié)目中比賽找肺結節(jié)??赐暌院?,覺得雖然節(jié)目為了傳播效果存在一些誤導,但起碼規(guī)則明確,能讓人看懂,能讓像我一樣的影像科醫(yī)生找出問題所在并提出問題。而近越來越多的“人機大戰(zhàn)”,已經讓我們這些從業(yè)者看不太懂了。
人機大戰(zhàn)為了證明什么?
“人機大戰(zhàn)”到底為了證明什么?機器出具的影像科報告比醫(yī)生更準確?還是在極個別領域彌補醫(yī)生的不足?
以近期傳播比較廣泛的一篇報道為例,其中就指出“機器分別以87%、83%的準確率,戰(zhàn)勝醫(yī)生戰(zhàn)隊66%、63%的準確率。”這個“準確率” 到底是指什么呢?是腫瘤病灶檢出正確率?定位正確率?量化正確率?還是良、惡性診斷正確率?另外,檢查方法到底是用CT還是MRI(磁共振)?一連串疑問令人不解。難道是機器出具的影像科報告比醫(yī)生更準確?
我們醫(yī)院在醫(yī)學影像人工智能領域已經深耕了2年時間,也有大量機器比影像科醫(yī)生“厲害”的科研證據(jù),但都是局限在極個別單項上能彌補醫(yī)生的“先天不足”。比如微小肺結節(jié)的檢出,醫(yī)生因為精力耐力眼力等有限,確實不如機器找的準、找的快。再比如對病灶體積的測量,以前醫(yī)生也只是從連續(xù)二維圖像上估測,而機器可以做到更快更的測量。但是,所有這一切只是把原來醫(yī)生做的不夠完美的方面進一步推向,完全談不上取代醫(yī)生,只是給醫(yī)生提供了一件更稱心的工具,僅此而已。
說句題外話,我還很為參賽的影像專家們捏把汗。根據(jù)報道,參賽醫(yī)生團隊只有60%左右的“準確度”,這種報道難道不會對他們的職業(yè)生涯造成影響嗎?患者們會放心地找這樣的醫(yī)生團隊看病嗎?
1、比賽成績能說明臨床應用效果嗎?
跟大家分享一個真實案例。之前有過一個檢出肺結節(jié)的醫(yī)學影像人工智能競賽,后團隊的準確率在競賽小數(shù)據(jù)集測試達到90%的準確率,但是真正把模型拿到實際臨床環(huán)境中測試,發(fā)現(xiàn)只有不到60%準確率,可以說完全沒有臨床可用性。
其實,要想說清楚這個問題,就涉及到有關“人機大戰(zhàn)”另外幾個重要指標:
1.比賽測試題來源,測試題與訓練集的關系,測試題數(shù)據(jù)處理的方法;
2.金標準如何制定,包括數(shù)據(jù)入組標準,征象判斷標準,結果判斷標準等。
首先,為什么測試題來源很重要?測試題來源是檢測AI模型表現(xiàn)穩(wěn)定性的關鍵因素;也是檢驗其是否存在小數(shù)據(jù)刷準確率等常用的“機器考試刷分”的方法;同樣也是優(yōu)質醫(yī)療資源能否順利下沉的基礎指標。例如,模型如果只在同一個數(shù)據(jù)源中(可以理解為同一家醫(yī)院)反復大量訓練,那么該模型就會只適應該數(shù)據(jù)源中的數(shù)據(jù)。換句話說,就是同一家醫(yī)院出來的片子模型識別效果好,但是換一家醫(yī)院,模型效果就完全沒法看。所以,如果不注明測試題的來源,無論有什么樣的公正機構把關,都說明不了該模型的臨床應用價值。優(yōu)質醫(yī)療資源下沉,解決“偏遠地區(qū)”老百姓看病問題更是天方夜譚。
其次,為什么金標準規(guī)則制定很重要?因為它是體現(xiàn)測試結果科學性的關鍵指標。我們經常在各種企業(yè)宣傳的文章中看到,諸如肺結節(jié)檢出率高達98%等等非?!傲裂邸钡臄?shù)據(jù)。但是金標準規(guī)則制定完全避而不談。后我們刨根問底去查,發(fā)現(xiàn)其中很多是4mm以下甚至6mm以下的肺結節(jié)不作為結節(jié)計算,所以這個98%的“亮眼”數(shù)據(jù)只是一個含水分的噱頭。
2、關于誤導及暗示
值得警惕的是,目前的很多公開報道或宣傳緊緊抓住了大眾的恐懼心理,不斷植入一些場景,會讓人相信機器人已經可以替代影像科醫(yī)生。比如,很多報道中會提到“某某機器人影像診斷能力相當于一個職稱醫(yī)師級別的水平”。首先,職稱醫(yī)生終診斷結果是符合臨床使用場景的,目前哪個機器人能夠做到?另外,還有報道表面宣稱“人工智能不能替代醫(yī)生,因為醫(yī)生還能做給患者提供人文關懷等機器不能完成的工作”,這些假設的前提就是建立在醫(yī)生現(xiàn)有工作已經被機器取代。如果認可這一說法,實際上就是以被誤導和暗示為“前提”。我可以告訴你,在現(xiàn)實中根本不存在討論這個“影像科醫(yī)生不出報告還能干什么”這個話題。
3、什么項目適合“人機大戰(zhàn)”
從宣傳的角度,其實任何形式的“人機大戰(zhàn)”都能博取到足夠多的眼球,因為大眾喜聞樂見。我也能理解企業(yè)的“良苦用心”。畢竟之前有“IBM深藍”及“谷歌AlphaGo”的宣傳神話在。但是大家應該留意的是,棋類游戲是非常適合人機大戰(zhàn)的。因為棋類游戲有非常明確的限制條件,且有定義明確的規(guī)則,同時也是零和博弈。在這個閉合空間內,人類和機器來做比拼。
而反觀現(xiàn)實中的臨床環(huán)境,可以總結為規(guī)則不斷變化的游戲的無限集合。任何時候出現(xiàn)重大發(fā)展,游戲規(guī)則都要重寫。在這樣一種環(huán)境下,憑借我們目前訓練的模型跟醫(yī)生比較高低,本身就是對醫(yī)生的“侮辱”。更重要的是,在醫(yī)學影像工作場景中,醫(yī)生跟機器人是非零和博弈,是合作共生的關系,這也是跟棋類游戲本質不同。所以,我們認為醫(yī)學影像工作場景并不適合做單純的“人機大戰(zhàn)”。你見過哪個廚師非要徒手跟刀具比切菜?當然除了“手撕包菜”。
4、總結
當然,也有可能我們了解信息不夠全面,沒有掌握AI新的發(fā)展水平,歡迎大家一起來更新關于“人機大戰(zhàn)”賽事更多信息,讓我們這些影像科醫(yī)生更真切地了解目前技術的發(fā)展現(xiàn)狀。我們同時也希望有關這方面討論能夠持續(xù)報道,讓普通百姓了解醫(yī)學影像行業(yè),也讓醫(yī)學影像的從業(yè)者有機會反思自己真正的價值所在。
在我看來,就像過去人類歷史上經歷過的一切科技變革,人工智能也將融入醫(yī)生的工作流程,與醫(yī)生群體一起更好地造福廣大病患。很多人愿意引用威廉·吉布森的名言“未來已來,只是分布不均”。目前看來也的確如此,只是有很多“未來”還分布在人們的想象和恐懼以及“不可告人”的目的當中。
醫(yī)學影像界擁抱真正的人工智能,我們同樣也支持人工智能企業(yè)的宣傳。但是不要再拿目前人工智能簡單的圖像視覺與人類復雜的生物體大腦進行比賽,來博取大眾關注,增加大眾的恐慌情緒。我們愿意為能解決實際問題的AI產品站臺,反對做不良企業(yè)市場行為的幫兇。只有大家一起營造AI發(fā)展的良好生態(tài),才能推進醫(yī)學影像健康發(fā)展,希望不要在有些功利浮躁的“虛火”下,燒壞了AI這顆幼苗。