他說(shuō),對(duì)于中國(guó)女性群體來(lái)說(shuō),乳腺癌是發(fā)病率高的惡性腫瘤之一。據(jù)相關(guān)數(shù)據(jù)統(tǒng)計(jì),我國(guó)每10萬(wàn)人中就有40多個(gè)人罹患乳腺癌。基于此,騰訊AI lab發(fā)力該領(lǐng)域,希望能夠利用技術(shù)攻破治療難題,以惠及更多普通人群。
在乳腺癌的檢查及研究方面,騰訊AI lab選擇了兩個(gè)具體方向。一、鉬靶;二、病理學(xué)。
對(duì)于鉬靶來(lái)說(shuō),它是一種非常常見的篩查手段,它能夠普惠到基層醫(yī)院。但目前很多醫(yī)生在鉬靶方面的研究和熟悉程度有所欠缺。因此,騰訊AI lab希望可以借助AI技術(shù),幫助到基層醫(yī)院的一些醫(yī)生在鉬靶方面做一些提升。
對(duì)于病理學(xué)檢查方向。在顏克洲看來(lái),該方向用計(jì)算機(jī)處理會(huì)比人類更加適合。病理學(xué)研究“區(qū)域”非常廣泛,它可能有10萬(wàn)×10萬(wàn)個(gè)小細(xì)胞。如果依靠醫(yī)生肉眼去看,全是密密麻麻的小細(xì)胞,這將是個(gè)非常痛苦且有巨大挑戰(zhàn)的過(guò)程;如果用計(jì)算機(jī)去執(zhí)行就會(huì)變得相對(duì)簡(jiǎn)單,它就可以將這些細(xì)胞進(jìn)行拆分,做高并發(fā)研究。
騰訊AI lab在病理學(xué)圖像識(shí)別的進(jìn)展
在病理學(xué)圖像的識(shí)別上,騰訊AI lab將其分為兩個(gè)步驟。
一、在手術(shù)中或者手術(shù)后,將病人的淋巴結(jié)切下,觀察癌細(xì)胞的位置及大??;
二、然后對(duì)此癌細(xì)胞進(jìn)行組織學(xué)分析。組織學(xué)分析是將癌變的組織切下來(lái),觀察它的分化程度,然后來(lái)確定方案。
據(jù)顏克洲介紹,騰訊AI lab早期就做過(guò)淋巴結(jié)切片的分析。對(duì)于這個(gè)切片,從病理學(xué)圖片的識(shí)別來(lái)看存在一些難點(diǎn)。
醫(yī)學(xué)上的病理切片分析需要的是波片掃描的數(shù)據(jù),但是目前該數(shù)據(jù)量非常少,因?yàn)樗枰颜麄€(gè)波片全部數(shù)字化。如今很多醫(yī)院都還沒有普及數(shù)字病理機(jī);另外,很多醫(yī)生由于在醫(yī)學(xué)院從一開始接觸的就是顯微鏡,因此他們比較抵觸使用這些機(jī)器。其實(shí)使用數(shù)字病理機(jī)只是把原先用顯微鏡看到的東西數(shù)字化而已。
該切片是張超級(jí)大型的圖片,達(dá)到了10萬(wàn)×10萬(wàn)像素,這無(wú)論是對(duì)于人還是計(jì)算機(jī)來(lái)說(shuō),對(duì)此圖片做識(shí)別和分析都有一定難度及挑戰(zhàn)。
細(xì)胞形態(tài)非常類似。癌細(xì)胞與淋巴結(jié)上的一些巨噬細(xì)胞在形態(tài)上非常相象,但這兩類細(xì)胞與普通的淋巴結(jié)細(xì)胞又有比較大的區(qū)別。
針對(duì)以上三個(gè)難點(diǎn),騰訊AI lab提出了相應(yīng)解決方案。
對(duì)于醫(yī)療機(jī)器的應(yīng)用難題,后期可以給機(jī)器增加一些輔助功能。比如說(shuō)能夠幫助醫(yī)生大概預(yù)估治療結(jié)果等,這也許會(huì)逐步提升醫(yī)生對(duì)于這些機(jī)器的好感;
對(duì)于超大型圖片,可以化整為零,把它切成了多個(gè)patch去做分析;
而對(duì)于細(xì)胞形態(tài),可以采用多數(shù)據(jù)融合的方式去分析,這個(gè)過(guò)程可以分為三個(gè)部分。
首先做一個(gè)淺處理,把切片中有用的部分全部切出來(lái);
再者是進(jìn)行分類。由于癌細(xì)胞與巨噬細(xì)胞非常相像,騰訊AI lab采用了一種激活的訓(xùn)練手段訓(xùn)練了兩種網(wǎng)絡(luò):個(gè)是普通的正常和癌變細(xì)胞的網(wǎng)絡(luò);第二個(gè)是針對(duì)巨噬細(xì)胞跟癌變的一個(gè)有特別分辨能力的網(wǎng)絡(luò);之后又將這兩個(gè)網(wǎng)絡(luò)用一個(gè)權(quán)重進(jìn)行融合得到細(xì)胞病變的概率。
得到概率之后,可以利用病灶膨脹閥過(guò)濾掉一些傳統(tǒng)的計(jì)算機(jī)識(shí)別的特征,包括細(xì)胞核個(gè)數(shù)、假陽(yáng)性的組織等等;然后再融合它原本的一些計(jì)算機(jī)視覺的特征。比如說(shuō)這個(gè)小片里面細(xì)胞的密度以及細(xì)胞的一些顏色的浮動(dòng),這些信息終用一個(gè)概率圖模型來(lái)輸出,緊接著處理成一張熱力圖;形成熱力圖之后,經(jīng)過(guò)一些降噪的手段將其變得更加精確;后把它的病灶點(diǎn)進(jìn)行聚類,再確定病灶大小,給它進(jìn)行N分級(jí)。
雷鋒網(wǎng)AI掘金志了解到,在近的一次對(duì)于甲狀腺的研究實(shí)驗(yàn)中,它的病灶召回率在0.83左右,而人類的水平大概在0.7左右。
騰訊在鉬靶圖像識(shí)別上的進(jìn)展
接下來(lái)顏克洲還介紹了一下騰訊AI lab在鉬靶圖像識(shí)別上的一些進(jìn)展。他表示,騰訊AI lab之前對(duì)眾多醫(yī)生進(jìn)行了一些調(diào)研,在鉬靶圖像這塊總結(jié)出兩個(gè)痛點(diǎn):
一、醫(yī)生很容易漏掉癌癥的病變組織,也許是根本沒有找到;
二、找到一塊病灶組織,但分不清楚它的良/惡性概率是多少。
顏克洲透露,騰訊AI lab有嘗試去解決這些痛點(diǎn),但發(fā)現(xiàn)其中也有一些難點(diǎn)。
沒有大量的數(shù)據(jù)和標(biāo)注去訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
這類圖片與普通圖片不太一樣,用普通的神經(jīng)網(wǎng)絡(luò)算法在醫(yī)學(xué)中應(yīng)用不太可行。
鉬靶圖片有其特殊之處——同病理。在鉬靶圖像識(shí)別率這個(gè)領(lǐng)域,單看一張圖根本不知道患者有什么疾病。醫(yī)生診斷的時(shí)候通常會(huì)對(duì)比患者的左胸和右胸圖片,它的組織是基本對(duì)稱的,后來(lái)確定患者到底是不是有問(wèn)題。
針對(duì)這三大難題,騰訊AI lab也做了一些探索。
數(shù)據(jù)獲取方面。在數(shù)據(jù)不夠的情況下,機(jī)器很大程度上在學(xué)習(xí)醫(yī)生在平時(shí)診斷時(shí)的做法。它將醫(yī)生的辦法抽象成一個(gè)數(shù)學(xué)方法,利用醫(yī)生的知識(shí)把一些可疑的病灶進(jìn)行判斷,然后將這些知識(shí)提取出來(lái),應(yīng)用到神經(jīng)網(wǎng)絡(luò)中去進(jìn)行輔助分析。
設(shè)計(jì)專門的醫(yī)用神經(jīng)網(wǎng)絡(luò),針對(duì)非標(biāo)準(zhǔn)圖片去做。
模仿醫(yī)生看片的流程,在方法上做了多圖對(duì)比的一個(gè)過(guò)程。
實(shí)現(xiàn)框架主要也有三大塊:
利用NLP把標(biāo)簽?zāi)玫?。利用NLP技術(shù)把病人的鉬靶報(bào)告和病理報(bào)告拿到以后,提取它的標(biāo)簽,然后利用這些標(biāo)簽對(duì)整圖做訓(xùn)練。
做全處理。對(duì)于此步驟,騰訊AI lab會(huì)重點(diǎn)根據(jù)醫(yī)生的一些相應(yīng)知識(shí)去做處理。
拿到label和image后,再結(jié)合與醫(yī)院拿到的一些數(shù)據(jù)標(biāo)記,做神經(jīng)網(wǎng)絡(luò)訓(xùn)練,后分辨它屬不屬于癌細(xì)胞。
這其中也包含三個(gè)過(guò)程:
步是把鉬靶報(bào)告和病理報(bào)告里面的結(jié)構(gòu)化信息利用NLP技術(shù)提取出來(lái);然后用計(jì)算機(jī)視覺的方法找到一些疑似的病灶(當(dāng)然這些病灶不一定是真正有用的病灶,或者是真正癌變的病灶,但是至少可以大大縮減分析范圍),把無(wú)用的一些地方去掉;再者用計(jì)算機(jī)語(yǔ)言來(lái)找到它的ROI,找到這些ROI以后,后面在做神經(jīng)網(wǎng)絡(luò)的分類或者訓(xùn)練就會(huì)相對(duì)容易得多。
第二步是進(jìn)行多圖對(duì)比。將兩張圖片利用醫(yī)學(xué)圖像的技術(shù)做對(duì)齊;對(duì)齊以后再做一個(gè)差分;差分完了以后,再將結(jié)果返回到剛才的步做循環(huán),去找到那個(gè)關(guān)鍵的、感興趣的組織。
第三步也是關(guān)鍵的步驟,拿到了ROI以后,將它放到神經(jīng)網(wǎng)絡(luò)里面去訓(xùn)練,訓(xùn)練它是或者不是癌變細(xì)胞,但是正如前面所言,其實(shí)目前的標(biāo)注量用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)是遠(yuǎn)遠(yuǎn)不夠的。因?yàn)樯窠?jīng)網(wǎng)絡(luò)的訓(xùn)練一定是需要成千上萬(wàn)張這樣的一個(gè)級(jí)別,因此一定要融入一些其他的醫(yī)學(xué)知識(shí)。
融入哪些醫(yī)學(xué)知識(shí)呢?
一、一些計(jì)算機(jī)視覺特征的知識(shí)。將病灶放到神經(jīng)網(wǎng)絡(luò)里面去,其實(shí)會(huì)丟失很多特征。比如說(shuō)在原圖位置的特征、大小特征、毛刺特征等等。然后將這些特征用另外一條通路把它描述出來(lái);
二、醫(yī)生在給患者做診斷時(shí)所依賴的一些特征。值得注意的是,還要對(duì)患者的年齡、性別、以及既往病史作了解并進(jìn)行處理,后用概率圖模型將這些特征做融合,得到良/惡性的概率。
顏克洲補(bǔ)充說(shuō),騰訊AI lab目前在研究良/惡性病灶方面也有一些進(jìn)展。在疑似病灶的地方,騰訊AI lab大概在每張圖有1.5個(gè)假陽(yáng)性的情況下可以獲得80%的病灶覆蓋率,該水平已經(jīng)超過(guò)了人類。
他透露,接下來(lái)騰訊AI lab對(duì)于乳腺癌這個(gè)方向在診斷方面一定會(huì)融合盡量多的醫(yī)學(xué)信息,盡量把患者的一些病歷數(shù)據(jù)、影像數(shù)據(jù)、基因數(shù)據(jù)做多數(shù)據(jù)的融合,后對(duì)病人做出一個(gè)綜合的診斷,而不僅僅是把它當(dāng)成一個(gè)圖像工程去做。
如今基于AI的相關(guān)技術(shù)正聯(lián)合各項(xiàng)應(yīng)用及研究走進(jìn)人們的生活,來(lái)到人們的身邊。正如AI應(yīng)用于乳腺癌識(shí)別一樣,這一切都是為了讓人人都享受更好的醫(yī)療服務(wù),期待相關(guān)企業(yè)和機(jī)構(gòu)在乳腺癌項(xiàng)目上的研究能夠盡快有所突破,造福普通患者。