中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

癌癥重在預(yù)防!用深度學(xué)習(xí)技術(shù)來預(yù)測肺癌

2019-08-08    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

對病理學(xué)家來說,最困難的工作非判斷患者是否罹患癌癥莫屬,診斷結(jié)果至關(guān)重要。然而病理切片的檢查又極其復(fù)雜,病理學(xué)家需要經(jīng)過多年的訓(xùn)練,再加上豐富的專業(yè)知識和經(jīng)驗(yàn)才能勝任。盡管如此,人類病理學(xué)家也會出現(xiàn)誤診和漏診。如果癌癥能盡早發(fā)現(xiàn)并及時治療,死亡率就可以降低。于是,人們就研究如何通過深度學(xué)習(xí)算法,訓(xùn)練機(jī)器學(xué)習(xí)切片檢查來發(fā)現(xiàn)并預(yù)測癌癥,從而提高診斷的效率,對病理學(xué)家和患者來說都是很大的幫助。 Predicting Lung Cancer Mutations with Machine Learning(《用深度學(xué)習(xí)預(yù)測肺癌突變》),希望有所啟迪。

本文最初發(fā)布于 Medium 博客,作者 Jerry Wei 翻譯來源: InfoQ

我讀了 Nature Medicine (《自然醫(yī)學(xué)》)雜志上的最近一篇文章,文章作者提出了利用機(jī)器學(xué)習(xí)技術(shù),通過深度學(xué)習(xí)預(yù)測肺癌基因突變。他們是如何做到的呢?

注:這篇文章題目為 Classification and mutation prediction from non–small cell lung cancer histopathology images using deep learning(《利用深度學(xué)習(xí)對非小細(xì)胞肺癌組織病理學(xué)圖像進(jìn)行分類和突變預(yù)測》),網(wǎng)址為:https://www.nature.com/articles/s41591-018-0177-5

肺癌。 肺癌有兩種主要亞型:腺癌和鱗狀細(xì)胞癌。能否對這些亞型進(jìn)行區(qū)分極其重要,因?yàn)槊總亞型都有自己的治療方案,針對腺癌和鱗狀細(xì)胞癌的靶向治療各不相同。尤其是腺癌需要進(jìn)行基因突變分析;靶向的原發(fā)性突變包括表皮生長因子受體(epidermal growth factor receptor,EGFR)、間變性淋巴瘤受體酪氨酸激酶(anapestic lymphoma receptor tyrosine kinase,ALK)、腫瘤蛋白 53(tumor protein 53,TP53)和 KRAS 突變。

識別這些突變至關(guān)重要,因?yàn)槊糠N突變都有專門的治療方法。例如,EGFR 和 ALK 突變已經(jīng)有了美國食品藥品監(jiān)督管理局(Food and Drug Administration,F(xiàn)DA)批準(zhǔn)的靶向治療。目前分析肺癌組織樣本的方法(組織樣本的人工目視檢查)既詳盡,又有時不準(zhǔn)確。此外,這種方法也很難區(qū)分腺癌和鱗狀細(xì)胞癌。因此,能夠準(zhǔn)確分析肺癌組織的自動化機(jī)器學(xué)習(xí)模型將是非常有益的。

 

 

每一類的全切片圖像(whole-slide images,WSI)數(shù)量,其中 LUSC 代表鱗狀細(xì)胞癌,LUAD 代表腺癌。圖片來源:Coudray 等人,論文的原作者。

肺癌影像數(shù)據(jù)集

作者使用了來自 NCI 基因組數(shù)據(jù)共享平臺(Genomic Data Commons,GDC)的數(shù)據(jù);他們檢索了大約 1700 張全切片圖像,其中 609 例為鱗狀細(xì)胞癌陽性,567 張為腺癌陽性,459 張為正常。他們使用滑窗(sliding-window)算法從這些全切片圖像生成了大約 100 萬個 512x512 像素的窗口;旧,他們在整個組織樣本上滑動一個假象的“窗口”(可以高達(dá) 100000x100000 像素),并將每個窗口用做單獨(dú)的樣本。然后,他們將得到的 100 萬個窗口進(jìn)行分割,其中 70% 用作訓(xùn)練集,15% 用作驗(yàn)證,15% 用作測試集。

注:GDC(Genomic Data Commons)是美國國家癌癥研究所(National Cancer Institute,NCI)的研究計劃,使命是為癌癥研究界提供統(tǒng)一的數(shù)據(jù)存儲庫,以便在癌癥基因組研究中共享數(shù)據(jù),支持精準(zhǔn)醫(yī)學(xué)。它包含幾個大規(guī)模的癌癥基因組研究計劃的數(shù)據(jù),包括 TCGA、OCG。而 OCG 包括兩項支持癌癥分子鑒定的計劃,TARGET 和 CGCI。

 

 

本文采用的數(shù)據(jù)處理策略。圖片來源:Coudray 等人,論文的原作者

使用 Inception v3 進(jìn)行機(jī)器學(xué)習(xí)

作者的模型基于 Inception V3 架構(gòu),它使用不同內(nèi)核大小的卷積和最大池化層組成的 Inception 模塊。* 你說的這個卷積是什么? 我主要講的是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN);這些神經(jīng)網(wǎng)絡(luò)特別擅長圖像處理,而這恰好是本文試圖要做的事情。

注:Inception V3 是深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)之一,最早由 Google 于 2014 年發(fā)布 Inception V1,2015 年發(fā)布 Inception V2。Inception V3 在 Inception V2 的基礎(chǔ)上用 RMSProp 代替 SGD,替換了一個 7x7 的卷積層為 3x3 的卷積層。具體詳情可參閱 What is the difference between Inception V2 and Inception V3?

(《Inception V2 與 Inception V3 的區(qū)別》:https://datascience.stackexchange.com/questions/15328/what-is-the-difference-between-inception-v2-and-inception-v3

遷移學(xué)習(xí)

本文還將遷移學(xué)習(xí)應(yīng)用于腺癌和鱗狀細(xì)胞癌的分類。但什么是遷移學(xué)習(xí)?遷移學(xué)習(xí)基本上是一種使用他人模型的方法。神經(jīng)網(wǎng)絡(luò)具有層間權(quán)重,這些權(quán)重有利于模型的實(shí)際運(yùn)行。因此,如果你能得到這些精確的權(quán)重,那么你本質(zhì)上就是復(fù)制粘貼模型。這就是所謂的遷移學(xué)習(xí)——使用他人訓(xùn)練的權(quán)重,然后根據(jù)你自己的目的對其進(jìn)行微調(diào)。在本例中,作者使用了在 ImageNet 競賽中表現(xiàn)最佳的權(quán)重,并對肺癌數(shù)據(jù)進(jìn)行了微調(diào)。當(dāng)然,還有一些其他超參數(shù)用于模型,損失函數(shù)(交叉熵)、學(xué)習(xí)率 (0.1)、權(quán)重衰減 (0.9)、動量 (0.9) 和優(yōu)化器(RMSProp)。

 

 

熱圖顯示了模型所觀察的內(nèi)容。圖片來源:Coudray 等人,論文的原作者

訓(xùn)練

因?yàn)樗麄冇袃蓚不同的任務(wù)(預(yù)測腺癌和鱗狀細(xì)胞癌以及預(yù)測腺癌切片的基因突變),他們訓(xùn)練了模型的多種變體,在第一項任務(wù)中,他們訓(xùn)練模型來預(yù)測正常組織與腺癌、鱗狀細(xì)胞癌。對于第二項任務(wù),他們訓(xùn)練模型來預(yù)測每個二元基因突變,而不是作為多類分類器 。這意味著它們的實(shí)現(xiàn)允許肺癌組織中的每個 512x512 切片對不止一個基因圖片呈陽性。對于這兩項任務(wù),他們對模型進(jìn)行了 500000 次迭代的訓(xùn)練。

結(jié)果

他們通過幾種方法驗(yàn)證了模型的有效性。首先他們將模型與病理學(xué)家進(jìn)行了比較。在獨(dú)立的測試集上,被模型錯誤分類的切片中,有 50% 也被病理學(xué)家錯誤分類;而被病理學(xué)家錯誤分類的切片中,有 83% 被模型正確分類。這被視為模型表現(xiàn)與病理學(xué)家不相上下的證據(jù)。作者還計算了模型對每個基因突變的正確率,發(fā)現(xiàn)該模型比彩塑所有的突變要好得多。

 

 

該模型實(shí)現(xiàn)的每個突變在 ROC 曲線(Receiver Operating Characteristic,受試者工作特征曲線)面積得分。圖片來源:Coudray 等人,論文的原作者。

這意味著什么?

作者創(chuàng)建了一種學(xué)習(xí)模型,能夠以合理的正確度對肺癌基因突變進(jìn)行分類,并能夠識別兩種肺癌亞型之間的差異。這顯示了機(jī)器學(xué)習(xí)的強(qiáng)大功能,它的應(yīng)用是如何的廣泛。該模型主要用于協(xié)助病理學(xué)家進(jìn)行診斷,使診斷過程仍然保持半手工的狀態(tài)。那么,這個模型還能做什么呢?* 在未來,作者將應(yīng)用該模型嘗試對較不常見的肺癌進(jìn)行分類,包括大細(xì)胞癌和小細(xì)胞癌。引入他們的模型也有可能帶來高精度的肺癌組織的全自動分析,這既減少了分析時間,又減少了潛在的人為錯誤。

也許在未來,我們能夠通過機(jī)器學(xué)習(xí),讓計算機(jī)為人類診斷疾病。

下面列出我認(rèn)為人們可能感興趣的一些其他資源:

原始論文:https://www.nature.com/articles/s41591-018-0177-5.pdf
該論文的 GitHub 倉庫:https://github.com/ncoudray/DeepPATH

作者:Jerry Wei 譯者:劉志勇

原文鏈接:Predicting Lung Cancer Mutations with Machine Learning

標(biāo)簽: 深度學(xué)習(xí)技術(shù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:再見 Excel!我開源了一款與Python深度集成的神器級 IDE

下一篇:31個驚艷的數(shù)據(jù)可視化作品,讓你感受“數(shù)據(jù)之美”!