站長資訊平臺

癌癥重在預(yù)防！用深度學(xué)習(xí)技術(shù)來預(yù)測肺癌

2019-08-08 來源：raincent

對病理學(xué)家來說，最困難的工作非判斷患者是否罹患癌癥莫屬，診斷結(jié)果至關(guān)重要。然而病理切片的檢查又極其復(fù)雜，病理學(xué)家需要經(jīng)過多年的訓(xùn)練，再加上豐富的專業(yè)知識和經(jīng)驗(yàn)才能勝任。盡管如此，人類病理學(xué)家也會出現(xiàn)誤診和漏診。如果癌癥能盡早發(fā)現(xiàn)并及時治療，死亡率就可以降低。于是，人們就研究如何通過深度學(xué)習(xí)算法，訓(xùn)練機(jī)器學(xué)習(xí)切片檢查來發(fā)現(xiàn)并預(yù)測癌癥，從而提高診斷的效率，對病理學(xué)家和患者來說都是很大的幫助。 Predicting Lung Cancer Mutations with Machine Learning(《用深度學(xué)習(xí)預(yù)測肺癌突變》)，希望有所啟迪。

本文最初發(fā)布于 Medium 博客，作者 Jerry Wei 翻譯來源： InfoQ

我讀了 Nature Medicine (《自然醫(yī)學(xué)》)雜志上的最近一篇文章，文章作者提出了利用機(jī)器學(xué)習(xí)技術(shù)，通過深度學(xué)習(xí)預(yù)測肺癌基因突變。他們是如何做到的呢?

注：這篇文章題目為 Classification and mutation prediction from non–small cell lung cancer histopathology images using deep learning(《利用深度學(xué)習(xí)對非小細(xì)胞肺癌組織病理學(xué)圖像進(jìn)行分類和突變預(yù)測》)，網(wǎng)址為：https://www.nature.com/articles/s41591-018-0177-5

肺癌。肺癌有兩種主要亞型：腺癌和鱗狀細(xì)胞癌。能否對這些亞型進(jìn)行區(qū)分極其重要，因?yàn)槊總€亞型都有自己的治療方案，針對腺癌和鱗狀細(xì)胞癌的靶向治療各不相同。尤其是腺癌需要進(jìn)行基因突變分析;靶向的原發(fā)性突變包括表皮生長因子受體(epidermal growth factor receptor，EGFR)、間變性淋巴瘤受體酪氨酸激酶(anapestic lymphoma receptor tyrosine kinase，ALK)、腫瘤蛋白 53(tumor protein 53，TP53)和 KRAS 突變。

識別這些突變至關(guān)重要，因?yàn)槊糠N突變都有專門的治療方法。例如，EGFR 和 ALK 突變已經(jīng)有了美國食品藥品監(jiān)督管理局(Food and Drug Administration，F(xiàn)DA)批準(zhǔn)的靶向治療。目前分析肺癌組織樣本的方法(組織樣本的人工目視檢查)既詳盡，又有時不準(zhǔn)確。此外，這種方法也很難區(qū)分腺癌和鱗狀細(xì)胞癌。因此，能夠準(zhǔn)確分析肺癌組織的自動化機(jī)器學(xué)習(xí)模型將是非常有益的。

每一類的全切片圖像(whole-slide images，WSI)數(shù)量，其中 LUSC 代表鱗狀細(xì)胞癌，LUAD 代表腺癌。圖片來源：Coudray 等人，論文的原作者。

肺癌影像數(shù)據(jù)集

作者使用了來自 NCI 基因組數(shù)據(jù)共享平臺(Genomic Data Commons，GDC)的數(shù)據(jù);他們檢索了大約 1700 張全切片圖像，其中 609 例為鱗狀細(xì)胞癌陽性，567 張為腺癌陽性，459 張為正常。他們使用滑窗(sliding-window)算法從這些全切片圖像生成了大約 100 萬個 512x512 像素的窗口�；旧�，他們在整個組織樣本上滑動一個假象的“窗口”(可以高達(dá) 100000x100000 像素)，并將每個窗口用做單獨(dú)的樣本。然后，他們將得到的 100 萬個窗口進(jìn)行分割，其中 70% 用作訓(xùn)練集，15% 用作驗(yàn)證，15% 用作測試集。

注：GDC(Genomic Data Commons)是美國國家癌癥研究所(National Cancer Institute，NCI)的研究計劃，使命是為癌癥研究界提供統(tǒng)一的數(shù)據(jù)存儲庫，以便在癌癥基因組研究中共享數(shù)據(jù)，支持精準(zhǔn)醫(yī)學(xué)。它包含幾個大規(guī)模的癌癥基因組研究計劃的數(shù)據(jù)，包括 TCGA、OCG。而 OCG 包括兩項支持癌癥分子鑒定的計劃，TARGET 和 CGCI。

本文采用的數(shù)據(jù)處理策略。圖片來源：Coudray 等人，論文的原作者

使用 Inception v3 進(jìn)行機(jī)器學(xué)習(xí)

作者的模型基于 Inception V3 架構(gòu)，它使用不同內(nèi)核大小的卷積和最大池化層組成的 Inception 模塊。* 你說的這個卷積是什么? 我主要講的是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks，CNN);這些神經(jīng)網(wǎng)絡(luò)特別擅長圖像處理，而這恰好是本文試圖要做的事情。

注：Inception V3 是深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)之一，最早由 Google 于 2014 年發(fā)布 Inception V1，2015 年發(fā)布 Inception V2。Inception V3 在 Inception V2 的基礎(chǔ)上用 RMSProp 代替 SGD，替換了一個 7x7 的卷積層為 3x3 的卷積層。具體詳情可參閱 What is the difference between Inception V2 and Inception V3?

(《Inception V2 與 Inception V3 的區(qū)別》：https://datascience.stackexchange.com/questions/15328/what-is-the-difference-between-inception-v2-and-inception-v3

遷移學(xué)習(xí)

本文還將遷移學(xué)習(xí)應(yīng)用于腺癌和鱗狀細(xì)胞癌的分類。但什么是遷移學(xué)習(xí)?遷移學(xué)習(xí)基本上是一種使用他人模型的方法。神經(jīng)網(wǎng)絡(luò)具有層間權(quán)重，這些權(quán)重有利于模型的實(shí)際運(yùn)行。因此，如果你能得到這些精確的權(quán)重，那么你本質(zhì)上就是復(fù)制粘貼模型。這就是所謂的遷移學(xué)習(xí)——使用他人訓(xùn)練的權(quán)重，然后根據(jù)你自己的目的對其進(jìn)行微調(diào)。在本例中，作者使用了在 ImageNet 競賽中表現(xiàn)最佳的權(quán)重，并對肺癌數(shù)據(jù)進(jìn)行了微調(diào)。當(dāng)然，還有一些其他超參數(shù)用于模型，損失函數(shù)(交叉熵)、學(xué)習(xí)率 (0.1)、權(quán)重衰減 (0.9)、動量 (0.9) 和優(yōu)化器(RMSProp)。

熱圖顯示了模型所觀察的內(nèi)容。圖片來源：Coudray 等人，論文的原作者

訓(xùn)練

因?yàn)樗麄冇袃蓚€不同的任務(wù)(預(yù)測腺癌和鱗狀細(xì)胞癌以及預(yù)測腺癌切片的基因突變)，他們訓(xùn)練了模型的多種變體，在第一項任務(wù)中，他們訓(xùn)練模型來預(yù)測正常組織與腺癌、鱗狀細(xì)胞癌。對于第二項任務(wù)，他們訓(xùn)練模型來預(yù)測每個二元基因突變，而不是作為多類分類器。這意味著它們的實(shí)現(xiàn)允許肺癌組織中的每個 512x512 切片對不止一個基因圖片呈陽性。對于這兩項任務(wù)，他們對模型進(jìn)行了 500000 次迭代的訓(xùn)練。

結(jié)果

他們通過幾種方法驗(yàn)證了模型的有效性。首先他們將模型與病理學(xué)家進(jìn)行了比較。在獨(dú)立的測試集上，被模型錯誤分類的切片中，有 50% 也被病理學(xué)家錯誤分類;而被病理學(xué)家錯誤分類的切片中，有 83% 被模型正確分類。這被視為模型表現(xiàn)與病理學(xué)家不相上下的證據(jù)。作者還計算了模型對每個基因突變的正確率，發(fā)現(xiàn)該模型比彩塑所有的突變要好得多。

該模型實(shí)現(xiàn)的每個突變在 ROC 曲線(Receiver Operating Characteristic，受試者工作特征曲線)面積得分。圖片來源：Coudray 等人，論文的原作者。

這意味著什么?

作者創(chuàng)建了一種學(xué)習(xí)模型，能夠以合理的正確度對肺癌基因突變進(jìn)行分類，并能夠識別兩種肺癌亞型之間的差異。這顯示了機(jī)器學(xué)習(xí)的強(qiáng)大功能，它的應(yīng)用是如何的廣泛。該模型主要用于協(xié)助病理學(xué)家進(jìn)行診斷，使診斷過程仍然保持半手工的狀態(tài)。那么，這個模型還能做什么呢?* 在未來，作者將應(yīng)用該模型嘗試對較不常見的肺癌進(jìn)行分類，包括大細(xì)胞癌和小細(xì)胞癌。引入他們的模型也有可能帶來高精度的肺癌組織的全自動分析，這既減少了分析時間，又減少了潛在的人為錯誤。

也許在未來，我們能夠通過機(jī)器學(xué)習(xí)，讓計算機(jī)為人類診斷疾病。

下面列出我認(rèn)為人們可能感興趣的一些其他資源：

原始論文：https://www.nature.com/articles/s41591-018-0177-5.pdf
該論文的 GitHub 倉庫：https://github.com/ncoudray/DeepPATH

作者：Jerry Wei 譯者：劉志勇

原文鏈接：Predicting Lung Cancer Mutations with Machine Learning

標(biāo)簽：深度學(xué)習(xí)技術(shù)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:再見 Excel！我開源了一款與Python深度集成的神器級 IDE

下一篇:31個驚艷的數(shù)據(jù)可視化作品，讓你感受“數(shù)據(jù)之美”！

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

癌癥重在預(yù)防！用深度學(xué)習(xí)技術(shù)來預(yù)測肺癌

癌癥重在預(yù)防！用深度學(xué)習(xí)技術(shù)來預(yù)測肺癌