您現(xiàn)在的位置是:首頁 >人工智能 > 2022-05-23 15:29:51 來源:
機器學習從根本上減少了用于疾病診斷的細胞計數(shù)工作量
使用機器學習來執(zhí)行血細胞計數(shù)來診斷疾病,而不是昂貴且通常不太準確的細胞分析儀機器仍然非常耗費人力,因為在機器學習的訓練中需要人類進行大量的手動注釋工作模型。然而,北京航空航天大學的研究人員開發(fā)了一種新的訓練方法,可以使大部分活動自動化。
他們的新培訓計劃在4月9日發(fā)表在CyborgandBionicSystems雜志上的一篇論文中進行了描述。
血液中細胞的數(shù)量和類型通常在疾病診斷中起著至關(guān)重要的作用,但通常用于執(zhí)行這種血細胞計數(shù)的細胞分析技術(shù)——包括檢測和測量懸浮在液體中的細胞的物理和化學特性——是昂貴且需要復雜的準備工作。更糟糕的是,由于溫度、pH、電壓和磁場等各種影響會混淆設(shè)備,因此細胞分析儀的準確度只有90%左右。
為了提高準確性、降低復雜性和降低成本,最近對替代品的許多研究都集中在使用計算機程序?qū)B接到顯微鏡的高清相機拍攝的血液照片進行“分割”。分割涉及對照片中出現(xiàn)的內(nèi)容執(zhí)行逐像素標記的算法,在這種情況下,圖像的哪些部分是細胞,哪些不是——本質(zhì)上是計算圖像中的細胞數(shù)量。
對于只出現(xiàn)一種類型細胞的圖像,這些方法可以達到相當高的準確度,但在面對具有多種類型細胞的圖像時,它們的表現(xiàn)很差。因此,近年來,為了解決這個問題,研究人員轉(zhuǎn)向了卷積神經(jīng)網(wǎng)絡(luò)(CNN)——一種反映人類視覺皮層連接結(jié)構(gòu)的機器學習。
CNN要執(zhí)行這項任務(wù),首先必須對其進行“訓練”,以了解人類手動標記的數(shù)千張細胞圖像中什么是細胞,什么不是細胞。然后,當輸入一個新的、未標記的圖像時,它會識別并計算其中的細胞。
“但這種手工標注既費力又昂貴,即使在專家的協(xié)助下完成,”該論文的合著者、北京航空航天大學機械工程與自動化系教授詹粵說,“這違背了初衷一種比細胞分析儀更簡單、更便宜的替代品。”
因此,北航的研究人員開發(fā)了一種新的CNN訓練方案,在本例中為U-Net,這是一種全卷積網(wǎng)絡(luò)分割模型,自2015年首次開發(fā)以來已廣泛應(yīng)用于醫(yī)學圖像分割。
在新的訓練方案中,CNN首先在一組數(shù)千張圖像上進行訓練,其中只有一種細胞(取自小鼠血液)。
這些單細胞類型圖像由傳統(tǒng)算法自動“預處理”,這些算法可以減少圖像中的噪聲、提高其質(zhì)量并檢測圖像中對象的輪廓。然后他們執(zhí)行自適應(yīng)圖像分割。后一種算法計算黑白圖像中的各種灰度級別,如果圖像的一部分超出某個灰度閾值,則該算法將其分割為不同的對象。使該過程具有自適應(yīng)性的原因在于,它不是根據(jù)固定的灰度閾值來分割圖像片段的一部分,而是根據(jù)圖像的局部特征進行分割。
將單細胞類型的訓練集呈現(xiàn)給U-Net模型后,使用一小組手動標注的多種細胞類型的圖像對模型進行微調(diào)。相比之下,仍然存在一定數(shù)量的人工標注,需要人工標注的圖像數(shù)量從以前的數(shù)千張減少到僅600張。
為了測試他們的訓練計劃,研究人員首先使用傳統(tǒng)的細胞分析儀對相同的小鼠血液樣本進行獨立的細胞計數(shù),并以此比較他們的新方法。他們發(fā)現(xiàn)他們的訓練方案對多細胞類型圖像分割的準確率為94.85%,這與使用手動注釋的多細胞類型圖像進行訓練所達到的水平相同。
該技術(shù)還可以應(yīng)用于更高級的模型,以考慮更復雜的分割問題。
由于新的訓練技術(shù)仍涉及一定程度的手動注釋,研究人員希望繼續(xù)開發(fā)一種用于注釋和訓練模型的全自動算法。