AG真人国际(中国)官方网站

服务热线热线:

02088888888

AG行业新闻

AG真人国际(中国)官方网站文献精读:开发基于机器学习的HCC早期诊断预测模型

发布时间:2024-12-22点击次数:

  AG真人国际肝细胞癌(HCC)的诊断通常依赖于影像学检查或组织活检。尽管大多数HCC病例在影像学上具有特异性表现,但仍有约10%的肿瘤(在直径为1-2cm的肿瘤中,这一比例可高达30%)缺乏典型的影像学特征[1]。在临床上怀疑HCC但影像学特征不典型的情况下,不应推迟进行活检或安排复查。若复查结果仍然不明确,则应进行活检[2]。然而,活检样本若采集位置不精确,可能导致误诊(即假阴性结果)。对于从非肿瘤(如肝硬化或正常)组织中采集到的HCC活检样本,小活检样本的诊断假阴性率大约在30%-50%[3,4]。因此,开发新的分子标志物对于早期HCC的诊断尤为关键,特别是在活检样本位置可能存在偏差的情况下。

  近期,一项研究利用大样本数据,结合最小冗余最大相关性(mRMR)和最大相关性最大距离(MRMD)两种特征选择方法,并融合八种基于机器学习的算法,开发出一种用于HCC早期预测的模型(eHCC-pred)。该模型将HCC早期诊断的准确率从78.15%提升至97%,有望在个体化水平上稳定地应用于临床实践,助力HCC的早期诊断。该模型可于免费获取[5]。医学界肿瘤频道整理该研究内容如下,以供参考。

  本项研究采用了来自三个公共数据库(GEO、ICGC和TCGA)的46个数据集,共计5586个组织样本,其中包含4045个肝细胞癌(HCC)样本、416个未发生HCC的肝硬化(CwoHCC)样本、334个伴有HCC的肝硬化(CwHCC)样本以及791个未发生HCC的正常肝组织(NwHCC)样本。

  本研究的整体分析流程如图1所示。首先,基于988个HCC样本和332个CwoHCC样本的基因表达谱,分别获得了25,341,086对和20,559,429对稳定的基因对。在这两组基因对中,有5765对基因对在HCC组织和CwoHCC组织之间表现出稳定的逆转关系。接着,通过筛选2902个分泌基因中的基因对,最终获得了242对基因对,这些基因对中的基因i和基因j均为分泌基因。随后,基于包含242个特征(基因对)的新数据集提取了最佳特征。

  在这九种预测模型中,mRMR + KNN和mRMR + SVM的基因对数量最少,仅包含11对基因对(表2)。

  使用独立数据集(包括测试集、GEO数据集、ICGC数据集和TCGA数据集)对各种算法的性能进行了验证。如表3所示,对于3057个HCC样本和84个CwoHCC样本,MRMD + SVM预测模型(包含28对基因对)在独立数据集中获得了最高的准确率和F1分数,其准确率、F1分数和AUC值分别为0.9834、0.9915和0.9278。而mRMR + SVM预测模型(包含11对基因对)在独立数据集中获得了最高的AUC值0.9384,高于其他预测模型。因此,在后续分析中重点关注这三个预测模型。他们在活检样本和手术样本中的详细验证结果如表4所示。

  对于1800个HCC样本,Ao教授团体开发的模型、本研究团队既往开发的模型以及本次提出的mRMR + SVM预测模型和MRMD + SVM预测模型的准确度分别为0.6639、0.7656、0.8428和0.9872。对于1931个HCC样本,Ao方法的准确度为0.6572,本研究团队既往方法的准确度为0.7815,而mRMR + SVM预测模型和MRMD + SVM预测模型的准确度分别提高到0.8503和0.97。上述结果表明,mRMR + SVM预测模型和MRMD + SVM预测模型在与现有预测模型相比,表现更为优越。

  最终,本研究成功开发了一种基于机器学习的HCC早期诊断预测模型eHCC-pred。该模型集成了两种不同的机器学习预测算法:MRMD + SVM和mRMR + SVM,将HCC早期识别的准确率从78.15%提升至97%,将为临床医生提供了更为精确的工具,以期在HCC的早期阶段就进行有效的干预和治疗。

上一篇:AG真人国际(中国)官方网站404 Not Found

返回列表

下一篇:AG真人国际(中国)官方网站英特尔新专利:机器学习稀疏计算引