背景
非酒精性脂肪肝病(NAFLD)是一种常见的肝脏疾病,通常伴随着肝脏内脂肪的积累。随着肥胖、糖尿病等代谢疾病的普及,NAFLD的患病率呈逐年上升趋势。NAFLD的进展可能导致非酒精性脂肪性肝炎(NASH),而后者如果未得到有效治疗,可能发展为肝纤维化、肝硬化甚至肝癌。因此,如何准确评估NAFLD的病理进展,特别是从NASH到肝纤维化的过渡,一直是临床医学中的一个重大挑战。
#### 传统病理评分的局限性
NAFLD的评估通常采用病理评分系统,包括脂肪变性(steatosis)、肝小叶炎症(lobular inflammation)、肝细胞气球样变(hepatocellular ballooning)和纤维化(fibrosis)。这些指标的综合评分被广泛应用于临床试验和药物评估中。然而,病理评分的标准化、准确性和可重复性常常受到样本质量、病理学家经验及其主观判断的影响,导致不同实验室之间、不同病理学家之间的评分差异较大。因此,提升病理评分的一致性和准确性是当今NAFLD研究中亟待解决的问题。
#### AIM-MASH算法:提升病理评分的一致性与准确性
##### 算法概述
AIM-MASH(Artificial Intelligence Model for MASH)是一款基于人工智能的病理评分工具,旨在帮助病理学家提高评分的标准化和一致性。该算法通过分析肝脏活检样本中的全切片图像(WSI,Whole Slide Imaging),自动识别肝脏组织中的脂肪变性、肝小叶炎症、肝细胞气球样变以及纤维化等病理特征,并对其进行精确的评分。
##### 工作流程
1. **AI辅助工作流程**:
- **主要病理学家审核**:主要病理学家会首先审核AIM-MASH的输出结果,并对组织切片进行质量控制(QC)检查。这包括对苏木精-伊红(H&E)和马松三色染色(Masson’s Trichrome,MT)切片的审核,确认是否需要重新染色或重新扫描切片,确保所有试验特定的标准都得到了满足,并记录任何额外的发现。
- **次级病理学家复核**:如果主要病理学家对某些MASH评分(即脂肪变性、肝小叶炎症、肝细胞气球样变、纤维化等)存在至少2分的分歧,该病例将转交给次级病理学家进行复核。次级病理学家会独立审核与AIM-MASH评分不一致的部分。
- **一致性讨论**:如果次级病理学家同意主要病理学家的修改评分,那么该修改后的评分将作为最终评分;如果次级病理学家与主要病理学家意见不合,或同意AIM-MASH的原始评分,两个病理学家将进行一致性讨论(consensus call),达成一致后最终确定评分。
2. **GT小组工作流程**:
- **金标准(Gold-Standard,GT)评分**:每个肝脏活检的金标准评分是由两个不同的小组中的肝病病理学家面板确定的。每个面板由两名主要病理学家和一名辅助的“平衡者”病理学家组成,后者的作用是解决主要病理学家之间评分的差异。
- **平衡者病理学家**:如果主要病理学家之间的评分出现分歧,平衡者病理学家会介入并提供一个独立的评分。如果平衡者的评分与两位主要病理学家的评分都不同,并且无法达成一致,会议将被召集讨论,平衡者的评分在特殊情况下会作为决定性评分。
- **中位数GT评分**:如果平衡者的评分与两位主要病理学家的评分分歧较大,则会采用三者评分的中位数作为最终评分。在建立GT评分的过程中,总共有五位病理学家参与了评分的制定。
##### 研究数据与验证
- **研究数据**:AIM-MASH的研究数据表明,它在多个方面的表现优于传统手工评分。研究团队使用了代表性的临床试验数据集,包括了不同疾病活动性、染色方法、扫描地点以及药物干预等多种变量。研究中包含的样本中,不仅有正常的肝脏组织,还包括了病变较重的NAFLD样本。
- **性能对比**:在对AIM-MASH进行的重复性研究中,AIM-MASH的表现超出了预期的85%的准确性目标。例如,在评估脂肪变性(steatosis)、肝小叶炎症(lobular inflammation)、肝细胞气球样变(hepatocellular ballooning)和纤维化(fibrosis)等评分时,AIM-MASH的表现分别为0.72、0.55、0.70和0.72,这些数据显著优于传统手工评分的表现。
- **跨实验室验证**:AIM-MASH在三个外部实验室(不同的操作员和不同的Leica Aperio AT2扫描仪)中进行的跨实验室验证结果表明,其评分在所有MASH评分组件中均高于专业病理学家的评分一致性。具体来说,AIM-MASH对于脂肪变性、肝小叶炎症、肝细胞气球样变和纤维化的评分一致性分别为0.72、0.60、0.63和0.51,而专家病理学家之间的评分一致性则为0.63、0.55、0.70和0.72。
#### 临床验证与疗效评估
- **临床验证**:在多项临床验证研究中,AIM-MASH的表现进一步证明了其在药物评估中的可靠性。例如,在对semaglutide、pegbelfermin和resmetirom等药物的临床研究中,AIM-MASH成功显示出比手工评分更加一致的结果,尤其是在评估治疗效果方面。在一项2b期针对pegbelfermin的临床研究中,AIM-MASH揭示了治疗组和安慰剂组之间的统计学差异,而传统的病理学评分未能显示出显著差异。类似的,AIM-MASH在评估resmetirom的临床试验中也展示了更高的准确性和一致性。
- **应用前景**:AIM-MASH在临床试验中的应用前景广阔。该算法不仅能够提高NAFLD临床试验中的病理评分一致性和标准化,还能帮助研究人员更好地评估药物的疗效,推动肝脏疾病的早期诊断和个体化治疗。
#### 结论
AIM-MASH作为一款AI辅助病理评分工具,已经在多个临床试验中展示了其优异的性能。它能够在保证准确性和一致性的基础上,帮助病理学家在肝脏疾病的诊断和评估中提供高效且标准化的评分。通过与人工评分的对比,AIM-MASH在临床验证中表现出色,为药物研发和临床试验的顺利进行提供了可靠支持。未来,随着技术的不断优化,AIM-MASH有望成为肝脏疾病临床试验和诊疗中的重要工具,推动肝病研究和精准医疗的发展。