逻辑回归 (logistic regression)

1.1研究背景

在医学上,癌(cancer)是指起源于上皮组织的恶性肿瘤,是恶性肿瘤中最常见的一类。相对应的,起源于间叶组织的恶性肿瘤统称为肉瘤。有少数恶性肿瘤不按上述原则命名,如肾母细胞瘤、恶性畸胎瘤等。一般人们所说的“癌症”习惯上泛指所有恶性肿瘤。癌症具有细胞分化和增殖异常、生长失去控制、浸润性和转移性等生物学特征,其发生是一个多因子、多步骤的复杂过程,分为致癌、促癌、演进三个过程,与吸烟、感染、职业暴露、环境污染、不合理膳食、遗传因素密切相关。2020年全球新发癌症病例1929万例,其中中国新发癌症457万人,占全球23.7%。 2022年9月,美国科学家进行的一项研究显示,早发型癌症的发病率,从1990年开始在世界范围内急剧上升。

乳腺癌是乳腺上皮细胞在多种致癌因子的作用下,发生增殖失控的现象。疾病早期常表现为乳房肿块、乳头溢液、腋窝淋巴结肿大等症状,晚期可因癌细胞发生远处转移,出现多器官病变,直接威胁患者的生命。乳腺癌常被称为“粉红杀手”,其发病率位居女性恶性肿瘤的首位,男性乳腺癌较为少见。随着医疗水平的提高,乳腺癌已成为疗效最佳的实体肿瘤之一。 宫颈癌和乳腺癌并称女性两大“隐性杀手”。

据2018年国际癌症研究机构(IARC)调查的最新数据显示,乳腺癌在全球女性癌症中的发病率为24.2%,位居女性癌症的首位,其中52.9%发生在发展中国家。在我国,乳腺癌的发病率呈逐年上升趋势,每年有30余万女性被诊断出乳腺癌。在东部沿海地区及经济发达的大城市,乳腺癌发病率上升尤其明显。从发病年龄来看,我国乳腺癌发病率从20岁以后开始逐渐上升,45~50岁达到高值。随着新的治疗策略和方法的普及,全球乳腺癌的死亡率逐步下降。然而,在中国特别是在广大的农村地区,乳腺癌的死亡率下降趋势并不显著。

1.2传统Breast cancer检测技术

2020年全球最新癌症负担数据显示,全球乳腺癌新发病例高达226万例,已取代肺癌成为全球最常见的恶性肿瘤,死亡人数亦居全球女性恶性肿瘤死亡人数首位。目前,早期乳腺癌的诊治决策已较规范,但也存在部分低风险患者治疗过度以及高风险患者治疗不足现象,而且晚期乳腺癌患者的治疗现状整体仍不乐观。乳腺癌是一种分子水平异质性很高的恶性肿瘤,病理分型结合分子标志物是常规的诊断方式。分子分型可助力乳腺癌的分类分层精准治疗,目前基因变异检测(如BRCA和PIK3CA基因突变等)已成为乳腺癌靶向治疗的伴随诊断。未来随着二代测序技术(next generation sequencing,NGS)的普及和检测费用的降低,个体化治疗方案将有望成为现实。为了进一步完善基于标志物指导的乳腺癌精准治疗规范。在传统的乳腺癌的预测与治疗中Ki67免疫组化法是目前乳腺癌检测细胞增殖最常用的方法,主要用于预测患者预后、化疗或内分泌治疗疗效,以及作为新辅助治疗(尤其是新辅助内分泌治疗)前、中、后的疗效监测动态指标。目前乳腺癌的诊断方法主要有X射线诊断、CT扫描、临床触诊、超声波显像检查、核磁共振成像术、近红外线扫描、钼靶和细针穿刺细胞病理学检查等。乳房X光是一种测试方法,但也存在缺点,经常会导致假阳性结果,导致不必要的活检和手术,在乳房X光片上看到具有可疑的异常细胞时,需要通过手术去除异常细胞,然而大部分肿瘤在手术中被发现是良性的,这意味着每年都有数千名妇女无端承受手术痛苦、昂贵费用和术后疤痕等。传统的诊断方法可能会由于低劣的图像质量以及临床医生的视觉疲劳或疏忽等导致漏诊或误诊。

1.3 逻辑回归(logistic regression)癌症预测引入

随着科学技术的不断发展,现在可以借助计算机技术辅助诊断帮助医生和乳腺癌患者。医学专家在癌症预测引入了机器学习,通过计算机程序对数据的分析来帮助人们预测癌症。本论文采用逻辑回归预测人类乳腺癌的良性与恶性,Logistic回归(logistic regression)属于概率型非线性回归,是分析反应变量为独立分类资料的常用统计分析方法,由于对资料的正态性和方差齐性不做要求、对自变量类型也不做要求等,使得近年来Logistic回归模型在医学研究各个领域被广泛用,如流行病学、病因学的队列研究、病例对照研究,临床诊断的判别模型,治疗效果评价,各类癌症预测等。Logistic回归模型是一种概率模型,它是以疾病,死亡等结果发生的概率为因变量,影响疾病发生的因素为自变量建立回归模型。它特别适用于因变量为二项,多项分类的资料。在临床医学中多用于鉴别诊断,评价治疗措施的好坏及分析与疾病愈后有关的因素等。癌症亦称为恶性肿瘤,癌症的发生对人类健康产生了巨大的威胁。logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。

逻辑回归是一种与线性回归非常类似的算法,但是,从本质上讲,线型回归处理的问题类型与逻辑回归不一致。线性回归处理的是数值问题,也就是最后预测出的结果是数字,。而逻辑回归属于分类算法,也就是说,逻辑回归预测结果是离散的分类,例如判断这封邮件是否是垃圾邮件,以及用户是否会点击此广告等等。所以逻辑回归是一种经典的二分类算法。

本论文通过引入逻辑回归算法来对南斯拉夫卢布尔雅那大学医疗中心肿瘤研究所的威斯康辛乳腺癌数据集(由M.Zwitter 与M. Soklic 二者提供,该数据集在UCI数据库中找到)近700条数据的一系列处理,从数据的处理、目标值的预测再到模型的建立与评估,来实现机器学习的逻辑回归算法在人类癌症预测的相关问题研究。

你可能感兴趣的:(算法)