糖尿病数据独家震撼挖掘-基于上百万临床实验数

大家好,我是Toby老师,曾担任国内最大医药数据中心数据挖掘负责人。10年以上数据科学经验,和中科院,重科院,重庆中药研究所,重庆儿科医院教授有长期项目合作。我们的宗旨是用人工智能,数据科学挖掘疾病致病因子,提供疾病家庭预防和干预措施降低疾病患病率。人工智能让生活更美好!

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第1张图片

今天Toby老师通过对上百万大样本临床患者数据挖掘,发现糖尿病致病因子。为家庭疾病预防做出贡献。这次数据挖掘整合了多个糖尿病数据库,在国内也属于罕见,Toby老师提供了非常震撼的数据挖掘结果,大家可以点击收藏此文和分享给其他朋友,让更多朋友受益。


糖尿病概述

糖尿病有一型和二型,是由于胰腺分泌胰岛素紊乱或人体无法有效利用其产生的胰岛素而发生的一种慢性疾病,是21世纪人类面临的健康问题之一.糖尿病伴有弥漫性并发症,其包括心血管病变、肾脏疾病、高血压、中风等、眼部疾病、下肢截肢上百种,由此增加了过早死亡的风险.因此,糖尿病防治形势十分严峻.

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第2张图片

2019年估算中国糖尿病患病率排名世界第二 

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第3张图片

中国糖尿病患者数量为1.2亿,位居世界第一。中国是糖尿病最大药物研发市场。越来越多年轻人属于糖尿病后备军,未来也将加入糖尿病市场,成为药企摇钱树。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第4张图片

下图为中国糖尿病患病率历史数据

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第5张图片

糖尿病给经济带来巨大负担
糖尿病也给经济带来了巨大的负担,每年诊断出的糖尿病成本约为 3270 亿美元,而未确诊的糖尿病和前驱糖尿病的总成本接近 4000 亿美元。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第6张图片

糖尿病可预防

虽然糖尿病无法治愈,但减肥、健康饮食、积极运动和接受药物治疗等策略可以减轻这种疾病对许多患者的危害。早期诊断可以改变生活方式和更有效的治疗,使糖尿病风险预测模型成为公共和公共卫生官员的重要工具。

糖尿病致病因子多样化
虽然有不同类型的糖尿病,但 II 型糖尿病是最常见的形式,其患病率因年龄、教育程度、收入、地点、种族和其他健康的社会决定因素而异。这种疾病的大部分负担也落在社会经济地位较低的人身上。
本实验就是通过建立人工智能机器学习模型,预测糖尿病概率和挖掘糖尿病重要致病因子。

模型价值和意义

通过我们建立的人工智能机器学习预测模型,可实现以下一些研究问题:
1.模型能准确预测个人是否患有糖尿病。
2.模型能挖掘哪些风险因素最能预测糖尿病风险。
3.我们能使用风险因素的一个子集来准确预测一个人是否患有糖尿病。
4.我们可以使用筛选几个重要糖尿病致病特征,然后组合创建为一个简短的问题,以准确预测某人是否可能患有糖尿病或是否有糖尿病的高风险。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第7张图片

糖尿病建模数据集介绍

此次临床试验数据总人数1045238,其中糖尿病患者124989人,占比12%,和真实糖尿病患病率几乎一致。 

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第8张图片

此次上百万患者临床试验中重点检测变量如下:

年龄
高血压
肥胖
新冠病毒感染情况
插管的
肺炎
肾慢性
重症监护室
怀孕
是否免疫抑制
医疗单位等级
吸烟
慢性阻塞性肺病
其他疾病
心血管疾病
性别
哮喘

Toby老师模型采用新一代对称树算法,有效降低过度拟合,提高模型预测速度和预测能力。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第9张图片

模型AUC为0.86,预测区分性能非常优秀。大家可以看到下图ROC曲线非常光滑。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第10张图片

我们建模后发现年龄,高血压,肥胖是糖尿病前三重要相关因子。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第11张图片

Toby老师用informative value方法来评估变量重要性,发现年龄
高血压
插管的
重症监护室
肺炎
慢性肾炎
肥胖
新冠感染情况
心血管疾病
提供护理的国家卫生系统的机构类型
慢性阻塞性肺病

这些变量都属于糖尿病相关的有效因子,其中最重要因子还是年龄和高血压。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第12张图片

在其他糖尿病数据集里,由于数据样本量有限,往往得到性别是糖尿病重要因子。通过百万患者临床实验,Toby老师再次验证了性别变量不属于糖尿病的显著因子。大家不要有太多性别担忧。

Toby老师把年龄分类0-33岁,34-40岁,41-49岁,50-54岁,54-58岁,59岁+,这6个阶段。Toby老师观察到随着年龄阶段上升,糖尿病概率随之上升,非常显著。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第13张图片

虽然我们不能控制年龄变量,但适当锻炼,合理饮食,可以让身体更年期,延缓衰老。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第14张图片

在12万糖尿病患者中,53%患者有高血压(66006人)。这个结论让Toby老师也非常吃惊。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第15张图片

16万高血压患者中有41%同时患有糖尿。这双向统计按时了我们高血压和糖尿病的紧密联系。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第16张图片

通过数据分析,Toby老师发现并非所有糖尿病患者都有肥胖,但糖尿病患者中有27%的人有肥胖。因此肥胖是糖尿病患者的一个显著特征,也需要我们引起重视,严格控制BMI指数。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第17张图片

16万肥胖人群中有21%人同时患有糖尿病。这双向统计按时了我们肥胖和糖尿病的紧密联系。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第18张图片

如何处理肥胖问题,Toby老师建议少吃,多运动。平时用餐不要太饱,八分饱即可。自助餐最好避免。少吃零食,奶茶,甜食。多在家里做饭吃,少去餐馆吃,少点外卖。一周运动5次,每次30分钟。

Toby老师统计发现12万糖尿病患者中有33%肺炎患者。看来糖尿病患者容易感染肺炎。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第19张图片

14万肺炎患者中,30%同时患有糖尿病。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第20张图片

肺炎是一种常见但通常很严重的呼吸道感染。据美国胸科学会称,仅在美国,每年就有约10o万成年人因肺炎住院,约有5万成年人死于该病。
糖尿病是一种慢性疾病,需要控制一系列症状。它还会削弱您的免疫系统,使您更容易患上肺炎等严重感染。
糖尿病引起的高血糖还会使您的身体在患上肺炎后更难抵抗。这可能导致更严重的肺炎病例和并发症增加,包括器官损伤、呼吸衰竭,甚至死亡。
这疾病控制与预防中心(CDC)“建议所有2岁以上患有糖尿病的人都接种肺炎疫苗以降低这种风险。

为什么糖尿病会增加患肺炎的风险?
患有糖尿病等慢性疾病的成年人风险增加“发展为肺炎。这是因为糖尿病会削弱您的免疫系统。当您患有糖尿病时,高血糖会使您的白细胞难以抵抗感染。
糖尿病还会损害您的血液循环和神经,从而对免疫系统产生负面影响。这会使您面临更高的感染风险,包括肺炎。它还会使您的身体在出现感染时更难抵抗感染。
糖尿病还会增加患更严重肺炎的风险
除了患肺炎的风险增加外,糖尿病患者患严重甚至致命的肺炎的风险也增加。疾病预防控制中心报告说,糖尿病患者可能性增加3倍“死于流感或肺炎。

Toby老师统计中发现在12万糖尿病患者中,8%患者有慢性肾炎(9816人)。因此糖尿病肾病是我们需要下一步关注疾病。Toby老师也有专门糖尿病肾病数据集,预测模型性能还不错!

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第21张图片

通过基于上百万临床实验数据的糖尿病数据挖掘,Toby老师发现年龄,高血压,肥胖是糖尿病前三重要相关因子。糖尿病肺炎和肾炎也要值得我们警惕和预防。

为什么糖尿病这么可怕?它就像一个潘多拉魔盒,一旦打开后可能释放更多妖魔。我们想象一下,如果糖尿病患者发送继发性肺炎,肾炎,视网膜病变,呼吸系统,排毒系统,视觉系统都会出现问题。那么糖尿病患者后期很可能丧失工作能力,在家修养,生活质量越来越差。

Toby老师把之前多个糖尿病数据挖掘结果做一下关联。在血常规检测中,如果发现血糖,甘油三酯,r-谷氨酰基转换酶,红细胞体积分布宽度等指标异常,也要警惕糖尿病风险。

血糖升高

血糖正常值是指人空腹的时候血糖值在3.9~6.1毫摩尔/升,血糖值对于治疗疾病和观察疾病都有着指导意义。空腹血浆血糖超过7.0毫摩尔/升有可能是糖尿病。因此血糖指标是糖尿病最直接定义指标。对糖尿病患者或BMI指数较高人群,血糖定期检测非常重要。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第22张图片

甘油三酯升高,暗示糖尿病风险升高。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第23张图片

血清甘油三酯的正常参考值:0.45~1.69mmol/L。依据2007年《中国成人血脂异常防治指南》地划分标准,空腹 (禁食12小时)甘油三酯在1.70mmol/L以下为适当水平;1.70-2.25mmol/L为边缘升高;≥2.26mmol/L为升高。

甘油三酯超量坏处
当我们的饮食过好、过多,吃进去的甘油三酯无法消耗完,人就会逐渐地变胖,血脂就会升高。甘油三酯升高后会有以下坏处:
一、导致胰岛素抵抗,诱发糖尿病。人体内甘油三酯积蓄过多,除了发胖之外,还会造成胰岛素不敏感,出现胰岛素抵抗,就会诱发糖尿病、冠心病、脑梗塞等。
二、诱发急性胰腺炎。如果体内的甘油三酯超过了5.6mmol/L时,非常容易诱发急性胰腺炎。

r-谷氨酰转移酶升高,暗示糖尿病风险升高。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第24张图片

r-谷氨酰转移酶主要临床参考意义在肝脏。随着建模和数据挖掘,我们发现r-谷氨酰转移酶和血糖值也有一定联系。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第25张图片

在参考论文:r-谷氨酰转移酶VS 糖尿病,观察性研究中,高水平的血清 γ-谷氨酰转移酶 (GGT) 与前驱糖尿病和 2 型糖尿病的风险增加有关。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第26张图片

在美国NCBI发表文章显示:测量 2 型糖尿病患者 FDR 中的 GGT 可能有助于评估糖尿病风险;长期高 GGT 的人应被视为糖尿病的高危人群。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第27张图片

BMI指数

BMI越大,糖尿病风险越大;BMI越小,糖尿病风险越小。左边有少量红色点,每个变量有少数例外,但大趋势不变。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第28张图片

身体质量指数,是BMI(Body Mass Index)指数,简称体质指数,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准。计算公式为:BMI=体重÷身高**2。(体重单位:千克;身高单位:米。)

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第29张图片

Toby老师提醒一下,BMI指数不仅和糖尿病关系紧密,还和其他诸多慢病关系紧密。过高BMI指数也像一个潘多拉魔盒,会释放诸多疾病。

网上有很多BMI自动计算器,大家可以去看看自己BMI指数是否正常。

例如http://bmi.wjccx.com/

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第30张图片

欢迎项目合作

如果您们对糖尿病模型项目感兴趣,欢迎各大医疗机构,科研机构,生物医药企业留言联系。

糖尿病数据独家震撼挖掘-基于上百万临床实验数_第31张图片

版权声明:文章来自公众号(python生物信息学),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

你可能感兴趣的:(python机器学习生物信息学,数据挖掘,人工智能,糖尿病,糖尿病预测模型,机器学习)