python机器学习-乳腺癌细胞挖掘:http://dwz.date/bweyup主录制
前言
警钟长鸣!癌症离我们远吗?《我不是药神》催人泪下,笔者在此揭露真相,癌症不是小概率疾病,癌症就在身边。癌症早期发现和控制可极大延长寿命和减少治疗费用。笔者下载美国威斯康辛临床数据,运用python sklearn建立乳腺癌分类器模型,可预测正常细胞和癌细胞。
乳腺癌
乳腺癌是威胁我国女性健康最主要的恶性肿瘤之一,根据世界卫生组织国际癌症研究机构全球184个国家和地区的癌症报告,中国女性乳腺癌的发病率和死亡率在全球中处于较低水平,但是发病人数占全球的11.19%,仅次于美国,且近20年来发病率与死亡率增长迅速,防控形势严峻。
乳腺癌位居女性恶性肿瘤发病首位
根据国家癌症中心公布的数据,2014年全国女性乳腺癌新发病例约27.89万例,占女性恶性肿瘤发病16.51%,位居女性恶性肿瘤发病第1位。
其中,城市地区女性乳腺癌新发病例约18.46万,农村地区女性乳腺癌新发病例约9.43万。
中国是乳腺癌发病率增长速度最快的国家之一,并且以每年2%的速度递增,癌症负担在不断增加。在全球范围内,中国占据新诊断乳腺癌病例的12.2%,占据乳腺癌死亡的9.6%。
55岁是女性乳腺癌发病高峰
中国女性乳腺癌发病率在20岁之前处于较低的水平,此后发病率随年龄增长迅速上升,并于55岁年龄组达到高峰,而后随年龄增长下降。
城乡地区年龄别发病率曲线与全国女性乳腺癌发病情况类似,但城市地区女性乳腺癌发病水平高于农村,城市地区发病率最高出现在60岁年龄组。30~60岁年龄组城市地区女性乳腺癌发病率约为农村地区的1.5倍,65岁年龄组后达2倍以上。
一方面这可能与城市居民生活条件较好,脂肪等摄入过多,肥胖增加以及人口老龄化程度高有关;另一方面由于城市女性受教育程度较高,初产年龄较晚,未产、母乳喂养的时间减少等导致乳腺癌发病的风险更高。
女性乳腺癌死亡率随年龄增长逐渐升高2014年中国女性前10位恶性肿瘤死亡构成
同时,中国女性乳腺癌25岁后死亡率随年龄增长迅速上升,并于60岁年龄组达到高峰后略有下降,70岁年龄组后再次上升,并于85岁以上年龄组达到死亡高峰。城乡地区年龄别死亡率变化趋势与全国相似。
课程概述
Toby,持牌照金融公司担任模型验证专家,国内最大医药数据中心数据挖掘部门负责人!此课程讲述如何运用python的sklearn快速建立机器学习模型。课程结合美国威斯康辛乳腺癌细胞临床数据,实操演练,建立癌细胞预测分类器。
本视频系列通俗易懂,课程针对学生和科研机构,python爱好者。
本视频教程系列有完整python代码,观众看后可以下载实际操作。
了解癌症肿瘤基本常识,建立健康生活方式,预防癌症,减轻癌症治疗成本。
课程中十大经典机器学习算法震撼登场:逻辑回归,支持向量,KNN,神经网络,随机森林,xgboost,lightGBM,catboost。课程提供视频里讲解脚本,这些模型脚本可以应用于各个领域数据,包括金融反欺诈模型,信用评分模型,收入预测模型等等,为中小企业提供现成解决方案。
随机森林变量权重可视化
课程耗费三年时间,360度无死角的讲述整个模型开发周期,非市场上快餐教学。教程包括数据获取,数据预处理,变量筛选,模型筛选,模型评估,模型调参。
本视频系列通俗易懂,课程针对学生和科研机构,python爱好者。本视频教程系列有完整python代码,观众看后可以下载实际操作。这些模型代码可为中小型企业提供解决方案。
Anaconda+KNN+网格调参+交叉验证
目录
章节1:癌症常识
课时1警钟长鸣!癌症就在你身边11:00
课时2癌症科普介绍23:05
课时3病毒细菌诱发的癌症20:43
课时4祸从口入-致癌食物大揭秘08:37
课时5Python机器学习挖掘癌细胞概述13:11
章节2:sklearn编程环境搭建
课时6Python非官方扩展包下载地址02:21
课时7python第三方包安装(pip和conda install) 02:48
课时8Anaconda下载安装07:02
课时9Canopy下载和安装03:47
章节3:sklearn机器学习基础知识
课时10机器学习数据库介绍02:19
课时11机器学习书籍推荐02:59
课时12Python数据科学常用的包13:14
课时13如何选择模型03:57
课时14sklearn算法速查表02:29
课时15sklearn建模基础代码18:19
课时16python数据科学入门介绍(选修)55:15
章节4:获取乳腺癌临床数据
课时17数据获取-乳腺癌细胞临床数据07:06
章节5:变量筛选和描述性统计
课时18因子分析-解释癌细胞特征33:24
课时19变量筛选1-模型法11:50
课时20变量筛选2-比例法percentile07:04
课时21变量筛选3-方差法(推荐)06:36
课时22变量筛选4-KBest01:59
章节6:十大经典机器学习算法-建立乳腺癌细胞分类器
课时23逻辑回归logistic regression27:17
课时24支持向量SVM13:48
课时25KNN最近邻算法13:38
课时26决策树-decision tree21:59
课时27随机森林-random forest14:02
课时28神经网络neural network17:07
课时29xgboost12:27
课时30lightGBM03:51
课时31catboost07:08
课时32算法优劣对比10:52
课时33bagging VS boosting05:51
章节7:数据预处理
课时34pandasl数据处理基础知识15:50
课时35哑变量处理-hotcode热编码06:14
课时36imputer-缺失数据处理04:49
课时37scale-数据标准化处理12:13
章节8:模型调参
课时38遍历调参法05:15
课时39网格调参106:10
课时40网格调参204:26
课时41随机网格调参02:29
章节9:模型验证
课时42交叉验证cross validation03:45
课时43模型验证前言12:15
课时44混淆矩阵14:16
课时45ROC曲线11:57
课时46PSI(population stability index)10:20
课时47基尼系数GINI index25:16
课时48KS(kolmogorov-smirnoff)06:51
章节10:附录
课时49视频教程python脚本下载网址需购买观看
课时50显微镜下癌细胞