大数据+生物

导师研究领域

讲授课程

生物工程系本科生课程

分子生物学 48学时 专业主干课程

细胞生物学 56学时 专业主干课程

生物工程系研究生课程

高等分子细胞生物学 32学时 必修课

MOOCs课程教学改革

主持西安西安交通大学研究专项《分子生物学——原理与技术》MOOC课程建设,并已在清华大学学堂在线投入运营。

研究领域

1.高肿瘤组织渗透性多功能靶向纳米载药系统的构建及其在结直肠癌治疗中的应用研究。

2.脑靶向PI3Kgamma抑制剂纳米缓释载体对缺血性脑卒中的保护作用研究。

3.常见肿瘤治疗方法及作用机理研究。

4.微生物一步法生产碱性果胶酶生物固定化纳米微球。

教育经历
2008.11-2010.11 意大利 都灵大学分子生物技术中心 博士后(合作教授:Emilio Hirsch教授)

2000.09-2005.01 中 国 清华大学生物科学与技术系 理学博士(指导教授:陈国强教授)

1995.09-2000.07 中 国 北京大学医学部 医学学士

工作经历
2005.03至今 西安交通大学生命学院生物工程系任教 历任副教授、博导、教授

2008.11-2010.11 意大利都灵大学分子生物技术中心 博士后(合作教授:Emilio Hirsch教授)

科研项目

项目编号 项目名称 项目来源 起讫时间 承担角色 项目类别
No. 81371288 脑靶向PI3Kgamma抑制剂纳米缓释载体对缺血性脑卒中的保护作用研究 国家自然科学基金项目 2014-1~ 负责人 纵向项目
No. 2013KW32-04 常见肿瘤治疗方法及作用机理研究—PI3K抑制剂纳米新剂型及其靶向抗肿瘤研究 其他 2013-1~ 负责人 横向项目
No. 81172170 高肿瘤组织渗透性多功能靶向纳米载药系统的构建及其在结直肠癌治疗中的应用研究 国家自然科学基金项目 2012-1~ 负责人 纵向项目
No. 31101266 硫酸酯壳聚糖对胰岛β细胞氧化损伤的保护作用及其机制研究 国家自然科学基金项目 2012-1~ 负责人 纵向项目
20110546 3-羟基丁酸的生物活性研究 其他 2011-1~ 负责人 横向项目
No. 08143011 硫酸酯壳聚糖对氧化应激诱导胰岛细胞损伤的抑制作用及机制 其他 2011-1~ 骨干成员 纵向项目
No. 30801059 基于PHB 生物聚酯纳米微球的MHC-II 限制性肿瘤排斥抗原筛选系统的建立及其免疫活性研究 国家自然科学基金项目 2008-1~ 负责人 纵向项目
No. 200806981053 生物可降解羟基丁酸-羟基己酸共聚酯与神经干细胞生物相容性的研究 国家教育部项目 2008-1~ 负责人 横向项目

科研团队

大数据+生物_第1张图片

生物信息与数据挖掘

接触一段时间的蛋白质组的生物信息数据处理,我认为有三个方面技能是学习生物信息必备的。

1 编程技能,包括以下几种技能。

(1)用R语言做统计与数据可视化。

(2)python做数据处理,代码更简洁一点。

(3)Linux系统,目前主要用Maxquant 软件在Linux 系统搜库。

(4)Matlab接触不多,也有人用这个软件处理质谱数据。

2 数学与算法。数据挖掘的下限是编程技能,上限是数学能力。包括以下技能:

(1)高等代数。最近在看《线性代数的几何意义》,通俗易懂。其他书籍需要慢慢啃。

(2)概率论与数理统计。

(3)深一点的理论,比如李航的《统计学习方法》和周志航《机器学习》。

(4)未完待续。。。

3 业务能力。需要一定生物背景,能综合运用前两种能力(编程和数学)建立一个完整的数据分析流程。如何提出生物问题,如何解决生物问题,需要长时间的积累。

天池精准医疗大赛

人工智能辅助糖尿病遗传风险预测、妊娠糖尿病与基因数据分析

竞赛题目
中国是世界上糖尿病患者最多的国家,病人达到1.1亿,每年有130万人死于糖尿病及其相关疾病。每年用于糖尿病的医疗费用占中国公共医疗卫生支出的比例超过13%,超过3000亿元。本次大赛旨在通过糖尿病人的临床数据和体检指标来预测人群的糖尿病程度,以血糖浓度为指标。参赛选手需要设计高精度,高效,且解释性强的算法来挑战糖尿病精准预测这一科学难题。

竞赛数据
大赛初赛数据共包含两个文件,训练文件d_train.csv和测试文件d_test.csv,每个文件第一行是字段名,之后每一行代表一个个体。文件共包含42个字段,包含数值型、字符型、日期型等众多数据类型,部分字段内容在部分人群中有缺失,其中第一列为个体ID号。训练文件的最后一列为标签列,既需要预测的目标血糖值。
大赛复赛数据共包含两个文件,训练文件g_train.csv和测试文件g_test.csv,每个文件第一行是字段名,之后每一行代表一个个体,部分字段名已经做脱敏处理。文件共包含85个字段,部分字段内容在部分人群中有缺失,其中第一列为个体ID号。训练文件的最后一列为标签列,既需要预测的是否有糖尿病的类别。

提交说明
参赛选手提交一个csv文件,文件共一列,内容为预测的血糖值。

评估指标
初赛期间,参赛选手需要提交对每个人的糖尿病血糖预测结果,以小数形式表示,保留小数点后三位。该结果将与个体实际检测到的血糖结果进行对比,以均方误差为评价指标,结果越小越好,均方误差计算公式如下:
大数据+生物_第2张图片
其中m为总人数,y’i 为选手预测的第i个人的血糖值,yi 为第i个人的实际血糖检测值。
复赛期间,参赛选手需要提交对每个人是否患妊娠糖尿病的预测结果,以整数形式表示类别,取值为0或者1。该结果将与个体实际检测到的是否患有妊娠糖尿病情况进行对比,以F1为评价指标,结果越大越好,F1计算公式如下:
大数据+生物_第3张图片
其中P为准确率,计算公式如下:
在这里插入图片描述
R为召回率,计算公式如下:
大数据+生物_第4张图片
其中正样本数定义为数值为1的样本数

复赛采用随机采样的方式抽取选手提交的结果。每次评测时,60%(共120个)的结果值将被抽取,每个选手抽到的样本序号相同。不同次评测时(例如同一天的中午和晚上,或者不同天)随机到的样本序号不一样。

决赛期间,选手要求提供特征因子的重要性排序,并提供分析思路与判断依据。该项内容将被用于评定最终名次的因素之一。

你可能感兴趣的:(生物)