各企事业单位:
R是一套完整的数据处理、计算和制图软件系统,R是一种数学计算的环境,它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。在R网站上提供了统计及各个有关应用领域几乎所有最新的成果和代码公开的软件包。截至2016年3月,CRAN库中的R包已经超过8000个。为提升相关科技工作者的技术水平,雪晴数据网(www.xueqing.tv)特举办“R数据分析与数据挖掘核心技术与应用”研讨会。特邀贵单位有关人员参加会议研讨。
【研讨目标】本次研讨会采取深入浅出的方法,先以简单的案例引入R数据分析的基本原理,随后重点讲解多种常用单元的功能和特性,以及有R数据分析与数据的实用技术和处理方法,紧密结合应用实例,针对工作中存在的疑难问题进行分析讲解和专题讨论,有效提升参会者解决复杂问题的能力。会议具体内容详见附件。
【会议对象】各省市、自治区从事金融、医疗、保险、生态、卫生、计量、统计、银行、通信、环境、基金、等金融衍生品行业与数据分析统计相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生、硕士、博士等相关人员,以及广大R爱好者。 【时间地点】
时间:2016年4月15日报到,4月16日——4月17日上课
地点:北京市海淀区大钟寺13号院华杰大厦B座&C座负一层,清创孵化器
【会议费用】
2016年4月5日之前报名的享受优惠价:1999元/人
4月6日~16日报名的,注册费2199元/人
以上费用包含培训费、教材费、午餐费,住宿费等其他费用自理。(注:自行携带电脑笔记本)
主办方:绘辰科技(北京)有限公司
附件1:
“R数据分析与数据挖掘案例实战”研讨会事宜
一、研讨会形式
本次讨论会采取“线上+线下”的方式,4月15日之前,会有五次在线课程,免费向公众开放,我们会在课上介绍R语言的基础知识。收费学员可以获得直播课程的视频,并参加4月16~17的线下讨论会,线下讨论会之后,我们还会组织线上答疑以及北京、上海、深圳、广州四城市的线下答疑活动。具体安排请见附件3。
二、主讲老师
陈堰平,曾担任新华社国家金融信息中心指数研究院研发部负责人,现为雪晴数据网(www.xueqing.tv)创始人,主要从事统计咨询、数据挖掘、开发基于R语言的数据分析工具,曾给惠普中国研发中心、花旗银行、东方航空、中国电信做过培训和咨询。现在同时也是统计之都管理团队成员,中国R语言会议理事会成员,曾获CQF国际数量金融认证,译作有《R语言编程艺术》《实用数据分析》,目前还参加其他几本R语言图书的编写和翻译。
谈和,中国传媒大学,传播研究方法硕士研究生,主要学习数据挖掘和传播研究。目前的研究兴趣在交互式数据可视化和社会媒体研究中的自然语言处理。同时,谈和一直关注于媒介和市场研究交叉领域的发展,之前有在华通明略(MillwardBrown)、央视索福瑞(CSM)以及聚胜万合(MediaV)实习的经历,主要的工作是将一些新型的研究技术,如眼动仪(Eyes Tracking)和面部表情分析(Facial Expression Recognition)等应用于客户研究。同时,谈和还是中国传媒大学数据可视化兴趣小组的组织者和授课者之一,负责教授信息图设计制作和可视化编程的技能。
杨虎,中央财经大学信息学院讲师,毕业于中国人民大学统计学院,获统计学博士学位,曾在丹麦奥胡斯大学公共卫生学院访问研究,主要研究领域:商务数据统计建模、指标体系构建、高维统计模型、生物统计。
三、联系方式
联系人: 赵龙
手 机: 185-1174-5982
E_mail: [email protected]
“R数据分析与数据挖掘核心技术与应用”研讨会内容
一、线上基础课程
1. R语言的介绍及基础语法:如何学习R,R的数据结构,控制语句等
2. 读写数据:从文件、网络、数据库等数据源读取数据,保存数据到文件、数据库
3. 数据整理入门:数据的变换、重塑、拆分合并以及汇总
4. 数据可视化:基础绘图系统、lattice、ggplot2等介绍
5. 基础数据分析:描述统计、线性回归
二、现场主题讨论
第一天 |
零售行业销售分析 |
针对一份跨国大型超市的订单数据,从产品、客户、地区等维度来分析销售额和利润,也可以时间的维度纵向分析销售趋势。 涉及的知识点: · dplyr包:数据整理、筛选、汇总 · ggplot2:数据可视化 · 探索性数据分析:交叉表 · 预测性分析:利用指数平滑等方法预测销售量 · knitr:自动化报表 · REmap:将数据显示在地图上 |
航空公司客户价值分析 |
本案例借助航空公司客户数据,采用数据挖掘技术,对客户进行分群,分析比较不同客户群的客户价值,对不同客户群提供个性化的客户服务,制定相应的营销策略。预测潜在的流逝客户,保留住老客户,提高航班上座率。 涉及的知识点: · Kmeans聚类 · RFM模型 · 主成分分析 · Logistic模型 |
|
前列腺癌肿瘤尺寸的预测 |
LASSO算法是机器学习领域最常用的算法之一。建模过程需要寻找对因变量最具有强解释力的自变量集合,也就是通过自变量选择(指标选择、字段选择)来提高模型的解释性和预测精度。指标选择在统计建模过程中是极其重要的问题。LASSO算法则是一种能够实现指标集合精简的估计方法。 本案例针对一份前列腺癌患者的数据,来建立预测肿瘤尺寸的模型,通过这个案例,我们可以学到使用LASSO算法进行变量选择和模型预测。 |
|
第二天 |
在线广播的推荐 |
本案例针对某在线广播网站的用户行为数据做分析,使用关联规则(有的地方也叫购物篮分析)的方法,可以构建一个音乐推荐系统,向用户推荐可能感兴趣的歌曲。 这种方法同样可以用在零售行业的商品推荐以及其他行业。 |
流式数据分析
主讲:谈和 |
要让数据分析要变得敏捷,则需要对分析组件进行模块化。KNIME不仅让您能够进行很多复杂的数据分析,而且能根据所需将分析模块组合成工作流(work flow)。更重要的是,KNIME可以将R语言、python语言整合其中,让您的代码“即插即用”。 在这次专题中,我们将带着您用KNIME拼出一条社会化媒体聆听(Social Media Listening):从抓取数据,到文本分词,到最终输出报告的一条完整的工作流。让您今后可以实现一键分析生成报告 |
|
产业经济中的指标预测分析—以水泥产业为例
主讲:杨虎 |
本案例以建筑材料行业的水泥宏观数据为例,介绍水泥短期、中期、长期产能的预测,内容如下: · 介绍行业背景、预测目标及数据特点; · 以水泥的产能为例,利用平稳时间序列模型、非平稳时间序列模型预测水泥的短期、中期产能; · 结合经济发展、房地产、基础设施建设等指标,预测水泥的长期产能; · 介绍数据分析和统计建模的基本过程。 涉及知识点: · 时间序列分析:移动平均、指数平滑、季节模型、ARIMA模型等 · 数据挖掘方法:回归、支持向量机等 |
详情链接:http://www.xueqing.tv/r-training/