数据挖掘:理论与算法(2019秋 第一章)

数据挖掘理论与算法听课笔记

  • 第一章
    • 第一节
    • 第二节
    • 第三节
    • 第四节
    • 第六节
    • 第七节
    • 第八节

第一章

第一节

  1. Data Rich,Information poor:DRIP

第二节

  1. Learning sources:数据挖掘、模式分类、Data mining,ICDM,ICDE,TKDE、Xindong Wu、周志华、Jiawei Han
  2. reinvent the wheel 重复造轮子
  3. Tell me and I forget. Teach me and I remember. Involve me and I learn(富兰克林)

第三节

  1. “Data are pieces of information that represent the qualitative or quantitative attributes of a variable or set of variables. Data are often viewed as the lowest level of abstraction from which information and knowledge are derived.”
  2. 数据挖掘:理论与算法(2019秋 第一章)_第1张图片
  3. 大数据的应用:
    Public security(预测犯罪),
    Health Care Application(Overtreatement、undertreatement,分析人的基因,根据基因不同在生相同病时给不同的药),
    Urban Planning:Location Data:mobile User,Shopper,
    Retail Data:Target Customer、Sentiment Analysis
    Sports:数据分析判断球员,点球成金
    Attractiveness Mining:非诚勿扰

第四节

  1. Open data:Technically Open、Leagally Open
  2. Where to find data:
    数据挖掘:理论与算法(2019秋 第一章)_第2张图片 数据挖掘:理论与算法(2019秋 第一章)_第3张图片
  3. Data Mining is the process of automatically extracting interesting and useful hidden patterns from usually massive, incomplete and noisy data. 数据挖掘需要Human Interventions、Domain Knowledge、Data collection and preprocessing
  4. From data to intelligence:
    数据挖掘:理论与算法(2019秋 第一章)_第4张图片
  5. ETL:Extraction、Transformation、Loading
  6. Process of Data mining

数据挖掘:理论与算法(2019秋 第一章)_第5张图片
14. Accuracy=TP+TN/All
15. Cost Sensetive Analysis:把对的分错了和把错的分对了后果是不一样的。
16. Lift Aanlysis:用了模型之后提升了多少

第六节

  1. 线性回归:参数和变量之间是线性的,可以拟合出非线性的曲线
  2. Data Preprocessing:
    Missing Attribute Values
    Different Coding/Naming Schemes
    Infeasible Values
    Inconsistent Data
    Outliers

第七节

  1. 问两个答案相反的答案的问题来获得样本的概率,
  2. 云服务器:Pay as you go,把一切转化为服务,ECS:Elastic Computer Serviece(弹性)
  3. 对于一个特定的问题找特定的算法,问题不同,算法不同,先从简单的开始

第八节

  1. 量化交易:克服人性格方面的差异,股票不可根据昨天的股价来进行预测。可以分析政策对股价的长期影响。
  2. 相关性不代表因果性:游戏销售量和犯罪率的关系
  3. 个子高大的人更容易成为领导是因为人的心理作用,不代表身高和智商情商有关系。
  4. 幸存者偏差:指的是只能看到某种经过筛选而产生的结果,而没有意识到赛选的过程,因此忽略了被筛选的关键信息。(盲人摸象)
  5. 同样的数据可以得到完全不同的结论:格力电商电器的例子

课程资料来自清华大学袁博老师学堂在线,非常有用的一门课,欢迎大家一起学习:

数据挖掘:理论与算法课程地址

你可能感兴趣的:(数据挖掘)