数据挖掘:理论与算法(2019秋第二章)

第一节

  1. outlier:离群点;Anomaly:异常点
  2. Real data are notoriously dirty!
    Incomplete:Occupancy = “ ”
    Noisy:Salary = “-100”
    Inconsistent:Age = “42” vs. Birthday = “01/09/1985”
    Redundant:Too much data or too many features for analytical analysis
    Others:Data types;Imbalanced datasets
  3. Missing data
    Possible Reasons:
    Equipment malfunction
    Data not provided
    Not Applicable (N/A)(不适用的,比如问学生的工资)
    Different Types:
    Missing completely at random
    Missing conditionally at random
    Not missing at random

第二节

  1. 一个点是不是离群点要看其他点之间的距离,相对的概念
  2. Duplicate (复制)Data:滑动窗口,前提:和我相似的数据要挨着。
  3. 洋人的性很有区分性,生成key

第三节

  1. Attribute Types:
    Continuous:Real values: Temperature, Height, Weight …
    Discrete:Integer values: Number of people …
    Ordinal:Rankings: {Average, Good, Best}, {Low, Medium, High} …
    Nominal:Symbols: {Teacher, Worker, Salesman}, {Red, Green, Blue} …
    String:Text: “Tsinghua University”, “No. 123, Pingan Avenue” …
  2. 信息的编码的问题十分重要,可能存在所谓的距离问题。
  3. 大数据采样和统计学采样的目的不一样:
    大数据分析中的采样并不是为了降低获取数据的成本,而是为了减少需要处理的数据量、有助于处理不平衡数据、提高数据的稳定性
  4. 整体的准确率不适合不平衡数据集,要注意少数类样本的准确率,G-mean、F-measure(准确率和召回率)
  5. over-sampling:Boundary Sampling:边缘点很重要

第四节

  1. 数据挖掘:理论与算法(2019秋第二章)_第1张图片
  2. 工资的统计应该用中位数而不是平均数,Mode:众数
  3. Pearson’s product moment correlation coefficient=0只代表线性不相关,大于0正相关,小于0负相关
  4. Box Plot展示高维数据的分布,Parallel Coordinates 宏观上看到高维数据,一条线表示一条数据。
  5. Citespace用来做文献分析,Gephi展示元素之间的关系的可视化软件

第五节 特征选择

  1. Feature Selection:选择区分度更高的属性
  2. Entropy:熵来表示信息量,看看在加入一个属性之后的信息增益
  3. 分枝定界:Branch and Bound,假设单调性,不用全部遍历
  4. 用来做属性选择的方法:
    Optimization Algorithms
    Simulated Annealing
    Tabu Search
    Genetic Algorithms
  5. Top K Individual Features 把最好的属性合在一起不一定最好,因为属性之间可能存在相关性。
    Sequential Forward Selection 3个3个最好,找4个4个最好
    Sequential Backward Selection 慢慢往少了删除

第六节 特征提取

  1. 沿着某一个属性variance越大,信息量越大
  2. PCA在做矩阵是旋转,换到新的坐标轴中,消除correlation
  3. PCA中用到了拉格朗日乘数法:
  4. PCA的matlab实现:
    数据挖掘:理论与算法(2019秋第二章)_第2张图片
  5. 假设样本数大于维数,利用PCA可以将N维数据降到1-N-1维

第七节

  1. PCA是非监督学习,没有考虑lable,用LDA:线性判别分析。考虑类的区分信息。
  2. 数据挖掘:理论与算法(2019秋第二章)_第3张图片数据挖掘:理论与算法(2019秋第二章)_第4张图片
  3. 数据挖掘:理论与算法(2019秋第二章)_第5张图片
  4. LDA produces at most C-1 projections
    SB is a matrix with rank C-1 or less.
    SW may be singular.
    LDA does not work well when u1-u2=0,再怎么投影都分不开
  5. 当样本个数小于数据维度时,类内散布矩阵不满秩,此时LDA不能正常工作
  6. Reading Material:
    M. A. Hernandez and S. J. Stolfo, “Real-World Data is Dirty: Data Cleansing and The Merge/Purge Problem,” Data Mining and Knowledge Discovery, vol. 2, pp. 9–37, 1998.
    A. Donders, G. van der Heijden, T. Stijnen, and K. Moons, “Review: A Gentle Introduction to Imputation of Missing Values,” Journal of Clinical Epidemiology, vol. 59, pp. 1087-1091, 2006.
    N. V. Chawla, K. W. Bowyer, L. O. Hall and W. P. Kegelmeyer, “SMOTE: Synthetic Minority Over-Sampling Technique,” Journal of Artificial Intelligence Research, vol. 16, pp. 321–357, 2002.
    N. Japkowicz and S. Stephen, “The Class Imbalance Problem: A Systematic Study,” Intelligent Data Analysis, vol. 6, pp. 429–449, 2002.
    D. Keim, “Information Visualization and Visual Data Mining,” IEEE Transactions on Visualization and Computer Graphics, vol. 8, pp. 1-8, 2002.
    PCA Tutorials
    http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
    http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf
    Lagrange Multipliers
    http://diglib.stanford.edu:8091/~klein/lagrange-multipliers.pdf

课程资料来自清华大学袁博老师学堂在线,非常有用的一门课,欢迎大家一起学习:

数据挖掘:理论与算法课程地址

你可能感兴趣的:(数据挖掘)