特征工程阅读笔记(第二章)

特征工程–思维导图

  • 数据的结构化
  • 数据的定性和定量
  • 数据等级
  • 数据可视化和探索分析
  • 描述性统计

数据的结构化

mysql的数据存储特征

id name age
01 小李 22
02 小姚 18
03 小张 24
  • 类似于这种存储结构的数据称为结构化数据,按照本书的定义,行是观察值,列是属性。

mongodb的数据存储特征

{
     ObjectId: "5349b4ddd2781d08c09890f3", name: "小李", "age": 22},
{
     ObjectId: "5349b4ddd2781d08c09890f4", name: "小姚", "age": 18},
{
     ObjectId: "5349b4ddd2781d08c09890f5", name: "小张", "age": 24}
  • 类似于这种存储结构的数据称为半结构化数据,通常有json格式和xml格式

非结构化数据

日志文件、图片、声音文件等数据是非结构化数据

数据的定量和定性

  • pandas的常用方法
    • .info() 用来查看数据有多少行,是否有缺失值,以及每列的类型
    • .isnull() 用来查看每列是否有缺失值
    • .describe()用来做描述性统计(观察值总数、样本均值、最小值、标准差、最大值等)
    • .map()将map()中的函数映射到整个数据集

数据等级

  1. 定类等级(分类)
  2. 定序等级(分类后的排序)
  3. 定距等级(排序后看差距多少)
  4. 定比等级(进化程度)

你可能感兴趣的:(特征工程,机器学习,json,数据分析)