02机器学习基础-特征工程概念

机器学习基础-特征工程概念

  • 特征工程
    • 定义
    • 数据集
      • 可用的数据集
    • 特征值和目标值
    • 使用sklearn特征抽取
      • 安装sklearn
      • 特征抽取演示
      • 特征抽取api

特征工程

定义

将原始数据转换为特征,提高预测的准确性

数据集

可用的数据集

  • kaggle
    • 数据量大,真实,占有量大
  • UCI
    • 领域广
  • scikit-learn
    • 数据量小,方便学习

特征值和目标值

身高 体重 性别
1 176 62
2 185 74

特征值:身高、体重

样本:1、2

目标值:分析性别

  • pandas
    • dataFrame 缺失值、数据类型转换
  • sklearn
    • 提供了特征处理接口

重复值:不需要去重

使用sklearn特征抽取

安装sklearn

# !pip install -U scikit-learn -i  https://pypi.doubanio.com/simple/  --trusted-host pypi.doubanio.com



特征抽取演示

# 导入包
from sklearn.feature_extraction.text import CountVectorizer

# # 实例化CountVectorizer
vector = CountVectorizer()

# # 调用fit_transform输入并转换数据
res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])

print(vector.get_feature_names())
print(res.toarray())

在这里插入图片描述

特征抽取api

from sklearn.feature_extraction import DictVectorizer
onehot = DictVectorizer() # 如果结果不用toarray,请开启sparse=False
instances = [{'city': '北京','temperature':100},{'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
X = onehot.fit_transform(instances).toarray()
print(X)
print('*'*30)

# print(onehot.inverse_transform(X))
X = onehot.fit_transform(instances)
print(X)

02机器学习基础-特征工程概念_第1张图片

你可能感兴趣的:(机器学习,python,sklearn)