机器学习——数据清洗

机器学习——数据清洗

  • 模糊查询与替换
  • 混淆矩阵、TPR与FPR
    • 混淆矩阵
    • 查出率TPR与查错率FPR
  • 特征工程

模糊查询与替换

  • fuzzywuzzy.fuzz
    • 返回匹配相似度
    • fuzz.ratio
    • fuzz.partial_ratio
    • fuzz.token_sort_ratio
    • fuzz.token_set_ratio
from fuzzywuzzy import fuzz
# 简单匹配
fuzz.ratio("I love python", "I love python!")
# 输出结果
96

# 非完全匹配
fuzz.partial_ratio("I love python", "I love python!")
# 输出结果
100

# 忽略顺序匹配
fuzz.token_sort_ratio("I love python", "python I love")
# 输出结果
100

# 去重子集匹配
fuzz.token_set_ratio("I love love python python", "python I love")
# 输出结果
100
  • fuzzywuzzy.process
    • 用来返回模糊匹配的字符串和相似度。
    • process.extract
    • process.extractOne
sets = ["I love python", "I love python!", "python is my favorite"]
process.extract("I like python", sets, limit=2)
# 输出结果
[('python is my favorite', 86), ('I love python', 85)]

process.extractOne("cowboys", choices)
# 输出结果
('python is my favorite', 86)

混淆矩阵、TPR与FPR

混淆矩阵

机器学习——数据清洗_第1张图片

查出率TPR与查错率FPR

TPR是所有真实结果中正例查出的比例:
T P R = T P T P + F N TPR = \frac{TP}{TP+FN} TPR=TP+FNTP
FPR是所有真实结果中反例查出是正例的比例:
F P R = F P F P + T N FPR=\frac{FP}{FP+TN} FPR=FP+TNFP

特征工程

参见以下两篇博文:
特征抽取
特征处理

你可能感兴趣的:(python,机器学习)