黄小猿

【机器学习系列之三】特征工程

1.特征工程概述与采样
2.数据预处理

2.1 数值型数据
2.2 类别型数据
2.3 文本型
2.4 其他
2.5 时间型
2.6 统计特征
2.7 特征结合feature stacker

3 . 特征选择

3.1 Filter
3.2 Wrapper
3.3 Embedded

4 . 降维技术

4.1 PCA（Principal Component Analysis）
4.2 LDA
4.3 SVD（文本降维）

1.特征工程概述与采样

数据和特征决定了机器学习的上限，而模型和算法则是逼近这个上限。因此，特征工程就变得尤为重要了。特征工程的主要工作就是对特征的处理，包括数据的采集，数据预处理，特征选择，甚至降维技术等跟特征有关的工作。
注：以下样例数据部分采用官方文档提供的样本数据iris

1.1 采样

随机采样
简单易用。抽到每个样本的概率一样。

分层采样
它是保留类别比例的采样方式。先将样本数据集按照某种特征分为若干层次结构，然后在各层次结构中随机采样，组成一个样本。每一层内个体变化越小越好，层级间变化越大越好。

1.2 正负样本不平衡问题

正样本>>>负样本，且量很大
考虑下采样。即在正样本中按照一定比例抽取数据，抛弃部分数据。
正样本>>>负样本,但量不大
修改损失函数：每个样本都会对损失函数贡献一点努力，如果把负样本重复几次，数据就会更加关注负样本。
oversampling:在图像处理中，可以把图像旋转，就会变成另外一张完全不同的图像。

2.数据预处理

garbage in,garbage out.顾名思义就是数据质量越差，得到的结果也就越差，在一开始采集数据的时候就应该认真分析所选择的数据包含哪些维度的数据。

然后就是确定数据的存储格式，以及数据之间的连接。很多情况下，模型对数据正负样本比是敏感的，所以还要保证数据的正负样本数量相差无几。

2.1 数值型数据

通过特征提取，可以得到未经处理过的特征数据，但它的分布可能相差很大，比如月收入和年龄，这时就要把数据处理成同一个分布内，使得参数发挥更大的作用。

标准化
标准化的前提是特征数据服从正态分布，通过标准化把数据统一处理为标准正太分布。在sklearn的preprocessing中有专门的函数处理：

他的原理如下：

x ̂ = x - X ⎯ ⎯ ⎯ S

其中

X⎯⎯⎯ 表示均值。

区间缩放法
区间缩放最常见的是利用两个最值缩放：
计算公式如下：

x ̂ = x - M i n M a x - M i n

归一化
标准化是依照特征矩阵的列来处理数据，将样本的特征值转换为同一量纲下；而归一化是按照矩阵的行处理数据，目的是在做点乘运算或核函数计算相似性时，拥有统一的标准。

规则为l2的归一化公式如下：

x ̂ = x \sum m j ‾ ‾ ‾ ‾ \sqrt x [ j ] 2

高级
离散化
把数值型数据等距切分，或者等频切分，划分成类别型的数据。
以年龄为例判断人会不会让座，等距切分意味着给定步长，0-30，30-60，60-90，90-120，分成了四个等级。

以淘宝的价格数据切分为例，等频切分意味着从零到最大值，每1000（频数自定）个样本划分一个等级。

2.2 类别型数据

对于类别型数据，比如预测房价时，房子的位置，算法无法接受这样的数据，就需要我们用数字把它的含义表示出来，然后用亚变量编码。

LabelEncoder
意思是把类别型的特征，先用数字表示，以便进行one-hot编码。

from sklearn.preprocessing import LabelEncoder

LE = LabelEncoder()
X_cat =LE.fit_transform(X[categorical_features])

One-Hot
假如一个特征是类别型的，特征中只有三个类型，就可以用三维向量编码，出现该类型记为1，不出现则记为0。Sklearn也有对应的函数如下：
也可以使用pandas的get_dummies来处理。

二值化
二值化的核心在于设定一个阀值，大于该阀值设定为1，小于该阀值设定为0。用公式表示如下：

x ̂ = {1, 0, x > t h r e s h o l d x < t h r e s h o l d

阀值设定为3，返回值为二值化后的数据。

Histogram映射

以上图为例：将爱好和性别进行特征组合。得到一个分别表征足球，散步，看电视剧的向量:男[ 23,13,0 ] ;女[ 0,13,23 ]

2.3 文本型

词袋
直接把文本数据丢给模型，模型是无法解释的，因此需要把文本型的数据用数值表示。去掉停用词，标点符号，留下表达实际含义的词组成列表，在词库中映射稀疏向量。

python函数对应

from sklearn.feature_extraction.text import CountVectorizer
CVT = CountVectorizer()
sparse_text_data = CVT.fit_transform(text_data)

此外，还可以把词袋扩充为n-gram，它的思想是：在整个语言环境中，句子T的出现概率是由组成T的N个词组成的。

Tf-idf(Term Frequency-inverse document frequency)
Tf-idf是一种统计方法，用来评估一个词语在一个文件集中一份文件的重要程度，字词的重要性会随着它在一份文件中出现的频数增多而增加，但会随着它在语料库中出现的频率成反比下降。

Tf(t) = (词t在当前文档中出现的次数)／（词t在所有文档中出现的次数）
Idf(t) = In(总文档数／含t的文档数)

from sklearn.feature_extraction.text import TfidfVectorizer
tfi = TfidfVectorizer()
text_data = tfi.fit_transform(text_data)

Tf-idf的效果一般来说会比Count要好，如果你只是把
还有一种是word2vec，简单来说是把稀疏型数据变成稠密型，同时考虑了上下文。难以用三言两语说清，在此不细说。

2.4 其他

缺失值处理
在sklearn中也有计算缺失值的函数imputer。填补缺失值可以使用平均数，中位数，或者行／列众数。

组合特征
拼接特征，当两个特征同时出现时，标记为1。（一般会把用户聚类，用户类别来组合等）

2.5 时间型

连续值：持续时间，间隔时间（上次活动时间到现在）
离散值：一年中的第几个月，第几个星期，一年中哪个季度，工作日／周末，一周中星期几，一天中哪个时间段。（比如送外卖时是否是饭点）

2.6 统计特征

加减平均：对连续值求一个平均，另开一个特征—比平均值高了多少，低了多少。用户连续登陆天数，超过平均多少。
分位线：用户在哪个分位线处
次序型：排在第几位
比例型：好，中，差型比例。你已超过全国百分几的同学。

以推荐系统挖掘特征：
(1) 前一天的购物车商品很有可能第二天就被购买 =>规则
(2) 剔除掉在30天里从来不买东西的人 => 数据清洗
(3) 加车N件，只买了一件的，剩余的不会买 => 规则
(4) 购物车购买转化率 =>用户维度统计特征
(5) 商品热度 =>商品维度统计特征
(6) 对不同item点击/收藏/购物车/购买的总计 =>商品维度统计特征
(7) 对不同item点击/收藏/购物车/购买平均每个user的计数 =>用户维度统计特征
(8) 变热门的品牌/商品 =>商品维度统计特征(差值型)
(9) 最近第1/2/3/7天的行为数与平均行为数的比值 =>用户维度统计
特征(比例型)
(10) 商品在类别中的排序 =>商品维度统计特征(次序型)
(11) 商品交互的总人数 =>商品维度统计特征(求和型)
(12) 商品的购买转化率及转化率与类别平均转化率的比值=>商品维度统
计特征(比例型)
(13) 商品行为/同类同行为均值=>商品维度统计特征(比例型)
(14) 最近1/2/3天的行为(按4类统计)=>时间型+用户维度统计特征
(15) 最近的交互离现在的时间=>时间型
(16) 总交互的天数=>时间型
(17) 用户A对品牌B的总购买数/收藏数/购物车数=>用户维度统计特征
(18) 用户A对品牌B的点击数的平方 =>用户维度统计特征
(19) 用户A对品牌B的购买数的平方=>用户维度统计特征
(20) 用户A对品牌B的点击购买比=>用户维度统计特征(比例型)
(21) 用户交互本商品前/后，交互的商品数=>时间型+用户维度统计特征
(22) 用户前一天最晚的交互行为时间=>时间型
(23) 用户购买商品的时间(平均，最早，最晚)=>时间型

2.7 特征结合feature stacker

from sklearn.pipeline import FeatureUnion
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest

pca = PCA(n_components = 10)
skb = SelectKBest(k =1)
combine_features = FeatureUnion([('pca',pca),('skb',skb)])

对于不同类型的数据（稀疏数据和稠密数据）

import numpy as np
from scipy import sparse

#对稀疏数据
X = sparse((x1, x2, x3,..., xn))

#对稠密数据
X = np.hstack((x1, x2, x3,..., xn))

3 . 特征选择
3.1 Filter

方差选择法
使用方差作为衡量标准，选择方差大于某阀值的特征，使得他们对预测结果的区分性最大

相关系数法
把特征高度相关的数据去掉，留下区分度大的数据。一般会采用Pearson相关系数，它是协方差除以两个变量的标准差得到的，其中协方差计算公式如下：

Pearson相关系数：
Scipy中提供了计算Pearson相关系数的函数。

卡方检验法
卡方检验是一种统计量的分布在零假设成立时近似服从卡方分布的假设检验，它考察的是观察值与期望值之间的差距。
计算公式如下：

在sklearn相应的函数：

互信息法
可以简单理解为自变量对因变量的相关性。
计算公式如下：

3.2 Wrapper

把特征选择看作特征子集搜索问题，筛选特征子集，用模型评估效果。
递归消除特征法
递归消除特征法基于多轮训练，每轮训练后消除一些权值系数（也就是逐步删除特征），再用新的数据集训练，重复以上步骤若干步，看auc或其他指标的变化，如果变化太大，说明特征删太多了。

可以用feature_selection的RFE库来选择：

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
rfe = RFE(estimator = LogisticRegression(),n_features_to_select =  2)
rfe.fit(X,y)
print('features sorted by their rank')
print(rfe.ranking_)
#输出特征重要度的排名：features sorted by their rank
#[3 1 2 1]

3.3 Embedded

基于惩罚项的特征选择
使用feature_selection库的SelectFromModel结合L1惩罚项的逻辑回归进行特征选择，代码如下：
L1惩罚项只是选择了具有同等相关性的特征中的一个，但不代表特征重要性，故可以使用L2惩罚项优化。

基于树模型的特征选择
树模型中GBDT也可以用于特征选择，使用feature_selection库的SelectFromModel结合GBDT选择：

4 . 降维技术

如果特征矩阵的维度过大，有很多分类能力比较差的特征，这时候直接训练就会导致计算量非常大，训练时间长且效果不佳，这时降维必不可少。但降维不是特征选择，因为降维的本质在于寻找某种映射方法，把高维空间中的数据映射低维空间中。

4.1 PCA（Principal Component Analysis）
PCA也称主成分分析法，是目前应用最广泛线性降维方法，它通过寻找一个线性投影，把高维数据映射到低维，同时在所投影的维度上方差尽可能大，以便使用较少的数据维度的同时，较好的保持原有数据的特性。

python中也提供了相关的库函数：

4.2 LDA
Linear Discriminant Analysis是一种有监督的线性降维算法，它希望降维后的数据点尽可能地容易被区分。

注：经测试，python2的sklearn中没有lda这个包

4.3 SVD（文本降维）
在对文本数据进行向量化以后，由于是稀疏矩阵太稀疏，同样可以使用降维技术，这里使用的是奇异值分解。

from sklearn.decomposition import TruncatedSVD
tsvd = TruncatedSVD(n_components = 120)
Xdata = tsvd.fit_transform(X)

一般对于tf-idf对应的主成分为120-200个左右，如果更多的主成分也许数据有所提升，但对计算机的资源消耗太大了。

降维技术不是特征选择，降维是把高维数据的特征映射到低维空间中，而特征选择是在高维空间中直接剔除部分特征，选出重要特征。

送一张模型选择的图

参考
很多细小的点参考了七月算法课课件
自己总结的
知乎回答
当然还有官网给的案例的代码
Approaching (Almost) Any Machine Learning Problem |

更新1
2017.12.11
增加文本方面的详细处理
特征结合feature stacker

《机器学习与数据挖掘》学习笔记（二）-续产品扫地僧
沿着PAC学习理论，讨论有限假设空间的样本复杂度，并用Hoeffding不等式来界定概率边界。假设空间的样本复杂度PAC可学习性很大程度上由所需的训练样本数量决定。随着问题规模的增长所带来的所需训练样本的增长称为学习问题的样本复杂度（samplecomplexity）。在多数实际问题中，最限制学习器成功的因素是有限的可用的训练数据。我们通常都喜欢能与训练数据拟合程度更高的假设，当一个学习器在可能时
牛人（周志华）推荐的人工智能网站城市中迷途小书童
AIURLs(maintainedbyZhi-HuaZhou)**北京大学视觉与听觉信息处理实验室北京邮电大学模式识别与智能系统学科复旦大学智能信息处理开放实验室IEEEComputerSociety北京映象站点计算机科学论坛机器人足球赛模式识别国家重点实验室南京航空航天大学模式识别与神经计算实验室-PARNEC南京大学机器学习与数据挖掘研究所-LAMDA南京大学人工智能实验室南京大学软件新技术国
1.5 The Leaming Problem-Machine Leaming and other Fields|机器学习基石（林轩田）-学习笔记努力奋斗的durian
文章原创,最近更新：2018-06-27学习链接:1.5TheLeamingProblem-MachineLeamingandotherFields1.MachineLearningandDataMining(机器学习与数据挖掘)讲完了机器学习完整的流程,下面将一下机器学习与其他相关领域的关系第一个讲的领域就是数据挖掘,数据挖掘与机器学习有什么不一样,如下:机器学习是用资料找出一个假说g,然后跟我
毕业设计选题 - 计算机毕业设计（论文）选题合集 weixin_55149953 毕业设计人工智能毕业设计毕设目标跟踪计算机视觉大数据算法
目录前言选题背景意义毕业设计选题深度学习与神经网络计算机视觉与图像处理机器学习与数据挖掘数据分析和大数据处理选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光,一边要忙着准备考研,考公,考教资或者实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。大四的同学马上要开始毕业设计,对选题有疑问可以问学长哦!以下整理了适合不同方向的计算机专业的毕业设计选题对毕设有任何疑问
DataFunSummit：2023年数据科学在线峰会-核心PPT资料下载百家峰会大数据数据治理数据科学大数据数据科学数据治理
一、峰会简介数据会说谎？如何正确的挖掘并使用数据？前沿的科学实验如何做？实验又是如何欺骗你的？数据中台如何发挥功效？用户增长有捷径吗？数据科学的最佳实践有哪些？本次峰会共包含了：机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大论坛。机器学习与数据挖掘方向的核心目标是通过机器学习的建模方式解决人与物的匹配问题，以及通过对人行为数据的建模或挖掘研究，
【机器学习】学习笔记01-概论 NRbene 机器学习机器学习学习数据挖掘
机器学习简介文章目录机器学习简介机器学习辨析深度学习与机器学习机器学习与数据挖掘机器学习与统计学习机器学习与传统编程机器学习概念适用条件挑战模型的稳定性模型的可解释性历史符号主义贝叶斯学派连接主义其他概念基本概念三要素模型策略算法归纳偏好证明机器学习的目标欠拟合和过拟合泛化误差(重点)缓解过拟合深入理解泛化误差基本概念方法总结机器学习一般流程机器学习分类按有无标签分类按输出空间分类按模型分类按算法
《机器学习与数据挖掘》学习笔记（一）产品扫地僧
从刚注册时强迫自己写文章时的拖延，到现在有了想法不自觉的想记录下来，是好的转变。最近开始对数据挖掘很感兴趣，在网易公开课上开始学加州理工的《机器学习和数据挖掘》，还可以顺便练练英语听力。第一课《学习问题》只要从问题引入，介绍什么是机器学习，以及常见的学习分类。在人类的认知中一些显而易见的结论，对机器而言是一个却是无限靠近的过程，比如婴儿可以快速识别一张脸的情绪等。课中介绍了银行信贷审批的例子。阐述
机器学习与数据挖掘第三、四周 Joy T 机器学习数据挖掘人工智能机器学习
为什么第二周没有呢……因为刚换老师，自学要适应一段时间。本课程作者之后的学习目标是：实操代码，至少要将作者参加数学建模中用到的数据处理方法都做一遍。首先，作者复习一下李宏毅老师的两节课程。机器学习概述机器学习就是让机器帮我们找一个函数！而这个函式，其实就是类神经网络！这个函式的输入可以是向量、矩阵和序列。矩阵往往用于表示图像。语音往往可以被表示为序列。输出可以是数值regression、类别cla
数分面试题1-牛客海星？海欣！面试问题 python 数据分析
1、python中你常用的包包名+作用+哪里使用过numpy:主要用来做多维数组的运算，高效的数值计算与数组操作，之前在推荐系统的项目中使用过pandas：用于数据处理与分析，提供了灵活的数据结构与数据操作功能matplotlib：数据可视化，比如想看数据的分布情况-箱线图，还有热力图、直方图、面积图、雷达图、极坐标图、等高线图等sklearn：用于机器学习与数据挖掘项目，提供多种机器学习算法与工
【AI】机器学习——绪论 AmosTian AI #机器学习人工智能机器学习 AI
文章目录1.1机器学习概念1.1.1定义统计机器学习与数据挖掘区别机器学习前提1.1.2术语1.1.3特点以数据为研究对象目标方法——基于数据构建模型SML三要素SML步骤1.2分类1.2.1参数化/非参数化方法1.2.2按算法分类1.2.3按模型分类概率模型非概率模型逻辑斯蒂回归1.2.4基本分类监督学习分类符号表示形式化特征无监督模型特征符号表示形式化强化学习半监督学习主动学习1.2.5按技巧
加州理工学院公开课：机器学习与数据挖掘_Epilogue（第十八课-终结篇）飞天狐213 机器学习机器学习 Aggregation 贝叶斯
课程简介:这是该课程的最后一课，作者首先总结了有关机器学习的理论、方法、模型、范式等。最后介绍了贝叶斯理论和Aggregation（聚合）方法在机器学习中的应用。课程提纲:1、机器学习的地图。2、贝叶斯理论。3、Aggregation（聚合）。1、机器学习的地图有关机器学习的方法、模型等非常多，简直令人目不暇接。比如下图列出来的。然而不建议一一学习这些方法、模型，否则容易迷失在这些方法里无法自拔。
大咖观点| AIGC与因果推断的双向赋能九章云极DataCanvas AIGC 人工智能大数据
近日，由DataFun主办的第三届数据科学在线峰会盛大举办。聚焦机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大数据科学主题，数十位国内外一线数据科学家围绕数据科学前沿技术成果和应用实践经验深入分享和交流。九章云极DataCanvas公司深度参与峰会，并分享前沿数据科学技术的最新研究进展。峰会上，九章云极DataCanvas公司AI架构师何刚发表
Python机器学习及实践_从零开始通往KAGGLE竞赛之路PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书胡萝卜须_aee2
点击获取提取码：i5nwimage.pngPython机器学习及实践面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下流行的机器学习、数据挖掘与自然语言处理工具，如Scikit-learn、NLTK、Pandas、gensim、XGBoost、GoogleTensorflow等。全书
大咖观点| AIGC与因果推断的双向赋能 aigc
近日，由DataFun主办的第三届数据科学在线峰会盛大举办。聚焦机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大数据科学主题，数十位国内外一线数据科学家围绕数据科学前沿技术成果和应用实践经验深入分享和交流。九章云极DataCanvas公司深度参与峰会，并分享前沿数据科学技术的最新研究进展。峰会上，九章云极DataCanvas公司AI架构师何刚发表
机器学习与数据挖掘的学习路线图 thousand_
https://my.oschina.net/siiiso/blog/810554正式学习之前，你所需要的预备知识（主要是数学）应该包括：微积分（偏导数、梯度等等）、概率论与数理统计（例如极大似然估计、中央极限定理、大数法则等等）、最优化方法（比如梯度下降、牛顿-拉普什方法、变分法（欧拉-拉格朗日方程）、凸优化等等）——如果你对其中的某些名词感到陌生，那么就说明你尚不具备深入开展数据挖掘算法学习的
通关秘籍！Pandas最新官方教程中文版 Python数据之道
大家好，感谢大家一路以来的关注和支持，今天给大家强烈推荐我的好友云朵君的公众号『数据STUDIO』，强烈推荐大家关注～‍☠️宝藏级‍☠️原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言，垂直于数据科学领域，包括可戳Python｜MySQL｜数据分析｜数据可视化｜机器学习与数据挖掘｜爬虫等，从入门到进阶！云朵君为大家整理和筛选了大量火爆全网的Python数据科学学习资料，全
机器学习（面试题）及知识点菜田的守望者机器学习机器学习面试题
文章目录文章目录文章目录1，什么是机器学习2，机器学习与数据挖掘的区别3.什么是机器学习的过度拟合现象4.过度拟合产生的原因5.如何避免过度拟合6.什么是感应式的机器学习？7.什么是机器学习的五个流行的算法？9.在机器学习中，建立假设或者模型的三个阶段指的是什么？10.什么是监督学习的标准方法？11.什么是训练数据集和测试数据集？12.机器学习的方法？13.非机器学习有哪些类型？14.什么是非监督
python语法基础知识案例_Python 语法速览与实战清单 weixin_39860064 python语法基础知识案例
本文是对于现代Python开发：语法基础与工程实践的总结，更多Python相关资料参考Python学习与实践资料索引；本文参考了PythonCrashCourse-CheatSheets，pysheeet等。本文仅包含笔者在日常工作中经常使用的，并且认为较为关键的知识点与语法，如果想要进一步学习Python相关内容或者对于机器学习与数据挖掘方向感兴趣，可以参考程序猿的数据科学与机器学习实战手册。基
if i have five million dollars 云想飘飘
假如我有五百万我首先要还清我的房贷然后买辆车然后在村里盖个舒服的房子给父母然后想不到了抽个时间去考个机器学习与数据挖掘研究生然后努力工作。。。。
python竞赛之路_Python机器学习及实践：从零开始通往Kaggle竞赛之路 PDF高清完整版... weixin_39900468 python竞赛之路
Python机器学习及实践：从零开始通往Kaggle竞赛之路PDF高清完整版作者:范淼/李超出版社:清华大学出版社副标题:从零开始通往Kaggle竞赛之路出版年:2016-10-1定价:49元装帧:平装ISBN:9787302442875内容简介······本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，
Python机器学习及实践+从零开始通往Kaggle竞赛之路喜欢安静的程序猿 python 经典书籍
内容简介本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具，如Scikitlearn、NLTK、Pandas、gensim、XGBoost、GoogleTensorflow等。全书共分4章。第1章简介篇，介绍机器学习概念与Python
机器学习与数据挖掘，机器学习算法简介明月说数据数据挖掘算法大数据
什么是数据挖掘数据挖掘就是从大量的数据中去发现有用的信息，然后根据这些信息来辅助决策。听起来是不是跟传统的数据分析很像呢？实际上，数据挖掘就是智能化的数据分析，它们的目标都是一样的。但是，又有很大的区别。传统的数据分析和数据挖掘最主要的区别就是在揭示数据之间的关系上。传统的数据分析揭示的是已知的、过去的数据关系，数据挖掘揭示的是未知的、将来的数据关系。它们采用的技术也不一样，传统的数据分析采用计算
机器学习算法之LightGBM The king always the king 机器学习
LightGBM在很多方面会比XGBoost表现的更为优秀。它有以下优势：更快的训练效率低内存使用更高的准确率支持并行化学习可处理大规模数据支持直接使用category特征从下图实验数据可以看出，LightGBM比XGBoost快将近10倍，内存占用率大约为XGBoost的1/6，并且准确率也有提升。LightGBM的应用LightGBM在机器学习与数据挖掘领域有着极为广泛的应用。据统计Light
机器学习第一章（引言）罗辑罗辑机器学习
“假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则意味着关于T和P，该程序对E进行了学习”机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，从而在计算机上从数据中产生“模型”，依此来对新的未知的情况进行判断。机器学习与数据挖掘的关系：图1.机器学习与数据挖掘的关系机器学习中的基本术语：数据、任务、泛化能力机器学习中的假设空间、归
python手写数字识别教学_6手写数字识别_python机器学习与数据挖掘_Python视频-51CTO学院... 职业生涯规划师 python手写数字识别教学
爬虫Python基础、数据分析扩展包Numpy、pandas、matplotlib，Python读取MySQL数据，Python爬虫及Scrapy框架，无监督机器学习算法聚类分析等，以及案例：互联网金融行业客户价值分析等。机器学习机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有
Python多元线性回归、机器学习、深度学习在近红外光谱分析中的应用 PhyliciaFelicia 深度学习遥感医学影像 python 线性回归深度学习
导师：郁磊副教授，主要从事MATLAB编程、机器学习与数据挖掘、数据可视化和软件开发、人工智能近红外光谱分析、生物医学系统建模与仿真，具有丰富的实战应用经验，主编《MATLAB智能算法30个案例分析》、《MATLAB神经网络43个案例分析》相关著作。已发表多篇高水平的国际学术研究论文。基于Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用第一章：Python入门基础1、Pyt
基于Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用 WangYan2022 机器学习/深度学习 python 近红外光谱分析
【专家】：郁磊副教授，主要从事MATLAB编程、机器学习与数据挖掘、数据可视化和软件开发、人工智能近红外光谱分析、生物医学系统建模与仿真，具有丰富的实战应用经验，主编《MATLAB智能算法30个案例分析》、《MATLAB神经网络43个案例分析》相关著作。已发表多篇高水平的国际学术研究论文。【特色】：1、原理深入浅出的讲解，强调原理的重要性；2、技巧方法讲解，提供教程配套的完整教材数据及提供长期回放
《机器学习与数据挖掘》实验八 Tony_Chen_0725 机器学习与数据挖掘实验决策树 python
实验题目：编程实现AdaBoost算法实验目的：掌握AdaBoost算法的求解过程实验环境（硬件和软件）Anaconda/Jupyternotebook/Pycharm实验内容：编码实现AdaBoost算法，以决策树为基学习器，训练一个AdaBoost集成模型，对测试样本进行判别。要求：一、已经给定部分代码，补充完整的代码，需要补充代码的地方已经用红色字体标注，包括：（1）#补充定义弱分类器的代码
【案例实践】Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用吹翻书页的风数据语言统计分析 python 深度学习近红外光谱多元线性回归
查看原文>>>基于Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用【专家】：郁磊副教授主要从事MATLAB编程、机器学习与数据挖掘、数据可视化和软件开发、人工智能近红外光谱分析、生物医学系统建模与仿真，具有丰富的实战应用经验，主编《MATLAB智能算法30个案例分析》、《MATLAB神经网络43个案例分析》相关著作。已发表多篇高水平的国际学术研究论文。【内容】：第一章、Py
数据挖掘入门：Python开发环境搭建（eclipse-pydev模式） Snoopy_Yuan 数据挖掘数据挖掘 python sklearn eclipse pydev
为便于使用Python进行机器学习与数据挖掘的学习，先安装sklearn等常用库。然后搭建出集成开发环境。由于之前常采用EclipseIDE来开发C/C++和Java，故先考虑搭建Eclipse-Pydev环境来学习使用Python。准备工作Ubuntu-14.04LTS(自带Python2和Python3)JDK1.7EclipseIDE配置过程1.配置系统Python环境Ubuntu-14默认
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

【机器学习系列之三】特征工程

你可能感兴趣的:(机器学习与数据挖掘)