[特征工程系列一] 论特征的重要性

满打满算,还有十天左右就要过年了,这些天大家或多或少都有点浮躁。反过来想,趁大家都懈怠的时候,正是学习的最佳时机。趁着这几天,也给自己加点码,去认真的再看一下特征工程。我给自己列了下面的这一份学习清单,也会在过年前后逐一分享给大家。


《特征工程系列二,显性特征的基本处理方法》:讲一下如何处理数据特征,以及最基本的概念

《特征工程三,显性特征的衍生》:准备通过NBA球星的数据,展示下特征的衍生的一些概念

《特征工程四,Wide&Deep Learning for Recommender Systems》:讲一下如何通过线性算法的显性特征以及深度学习NN算法中的提取的隐式特征做推荐系统

《特征工程五,基于蒙特卡洛树搜索的半自动特征工程方案》:特征工程需要大量的人工干预和专家经验,那么能不能有一种方案去实现自动特征工程呢,纯自己YY了一套可能的方案。

 

下面我们进入今天的正题,特征工程有多重要,可以引用一句话来表达:“数据和特征决定了模型的上限,算法只是在帮忙逼近这个上限。”好的特征是决定一个模型准确率的关键,那问题来了?什么是特征呢,特征就是数据对于结果的一种描述。比如我们形容一个人是否漂亮,那她的眼睛大小、鼻子的形状、脸型都是特征。通常,当获得一份结构化数据的时候,如果这份数据里存在目标列,那么除了目标列每个字段都可以看做是特征,特征工程要做的事情是找到对结果影响最大的特征。

 

了解了特征的重要性,我们就可以开启这一系列文章的分享了,不过在此之前,有几个概念需要再明确下。特征分哪几种呢?

1.    显性特征:可以理解为用户直接可以拿到的数据字段

2.    半隐性特征:用户数据在通过GBDT等算法的计算过程中产出的一些特征

3.    隐性特征:深度学习在很大程度上可以简化人肉特征工程的工作量,因为深度学习可以在计算过程中自动生成一些特征向量,这些特征的表达往往是不可解释的,那这些特征就是隐性特征。

Ok~同步完这些概念,开启冲刺,年前要好好学习并分享特征工程的系列文章。

你可能感兴趣的:(机器学习)