决策树仍是最好的数据挖掘算法

决策树仍是最好的数据挖掘算法:理由如下:

  • 决策树是白箱「white box」,意味着可以生成简单易懂的规则。你可以通过查看决策树清楚明白各个分支,明白某个分支的影响,并且将其和其他分支进行对比。
  • 决策树术为非参数「non-parametric」,意味着无需特定的数据分流。决策树可以轻松应对连续变量和类别变量。
  • 决策树可以像处理变量的任何常规值那样处理缺失值。
  • 决策书操作方便。你可以选择设定决策树的深度,分支的最小观测值数,每个分支的树叶。
  • 决策树是最好的独立变量选择算法之一。如果你想做一个逻辑(线性)回归模型或神经网络,但首先需要减少变量数的话,那么你可以用决策树:速度快,并且可以考虑变量之间的互动。
  • 决策树是弱学习器「weak learner」。咋一看好像是一个缺点,如果你想在系综「ensembles」中大量使用弱学习器的话,弱学习器表现很棒,因为当独立模型都为弱学习器的话,系综会变成非常强大的算法。
  • 决策树可以识别子集。每个终端或中间树叶都可以被视为一个子集。
  • 决策树在有很多观测值和变量的情况下运行速度依然很快。
  • 决策树可用于监督和监督学习。
  • 决策树简单。是一种简单算法。无需复杂的数学知识就可以看懂。
  • 决策树可生成高质量模型,可以从数据中提取大量信息,尤其适合在系综中使用。
  • 决策树可轻松处理非平衡数据集如果你有0.1 %可靠目标和99.9%不可靠目标,那么你可以试试决策树。

理由够多了吧?你还能找到这么漂亮的算法吗?

作者:zyxo

除非注明,本站文章均为原创或编译,转载请注明: 文章来自36氪



您可能也喜欢:
Firesheep:通过WiFi把Facebook、Twitter等隐私数据一锅端!
新浪微博推出社交影响力产品「微数据」
Google对Facebook:想导入我们的用户数据你得互惠互利
电商社交数据挖掘应用Claritics 获得150万美元投资
TechCrunch与TechCrunchChina访客数据分析:国内外IT人士浏览器使用情况差异很大

来自无觅网络的相关文章:
看电影广告方案交流PPT(09)-数据分析之后要有你的观点和结论 (@70man)
Facebook设计主管谈如何利用数据做决策 (@socialbeta)
数据挖掘是神马 (@alibuybuy)
Undelete360 绿色免费小巧的数据恢复软件 - 文件不小心误删除了不用怕! (@iplaysoft)
马云的秘密武器:数据挖掘 (@alibuybuy)
无觅

你可能感兴趣的:(数据挖掘,工具,决策树,系综)