33.python数据挖掘与入门实践

如何进行数据挖掘?
1.创建数据集,表示真实世界中物体的样本;描述样本的特征,重点是抽取特征

第一章开始数据挖掘之旅:
举了一个简单的亲和性分析的例子,用它找出顾客经常一起购买的商品。这种探索性的 分析方法用处很大,能帮助人们发现商业流程、某个环境或场景中的潜在规律。亲和性分析可用 在商业、医疗、人工智能等领域,说不定能这些领域带来突破。
本章还通过OneR算法介绍了分类的应用。该算法寻找最佳的特征值用于分类,该特征值在 训练集中哪个类别中出现的次数最多,待预测数据就属于哪个类别。
后续章节会扩展分类和亲和性分析的概念,同时还会介绍scikit-learn库以及它实现的一 些数据挖掘算法。

第二张用scikit-learn估计器分类:
本章使用scikit-learn库的另一个分类器DecisionTreeClassifier,并介绍了如何用 pandas处理数据。我们分析了真实的NBA赛事的比赛结果数据,创建新特征用于分类,并在这个 过程中发现即使是规整、干净的数据也可能存在一些小问题。
我们发现好的特征对提升正确率很有帮助,还使用了一种集成算法——随机森林,进一步提 升正确率。
下一章将会扩展在第1章使用的亲和性分析算法,用来发现相似的电影。我们还将学到如何 用算法解决排序问题,以及如何提升数据挖掘算法的可扩展性。

你可能感兴趣的:(33.python数据挖掘与入门实践)