20年数据开发大牛总结出的大数据挖掘:概念、模型、方法和算法

前言

本书主要阐述数据挖掘原理,在示例的引导下详细讲解起源于统计学、机器学习、神经网络、模料逻辑和演化计算等学科的具有代表性的、最前沿的挖掘方法和算法。本书还着重描述如何恰当地选择方法数据分析软件并合理地调整参数。每章末尾附有复习题。

本书特点

1.介绍支持向量机(SVM)和Kohonen映射

2.讲解DBSCAN、BIRCH和分布式DBSCAN聚类算法

3.介绍贝叶斯网络,讨论图形中的Betweeness和Centrality参数测量算法

4.分析在建立决策树时使用的CART算法和基尼指数

5.介绍Bagging & Boosting集成学习方法,并详述AdaBoost算法

6.讨论Relief以及PageRank算法

7.讨论文本挖掘的潜在语义分析(LSA),并分析如何测定文本文档之间的语义相似性

8.讲解时态、空间、Web、文本、并行和分布式数据挖掘等新主题

9.更详细地讲解数据挖掘技术商业、隐私、安全和法律方面的内容

第一章 数据挖掘的概念

1.1 概述

1.2 数据挖掘的起源

1.3 数据挖掘过程

1.4 大型数据集

1.5 数据仓库

1.6 数据挖掘的商业方面:为什么数据挖掘项目会失败.

1.7 本书结构安排.

1.8 复习题

1.9 参考书目

第二章 数据准备

2.1 原始数据的表述

2.2 原始数据的特性

2.3 原始数据的转换

2.3.1 标准化

2.3.2 数据平整

2.3.3 差值和比率

2.4 丢失数据

2.5 时间相关数据

2.6 异常点分析

2.7 复习题

2.8 参考书目

第三章 数据归约

3.1 大型数据集的维度

3.2 特征归约

3.2.1 特征选择

3.2.2 特征提取

3.3 Relief算法

3.4 特征排列的熵度量.

3.5 主成分分析

3.6 值归约

3.7 特征离散化:ChiMerge技术

3.8 案例归约

3.9 复习题

3.10 参考书目

第四章 从数据中学习

4.1 学习机器

4.2 统计学习原理

4.3 学习方法的类型

4.4 常见的学习任务

4.5 支持向量机.

4.6k NN:最近邻分类器.

4.7 模型选择 与泛化

4.8 模型的评估

4.9 90%准确的情形

4.9.1 保险欺诈检测

4.9.2 改进心脏护理

4.10 复习题

4.11 参考书目

第五章 统计方法

5.1 统计推断

5.2 评测数据集的差异

5.3 贝叶斯定理

5.4 预测回归

5.5 方差分析

5.6 对数回归

5.7 对数-线性模型.

5.8 线性判别分析

5.9 复习题

5.10 参考书目

第六章 决策树和决策规则

6.1 决策树

6.2 C4.5算法:生成决策树

6.3 未知属性值

6.4 修剪决策树

6.5 C4.5 算法:生成决策规则

6.6 CART 算法和Gini指标

6.7 决策树和决策规则的局限性

6.8 复习题

6.9 参考书 目

第七章人工神经网络

第八章 集成学习

第九章 聚类分析

第十章 关联规则

第十一章 Web 挖掘和文本挖掘

第十二章 数据挖掘高级技术

第十三章 遗传算法

第十四章 模糊集和模糊逻辑

第十五章 可视化方法

附录A数据挖掘工具

附录B数据挖掘应用

总结

由于这本书的细节分的太多了,今天小编就整理到这里想要获取的小伙伴可以+WX17667506182来获取哦~~~

最后给小编一个关注就是最大的动力!

你可能感兴趣的:(20年数据开发大牛总结出的大数据挖掘:概念、模型、方法和算法)