博客目录与概览

本博客主要聚焦于人工智能(Artificial Intelligence)领域,兼顾大数据(Big Data)、商业智能(Business Intelligence)等方向的知识,冀希读者能能通过阅读本博客的文章,构建完整的知识体系与框架。

其中, 《深入理解机器学习》系列和《深入理解深度学习》系列主要介绍了机器学习算法和深度学习算法的推导与实现,而《算法设计与分析》系列则主要介绍算法学基础的相关知识。另外,《数据科学家之路》聚焦于数据分析领域,介绍了除数据挖掘算法以外的数据科学相关技术。在数据获取层面,《Python爬虫从入门到精通》系列详细介绍了Python爬虫完整的知识体系。在商业智能(Business Intelligence)和大数据方面,《大数据与云计算》系列介绍了Hadoop及其生态如Spark、Kylin等的相关知识,而《商业智能》系列以完整的商业智能解决方案为导向,涉及维度建模、数据仓库等知识,与其它系列文章互补,构建了从数据模型到具体业务的知识体系。除此之外,本博客还对人工智能领域常用编程语言Python(《系统学习Python》系列)、Scala(《快速入门Scala》系列)和SQL(《快速入门SQL》系列)做了介绍与解读。

各分类的目录与介绍如下,我会根据实际情况逐渐完善各个分类下的内容。

深入理解机器学习

《深入理解机器学习》系列不仅仅把目光局限机器学习算法的推导与实现,更多的会将目光聚焦于从数学、统计学以及统计学习的角度来深入理解机器学习算法,除此之外,我还会讨论各个机器学习算法局限与瓶颈,纵横向比较各种机器学习算法的优劣等。另外,在详细介绍机器学习算法的同时,我还会通过Python和Scala给出相关项目的实战代码。希望读者能通过阅读本系列的文章对机器学习算法相关的知识有一定深度的理解。

  • 线性回归(Linear Regression)
  • 广义线性模型(Generalize Linear Model)
  • 逻辑斯蒂回归(Logistic Regression)
  • k-近邻算法(kNN,k-Nearest Neighbor)
  • 决策树(Decision Tree)
    • 基于树的模型(一):分类树与回归树
    • 基于树的模型(二):集成学习之Bagging和Random Forest
    • 基于树的模型(三):集成学习之GBDT和XGBoost
    • 基于树的模型(四):随机森林的延伸——深度森林(gcForest)
    • 基于树的模型(五):从零开始用Python实现ID3决策树
    • 基于树的模型(六):Python实现CART决策树并利用Tkinter构建GUI对决策树进行调优
  • 朴素贝叶斯(Naive Bayes)
  • EM算法(Expectation Maximization Algorithm)
  • 最大熵模型(Maximum Entropy Model)
  • 支持向量机(Support Vector Machine)
  • 聚类(Clustering)
  • 概率图模型(PGM,Probabilistic Graphical Model)
    • 隐马尔科夫模型(HMM,Hidden Markov Model)
    • 马尔可夫随机场(Markov Random Field)
    • 条件随机场(Conditional Random Fields)
  • 马尔可夫链蒙特卡罗方法(MCMC,Markov Chain Monte Carlo)

深入理解深度学习

《深入理解深度学习》系列以神经网络为主线,由浅入深地介绍各类型的神经网络结构与应用场景。在该分类的最后,还会涉及科学家们正在研究的前沿课题与领域,供大家了解与参考。

  • 深度前馈网络
  • 正则化与优化
  • 卷积神经网络
  • 循环神经网络
  • 线性因子模型
  • 自编码器
  • 表示学习

算法设计与分析

《算法设计与分析》以算法设计为核心,详细介绍了算法学理论。对于人工智能领域的算法工程师所了解的算法理论不应只限于机器学习算法,对于传统的算法理论也应该有深入的理解。

  • 算法学基础
    • 算法学基础(一):算法学概述
    • 算法学基础(二):分析算法
    • 算法学基础(三):渐进记号
  • 排序算法
    • 排序算法(一):插入排序
    • 排序算法(二):归并排序
  • 递归策略
  • 分治策略
  • 二叉搜索树
  • 哈希表(散列表)
  • 回溯法
  • 动态规划
  • 贪心算法
  • 摊还分析
  • 基于图的算法
  • NP理论
  • 非线性方程与牛顿迭代法
  • 优化算法

数据科学家之路

《数据科学家之路》系列以数据科学为主线,重点阐述数据科学领域中算法以外的知识点,读者通过阅读本系列文章和算法相关的系列文章就可以构建完整的数据科学知识体系。

  • 数据预处理技术基础

商业智能

《商业智能》系列以完整的商业智能解决方案为导向,涉及维度建模、数据仓库等知识,与其它系列文章互补,构建了从数据模型到具体业务的BI/DW知识体系,本系列又分为《维度建模》、《数据仓库Hive编程》等子系列。

维度建模

数据仓库Hive编程

  • Hive基础知识
  • 数据类型和文件格式
    • 基本数据类型
    • 集合数据类型
    • 文本文件数据编码
    • 读时模式

大数据与云计算

《大数据与云计算》系列以人工智能的应用为基础,介绍大数据与云计算的相关知识。该系列以Hadoop生态为基础,介绍了与人工智能领域、商业智能领域强相关的一些Hadoop生态内的工具。

  • 大数据概述
  • Hadoop与Spark等大数据框架介绍
  • Hadoop
    • MapReduce
    • HDFS(分布式文件管理系统)
    • YARN
  • Spark

Python爬虫从入门到精通

《Python爬虫从入门到精通》系列以一个仅会Python基础的程序员的角度深入讲解了Python爬虫理论及实战。数据作为数据科学领域的基石具有十分重要的意义,而爬虫作为数据获取中一个重要的手段值得各位希望从事数据科学领域的朋友们学习理解。

  • 爬虫基础
    • 爬虫基本原理
    • HTTP基本原理
    • 网页基本原理
    • 会话和Cookies
    • 代理基本原理
  • 请求库的使用
    • Urllib
      • 请求库Urllib的使用(一):发送请求
      • 请求库Urllib的使用(二):处理异常
      • 请求库Urllib的使用(三):解析链接
      • 请求库Urllib的使用(四):Robots协议
    • Requests
      • 请求库requests的使用(一):基本用法
      • 请求库requests的使用(二):高级用法
  • 解析库的使用
    • 解析库re的使用:正则表达式
    • 解析库XPath的使用
    • 解析库Beautiful Soup的使用
    • 解析库pyquery的使用
  • Ajax数据爬取
    • Ajax数据爬取(一):基本原理
    • Ajax数据爬取(二):分析方法
    • Ajax数据爬取(三):结果提取
  • 爬虫实战篇:
    • 爬取猫眼电影排行Top100
    • 爬取新浪微博内容
    • 爬取今日头条图片新闻

系统学习Python

《系统学习Python》系列将深入浅出地介绍Python语言的各个特性。无论您对Python毫无基础还是有几年Python编程经验,本分类的文章都会非常适合您。在本分类下,我还会适当的标出Python高级特性的部分,如果您是初学者,可以跳过该部分的学习。除此之外,我还会介绍Python的一些编程技巧以及Python编程中的一些易错点。

  • 数据类型
    • 数字
    • 字符串
    • 列表
    • 字典
    • 元组
    • 其他类型
  • 语法
    • 赋值与表达式
    • 判断
    • 循环
    • 迭代器
    • 文档
  • 函数
    • 函数基础
    • 作用域
    • 参数
    • 函数的高级话题
  • 模块
  • 面向对象
  • 异常与工具

快速入门Scala

《快速入门Scala》系列面向零基础的读者。博主希望零基础的读者能通过阅读该分类下的文章能够快速入门Scala,对Scala语法有一个基本的认识,能读懂代码并上手Scala的小项目。Scala作为Spark的底层语言越发越受到重视,在使用Spark处理大数据时,相比于Java与Python,Scala得天独厚的优势即将显现。

  • 快速入门Scala(一):变量的类型与声明
  • 快速入门Scala(二):条件表达式
  • 快速入门Scala(三):循环
  • 快速入门Scala(四):运算符与运算符重载
  • 快速入门Scala(五):方法与函数
  • 快速入门Scala(六):数组与集合
  • 快速入门Scala(七):类与对象

你可能感兴趣的:(博客目录与概览)