机器学习中用到的概率知识_机器学习必备的概率统计基础

现如今,计算机科学、人工智能、数据科学已成为技术发展的主要推动力。无论是要翻阅这些领域的文章,还是要参与相关任务,你马上就会遇到一些拦路虎:想过滤垃圾邮件,不具备概率论中的贝叶斯思维恐怕不行;

想试着进行一段语音识别,则必须要理解随机过程中的隐马尔科夫模型;

想通过观察到的样本推断出某类对象的总体特征,估计理论和大数定理的思想必须建立;

在统计推断过程中,要理解广泛采用的近似采样方法,蒙特卡洛方法以及马尔科夫过程的稳态也得好好琢磨;

想从文本中提取出我们想要的名称实体,概率图模型也得好好了解。

在看到这些专业术语后,很多人就开始打退堂鼓,然后马上选择放弃。为什么会这样?

因为机器学习所需数学知识有极高的学习曲线。那么需要多少数学知识呢?宾夕法尼亚大学的计算机教授所写的《计算机科学相关代数学、拓扑学、微分学以及最优化理论》,就用1900 页的篇幅讲解了相关的数学知识。

不要着急,不要害怕,继续往下看……我作为一个机器学习、自然语言处理方面的研究者和实践者,参与了大量涉及知识图谱、语义理解、智能问答等技术的工程和科研项目。我认为,有更简单、高效的方法可以让你掌握机器学习中所需的概率统计核心知识。首先,集中力量、紧紧围绕机器学习核心算法中所涉及到的知识进行学习,做好精确打击。

然后,注重加强基础知识与算法、应用案例之间的联系,将理论和算法应用场景相互关联,形成学以致用的实践导向。

同时,运用好 Python 工具,做到和工程应用无缝对接,利用 Numpy、Scipy、Matplotlib、Pandas 等工具强化对知识的理解、提升工作效率。

在我看来,概率统计的核心部分共有以下六大部分,纵贯了概率论、统计以及随机过程中最核心的主线内容:

第 1 部分:概率思想。我们首先从条件概率和贝叶斯方法入手,阐明条件、独立、相关等基本概念,掌握联合、边缘的计算方法,我们将一起构建起认知世界的概率思维体系。

第 2 部分:随机变量。我们将重点介绍随机变量主干内容,从单一随机变量的分布过渡到多元随机变量的分析,最后重点阐述大数定理和中心极限定理,并初步接触蒙特卡洛方法,和读者一起建立重要的极限思维。

第 3 部分:统计推断。这部分我们关注的是如何通过部分的样本集合推断出我们关心的总体特征,这在现实世界中非常重要。在参数估计的思想方法基础上,我们重点关注极大似然估计和贝叶斯估计这两种方法。

第 4 部分:随机过程。我们将关注由一组随机变量构成的集合,即随机过程。股票的波动、语音信号、视频信号、布朗运动等都是随机过程在现实世界中的实例。我们在随机过程的基本概念之上,将重点分析马尔科夫链,梳理其由静到动的演变,探索变化的过程和不变的稳态。

第 5 部分:采样理论。我们将重点关注如何获取服从目标分布的近似采样方法,从基本的接受-拒绝采样入手,逐渐深入到马尔科夫链-蒙特卡洛方法,通过动态的过程进一步深化对随机过程、随机理论以及极限思想的理解。

第 6 部分:概率模型。这里我们将介绍概率图模型中的一种典型模型:隐马尔科夫模型,熟悉状态序列的概率估计和状态解码的基本方法,为后续学习的概率图模型打好基础。知识图谱如下:

针对上述大纲,我们花费近半年,在gitchat平台上精心推出了专栏《机器学习中的数学:概率统计》,揭示和反映了与机器学习紧密相关的概率统计核心内容。

我们主要聚焦在以下三个方面详解 6 大核心板块:概率思想、随机变量、统计推断、随机过程、采样理论、概率模型,筑牢机器学习核心基础。

教你熟练使用 Python 工具库:依托 numpy、scipy、matplotlib、pandas 工具,无缝对接工程实践。

有理论还有实战:大量实战案例与完整详细源码,反复加深概率统计思想的深刻理解。

让我们一起开始这段学习旅程!

万丈高楼平地起,希望《机器学习中的数学》系列专栏能陪伴大家走好机器学习的学习与实践的必经之路、梳理纷繁复杂的知识网络、构筑好算法模型的数学基础。更重要的是,我希望我们能一起形成一种思维习惯:源于理论,我们条分缕析;面向实践,我们学以致用。有了扎实的数学理论和方法基础,相信同学们都能登高望远、一往无前。

gitchat平台上的课程专栏链接:机器学习中的数学:概率统计​gitbook.cn

你可能感兴趣的:(机器学习中用到的概率知识)