《西瓜书》笔记整理——第一章

第一章 绪论

  • 1.1 引言
  • 1.2 基本术语
  • 1.3 假设空间
  • 1.4 归纳偏好
  • 1.5 发展历程
    • 附:Evolution of ML
  • 1.6 应用现状
  • 1.7 阅读材料

1.1 引言

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能
机器学习研究的主要内容是关于计算机上从数据中产生“模型(model)”的算法,即学习算法(learning algorithm)

1.2 基本术语

数据集(data set):数据的集合。
示例(instance)/ 样本(sample):关于一个事件或对象的描述。
属性(attribute)/ 特征(feature):反映事件或对象在某方面的表现或性质的事项。
属性值(attribute value):属性上的取值。
属性空间(attribute space)/ 样本空间(sample space)/ 输入空间(input space):属性张成的空间。
特征向量(feature vector):空间中的点所对应的坐标向量,这里的点可以是一个示例。

从数据中学得模型的过程称为学习(learning)训练(training)
训练过程中使用的数据称为训练数据(training data),其中每个样本称为一个训练样本(training sample),训练样本组成的集合称为训练集(training set)
学得模型对应了关于数据的某种潜在规律,因此亦称为假设(hypothesis)
潜在规律自身称为真相或者事实 (ground-truth)
学习过程就是为了找出逼近 真相
模型可亦称为学习器(learner),可看作学习算法在给定数据和参数空间上的实例化。
学习算法通常有参数需设置,使用不同的参数值和(或)训练数据,将产生不同的结果。

预测(prediction)
标记/标签(label):关于示例结果的信息。
样例(example):拥有标记信息的示例。
标记空间(label space)/ 输出空间(output space):所有标记的集合。

学习任务的类别有两种:

  • 分类(classification):预测的是离散值。
  • 回归(regression):预测的是连续值。

只涉及两个类别的分类称为二分类(binary classification),通常称一个类为正类(positive class),另一个类为反类/负类(negative class)。涉及多个类别的分类任务,称为多分类(multi-class classification)

学得模型后,使用其进行预测的过程,称为测试(testing),被预测的样本称为测试样本(testing sample)

聚类(clustering):将训练集的样本分成若干组。
簇(cluster):分组后的单个组。

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:监督学习(supervised learning)无监督学习(unsupervised learning),分类和回归任务是前者的代表,而聚类是后者的代表。【亦称为有导师学习无导师学习

机器学习的目标是使学得的模型能很好地适用于“新样本”
学得模型适用于新样本的能力,称为泛化(generalization) 能力。具有强泛化能力的模型能很好地适用于整个样本空间。

独立同分布(independent and identically distributed,简称 i . i . d . i.i.d. i.i.d. ):获得的每个样本都是独立地从一个未知分布(distribution) D D D上采样获得的。

1.3 假设空间

归纳(induction)演绎(deduction) 是科学推理的两大基本手段。
归纳是从 特殊一般泛化 过程,演绎 则是从 一般特殊特化(specialization) 过程。
归纳学习(inductive learning):指归纳的过程。

归纳学习广义狭义之分。广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念(concept),因此亦称为概念学习概念形成
概念学习中最基本的是布尔概念学习,即对“是” “不是”这样的可表示为0/1布尔值的目标概念的学习。

“记住”训练样本,就是所谓的“机械学习”,或称“死记硬背式学习”。

多个假设与训练集一致,即存在着一个与训练集一致的假设集合,称为版本空间(version space)

1.4 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好(inductive bias),简称为偏好

尽可能特殊 ⇒ \Rightarrow 适用情形尽可能少
尽可能一般 ⇒ \Rightarrow 适用情形尽可能多

奥卡姆剃刀(Occam‘s razor) 是常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单那个”。

没有免费的午餐(No Free Lunch Theorem,简称 N F L NFL NFL定理):无论学习算法 L a L_a La多聪明,学习算法 L b L_b Lb多笨拙,它们的期望性能相同。如果某种学习算法在某些方面比另一种学习算法更优,则肯定会在其它某些方面弱于另一种学习算法。

N F L NFL NFL定理 重要前提:所有“问题”出现的机会相同,或所有问题同等重要。
N F L NFL NFL定理 的启示:不能脱离具体问题,空泛地谈论“什么学习算法”更好,必须针对具体的学习问题。

1.5 发展历程

机器学习是人工智能(artificial intelligence)研究发展到一定阶段的必然产物。

具体发展历程,详见P10,这里只做简单归纳。

20C50S-70S初:“推理期”。只要能赋予机器逻辑推理能力,机器就具有智能。代表:A. Newell 和 H. Simon“逻辑理论家”程序“通用问题求解”程序
⇓ \Downarrow 人们认识到,仅有逻辑推理能力是远远实现不了人工智能的。E. A. Feigenbaum等人认为,要使机器具有智能,就必须设法使机器拥有知识。
20C70S中期:“知识期”。这一时期,大量专家系统问世,在许多应用领域取得大量成果。E. A. Feigenbaum被称为 “知识工程”之父 ,在1994年获得图灵奖。
⇓ \Downarrow 人们认识到,由人来把知识总结出来再教给计算机是相当困难的,如果机器自己能够学习知识就好了。(R. S. Michalski等人把机器学习研究划分为“从样例中学习”“在问题求解和规划中学习”“通过观察和发现学习”“从指令中学习”等种类)
20C80S:“从样例中学习”的一大主流是符号主义学习,其代表包括决策树基于逻辑的学习
⇓ \Downarrow 表示能力太强,导致学习过程面临的假设空间太大,复杂度极高。若问题规模稍大就难以有效地进行学习。
20C90S中之前:“从样例中学习”的另一主流技术是基于神经网络的连接主义学习。
⇓ \Downarrow
20C90S中:“统计学习”登场,占据主流舞台。代表技术:支持向量机(SVM) 以及更一般的“核方法”。
⇓ \Downarrow
21C初:连接主义学习卷土重来,掀起“深度学习”热潮。深度学习狭义地说就是“很多层”的神经网络。

附:Evolution of ML

Year 1950: Turing Test is a game of questions and answers played by a human and a machine (a bot). The goal is to judge whether the machine is a human or otherwise.
Year 1958: Perceptron is a first single-layer Neural Network.
Year 1960: ELIZA is a first Natural Language Processing program.
Year 1967: Nearest Neighbor algorithm.
Year 1970: Backpropagation algorithm for training Neural Networks. Rediscovered in 1986.
Year 1980: First multi-layer feedforward Neural Network (ANN). Year 1989: Reinforcement Learning. Q-Learning algorithm.
Year 1995: Random Forest Algorithm and Support Vector Machines.
Year 1997: Speech Recognition. Recurrent Neural Network (RNN).
Year 2006: Face recognition. Geoffrey Hinton coined ”Deep Learning”
Year 2009: ImageNet neural network for computer vision.
Year 2010: Google Brain formed.
Year 2012: AlexNet. Revolution in CNN architecture (the depth is essential).
Year 2014: Facial recognition. Facebook develops DeepFace. Year 2015: Google speech recognition using LSTM.
Year 2015: Google DeepMind’s AlphaGo.
Year 2015: OpenAI was created.
Year 2018: Samsung introduced Bixby, a virtual assistant.
Year 2020: OpenAI announced GPT-3, aimed at natural language.
Year 2021: Google Brain announced the Switch Transformer (another NLP model).
Year 2021: Cerebras announced Wafer Scale Engine chip (WSE2) with 2.6 trillion transistors.
《西瓜书》笔记整理——第一章_第1张图片

1.6 应用现状

1.7 阅读材料

你可能感兴趣的:(人工智能)