机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
机器学习研究的主要内容是关于计算机上从数据中产生“模型(model)”的算法,即学习算法(learning algorithm) 。
数据集(data set):数据的集合。
示例(instance)/ 样本(sample):关于一个事件或对象的描述。
属性(attribute)/ 特征(feature):反映事件或对象在某方面的表现或性质的事项。
属性值(attribute value):属性上的取值。
属性空间(attribute space)/ 样本空间(sample space)/ 输入空间(input space):属性张成的空间。
特征向量(feature vector):空间中的点所对应的坐标向量,这里的点可以是一个示例。
从数据中学得模型的过程称为学习(learning)或训练(training)。
训练过程中使用的数据称为训练数据(training data),其中每个样本称为一个训练样本(training sample),训练样本组成的集合称为训练集(training set)。
学得模型对应了关于数据的某种潜在规律,因此亦称为假设(hypothesis)。
潜在规律自身称为真相或者事实 (ground-truth)。
学习过程就是为了找出或逼近 真相。
模型可亦称为学习器(learner),可看作学习算法在给定数据和参数空间上的实例化。
学习算法通常有参数需设置,使用不同的参数值和(或)训练数据,将产生不同的结果。
预测(prediction)
标记/标签(label):关于示例结果的信息。
样例(example):拥有标记信息的示例。
标记空间(label space)/ 输出空间(output space):所有标记的集合。
学习任务的类别有两种:
只涉及两个类别的分类称为二分类(binary classification),通常称一个类为正类(positive class),另一个类为反类/负类(negative class)。涉及多个类别的分类任务,称为多分类(multi-class classification)。
学得模型后,使用其进行预测的过程,称为测试(testing),被预测的样本称为测试样本(testing sample)。
聚类(clustering):将训练集的样本分成若干组。
簇(cluster):分组后的单个组。
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:监督学习(supervised learning)和无监督学习(unsupervised learning),分类和回归任务是前者的代表,而聚类是后者的代表。【亦称为有导师学习和无导师学习】
机器学习的目标是使学得的模型能很好地适用于“新样本”。
学得模型适用于新样本的能力,称为泛化(generalization) 能力。具有强泛化能力的模型能很好地适用于整个样本空间。
独立同分布(independent and identically distributed,简称 i . i . d . i.i.d. i.i.d. ):获得的每个样本都是独立地从一个未知分布(distribution) D D D上采样获得的。
归纳(induction) 与 演绎(deduction) 是科学推理的两大基本手段。
归纳是从 特殊 到 一般 的 泛化 过程,演绎 则是从 一般 到 特殊 的 特化(specialization) 过程。
归纳学习(inductive learning):指归纳的过程。
归纳学习有广义和狭义之分。广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念(concept),因此亦称为概念学习或概念形成。
概念学习中最基本的是布尔概念学习,即对“是” “不是”这样的可表示为0/1布尔值的目标概念的学习。
“记住”训练样本,就是所谓的“机械学习”,或称“死记硬背式学习”。
多个假设与训练集一致,即存在着一个与训练集一致的假设集合,称为版本空间(version space)。
机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好(inductive bias),简称为偏好。
尽可能特殊 ⇒ \Rightarrow ⇒适用情形尽可能少
尽可能一般 ⇒ \Rightarrow ⇒适用情形尽可能多
奥卡姆剃刀(Occam‘s razor) 是常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单那个”。
没有免费的午餐(No Free Lunch Theorem,简称 N F L NFL NFL定理):无论学习算法 L a L_a La多聪明,学习算法 L b L_b Lb多笨拙,它们的期望性能相同。如果某种学习算法在某些方面比另一种学习算法更优,则肯定会在其它某些方面弱于另一种学习算法。
N F L NFL NFL定理 重要前提:所有“问题”出现的机会相同,或所有问题同等重要。
N F L NFL NFL定理 的启示:不能脱离具体问题,空泛地谈论“什么学习算法”更好,必须针对具体的学习问题。
机器学习是人工智能(artificial intelligence)研究发展到一定阶段的必然产物。
具体发展历程,详见P10,这里只做简单归纳。
20C50S-70S初:“推理期”。只要能赋予机器逻辑推理能力,机器就具有智能。代表:A. Newell 和 H. Simon 的 “逻辑理论家”程序、 “通用问题求解”程序。
⇓ \Downarrow ⇓人们认识到,仅有逻辑推理能力是远远实现不了人工智能的。E. A. Feigenbaum等人认为,要使机器具有智能,就必须设法使机器拥有知识。
20C70S中期:“知识期”。这一时期,大量专家系统问世,在许多应用领域取得大量成果。E. A. Feigenbaum被称为 “知识工程”之父 ,在1994年获得图灵奖。
⇓ \Downarrow ⇓人们认识到,由人来把知识总结出来再教给计算机是相当困难的,如果机器自己能够学习知识就好了。(R. S. Michalski等人把机器学习研究划分为“从样例中学习”“在问题求解和规划中学习”“通过观察和发现学习”“从指令中学习”等种类)
20C80S:“从样例中学习”的一大主流是符号主义学习,其代表包括决策树和基于逻辑的学习。
⇓ \Downarrow ⇓表示能力太强,导致学习过程面临的假设空间太大,复杂度极高。若问题规模稍大就难以有效地进行学习。
20C90S中之前:“从样例中学习”的另一主流技术是基于神经网络的连接主义学习。
⇓ \Downarrow ⇓
20C90S中:“统计学习”登场,占据主流舞台。代表技术:支持向量机(SVM) 以及更一般的“核方法”。
⇓ \Downarrow ⇓
21C初:连接主义学习卷土重来,掀起“深度学习”热潮。深度学习狭义地说就是“很多层”的神经网络。
Year 1950: Turing Test is a game of questions and answers played by a human and a machine (a bot). The goal is to judge whether the machine is a human or otherwise.
Year 1958: Perceptron is a first single-layer Neural Network.
Year 1960: ELIZA is a first Natural Language Processing program.
Year 1967: Nearest Neighbor algorithm.
Year 1970: Backpropagation algorithm for training Neural Networks. Rediscovered in 1986.
Year 1980: First multi-layer feedforward Neural Network (ANN). Year 1989: Reinforcement Learning. Q-Learning algorithm.
Year 1995: Random Forest Algorithm and Support Vector Machines.
Year 1997: Speech Recognition. Recurrent Neural Network (RNN).
Year 2006: Face recognition. Geoffrey Hinton coined ”Deep Learning”
Year 2009: ImageNet neural network for computer vision.
Year 2010: Google Brain formed.
Year 2012: AlexNet. Revolution in CNN architecture (the depth is essential).
Year 2014: Facial recognition. Facebook develops DeepFace. Year 2015: Google speech recognition using LSTM.
Year 2015: Google DeepMind’s AlphaGo.
Year 2015: OpenAI was created.
Year 2018: Samsung introduced Bixby, a virtual assistant.
Year 2020: OpenAI announced GPT-3, aimed at natural language.
Year 2021: Google Brain announced the Switch Transformer (another NLP model).
Year 2021: Cerebras announced Wafer Scale Engine chip (WSE2) with 2.6 trillion transistors.
略
略