人工智能(Artificial Intelligence)是计算机科学的一个分支学科,主要研究用计算机模拟人的思考方式和行为方式,从而在某些领域代替人进行工作。
以下是人工智能学科体系图:
传统软件:执行人的指令和想法,在执行之前人已经有了解决方案,无法超越人的思想和认识范围
人工智能:尝试突破人的思想和认识范围,让计算机学习到新的能力,尝试解决传统软件的难题
1975 年图灵奖获得者、1978 年诺贝尔经济学奖获得者、著名学者赫伯特.西蒙(Herbert Simon)曾下过一个定义:如果一个系统,能够通过执行某个过程,就此改进了它的性能,那么这个过程就是学习。由此可看出,学习的目的就是改善性能。
卡耐基梅隆大学机器学习和人工智能教授汤姆.米切尔(Tom Mitchell)在他的经典教材《机器学习》中,给出了更为具体的定义:对于某类任务(Task,简称 T)和某项性能评价准则(Performance,简称 P),如果一个计算机在程序 T 上,以 P 作为性能度量,随着经验(Experience,简称 E)的积累,不断自我完善,那么我们称计算机程序从经验 E 中进行了学习。
例如,篮球运动员投篮训练过程:球员投篮(任务 T),以准确率为性能度量(P),随着不断练习(经验 E),准确率不断提高,这个过程称为学习。
程序自我升级
解决那些算法过于复杂,甚至没有已知算法的问题
在机器学习的过程中,协助人类获得事物的洞见
所谓机器学习,在形式上可近似等同于在数据对象中通过统计、推理的方法,来寻找一个接受特定输入 X,并给出预期输出 Y 功能函数 f,即 Y = f ( x ) Y = f(x) Y=f(x)。这个函数以及确定函数的参数被称为模型。
针对已知的输入,函数给出的输出(预测值)与实际输出(目标值)之间存在一定误差,因此需要构建一个评估体系,根据误差大小判定函数的优劣。
学习的核心在与改善性能,通过数据对算法的反复锤炼,不断提升函数预测的准确性,直至获得能够满足实际需求的最优解,这个过程就是机器学习。
在已知数据输出(经过标注的)的情况下对模型进行训练,根据输出进行调整、优化的学习方式称为有监督学习。
没有已知输出的情况下,仅仅根据输入信息的相关性,进行类别的划分。
先通过无监督学习划分类别,再人工标记通过有监督学习方式来预测输出.例如先对相似的水果进行聚类,再识别是哪个类别。
通过对不同决策结果的奖励、惩罚,使机器学习系统在经过足够长时间的训练以后,越来越倾向于接近期望结果的输出。
将学习过程和应用过程分开,用全部训练数据训练模型,然后再在应用场景中进行预测,当预测结果不够理想时,重新回到学习过程,如此循环。
将学习过程和应用过程统一起来,在应用的同时,以增量的方式不断学习新的内容,边训练、边预测。
根据样本数据,建立用于联系输出和输出的某种数学模型,将待预测输入带入该模型,预测其结果。例如有如下输入输出关系:
输入(x) | 输出(y) |
---|---|
1 | 2 |
2 | 4 |
3 | 6 |
4 | 8 |
根据数据,得到模型 y = 2 x y = 2x y=2x
预测:输入 9 时,输出是多少?
根据以往经验,寻找与待预测输入最接近的样本,以其输出作为预测结果(从数据中心找答案)。例如有如下一组数据:
学历(x1) | 工作经验(x2) | 性别(x3) | 月薪(y) |
---|---|---|---|
本科 | 3 | 男 | 8000 |
硕士 | 2 | 女 | 10000 |
博士 | 2 | 男 | 15000 |
预测:本科,3,男 ==> 薪资?
手段如手工采集、设备自动化采集、爬虫等
数据规范、具有较大误差的、没有意义的数据进行清理
股价预测
推荐算法
自然语言处理
语音处理:语音识别、语音合成
图像识别、人脸识别
……
根据已知的输入和输出,寻找某种性能最佳的模型,将未知输出的输入代入模型,得到连续的输出。例如:
(预测值为连续值)
根据已知的输入和输出,寻找性能最佳的模型,将未知输出的输入带入模型,得到离散的输出。例如:
(预测值为离散值)
根据已知输入的相似程度,将其划分为不同的群落,例如:
在性能损失尽可能小的情况下,降低数据的复杂度,数据规模缩小都称为降维问题.