【西瓜书】【南瓜书】第一,二章学习笔记

第一章

机器学习:
	就是从已知的数据中寻找规律,用来预测未知的样本
1.基本术语
	1.1数据集
		包含事物或对象某些方面特征的集合
	1.2特征
		模型输入需要数值化,对于较为抽象的输入,如声音等信息,需要将其转化为数值,才能输入模型。转化后的输入,被称作特征
	1.3特征向量
		就是把事物所有的属性转化为一组数值向量
	1.4训练集
		        用于模型训练的训练数据集合
	1.5测试集
		最终用于评判算法模型效果的数据集合
	1.6分类 
		预测值为类别(离散值)或在类别上的概率的分布
	1.7回归
		预测值为数值型(连续值)
	1.8泛化能力
		学习的模型适用于新样本的能力
2.假设空间
	样本特征的所有可能假设组成
3.版本空间
	存在着与训练集一致的假设集合
4.归纳偏好
	机器学习在某种学习过程中在假设空间对假设进行的选择
5.机器学习应用
	很多时候,我们有数据,希望找到规律,但规律很复杂,所以希望靠机器来挖掘规律
	知道花朵的大小、颜色等信息,来判断花的种类
	知道身体血压、血脂等指标,来预测是否患病
	知道房屋的大小、位置等信息,来预测房价
	知道企业的业务、规模等信息,来预测股价

第二章

	2.1训练误差
		在训练集上的误差
			注意:在新样本的 误差称为泛化误差
	2.2过拟合
		1.模型失去了泛化能力。
		2.模型在训练集和验证集上都有很好的表现,但在测试集上表现很差,一般认为是发生了过拟合
	2.3欠拟合
		模型没能建立起合理的输入输出之间的映射。当输入训练集中的样本时,预测结果与标注结果依然相差很大
	2.4评估方法
		2.4.1留出法
			将数据集分为两个互斥集合,分别作为训练集和测试集
		2.4.2交叉验证法
			初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果
		2.4.3自助法
			对数据集A进行随机采样复制到数据集B中,然后再将该样本放回A中,重复M次采样,将B作为训练集,A作为测试集。
		2.4.4调参与最终模型
			先建立模型,并将模型权重随机初始化,之后将训练样本输入模型,可以得到模型预测值。使用模型预测值和真实标签可以计算损失值。通过loss可以计算梯度,调整权重参数,从而得到最终模型
	2.5性能度量
		2.5.1错误率
			分类错误的样本数占总样本的比率
		2.5.2精度
			精度=1-错误率
		2.5.3查准率
			也称为准确率
		2.5.4查全率
			也称为召回率
			P为查准率,R为查全率

【西瓜书】【南瓜书】第一,二章学习笔记_第1张图片
【西瓜书】【南瓜书】第一,二章学习笔记_第2张图片

		2.5.5F1
			用于学习器比较谁优
		2.5.6ROC曲线
			横轴:假正例率
			纵轴:真正例率
		2.5.7AUC曲线
			ROC曲线下的面积

你可能感兴趣的:(西瓜书,学习,机器学习,人工智能)