datawhale-吃瓜教程-线性模型

datawhale-吃瓜教程-线性模型

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加
Task01:概览西瓜书+南瓜书第1、2章
Task02:详读西瓜书+南瓜书第3章
Task03:详读西瓜书+南瓜书第4章
Task04:详读西瓜书+南瓜书第5章
Task05:详读西瓜书+南瓜书第6章


提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • datawhale-吃瓜教程-线性模型
  • 基本形式
  • 一、术语及符号解释
  • 二、公式推导
  • 总结


基本形式

提示:这里可以添加本文要记录的大概内容:

给定由n个属性描述的示例 = (X1; x2;…; Xd) 其中均是 在第 个属性上的取值,线性模型(linear model) 试图学得一个通过属性的线性组合来进行预测的函数


提示:以下是本篇文章正文内容,下面案例可供参考

一、术语及符号解释

线性模型:一个通过属性的线性组合来进行预测的函数。
线性回归:学得一个线性模型以尽可能准确地预测实值输出标记。
多元线性回归:学得一个多个属性的线性组合的线性模型来进行预测并输出标记。
对数线性回归:将输出标记的对数作为线性模型逼近的目标。形式上仍是线性回归,实质上是在求取输入空间到输出空间的非线性函数映射。此时的映射是指数映射。
广义线性回归:y = g-1(wTx + b), 其中g(.)为联系函数,根据联系函数的不同,可进行不同的输入空间到输出空间的映射。

对于数据中的属性转换有以下形式:
	独热编码:将属性中无序的属性值转化为向量形式,比如颜色有红,绿,蓝三种属性值,那么当颜色=红色时,对应的独热编码为(1,0,0)。
	标签编码:当类别特征内部有序的情况下才好使用,简单粗暴,方便快捷。比如小学生,初中生,高中生,大学生可对应编码为0,1,2,3。
	序号编码:处理一个数据集都是类别特征的编码方法(标签编码是针对数据集中某个特征内部,非全部),并且其类别特征内部取值是具有大小顺序的情况,因此该方法用的较少。
	频数编码:将类别特征内部取值用该取值出现的频数替换。比如某个分类中’Peking’出现了10次,那么’Peking’就会被替换为10.。
符号“min”表示求目标函数的最小值。
符号“argmin”表示求使目标函数达到最小值时的参数值。
最小二乘法:基于均方误差最小化来进行模型求解的方法。

利用线性回归模型进行分类任务:找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
对数几率函数:对于二分类问题,它是一种“Sigmoid”函数(y = 1 / (1 + e-z, z = wTx + b)),将z值转化为一个接近0或1的y值, 也可转换为函数ln(y / 1-y) = wTx + b。
对数几率回归:用线性回归模型的预测结果去逼近真实标记的对数几率。
几率:y / (1 - y), 正例可能性与负例可能性的比值。
对数几率:对几率取对数,当正例可能性=负例可能性=0.5时,对数几率为0;

二、公式推导

datawhale-吃瓜教程-线性模型_第1张图片
datawhale-吃瓜教程-线性模型_第2张图片

总结

提示:这里对文章进行总结:

后续再补充

参考博客:
机器学习的多种编码方式,独热、标签等

你可能感兴趣的:(机器学习,逻辑回归,算法)