机器学习学习笔记(1)

机器学习学习笔记(1)_第1张图片

 机器学习学习笔记(1)_第2张图片

 机器学习学习笔记(1)_第3张图片

           机器学习学习笔记(1)_第4张图片 

机器学习学习笔记(1)_第5张图片

 机器学习学习笔记(1)_第6张图片

 机器学习学习笔记(1)_第7张图片

 机器学习学习笔记(1)_第8张图片

机器学习学习笔记(1)_第9张图片

机器学习学习笔记(1)_第10张图片

机器学习学习笔记(1)_第11张图片

字典特征提取 

机器学习学习笔记(1)_第12张图片

机器学习学习笔记(1)_第13张图片

第一列表示北京 第二列表示上海 第三列表示深圳 第四列表示温度

前面三列 是的话用1 不是的话用0

机器学习学习笔记(1)_第14张图片

什么时候用稀疏矩阵:比如上面这种情况当你的城市很多的情况下 那这样就会出现大量的0 而系数矩阵只存储不是0的位置 可以节省大量空间

为什么采用这种表示方法呢?

首先我们来看 假如要分类:人是1 企鹅是2 章鱼是3

机器学习学习笔记(1)_第15张图片

 那么这样数字表示的就存在优先级 不如按这种办法来

机器学习学习笔记(1)_第16张图片

pclass是一等舱二等舱三等舱这种

字典特征抽取的应用场景:

机器学习学习笔记(1)_第17张图片

 文本特征提取:自动抽取非字母的单词 

机器学习学习笔记(1)_第18张图片

 机器学习学习笔记(1)_第19张图片

 机器学习学习笔记(1)_第20张图片

对中文分词 它会把连在一起的词也就是短句当做特征 不符合我们想要的效果 于是我们可以用空格把句子分割 但是还是麻烦 于是:

首先先import jieba:

.join是分割  join的参数是一个整体

 机器学习学习笔记(1)_第21张图片

 输出

机器学习学习笔记(1)_第22张图片

机器学习学习笔记(1)_第23张图片

 输出:

 

 KMeans:

 机器学习学习笔记(1)_第24张图片

 机器学习学习笔记(1)_第25张图片

 KMeans步骤:

机器学习学习笔记(1)_第26张图片

这边的与原中心点一样代表着与上次的中心点还是一样 说明已经趋于极限值了 再改中心点意义已经不大了 已经是局部最优

机器学习学习笔记(1)_第27张图片

 机器学习学习笔记(1)_第28张图片

 归一化:

 前面导入的是线性归一化 后面导入的是标准差归一化

机器学习学习笔记(1)_第29张图片

机器学习学习笔记(1)_第30张图片

机器学习学习笔记(1)_第31张图片机器学习学习笔记(1)_第32张图片 机器学习学习笔记(1)_第33张图片

图就省略了

降维:

这里的降维可以理解为降低特征的个数 使得相关性较强的特征减少

 机器学习学习笔记(1)_第34张图片

 机器学习学习笔记(1)_第35张图片

 

你可能感兴趣的:(机器学习学习笔记(1))