机器学习项目复习笔记

初始数据

Spikes are recorded by the binary sequence, which aligned with the reordered arm movement trajectories in three-dimensional coordinates

目标输出

estimate the monkey’s precise 2D hand trajectory in a low RMSE

数据预处理

看论文习得 spike 的1000ms的数据 前150的神经活动是稀疏的 300-500 是高活跃的
所以取320-500ms阶段的数据
一个猴子的数据是 【98, 500-320】
为减少运行时间作PCA

PCA

机器学习项目复习笔记_第1张图片
就是说让协方差矩阵中非对角线元素都基本为零

PCA的目的,优点

“降噪”和“去冗余”
“降噪”的目的就是使保留下来的维度间的相关性尽可能小,而“去冗余”的目的就是使保留下来的维度含有的“能量”即方差尽可能大。

思路

先判断手臂方向,再回归拟合路径

分类手臂方向

手臂八个方向

1 KNN

监督学习,类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类

KNN三要素

1)k值的选取。 (对应问题,k如何选择,优缺点

2)距离度量的方式。  一般为欧式距离,延伸到问题5。

3)分类决策规则。  分类一般为多数表决,就是哪类多选哪类。
回归为选择平均法,即k个样本输出的平均值作为预测输出。

KNN优缺点

优点

   1,该算法比较适用于样本容量比较大的类域的自动分类
       而那些样本容量较小的类域采用这种算法比较容易产生误分
   2,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,
           因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合
   3,可用于非线性分类
   4, 训练时间复杂度比支持向量机之类的算法低,仅为O(n)
   5,和朴素贝叶斯之类的算法比,对数据没有假设,准确度高,对异常点不敏感

缺点

    1,计算量大,尤其是特征数非常多的时候
    2,样本不平衡的时候,对稀有类别的预测准确率低
    3,KD树,球树之类的模型建立需要大量的内存
    4,使用懒散学习方法,基本上不学习,导致预测时速度比起逻辑回归之类的算法慢
    5,相比决策树模型,KNN模型可解释性不强
2 LDA

是一种supervised learning。
机器学习项目复习笔记_第2张图片
准则:最大化类间均值,最小化类内方差
方差:方差小则样本不分散,更紧密。
不同类别间距离要大

LDA算法的主要优点有

   1)在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识
   2)LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优。

LDA算法的主要缺点有

   1)LDA不适合对非高斯分布样本进行降维,PCA也有这个问题。
  2)LDA降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。
   3)LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好。
   4)LDA可能过度拟合数据。

回归拟合手臂路径

六级标题

参考原文:
https://blog.csdn.net/forest_world/article/details/50926055
https://gongsichuang.com/news/post/a25u6IGa57G7566X5rOV.html
原文链接:https://blog.csdn.net/longshaonihaoa/article/details/106362841
https://blog.csdn.net/weixin_45936137/article/details/115605860
https://blog.csdn.net/zhaoguanghua0407/article/details/78694791

你可能感兴趣的:(机器学习,人工智能,算法)