lesson5_KNN&时间序列

1. KNN的K值怎么选取?

通过交叉验证(将样本数据按照一定比例,拆分出训练用的数据和验证用的数据),从选取一个较小的k值开始,不断增加k的值,然后计算验证集合的方差,最终找到一个比较合适的k值



2. KNN使用是否需要进行标准化,有什么效果?

需要。归一化可以提高精度,这在涉及到一些距离计算的算法时效果显著,有助于防止具有较大初始值域的属性比具有较小初始值域的属性的权重过大,而归一化可以让各个特征对结果做出的贡献相同。



3. KNN 在特征维度加权有什么效果?

KNN算法认为各维特征对分类的贡献是相同的,而事实上,构成样本特征矢量的各维特征来自不同的样本,存在量纲差异,精度及可靠性也可能不同,而且所选择的特征集也未必适合于模式的分类。鉴于此,改进的K最近邻算法考虑各维特征对模式分类的不同贡献,以便获得更有效的分类效果。

设一个给定的测试样本为t,特征为f,定义在特征f上的最近邻算法为 KBag(f,t,k),该函数计算测试样本t在特征f权值上最近的 k个邻居。然后对每一个类别进行k次投票,因此每一特征维度上就有k次的投票机会。测试样本的类别由这些特征上的k次投票结果综合决定。

目前对所提取的特征所采用的特征子集选取算法一般是构造一个评价函数,对特征集中的每一个特征进行独立的评估,这样每个特征都获得一个评估分, 然后对所有的特征按照评估分的大小排序,选取预定数目的最佳特征作为结果的特征子集。一般采用的评估函数有信息增益、互信息、期望交叉熵、χ2统计 、出现频次和几率比等。



4. 不平稳时间序列如何处理?

对非平稳时间的序列分析方法可以分为确定性因素分解的时间序列分析和随机时间序列分析的两大类。确定性因素分解把时间序列变化归结为4个因素(长期趋势、季节变动、循环变动和随机波动)的综合影响。随机时序分析可以建立的模型有ARIMA模型、残差自回归模型、季节模型、异方差模型。

差分


 

你可能感兴趣的:(机器学习)