分类与预测
主要分类与预测算法
回归分析 确定预测值与其他变量关系。线性、非线性、Logistic、岭回归、主成分回归等
决策树 自顶向下分类
人工神经网络 用神经网络表示输入与输出之间的关系
贝叶斯网络 又称信度网络,是不确定知识表达和推理领域最有效的理论模型之一
支持向量机 将低维非线性可分转化为高维线性可分进行分析
主要回归模型分类
线性回归 因/自变量是线性关系 对一个或多个自/因变量线性建模,用最小二乘法求系数
非线性回归 因/自变量是非线性 非线性建模
Logistic回归 因变量为0或1 广义线性回归特例,利用Logistic函数将因变量控制0-1内表示取值为1的概率
岭回归 参与建模的自变量间具有多重共线性 改进的最小二乘法
主成分回归 同上 根据PCA提出,是参数估计的一种有偏估计
逻辑回归——Scikit-Learn
决策树——sklearn.tree;输出一个tree.dot文件,许安装Graphviz进行可视化
人工神经网络——keras
BP神经网络 信息正传播,误差逆传播
LM神经网络 给予梯度下降法和牛顿法的多层前馈神经网络,迭代次数少,收敛块,精度高
RBF径向基神经网络 能以任意精度逼近任意连续函数,输入层-隐含层是非线性,隐含层-输出成是线性,特别适合解决分类问题
FNN模糊神经网络 具有模糊权系数或输入信号是模糊两的神经网络,汇聚NN和模糊系统的有点
GMDH神经网络 也称多项式网络,网络结构在训练中变化
ANFIS自适应神经网络 NN镶嵌在一个全模糊的结构中,自动产生、修正、高度概括出最佳隶属函数和模糊规则
SVM——sklearn.svm
随机森林——sklearn.ensemble
朴素贝叶斯——sklearn.naive_bayes
建模的第一步都是建立一个空白的对象,然后设置模型参数,利用fit进行巡林啊,最后用predict方法预测结果,之后进行一些评估如score等
误差评价:绝对误差、相对误差、平均绝对误差、均方误差、均方根误差、平均绝对百分误差、Kappa统计、识别准确度、识别精确率、反馈率、ROC曲线、混淆矩阵
聚类分析
常用方法:划分方法、层次分析方法、基于密度的方法、基于网格的方法、给予模型的方法
常用算法:K-Means、K-中心点、系统聚类(多层次聚类)
评价方法:purity评价法(正确的比例)、RI评价法、F值评价法
聚类可视化工具——TSNE
关联规则:也称为购物篮分析,目标是找出各项之间的关系
常用算法:Apriori、FP-Tree、Eclat算法、灰色关联法
时序模式:给定一个已被观测的时间序列,预测该序列的未来值
常用模型:平滑法、趋势你合法、组合模型、AR模型、MA模型、ARMA模型、ARIMA、ARCH、GARCH模型及衍生
python主要时序算法函数:acf自相关,plot_acf画自相关系数图、pacf计算偏相关系数、plot_pacf画偏相关系数图、adfuller对观测值序列进行单位根检验、diff差分计算、ARIMA创建ARIMA时序模型、summary或summaty2给出ARIMA模型报告、aic/bic/hqic计算ARIMA模型的指标值、forecast预测、acorr_ljungbox检验白噪声
离群点检测
成因:数据源不同、自然变异、测量和收集误差
类型:全局离群点和局部离群点;数值型离群点和分类型离群点;一维离群点和多维离群点
检测方法:基于统计、基于邻近度、基于密度、基于聚类