集体智慧总结和使用范围归纳(三)

支持向量机(SVM)

先上图说明:
集体智慧总结和使用范围归纳(三)_第1张图片
这是一种监督式的分类方法,适合于数据量比较大的情况。即是首先对已知数据进行区域判定,之后位置数据落在哪个区域内,就判断是属于哪个分类。

训练

这里假设对户主进行行为分析,横轴和纵轴分别是两个特征,而不同颜色则是她的3种行为习惯,那么在划分了区域后,之后只要知道她的两种特征后,就能推断出她在做什么。
但是,如果分类图如下所示:
集体智慧总结和使用范围归纳(三)_第2张图片
就不好线性划分了,这时就需要用到 多项式变换或是 核技法。将这些点重新变成易于划分的形式。

优缺点

优点

适合于大量数据,分类速度快
缺点

遇到不好线性划分的数据要用核技法重新映射,然而不同的数据使用核技法的参数不同,每个都需要重新调整。
黑盒技术,虽然得到正确的结果,但不知道是如何得到的,过程难以理解。

k最邻近(KNN)

她的原理就是,对于一个需要预测的数据,找到已知数据集合中与她接近的k个数据,然后根据对他们的结果求均值得到预测的数据,常用来做价格预测。比如通过房子在什么城市,地段,卧室数量,房间面积,预测合适的房价。
这个方法不需要训练,只需计算未知数据与已知数据的关系即可。如图:
集体智慧总结和使用范围归纳(三)_第3张图片
说到物联网的应用,假如未来你有个智能管家,家里的各种消耗品都不需要人再去操心买了,她都负责买好,那么问题来了,她如何确定什么东西多少钱呢,那么她会收集一系列该商品的价格,并分时间段进行分析,如果在用户对时间要求不高的情况下,她会在该商品最便宜的时候买下该消耗品。

优缺点

优点

简单好理解,对无用数据可清晰判断并剔除
可随时加入已知数据,不需重新训练

缺点

运算量大,源数据始终在不断变大
对于k的确定以及权重函数、参数的确定需要大量的测试,费时费力。


to be continue...

你可能感兴趣的:(机器学习)