模式识别: 模式识别是一种问题,把一个样本分为哪个类,一共有n个类.
机器学习: 它的上层是统计学,统计学的上层是数学,机器学习就是把统计学的方法在计算机实施,用统计学的原理解决计算机问题,统计学是方法,是工具,其中去解决模式识别这种问题,在机器学习中有以下几种方法: VSM(向量空间模式), SVM(支持向量机), 决策树, 神经网络.(这四种方法都是适用于不同的问题).
样本集: 其实就相当于数学中的根据解求解方程式的参数,然后解出这个方程组,然后根据这个方程在去求解,其中求参数的解就相当于样本集,也就是语料,.
其中,VSM产生于60年代,现在基本上已经抛弃了,主要用于学校里的讲课, 特点是 1. 小样本正确性高, 2. 便于实施 3. 学习速度很快 SVM产生于90年代
这里主要讲VSM, 用来文本分类, 采用向量空间的形式, 分类(模式)->vector, 文档->vector, 词汇->vector,把分类,文档和词汇都抽象为vector, 基于下边的一个假设:词出现的概率是独立的(也叫理想的数学假设)
现在先假设分为三类:A , B, C三类:
每类提供10w个文档语料, 共计30w文档语料, 求出每类语料中wi词汇出现的次数N1,N2,N3,即wi = {N1, N2, N3}, 然后转换到向量空间中, 进行数学的优化和简化, 然后在过滤到一些垃圾词汇(采用辨异系数,公式根据实际业务去弄), 然后把数据训练好之后, 来一个文档,分词, 把每个刚才向量空间的出现的词汇,根据求每个词的wi之和, 计算出文档的向量值, 然后在根据和A,B,C的相识度(即计算夹角,转而计算cos值)来求文档属于哪个类别,改进:多重空间,增加词与词之间的联系.
学习对算法的优化和改造.只有对算法的理解和熟练之后,你才能根据你的业务去优化, 我们不能只掌握工具,只知道解决这个问题用这种算法,只知道工具,而不能理解本质,去发挥,其实c/c++,数据结构,这些都随着做的项目的增加,会提高的.