从规则到统计
统计语言模型(马尔可夫假设,局限性,上下文相关性跨度大)
模型训练(大数定理,语料选取)
零概率问题(平滑折扣)
LDC(标准语料库组织)
务于精纯,观其大略
不确定性的多少
H=-(p1logP1+p2logP2+…+Pn*logPn)
条件熵H(X|Y)
H(X)>=H(X|Y),知道了Y,X的不确定性变小了,二元模型的不确定性小于一元模型,同理H(X|Y)>=H(X|Y,Z),无关时等号成立
互信息I(X;Y)=H(X)-H(X|Y),完全相关为1,不相关为0
相对熵(交叉熵),越大差异越大,可度量两个随机分布的差异性
下载、索引、排序
bfs
七桥问题-度-偶数
调度系统-优先队列
url表记录已处理过的网页–hash分类,批处理
线性代数,矩阵乘法–分布式计算,mapreduce
不同网页权重影响-迭代收敛
用户点击量
稀疏矩阵-平滑
TF*IDF+…
词频,单文本中词的权重
逆文本频率指数,出现该词的文本在所有文本中的权重log(D/Dw)
针对不同关键词(信息量),再对不同TF进行加权
查询排名-相关性与pagerank乘积
有限状态机(编译器)
加权有限状态转换器WFST(自然语言理解,语音识别解码器,拼音输入法、语法纠错,生物序列分析)-每个状态由当前输入输出定义
基于概率的有限状态机
动态规划-
贪心算法(最优子结构,贪心选择性质-每一步选择都会导致最终的最优解,包含上一步最优解,不保留)贪心不能保证求得的最后解是最佳的,一般复杂度(只有特殊情况才会使用)
动态规划(最优子结构,重复子问题-消除重叠子问题,全局最优解包含某个局部最优解,不一定是上一步,所以要记录所有局部最优解,本质是穷举,复杂度高)贪心是最简单最特殊的动态规划
傅里叶变换(函数-》正弦函数(保真度,特征向量))
余弦定理-计算向量夹角,描述相关性
cosA=/(|b|*|c|) 向量内积/长度乘积
(x1x2+y1y2)/()
奇异值分解(SVD)-双对角矩阵,拆分三个矩阵
Amn=XmmBmnYnn
粗分类–》向量余弦,迭代,精确分类
网址去重
url(任意长度整数)-伪随机数PRNG,生成指定长度的伪随机数(平方取中间几位数,梅森旋转算法)
密码
统计破解-多对一随机映射
大素数,非对称加密,费马小定理
集合比较(顺序,排序比较,一个集合hash散列表映射,计算两个集合指纹(每个元素指纹相加,加法交换律))
应用-网页内容比较(idf最大的几个词组成的集合)
网页,论文转载检测
视频盗版检测(关键帧和特征提取)
隐藏关键词,新增网络连接数,高质量落地页脚本跳转,出链接页向量余弦距离
加强信源编码抗干扰能力,消除传输噪音
句法分析,互信息,词组聚类
一个好方法在形式上是简单的
满足所有已知条件,对未知不做任何主管假设,训练一组特征的参数
迭代算法GIS(使用每次迭代后的模型估算分布,超过就减小参数,否则增大参数,计算量大)
改进后IIS
信息熵、图最短路径问题、个性化语言模型(与通用模型线性插值)
(实际上是一个很长的二进制向量和一系列随机映射函数,基本原理:两个随机数字冲突概率很小)
用于判断元素是否存在于一个集合中,快速,省空间,但是有一定的误识别率(白名单)
结构训练,参数训练
图像处理、文字处理(语义近义词)、支持决策、生物统计、博弈论
应用:文本分类-文章、概念(关键词聚类),关键词组成贝叶斯网络
结构训练-贪心,防止进入局部最优(保留互信息较大的节点,或用许多随机数检验)
理论简单,模型复杂
随机变量看作节点,两节点相关则连接,若干随机变量,形成一个有向图,构成一个网络
若该网络是一个有向无环图,则称贝叶斯网络
若退化成线性链,则称马尔可夫模型
可看作每个时刻或空间的相关变化,从随机过程的视角,则称马尔可夫过程
无向图模型,则称马尔可夫随机过程或马尔可夫网络
给定某些条件,则称条件随机场CRF
若用条件随机场研究标注问题,进一步网络变成线性,则称线性链条件随机场
文法分析、预防犯罪、模式识别、机器学习、生物统计
针对篱笆网络
动态规划解决最短路径问题
不超过O(N*D^2) - N层,最多D个状态
只要处理每个状态的时间比说话、打字快,就能做到实时
FDMA频分多址
TDMA时分多址
CDMA码分多址
文本分类-(随机选点,根据到点距离分类,重新计算中心,迭代统计使得选点到新中心偏移最小)
定义一个最大化函数就行了,迭代
凸函数前提
不一定收敛到全局最优解
将一个事件出现的概率适应到一条逻辑曲线上(值域0-1),与概率分布联系
z=B0+B1x1+B2x2+…+Bkxk
f(z)=1/(1+e^-z)
搜索广告,预测点击(训练方法,迭代算法GIS)
生物统计
分治算法(google,MapReduce,拆分调度负载均衡),矩阵计算
归并排序
分层有向图
模式分类
设计结构(层数,节点)
神经元函数(对输入变量线性组合后进行一次非线性变换)
参数训练,有监督训练,成本函数,转变为最优化问题,梯度下降法(沿着斜率变化最快的方向)
无监督训练,设计一个成本函数,多维空间的模式分类问题,到聚类中心距离
人工神经网络同贝叶斯网络,遵从马尔可夫假设(每一层节点取值只取决于前一级节点),人工神经网络更标准化,神经元函数为非线性函数,各个变量只能先线性组合,再进行非线性变换,较简单,只能识别单个字,而贝叶斯更灵活,任意函数,较复杂,更易考虑前后相关性,可作解码器,解码一个输入序列
google大脑(采用人工神经网络,通用性,稳定,简单易并行),随机梯度下降法(降低每一次的计算量,随机抽取少量数据计算成本函数,牺牲一点准确性),L-BFGS(减少迭代次数,每次根据距目标远近调整迭代步长,易并行)
数据准确性,代表性
网页数据(索引),点击数据(60%-80%),浏览器,输入法数据
多项式函数复杂度:算法的计算量不超过N的多项式函数
P问题:一个问题存在多项式复杂度的算法(计算机可有效解决)
非P问题:高于N的多项式函数计算量(理论上可解决,实际上做不到,如围棋的每一步最佳走法)
NP问题:非确定的多项式问题(能在多项式复杂度的时间里证实一个答案是否正确,则不论能否找到多项式复杂度算法,都称为NP问题)
NP?=P,如果被证实相等,加密问题(因数分解)将会易破解
NPComplete问题:NP完全问题,NP问题中最困难的,所有NP问题都能在多项式时间里归约到NPC问题
NPHard问题:计算复杂度大于等于NPComplete问题
NP问题思路:减少指数值,近似解
寻找一个问题的计算机算法,首先要寻找多项式复杂度的算法(找不到的,如贝叶斯网络训练算法,只能利用数学方法简化求近似解)