数学之美_读书笔记

目录

      • 1、自然语言处理
      • 2、信息熵
      • 3、搜索引擎-布尔代数
      • 4、图论与网络爬虫
      • 5、pagerank-网页质量度量
      • 6、查询与网页相关性
      • 7、卫星定位,地址识别,路线规划
      • 8、新闻分类
      • 9、矩阵运算、文本分类
      • 10、信息指纹
      • 11、网页搜索排名作弊
      • 12、计算权威度(搜索引擎过滤噪音,类似通信系统)
      • 13、最大熵模型
      • 14、拼音输入法
      • 15、布隆过滤器
      • 16、贝叶斯网络(加权有向图)-马尔科夫链的扩展
      • 17、条件随机场
      • 18、维特比算法(适用于解决隐马尔可夫模型问题)
      • 19、期望最大化算法(EM)
      • 20、逻辑回归(指数模型)
      • 21、云计算
      • 22、人工神经网络
      • 23、大数据
      • 24、算法

1、自然语言处理

从规则到统计
统计语言模型(马尔可夫假设,局限性,上下文相关性跨度大)
模型训练(大数定理,语料选取)
零概率问题(平滑折扣)
LDC(标准语料库组织)
务于精纯,观其大略

2、信息熵

不确定性的多少
H=-(p1logP1+p2logP2+…+Pn*logPn)
条件熵H(X|Y)
H(X)>=H(X|Y),知道了Y,X的不确定性变小了,二元模型的不确定性小于一元模型,同理H(X|Y)>=H(X|Y,Z),无关时等号成立
互信息I(X;Y)=H(X)-H(X|Y),完全相关为1,不相关为0
相对熵(交叉熵),越大差异越大,可度量两个随机分布的差异性

3、搜索引擎-布尔代数

下载、索引、排序

4、图论与网络爬虫

bfs
七桥问题-度-偶数
调度系统-优先队列
url表记录已处理过的网页–hash分类,批处理

5、pagerank-网页质量度量

线性代数,矩阵乘法–分布式计算,mapreduce
不同网页权重影响-迭代收敛
用户点击量
稀疏矩阵-平滑

6、查询与网页相关性

TF*IDF+…
词频,单文本中词的权重
逆文本频率指数,出现该词的文本在所有文本中的权重log(D/Dw)

针对不同关键词(信息量),再对不同TF进行加权

查询排名-相关性与pagerank乘积

7、卫星定位,地址识别,路线规划

有限状态机(编译器)
加权有限状态转换器WFST(自然语言理解,语音识别解码器,拼音输入法、语法纠错,生物序列分析)-每个状态由当前输入输出定义
基于概率的有限状态机
动态规划-

贪心算法(最优子结构,贪心选择性质-每一步选择都会导致最终的最优解,包含上一步最优解,不保留)贪心不能保证求得的最后解是最佳的,一般复杂度(只有特殊情况才会使用)
动态规划(最优子结构,重复子问题-消除重叠子问题,全局最优解包含某个局部最优解,不一定是上一步,所以要记录所有局部最优解,本质是穷举,复杂度高)贪心是最简单最特殊的动态规划
傅里叶变换(函数-》正弦函数(保真度,特征向量))

8、新闻分类

余弦定理-计算向量夹角,描述相关性
cosA=/(|b|*|c|) 向量内积/长度乘积
(x1x2+y1y2)/()

9、矩阵运算、文本分类

奇异值分解(SVD)-双对角矩阵,拆分三个矩阵
Amn=XmmBmnYnn
粗分类–》向量余弦,迭代,精确分类

10、信息指纹

网址去重
url(任意长度整数)-伪随机数PRNG,生成指定长度的伪随机数(平方取中间几位数,梅森旋转算法)

密码
统计破解-多对一随机映射
大素数,非对称加密,费马小定理

集合比较(顺序,排序比较,一个集合hash散列表映射,计算两个集合指纹(每个元素指纹相加,加法交换律))
应用-网页内容比较(idf最大的几个词组成的集合)
网页,论文转载检测
视频盗版检测(关键帧和特征提取)

11、网页搜索排名作弊

隐藏关键词,新增网络连接数,高质量落地页脚本跳转,出链接页向量余弦距离
加强信源编码抗干扰能力,消除传输噪音

12、计算权威度(搜索引擎过滤噪音,类似通信系统)

句法分析,互信息,词组聚类

13、最大熵模型

一个好方法在形式上是简单的
满足所有已知条件,对未知不做任何主管假设,训练一组特征的参数
迭代算法GIS(使用每次迭代后的模型估算分布,超过就减小参数,否则增大参数,计算量大)
改进后IIS

14、拼音输入法

信息熵、图最短路径问题、个性化语言模型(与通用模型线性插值)

15、布隆过滤器

(实际上是一个很长的二进制向量和一系列随机映射函数,基本原理:两个随机数字冲突概率很小)
用于判断元素是否存在于一个集合中,快速,省空间,但是有一定的误识别率(白名单)

16、贝叶斯网络(加权有向图)-马尔科夫链的扩展

结构训练,参数训练
图像处理、文字处理(语义近义词)、支持决策、生物统计、博弈论

应用:文本分类-文章、概念(关键词聚类),关键词组成贝叶斯网络
结构训练-贪心,防止进入局部最优(保留互信息较大的节点,或用许多随机数检验)
理论简单,模型复杂

17、条件随机场

随机变量看作节点,两节点相关则连接,若干随机变量,形成一个有向图,构成一个网络
若该网络是一个有向无环图,则称贝叶斯网络
若退化成线性链,则称马尔可夫模型
可看作每个时刻或空间的相关变化,从随机过程的视角,则称马尔可夫过程
无向图模型,则称马尔可夫随机过程马尔可夫网络
给定某些条件,则称条件随机场CRF
若用条件随机场研究标注问题,进一步网络变成线性,则称线性链条件随机场

文法分析、预防犯罪、模式识别、机器学习、生物统计

18、维特比算法(适用于解决隐马尔可夫模型问题)

针对篱笆网络
动态规划解决最短路径问题
不超过O(N*D^2) - N层,最多D个状态
只要处理每个状态的时间比说话、打字快,就能做到实时

FDMA频分多址
TDMA时分多址
CDMA码分多址

19、期望最大化算法(EM)

文本分类-(随机选点,根据到点距离分类,重新计算中心,迭代统计使得选点到新中心偏移最小)
定义一个最大化函数就行了,迭代
凸函数前提
不一定收敛到全局最优解

20、逻辑回归(指数模型)

将一个事件出现的概率适应到一条逻辑曲线上(值域0-1),与概率分布联系
z=B0+B1x1+B2x2+…+Bkxk
f(z)=1/(1+e^-z)
搜索广告,预测点击(训练方法,迭代算法GIS)
生物统计

21、云计算

分治算法(google,MapReduce,拆分调度负载均衡),矩阵计算
归并排序

22、人工神经网络

分层有向图
模式分类
设计结构(层数,节点)
神经元函数(对输入变量线性组合后进行一次非线性变换)
参数训练,有监督训练,成本函数,转变为最优化问题,梯度下降法(沿着斜率变化最快的方向)
无监督训练,设计一个成本函数,多维空间的模式分类问题,到聚类中心距离
人工神经网络同贝叶斯网络,遵从马尔可夫假设(每一层节点取值只取决于前一级节点),人工神经网络更标准化,神经元函数为非线性函数,各个变量只能先线性组合,再进行非线性变换,较简单,只能识别单个字,而贝叶斯更灵活,任意函数,较复杂,更易考虑前后相关性,可作解码器,解码一个输入序列
google大脑(采用人工神经网络,通用性,稳定,简单易并行),随机梯度下降法(降低每一次的计算量,随机抽取少量数据计算成本函数,牺牲一点准确性),L-BFGS(减少迭代次数,每次根据距目标远近调整迭代步长,易并行)

23、大数据

数据准确性,代表性
网页数据(索引),点击数据(60%-80%),浏览器,输入法数据

24、算法

多项式函数复杂度:算法的计算量不超过N的多项式函数
P问题:一个问题存在多项式复杂度的算法(计算机可有效解决)
非P问题:高于N的多项式函数计算量(理论上可解决,实际上做不到,如围棋的每一步最佳走法)
NP问题:非确定的多项式问题(能在多项式复杂度的时间里证实一个答案是否正确,则不论能否找到多项式复杂度算法,都称为NP问题)
NP?=P,如果被证实相等,加密问题(因数分解)将会易破解
NPComplete问题:NP完全问题,NP问题中最困难的,所有NP问题都能在多项式时间里归约到NPC问题
NPHard问题:计算复杂度大于等于NPComplete问题
NP问题思路:减少指数值,近似解

寻找一个问题的计算机算法,首先要寻找多项式复杂度的算法(找不到的,如贝叶斯网络训练算法,只能利用数学方法简化求近似解)

你可能感兴趣的:(读书笔记)