最近在看计算语言学的书,突然想了解下这些模型、定律之类的由来,就开始搜集资料,整理了一下,写成本博文。不愧是大牛们啊,东西有点难理解,所以本博文只写了点皮毛。
1.Markov链
这里涉及到一个随机过程的概念,根据个人理解,这个概念可以归结为以下两点:(1)一个时间函数,随时间改变而改变;(2)每个时刻函数值不确定,是随机的,即每个时刻上的函数值按一定概率分布。例如,语言的使用,语言就是一系列具有不同随机试验结局的链。
关于链有以下三种:(1)独立链:有一个原记忆信源发出(Markov过程的原始形式);(2)等概率独立链;(3)不等概率独立链。
Markov链:前一时刻的函数值对后一时刻有影响,由有记忆信源发出。
Markov链的分类:(1)一重Markov链(对应二元语法);(2)二重Markov链(对应三元语法);(3)三重Markov链(对应四元语法);......(注意:重数越大越接近真是文本,但会引发数据稀疏问题,关于数据稀疏的问题解决方法网上有很多资料,我在后续博文中也会跟进)。
2.Zipf定律
主要由研究词的出现频率和词的序号的关系时得到。
(1)最原始的Zipf定律: (单参数序号分布定律)其中0<c<1,;
(2)Mr.Joos修正:(双参数序号分布定律)其中b>0,0<c<1,;
(3)B.B.Mandelbrot: (三参数序号分布定律) 其中,b>0,c>0,;
几点说明:
c与出现概率最高的单词的概率大小有关;
b与高概率单词的数量的多少有关,b是非递减函数,随着r的增大,b并不是减小;
a与单词的数量n有关,自由度大,灵活,可适应测定数据。
特殊情况:
15<r<1500时,频率相同的词群容量不大;
r>1500时,即当单词频率较小时,频率相同的词群的容量大大增加,此时会出现数据稀疏问题。
归纳几点:
r增大到一定值时,画出的频率和序号关系图不再是直线,而是阶梯形的破碎折线;
单词序号雷同的数目是随单词频率的减少而逐渐增大的;
频率最高的前几个单词占语言文本的较大比例。
3.Shannon关于“熵”的研究
熵:度量随机试验不定度的大小。
信息量的关于被消除的熵。也就是说你得到信息量越多,熵越小,事情越确定。
可以用度量熵的合理性(n为等概率结局的随机试验):
(1)n越大,熵越大;
(2)做两个随机试验的复合试验,每个有n个可能结局,则此复合试验共有n的二次方个结局,如掷两颗骰子的 熵是掷一颗骰子的两倍,即;
(3)两个随机试验的复合试验,一个有m个结局,另一个有n个结局,则 。
n个等概率结局和n个不等概率结局的比较
假设(n个结局,等概率)
随着试验结局不等概率,减少了这个随机试验的不定度,所以。
另一个概念是困惑度(perplexity):在随机试验中选择随机变量的加权平均数。熵越大,困惑度越大。通俗点讲就是,熵越大,越不确定,你不就越感到困惑了嘛。。。
熵和困惑度用于评估N元语法模型的计量方法。(关于条件熵、相对墒之类的后文会继续跟进,详细讲述)
4.Bar-Hilel的范畴语法
主要思想:任何词都可以根据它在句子中的功能归入一定的句法类型。此处会用到一些类似的句法类型演算规则:
(1)(a)(a\b) ->b (2)(a\b)(b\c) ->a\c
(3)(b/c)(c) ->b (4)(a/b)(b/c) ->a/c
个人愚见:(1)(3)类似于离散数学中的消解规则;(2)(4)有点像经常说的传递性。
5.Harris的语言串分析法
这个有点难限于本人能力有限。。。只简单介绍几个概念吧!
词串:任何一个句子或其组成部分中按线性顺序排列的一个或多个词。
串式:用词类或其次类替换词串的具体的单词而形成的符号串。
句子:基于串通过附加、连接和替换等方式结合而成。
6. O.C.kyjiarHHa的语言集合论模型
模型 L={w,o} 其中w为词集合,o为在w上成立句子的集句。
成立句子:语法正确,不考虑语义是否正确。
不成立句子:语法部分就有错误。
词的域:一个词及其词行变化的全部形式的集合。
词的族:等价性可以把集合分化为一系列不相交子集合,这个子集合叫做族。