python3爬虫之入门和正则表达式,获取IP地址, 隐马尔可夫模型及其在分词中的简单应用

python3爬虫之入门和正则表达式
http://blog.csdn.net/peace1213/article/details/48950593
正则表达式:
http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

Python获取IP地址 :

import socket

def get_ip():
    try:
        csock = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
        csock.connect(('8.8.8.8', 80))
        (addr, port) = csock.getsockname()
        csock.close()
        return addr
    except socket.error:
        return "127.0.0.1"

隐马尔可夫模型及其在分词中的简单应用

隐马尔可夫模型是一个五元组<S,O,A,B,π>

S:状态集合:即所有可能的状态s1,s2,…,sn所组成的集合。

O:观察序列:即实际存在的一个状态的有向序列,如状态o1,o2,…,on,注意状态是存在顺序的。

A:状态转移分布,即S中各元素中,两两之间转移的概率值。比如当前是s2,下一个状态是s9的转移概率为s2,9(小于1)。

B:每种状态出现的概率分布。

π:初始的状态分布

HMM模型有三个主要用途,没有例子可能比较难于理解,分词示例:

  1. 参数学习

模型没有建立前,有已经分好词的部分语料。利用现有语料训练模型,得到各参数的值。我们使用最简单的HMM(设S由四种状态构成:词头,词中、词尾、单字成词),可以这样做:

假如训练语料有两句话:

我 爱 你 程序员。

他们 两个 人 是 半斤八两。

a. O是观察序列,本例中,就是:“我、爱、你、程、序、员、他、们、两、个、人、是、半、斤、八、两”这16个字。

b. S由四种状态构成:词头(如“程”),词中(如“序”)、词尾(如“员”)、单字成词(如“爱”、“你”)

c. A即由一个状态转移到另一个状态的概率集合,本例共有8种状态

                                                           i.      单字成词->单字成词,如a我单单=1“我”后面一定是单字成词

                                                         ii.      单字成词->词头,如a我单头=0“我”后面一定不是词头,而a你单头=1

                                                        iii.      词头->词中

                                                       iv.      词头->词尾

                                                           i.            词中->词尾

                                                         ii.            词中->词中

                                                        iii.            词尾->词头

                                                       iv.            词尾->单字成词

d. B由各状态的概率分布构成,如b我单=1(“我”一定单字成词)。

e. π由初始状态的概率构成,此例中为π我=1/2(以“我”开头的概率为1/2),π他=1/2(以“他”开头的概率为1/2)。

  1. 评价问题

以上面一个问题的参数为基础,评估第一句话:我 爱 你 程序员。

“我”开头的概率为π我=1/2,“我”转移到“爱”的概率为a我单=1,“爱”到“你”的概率为a单单=1,“你”到“程”的概率为a单头=1, “你”到“序”的概率为a头中=1,“序”到“员”的概率为a中尾=1,而本例(因为字太少,每个字只出现一次)中所有的b都为1,所以该句的概率为:

Pv=π我b我单 *a我单单 b爱单a爱单单*b你单 *a你单头 b程头a程头中*b序中 *a序中尾 b员尾

注:至于数值越界等非原理问题这里就不详解了,请大家自己找资料。

  1. 分词问题

比如还以第一个问题的参数为基础,来解码还没有分词的句子:我爱人是程序员。

因为首字是“我”,所以是“他”的情况被排除。

π我=1/2,

“我”后面是单字的概率为1,a我单=1(即只能是单字),其它情况的概率为0

“爱”后面是单字的概率为1,a爱单=1,其它情况的概率为0

“人”后面是单字的概率为1,a人单=1,其它情况的概率为0

“是”后面是词头的概率为1,a是头=1,其它情况的概率为0

“程”后面是词中的概率为1,a程中=1,其它情况的概率为0

“序”后面是词尾的概率为1,a序尾=1,其它情况的概率为0

所有分词的可能性是很多的,需要采用动态规划的算法,这里就不详述了,只给出其中三种可能作为示例:

a. “我”为开头,“爱”是单字成词,“人”是单字成词,“是”是单字成词,“程”是词头,“序”是词中,“员”是词尾:

P1= π我*b我单*a我单单*b爱单*a爱单单*b人单*a人单单*b是单*a是单头*b程头*a程头中*b序中*a序中尾*b员尾

=1/2*1*1*1*1*1*1*1*1*1*1*1*1*1=1/2

b. “我”为开头,“爱”是词头,“人”是词尾,“是”是单字成词,“程”是词头,“序”是词中,“员”是词尾:

P1= π我*b我单*a我单头*b爱头*a爱头尾*b人尾*a人尾单*b是单*a是单头*b程头*a程头中*b序中*a序中尾*b员尾

=1/2*1*0*0*0*0*0*1*1*1*1*1*1*1=0

c. “我”为开头,“爱”是词头,“人”是词中,“是”是词尾,“程”是词头,“序”是词中,“员”是词尾:

P1= π我*b我单*a我单头*b爱头*a爱头尾*b人中*a人中尾*b是尾*a是尾头*b程头*a程头中*b序中*a序中尾*b员尾

=1/2*1*0*0*0*0*0*0*0*1*1*1*1*1=0

你可能感兴趣的:(python3爬虫之入门和正则表达式,获取IP地址, 隐马尔可夫模型及其在分词中的简单应用)