【5】使用结巴分词对分类语料库分词

转自 NLP论坛 http://www.threedweb.cn/thread-1295-1-1.html
工作空间(workspace)路径:X:\WorkSpace\text_mining
X为Windows硬盘盘符
项目主目录:

text_mining

    |-- text_corpus_small 目录:未分词训练语料库路径,子目录名称为语料库的分类,该类所属文本就位于子目录中           
    |-- text_corpust_pos 目录:预处理后训练语料库路径,子目录名称为语料库的分类,处理后文本就位于子目录中
    |-- text_corpus_segment 目录:分好词后的训练分类语料库路径,子目录名称为语料库的分类,分词后文本就位于子目录中
    |-- text_corpus_wordbag 目录:训练语料库与词包存放路径
         |-- train_set.data 文件:训练语料库持久化文件
         |-- word_bag.data 文件:词包持久化文件
    |-- jieba_example.py 文件:结巴分词测试文件
    |-- corpus_segment.py 文件:分类语料分词执行文件    |-- corpus_prepos.py 文件 : 文本预处理执行文件
    |-- train_bags.py 文件 : 整合并持久化训练语料库
    |-- tf-idf.py 文件 : 计算训练集的Tf-idf权重,并持久化为词包文件

预处理阶段的业务流程:

1. 使用 corpus_prepos.py 对 text_corpus_small 文本进行预处理:
    1)去掉不相关的header,footer,以及其他注释信息
    2)去除文本分行标志"\r\n"等,合并为一个段落
    3)处理好的文件放入到 text_corpust_pos 目录下,目录结构与 text_corpus_small 相同

2. 使用 corpus_segment.py 对 text_corpust_pos 内文本进行分词,分词后文件存入text_corpus_segment目录下,目录结构不变

3. 使用 train_bags.py 对 text_corpust_pos 内文本打包,打包后文件存入 text_corpus_wordbag 目录下,文件名为:train_set.data

4. 使用 tf-idf.py 对 train_set.data 中的数据计算训练集的Tf-idf权重,并持久词包文件 ,文件名为:word_bag.data

原始语料类别集:该类别集就是 text_corpus_small 子目录的列表

【5】使用结巴分词对分类语料库分词_第1张图片

分词前样例文件:

《北京市实施<中华人民共和国道路交通安全法>办法》已于2005年1月1日正式实施,1月25日全国春运工作也即将开始,北京交管部门将以新办法实施为契机,于1月份全面开展交通秩序整顿工作,为春运及春节的到来创造良好的交通环境。  据了解,这次交通秩序整顿以实现“两个确保”为主要目标,即:确保重点地区及主要大街、路口交通秩序良好,动、静态交通违法行为得到有效管控;确保城区内主要道路拥堵有所缓解,影响道路畅通和城市环境面貌的突出问题得到有效治理。  交管部门整顿的重点地区有天安门、前门等地区及秩序管理精品街和停车秩序管理示范街,包括四站一场(北京站、西客站、南站、北站、机场)及外埠长途客运场站;城区、郊区主要联络线,城镇主要大街及放射线公路,春运主要路线。还有群众反映强烈、“122”接报警集中的交通拥堵、秩序混乱点段也被列入整顿重点地区。  交管部门对违法车种、违法行为依据新交法进行整顿并处罚。  根据各交通支队管界违法行为特点及春运期间路面交通状况,以大小公共汽车、出租车、长途客车、大货车、“摩的”、残疾人专用车、非机动车和行人等“七车一人”为重点开展整顿。除继续加大对路口非机动车、行人乱穿乱行和路段乱停车交通违法行为的管理力度之外,还要持续加强对禁限车种的控制管理。各交通支、大队以管界模范、优秀、良好路口和秩序管理精品街、停车规范街(区)为重点,采取流动巡逻民警、定岗执勤民警、清障车及交通协管员四位一体的管理模式,加强对路口、路段非机动车、行人及乱停车违法行为的管理整顿,并充分利用多种宣传手段,营造严管氛围和整顿声势,确保主要大街交通秩序出现明显改观。同时以人力客、货运三轮车及残疾车为管理重点,对违法进入管制区域的人力客、货运三轮车发现一辆处罚一辆;近郊支队要以控制“摩的”、“农、马、拖”及货运机动车进入管制区域为主,加大执法力度,特别是对二、三、四环之间及四环路外围相关道路要加强管控,对进入管制区域的车辆严格处罚,进一步净化市区交通秩序环境。  远郊各支、大队将结合管界实际和春运期间路面交通状况,以预防和减少交通事故为目标,分阶段开展治理整顿。春运前(截至1月20日)以城镇主要道路和国道、市道、山区公路为主,对客货运车辆、农用车、拖拉机、摩托车等存在严重交通安全隐患车种及安全性能不合格车辆加强排查、整治,同时密切配合城、近郊区做好禁限车辆的卡口工作;春运期间要以国市道和春运路线为重点,对客货运车辆超员载客、站外揽客、非法停车、不按规定车道行驶、非法超车、疲劳驾驶以及过境外埠大型车辆违法行为依法严格处罚。  据悉,这次交通秩序整顿仍然坚持多警联动、捆绑式执法方式,对天安门、前门等繁华地区以及“四站一场”等交通枢纽周边道路加强管理,重点整治违法占路摊商、车行道内兜售物品、机动车乱停乱放以及三轮车、“摩的”等违法行为。  对于货运车辆管理,将充分利用高科技手段对车辆和驾驶员档案进行比对核查,及时发现机动车不按期年检、达到报废标准仍上路行驶以及驾驶员不按规定年审等违法行为,依法严格处罚。  1月份全市将集中夜查整顿,既要查处酒后开车、非司机开车、机动车遇停止信号通过路口及机动车无牌照上路行驶等严重违法行为,也要对货运车辆不按规定车道行驶、禁限车种驶入禁行区域等违法行为严格处罚。(江静)
复制代码

corpus_segment.py 代码如下:

# -*- coding: utf-8 -*-

import sys  
import os 
import jieba

# 配置utf-8输出环境
reload(sys)
sys.setdefaultencoding('utf-8')
# 分类语料库路径
corpus_path = "text_corpus_small"+"/"
# 分词后分类语料库路径
seg_path = "text_corpus_segment"+"/"

# 获取corpus_path下的所有子目录
dir_list = os.listdir(corpus_path)

# 获取每个目录下所有的文件
for mydir in dir_list:
        class_path = corpus_path+mydir+"/" # 拼出分类子目录的路径
        file_list = os.listdir(class_path)  # 获取class_path下的所有文件
        for file_path in file_list:   # 遍历所有文件
                file_name = class_path + file_path  # 拼出文件名全路径
                file_read = open(file_name, 'rb')   # 打开一个文件
                raw_corpus = file_read.read()       # 读取未分词语料
                seg_corpus = jieba.cut(raw_corpus)  # 结巴分词操作
                #拼出分词后语料分类目录
                seg_dir = seg_path+mydir+"/"  
                if not os.path.exists(seg_dir):    #如果没有创建
                        os.makedirs(seg_dir) 
                file_write = open ( seg_dir + file_path, 'wb' ) #创建分词后语料文件,文件名与未分词语料相同
                file_write.write(" ".join(seg_corpus))  #用空格将分词结果分开并写入到分词后语料文件中
                file_read.close()  #关闭打开的文件
                file_write.close()  #关闭写入的文件

print "中文语料分词成功完成!!!"
复制代码
corpus_path:未分类语料库路径
seg_path :分好词后的分类语料库路径

输出结果:

Building Trie..., from C:\Python27\lib\site-packages\jieba\dict.txt
loading model from cache c:\users\jackycaf\appdata\local\temp\jieba.cache
loading model cost 2.61299991608 seconds.
Trie has been built succesfully.
中文语料分词成功完成!!!

分词后语料类别集:该类别集就是 text_corpus_segment 子目录的列表:
【5】使用结巴分词对分类语料库分词_第2张图片

类别集相同:
文词后样例文件

《 北京市 实施 < 中华人民共和国 道路交通 安全法 > 办法 》 已于 2005 年 1 月 1 日 正式 实施 , 1 月 25 日 全国 春运 工作 也 即将 开始 , 北京 交管部门 将 以 新 办法 实施 为 契机 , 于 1 月份 全面 开展 交通秩序 整顿 工作 , 为 春运 及 春节 的 到来 创造 良好 的 交通 环境 。     据 了解 , 这次 交通秩序 整顿 以 实现 “ 两个 确保 ” 为 主要 目标 , 即 : 确保重点 地区 及 主要 大街 、 路口 交通秩序 良好 , 动 、 静态 交通 违法行为 得到 有效 管控 ; 确保 城区 内 主要 道路 拥堵 有所 缓解 , 影响 道路 畅通 和 城市 环境 面貌 的 突出 问题 得到 有效 治理 。     交管部门 整顿 的 重点 地区 有 天安门 、 前门 等 地区 及 秩序 管理 精品 街 和 停车 秩序 管理 示范街 , 包括 四站 一场 ( 北京站 、 西客站 、 南站 、 北站 、 机场 ) 及 外埠 长途 客运 场站 ; 城区 、 郊区 主要 联络线 , 城镇 主要 大街 及 放射线 公路 , 春运 主要 路线 。 还有 群众反映 强烈 、 “ 122 ” 接 报警 集中 的 交通拥堵 、 秩序 混乱 点段 也 被 列入 整顿 重点 地区 。     交管部门 对 违法 车 种 、 违法行为 依据 新交法 进行 整顿 并 处罚 。     根据 各 交通 支队 管界 违法行为 特点 及 春运期间 路面 交通状况 , 以 大小 公共汽车 、 出租车 、 长途客车 、 大 货车 、 “ 摩 的 ” 、 残疾人 专用车 、 非机动车 和 行人 等 “ 七车 一人 ” 为 重点 开展 整顿 。 除 继续 加大 对 路口 非机动车 、 行人 乱穿 乱行 和 路段 乱 停车 交通 违法行为 的 管理 力度 之外 , 还要 持续 加强 对 禁限车种 的 控制 管理 。 各 交通 支 、 大队 以 管界 模范 、 优秀 、 良好 路口 和 秩序 管理 精品 街 、 停车 规范 街 ( 区 ) 为 重点 , 采取 流动 巡逻 民警 、 定岗 执勤 民警 、 清障车 及 交通 协管员 四位一体 的 管理模式 , 加强 对 路口 、 路段 非机动车 、 行人 及乱 停车 违法行为 的 管理 整顿 , 并 充分利用 多种 宣传 手段 , 营造 严管 氛围 和 整顿 声势 , 确保 主要 大街 交通秩序 出现 明显 改观 。 同时 以 人力 客 、 货运 三轮车 及 残疾 车为 管理 重点 , 对 违法 进入 管制 区域 的 人力 客 、 货运 三轮车 发现 一辆 处罚 一辆 ; 近郊 支队 要 以 控制 “ 摩 的 ” 、 “ 农 、 马 、 拖 ” 及 货运 机动车 进入 管制 区域 为主 , 加大 执法 力度 , 特别 是 对 二 、 三 、 四环 之间 及 四环路 外围 相关 道路 要 加强 管控 , 对 进入 管制 区域 的 车辆 严格 处罚 , 进一步 净化 市区 交通秩序 环境 。     远郊 各支 、 大队 将 结合 管界 实际 和 春运期间 路面 交通状况 , 以 预防 和 减少 交通事故 为 目标 , 分阶段 开展 治理整顿 。 春运 前 ( 截至 1 月 20 日 ) 以 城镇 主要 道路 和 国道 、 市 道 、 山区 公路 为主 , 对 客货运 车辆 、 农用车 、 拖拉机 、 摩托车 等 存在 严重 交通 安全隐患 车种 及 安全 性能 不 合格 车辆 加强 排查 、 整治 , 同时 密切配合 城 、 近郊区 做好 禁限 车辆 的 卡口 工作 ; 春运期间 要 以国市 道 和 春运 路线 为 重点 , 对 客货运 车辆 超员 载客 、 站外 揽客 、 非法 停车 、 不 按规定 车道 行驶 、 非法 超车 、 疲劳 驾驶 以及 过境 外埠 大型 车辆 违法行为 依法 严格 处罚 。     据悉 , 这次 交通秩序 整顿 仍然 坚持 多警 联动 、 捆绑式 执法 方式 , 对 天安门 、 前门 等 繁华 地区 以及 “ 四站 一场 ” 等 交通枢纽 周边 道路 加强 管理 , 重点 整治 违法 占路 摊商 、 车行道 内 兜售 物品 、 机动车 乱 停 乱放 以及 三轮车 、 “ 摩 的 ” 等 违法行为 。     对于 货运 车辆管理 , 将 充分利用 高科技 手段 对 车辆 和 驾驶员 档案 进行 比对 核查 , 及时发现 机动车 不 按期 年检 、 达到 报废 标准 仍 上路 行驶 以及 驾驶员 不 按规定 年 审 等 违法行为 , 依法 严格 处罚 。     1 月份 全市 将 集中 夜查 整顿 , 既 要 查处 酒后 开车 、 非 司机 开车 、 机动车 遇 停止 信号 通过 路口 及 机动车 无 牌照 上路 行驶 等 严重 违法行为 , 也 要 对 货运 车辆 不 按规定 车道 行驶 、 禁限车种 驶入 禁行 区域 等 违法行为 严格 处罚 。 ( 江静 )

你可能感兴趣的:(文本挖掘)