文档名称: 使用说明
程序名称: 数据采集清洗分词V1.0
1简介
1.1数据采集程序
① Python 3
② Urllib.request
③ Beautifulsoup
1.2数据清洗分词
1)分词工具采用Hanlp,分词算法为前缀树。Hanlp是面向生产环境的多语种自然语言处理工具包,具有功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
2)运行环境:
① Python 3
② JDK 1.8+
③ Pyhanlp
④ fontTools
2 主要功能
2.1 数据采集
数据采集程序支持抓取如下网站(网络社区)数据:
数据类别主要包括新闻类数据和论坛类数据。其中新闻类数据覆盖各大主流领域,包括时政、财经、军事、科技、娱乐、体育等,数据分布较为平衡,日均抓取数据25±5W条,在控制抓取速度的情况下采集较为稳定。
2.2 数据清洗分词
数据清洗分词程序支持清洗内容:
1)Html标识符乱码清洗
2)标点符号,特殊符号,空白符号,emoji表情符号清洗
3)全角字符转半角
4)英文字符统一为大写,除英文和中文外其他国家语言文字清洗
5)阿拉伯数字串不同场景中文读法转写
6)繁体转简体
数据清洗分词效果采样预览:
3 使用说明
3.1 数据采集程序使用说明
图3-1 Docker 镜像概览图
例:复制主机目录 /home/path/file.txt 到容器96f7f14e99目录/home/下
Eg:在主机目录下 docker cp /home/path/file.txt 96f7f14e99:/home/
3.2 数据清洗程序使用说明
1) 进入服务器dnnd /dnn4_added/zhaodan
2)执行Docker命令 docker run -i -t 0202d8154b84 /bin/bash 进入容器data_clean。如图3-1中容器列表所示。
3)进入数据清洗分词程序容器中地址: /home/data/tools/clean.py
4)运行命令python clean.py [inPath] [outPath] 即可开始对目标文件清洗分词。 其中inPath,outPath分别为待清洗文本路径和输出文本路径。如下例所示。
图3-2 数据清洗程序命令示例图
5)容器中输入exit可退出当前容器。