数据采集清洗

文档名称:  使用说明

程序名称:  数据采集清洗分词V1.0

1简介

1.1数据采集程序

  1. 数据采集程序基于Python Urllib.request模块编写。Urllib.request是 HTTP 请求模块,可以模拟发送请求,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。
  2. 运行环境:

① Python 3

② Urllib.request

③ Beautifulsoup

1.2数据清洗分词

1)分词工具采用Hanlp,分词算法为前缀树。Hanlp是面向生产环境的多语种自然语言处理工具包,具有功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

2)运行环境:

① Python 3

② JDK 1.8+

③ Pyhanlp

④ fontTools

2 主要功能

2.1 数据采集

    数据采集程序支持抓取如下网站(网络社区)数据:

  1. 新浪新闻
  2. 搜狐新闻
  3. 网易新闻
  4. 环球新闻
  5. 中国新闻网
  6. 东方财富
  7. 新浪微博
  8. 虎扑论坛
  9. 人民日报

数据类别主要包括新闻类数据和论坛类数据。其中新闻类数据覆盖各大主流领域,包括时政、财经、军事、科技、娱乐、体育等,数据分布较为平衡,日均抓取数据25±5W条,在控制抓取速度的情况下采集较为稳定。

2.2 数据清洗分词

    数据清洗分词程序支持清洗内容:

        1)Html标识符乱码清洗

        2)标点符号,特殊符号,空白符号,emoji表情符号清洗

        3)全角字符转半角  

        4)英文字符统一为大写,除英文和中文外其他国家语言文字清洗

        5)阿拉伯数字串不同场景中文读法转写

        6)繁体转简体

数据清洗分词效果采样预览:

3 使用说明

3.1 数据采集程序使用说明

  1. 进入服务器dnnd  /dnn4_added/zhaodan
  2. 执行Docker命令 docker exec -it 955ce6a33acc /bin/bash 进入容器centos-spider

图3-1 Docker 镜像概览图

  1. 进入数据采集程序容器中地址: /home/spider/spiders
  2. 运行脚本: sh run.sh  即可开始数据采集程序。
  3. 日志文件放在/home/spider/spiders/log目录中,采集到的数据文件放在/home/spider/spiders/data目录中。
  4. 容器中输入exit可退出当前容器停止工作。docker ps 可查看运行中的容器状态 docker exec -it 955ce6a33acc /bin/bash 可重新进入容器。
  5. 容器与主机间的文件复制命令:

  例:复制主机目录 /home/path/file.txt 到容器96f7f14e99目录/home/下

Eg:在主机目录下 docker cp /home/path/file.txt 96f7f14e99:/home/

3.2 数据清洗程序使用说明

1) 进入服务器dnnd  /dnn4_added/zhaodan

2)执行Docker命令  docker run -i -t 0202d8154b84 /bin/bash 进入容器data_clean。如图3-1中容器列表所示。

3)进入数据清洗分词程序容器中地址: /home/data/tools/clean.py

4)运行命令python clean.py [inPath] [outPath] 即可开始对目标文件清洗分词。 其中inPath,outPath分别为待清洗文本路径和输出文本路径。如下例所示。

图3-2 数据清洗程序命令示例图

5)容器中输入exit可退出当前容器。

你可能感兴趣的:(python,大数据)