Hawk教程- 数据表和数据库连接

  • GitHub文档镜像
  • 欢迎使用Hawk
  • 快速教程
  • 主要组件介绍
  • 核心功能:
    • Hawk工程
    • Hawk任务市场
    • 数据表和数据库连接
    • 网页采集器
    • 数据清洗
  • [模块和算子]
    • 转换器
    • 过滤器
    • 执行器
    • 生成器
  • 常见问题
  • 更新日志作者和捐赠列表
  • 专题:
    • 子任务引擎
    • 动态页面抓取专题
    • 命令行增量和自动化
    • 编译和扩展开发
  • 案例:
    • 参考这里
  • 发布文章:
    • Hawk1:如何从互联网采集海量数据?租房,二手房,薪酬
    • Hawk2:120项改进开源超级爬虫Hawk2.0重磅发布
    • Hawk3:终于等到你:图形化开源爬虫Hawk3发布
    • Hawk5:革命性的任务市场开源图形化爬虫Hawk5发布
  • 故事:
    • 设计Hawk背后的故事(2016)
    • 花一年时间,给爬虫Hawk再讲个故事(2018)

数据表和数据库连接

1.数据表

当加载了数据集时,在本视图中,就可对其查看和编辑:

  1. 点击右键,可以对数据集进行删除,修改名称等
  2. 将数据集拖拽到下方的图标上,如拖到回收站,即可删除该模块。
  3. 双击数据集可查看模块的内容。 将数据集拖拽到数据清洗图标上,可直接对本数据集做数据清洗。
Hawk教程- 数据表和数据库连接_第1张图片
数据表和操作

2.数据库连接器

能够添加来自不同数据源的连接器, 并对数据进行加载和管理:

  • 在空白处,点击右键,可增加新的连接器
  • 在连接器的数据表上,双击可查看样例
  • 点击右键,可以将数据加载到内存中。
Hawk教程- 数据表和数据库连接_第2张图片
连接器配置

目前支持的连接器包括:

  • MongoDB
  • sqlite
  • 文件读写
  • MySql(测试不完全)

2.1.MongoDB

提供MongoDB交互的数据库服务

配置设置

Hawk教程- 数据表和数据库连接_第3张图片
MongoDB连接

在安装MongoDB之后,在空白位置点右键,即可选择插入一个MongoDB连接器,在服务器地址,用户名和密码,数据库名称上填写所需的字段,然后点击连接数据库即可。

如果你是小白用户,用上面的方法安装了MongoDB,则数据库地址填写127.0.0.1(代表本地),用户名和密码为空,数据库名称填写你想要的任何名字皆可。

MongoDB安装

已经安装过的可以自行跳过。

可以从这里下载笔者已经打包好的安装包,之后解压后,在bat脚本上点击右键,以管理员模式执行,就会默认安装到D盘上并启动服务,非常方便。

https://files.cnblogs.com/files/buptzym/mongodb_windows.zip

MongoDB本身包含32位和64位两种版本,前者只支持最大2GB的数据集合。但32位能装在64位系统上,反过来就不成。因此提供的安装包是32位版本的。如果想装64位,可以参考网络上其他教程。

安装之后,可以在任务管理器的服务上,检查是否已经包含了正在运行的MongoDB服务

2.2.SQLite

SQLite是一种简单的文件数据库,使用方便,并可由其他程序读取,推荐使用
使用sqlite非常简单,新建sqlite连接器后:

  • 点击‘加载’,加载已有的数据库
  • 点击'新建',即可创建新的sqlite的db文件,指定路径后,点击连接即可
  • sqlite对表头只支持英文
Hawk教程- 数据表和数据库连接_第4张图片
SQLite连接

2.3.文件读写

通过如下方式打开新文件或历史文件:

Hawk教程- 数据表和数据库连接_第5张图片
打开新文件

CSV文件

输出文本CSV逗号分隔文件
默认列间以\t分割,每行一条数据
CSV文件的读写速度是所有文件中最快的,值得注意数据行本身应不包含分割符,否则会导致解析失败。

XML文件

输出和输入XML文件

EXCEL文件

输出标准EXCEL文件,效率较低

你可能感兴趣的:(Hawk教程- 数据表和数据库连接)