GitHub文档镜像
欢迎使用Hawk
快速教程
主要组件介绍
核心功能:
- Hawk工程
- Hawk任务市场
- 数据表和数据库连接
- 网页采集器
- 数据清洗
[模块和算子]
- 转换器
- 过滤器
- 执行器
- 生成器
常见问题
更新日志作者和捐赠列表
专题:
- 子任务引擎
- 动态页面抓取专题
- 命令行增量和自动化
- 编译和扩展开发
案例:
- 参考这里
发布文章:
- Hawk1:如何从互联网采集海量数据？租房,二手房,薪酬
- Hawk2:120项改进开源超级爬虫Hawk2.0重磅发布
- Hawk3:终于等到你:图形化开源爬虫Hawk3发布
- Hawk5:革命性的任务市场开源图形化爬虫Hawk5发布
故事:
- 设计Hawk背后的故事(2016)
- 花一年时间,给爬虫Hawk再讲个故事(2018)

数据表和数据库连接

1.数据表

当加载了数据集时，在本视图中，就可对其查看和编辑:

点击右键，可以对数据集进行删除，修改名称等
将数据集拖拽到下方的图标上，如拖到回收站，即可删除该模块。
双击数据集可查看模块的内容。将数据集拖拽到数据清洗图标上，可直接对本数据集做数据清洗。

数据表和操作

2.数据库连接器

能够添加来自不同数据源的连接器，并对数据进行加载和管理：

在空白处，点击右键，可增加新的连接器
在连接器的数据表上，双击可查看样例
点击右键，可以将数据加载到内存中。

连接器配置

目前支持的连接器包括：

MongoDB
sqlite
文件读写
MySql(测试不完全)

2.1.MongoDB

提供MongoDB交互的数据库服务

配置设置

MongoDB连接

在安装MongoDB之后，在空白位置点右键，即可选择插入一个MongoDB连接器，在服务器地址，用户名和密码，数据库名称上填写所需的字段，然后点击连接数据库即可。

如果你是小白用户，用上面的方法安装了MongoDB，则数据库地址填写127.0.0.1(代表本地)，用户名和密码为空，数据库名称填写你想要的任何名字皆可。

MongoDB安装

已经安装过的可以自行跳过。

可以从这里下载笔者已经打包好的安装包，之后解压后，在bat脚本上点击右键，以管理员模式执行，就会默认安装到D盘上并启动服务，非常方便。

https://files.cnblogs.com/files/buptzym/mongodb_windows.zip

MongoDB本身包含32位和64位两种版本，前者只支持最大2GB的数据集合。但32位能装在64位系统上，反过来就不成。因此提供的安装包是32位版本的。如果想装64位，可以参考网络上其他教程。

安装之后，可以在任务管理器的服务上，检查是否已经包含了正在运行的MongoDB服务

2.2.SQLite

SQLite是一种简单的文件数据库，使用方便，并可由其他程序读取，推荐使用
使用sqlite非常简单，新建sqlite连接器后：

点击‘加载’，加载已有的数据库
点击'新建'，即可创建新的sqlite的db文件，指定路径后，点击连接即可
sqlite对表头只支持英文

SQLite连接

2.3.文件读写

通过如下方式打开新文件或历史文件：

打开新文件

CSV文件

输出文本CSV逗号分隔文件
默认列间以\t分割，每行一条数据
CSV文件的读写速度是所有文件中最快的，值得注意数据行本身应不包含分割符，否则会导致解析失败。

XML文件

输出和输入XML文件

EXCEL文件

输出标准EXCEL文件，效率较低

Hawk教程- 数据表和数据库连接