kettle实现爬虫

步骤概览

kettle实现爬虫_第1张图片

获取请求

请求地址

东方财富网股票请求

自定义常量数据

获取HTTP请求之前,必须先定义一个URL常量作为HTTP client的输入

kettle实现爬虫_第2张图片

kettle实现爬虫_第3张图片

HTTP client

kettle实现爬虫_第4张图片

注:此处得到的数据并不是原生的json字符串,自己可以用文本文件输出测试以下。如下图

kettle实现爬虫_第5张图片

JavaScript脚本

此步骤用于清洗不符合格式的json字符串,并以返回变量

以下代码用于获取括号内的字符串

kettle实现爬虫_第6张图片

json输入

kettle实现爬虫_第7张图片

路径的语法是jsonpath,获取data对象中的klines数组的每个元素

kettle实现爬虫_第8张图片

注:现在得到的数据是一行一行以逗号分隔的数据,需要将这一列拆分成多列

kettle实现爬虫_第9张图片

拆分字段

kettle实现爬虫_第10张图片

文本文件输出

kettle实现爬虫_第11张图片

选一下分隔符

kettle实现爬虫_第12张图片

选一下字段

kettle实现爬虫_第13张图片

你可能感兴趣的:(kettle,爬虫)