沃保网爬的每一个代理人数据,最后以字典形式保存
{"name":***,"num":***,"city":***.......}这样的键值对结构,具体通过desc 表名;可以查看表结构,我们建好表结构后,就可以通过按照字典的键值对保存在表对应的字段中,红框标出的是表结构的字段名称,下面我会讲如何建立这个结构的表
照顾不懂MySQL数据库的同学,我会从连接数据库,创建数据库,创建表详细的讲
1、连接数据库
打开终端,输入命令mysql -uroot -pmysql,-u后面跟用户名,-p后面跟密码
show databases;显示所有数据库,表明连接成功
2、创建数据库
create database 表名 charset=utf8;
一定要加charset=utf8;指定编码格式,并且show databases;后创建的ty数据库已经创建成功
3、创建表
创建表我们一定要先用指定的数据库,命令是use 数据库名;(use ty)
接下来这几行代码是创建表结构的
create table 表名(*****;)创建表
注意末尾以分号结尾,id默认是主键,即primary key,整数自增排序
name、ltd、city等字段,一般对字符串型,我们用varchar(20)来表示,里面的数值代表该字段填充内容的最大长度,
比如我给name、ltd设置的为20,给id_num(资格证号)设置的40,给photo(照片地址)设置的100,根据实际需求设置
最后我们desc pabx;查看表结构,成功创建,就可以正常保存数据了
4、查看表数据
select * from pabx; 看到新建的表里面是空数据
5、python操作mysql保存字典类型的爬虫数据
该方法我觉得很好用,比沃保网源码中我之前手动拼接SQL语句的写法好用的多,建议大家用这种方式传参数的方式来写,字段我举例子,写了name、ltd、city三个,你可以对爬虫数据的所有字段都加上
desc pabx;
查看保存的字典已经正常保存,num=0是因为我们在创建表时候指定了默认值为0,id是默认自增,从1开始,跟多字段内容保存,大家可以尝试手动构造,由浅入深,慢慢就会知道很多套路和简单的写法
该篇文章不明白的留言,源码已经上传知识星球(左侧为知识星球,右侧二维码为微信公众号)