【爬虫】爬虫问题收集【持续】

文章目录

    • 1、文件导出到本地:
      • 1.1、导出为txt
      • 1.2、导出为csv
    • 2、scrapy
      • 2.1 运行命令
      • 2.2 导入报错
    • 3、网页检查时看到数据,但是写代码时无数据
    • 4、获取内容位数问题
    • 5、标签格式问题
      • 5.1标签取不全,级别搞错。
      • 5.2 所选标签中有乱入的
    • 6、网页查找标签时的快捷键
    • 7、requests+bs4爬虫时一些细节(整理)
    • 8、json数据获取
    • 9、x-path获取标签
    • 10、网页渲染后呈现出来的标签和源码不一样
    • 11、SSL报错
  • 12 、 headers容易漏掉逗号和引号标错位置问题

1、文件导出到本地:

1.1、导出为txt

1.1.1 导出时覆盖原有内容:
w:清楚原有内容,重新写入
a:追加写入
在这里插入图片描述
1.1.2 文件乱码
加入encoding = 'utf-8’、‘utf-8-sig’、‘gbk’

1.2、导出为csv

尽量用pandas处理后,通过pandas导入

2、scrapy

2.1 运行命令

进入存储代码的目录下(命令行下),scrapy crawl+文件名

2.2 导入报错

导入时文件名称不对 :
news.items 的news要对应上一级文件夹的名称
NewsItem,要是items文件的类名称一致
【爬虫】爬虫问题收集【持续】_第1张图片
【爬虫】爬虫问题收集【持续】_第2张图片
报错示意:
【爬虫】爬虫问题收集【持续】_第3张图片

3、网页检查时看到数据,但是写代码时无数据

网页为json格式(简单判断方法(机率60%是正确的的_):刷新有变化的,或感觉会有滚动变化的数据)

【爬虫】爬虫问题收集【持续】_第4张图片
【爬虫】爬虫问题收集【持续】_第5张图片

4、获取内容位数问题

为什么取0,是因为如下标签中列表的第一位符合要求
在这里插入图片描述
在这里插入图片描述

5、标签格式问题

5.1标签取不全,级别搞错。

如下,箭头所示,section和article是同级标签,容易漏class,或者多加空格,变为了不同级别的class
【爬虫】爬虫问题收集【持续】_第6张图片

5.2 所选标签中有乱入的

能获取信息,但是还会报错,说明不是所有的内容都有符合条件的属性,用try…else…解决,
有时可以用if,if为真,则执行
【爬虫】爬虫问题收集【持续】_第7张图片

6、网页查找标签时的快捷键

点出网页信息:谷歌浏览器操作, 空白处 右键–检查
【爬虫】爬虫问题收集【持续】_第8张图片
打开地址栏:ctrl+F
在这里插入图片描述
找headers信息:Newwork,然后F5刷新,找到第一条信息
【爬虫】爬虫问题收集【持续】_第9张图片
找json数据
【爬虫】爬虫问题收集【持续】_第10张图片

7、requests+bs4爬虫时一些细节(整理)

7.1 不熟悉的话,没有把握的话,没选一个标签做一次打印
7.2 测试时不要太频繁,容易封ip
7.3 自己用的爬虫代码尽量散开写,容易检查,除非有其他追求。

8、json数据获取

data.json() : 如果内容比较规则,不需要切片,可以直接用
不规则的,需要切片,然后用
data.dumps() :可排序,填充空格,分隔
data.loads() : 转换

9、x-path获取标签

这里是双冒号,如果写成了单冒号,会报如下错误:
【爬虫】爬虫问题收集【持续】_第11张图片

10、网页渲染后呈现出来的标签和源码不一样

【爬虫】爬虫问题收集【持续】_第12张图片

11、SSL报错

在试全景网,突然爆这个SSL错误
在这里插入图片描述
增加verify = False 后可以解决:关闭认证。
【爬虫】爬虫问题收集【持续】_第13张图片
但这里会出现警告,如下代码,False改为True就可以消除。
【爬虫】爬虫问题收集【持续】_第14张图片

12 、 headers容易漏掉逗号和引号标错位置问题

由于headers里面的内容都是做复制的,这里主要有两个问题:
1、Cookie、User-Agent ,之前漏了逗号
2、字典内的引号标错位置,比如‘User-Agent’ : ‘M。。。。’,这里引号要放在M前面,如果放在M前面的空格前,同样有问题。
【爬虫】爬虫问题收集【持续】_第15张图片

你可能感兴趣的:(爬虫)