python3爬虫入门到精通 - 学习笔记 - day1

学习视频:B站 UP主:bili_51693257076 python爬虫入门到精通 课时14

使用系统:Windows10

异常:

遇到的问题:

1,爬取网页后,返回状态码为403

视频时间:7:49,复制代码

2,多线程运行时,爬取顺序不正常

 

解决办法:

1,加入headers伪装成浏览器

https://blog.csdn.net/weixin_43833986/article/details/85065514

紫色为修改(添加)的部分:

def get_one_page(url, header):
    try:
        response = requests.get(url, headers=header)
        if response.status_code == 200:
            return response.text
        return response.status_code
    except RequestException:
        return None


def main():
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/70.0.3538.110 '
                      'Safari/537.36 '
    }
    url = 'https://maoyan.com/board/4?'
    html = get_one_page(url, header)
    print(html)

2,声明块等于1

http://www.pythonheidong.com/blog/article/138204/

紫色为修改部分:

if __name__ == '__main__':
    pool = Pool()
    pool.map(main, [i*10 for i in range(10)], chunksize=1)

笔记:

1,导入json

视频时间17:14

python3爬虫入门到精通 - 学习笔记 - day1_第1张图片

python3爬虫入门到精通 - 学习笔记 - day1_第2张图片

2,保存到文件时,中文汉字变为编码

视频时间:18:32

解决办法:添加代码

3,多线程运行函数,提高爬取效率

视频时间:20:30、21:30

 

 

略过:错误(异常)响应

 

你可能感兴趣的:(python3爬虫入门到精通 - 学习笔记 - day1)