Dragon Wu

Python 爬虫总结——案例代码

request的基本使用

urllib使用

图片爬取

获取动态数据

session和cokkie的处理

使用xpath解析

使用正则解析

BeautifulSoup使用

seleium自动化爬虫

其他自动化操作

实现无界面

自动化处理iframe标签

基于selenium的12306用户登录

代理的使用

验证码解析

协程的使用

同步爬虫

多线程异步爬虫的使用

线程池

异步协程

aiohttp实现任务异步协程

分布式爬虫

简单练手项目

肯德基破解

爬取简历模板

百度AI实现爬虫

好久之前做的python非框架爬虫全集笔记一直没整理，今天有空整理了一番，方便以后查看。

request的基本使用

案例一

# -*- coding: utf-8 -*-
import requests

if __name__ == "__main__":
    # step 1:指定url
    url = 'https://www.sogou.com/'
    # step 2:发起请求
    response = requests.get(url=url)
    # step 3:获取响应数据.text返回的是字符串形式的响应数据
    page_text = response.text
    print(page_text)
    # step_4:持久化存储
    with open('./sogou.html', 'w', encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束！！！')

案例二：

# -*- coding: utf-8 -*-
import requests
import json

if __name__ == "__main__":
    url = 'https://movie.douban.com/j/search_subjects'
    param = {
        'type': 'movie',
        'tag': "喜剧",
        'sort': 'recommend',
        'page_limit': 20,  # 一次取出的个数
        'page_start': 20,  # 从库中的第几部电影去取
    }
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36 Edg/89.0.774.75'
    }
    response = requests.get(url=url, params=param, headers=headers)

    list_data = response.json()

    fp = open('./douban.json', 'w', encoding='utf-8')
    json.dump(list_data, fp=fp, ensure_ascii=False)

    print('over!!!')

案例三

# -*- coding: utf-8 -*-
import requests
import json

if __name__ == "__main__":
    # 1.指定url
    post_url = 'https://fanyi.baidu.com/sug'
    # 2.进行UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36 Edg/89.0.774.75'
    }
    # 3.请求参数处理（同get请求一致）
    word = input('enter a word:')
    data = {
        'kw': word
    }
    # 4.请求发送
    response = requests.post(url=post_url, data=data, headers=headers)
    # 5.获取响应数据:json()方法返回的是obj_(如果确认响应数据是json类型的，才可以使用json())
    dic_obj = response.json()

    # 持久化存储
    fileName = word + '.json'
    fp = open(fileName, 'w', encoding='utf-8')
    json.dump(dic_obj, fp=fp, ensure_ascii=False)

    print('over!!!')

案例四

# -*- coding: utf-8 -*-
# 每次爬取需要进行UA伪装，伪装成某款浏览器
# User-Agent(请求载体生份标识)
import requests

if __name__ == "__main__":
    # UA伪装：将对应的User-Agent封装到一个字典中
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36 Edg/89.0.774.75'
    }
    url = 'https://www.sogou.com/web'
    # 处理url携带的参数：封装到字典中
    kw = input('enter a word:')
    param = {
        'query': kw
    }
    # 对指定的url发起的请求对应的url是携带参数的，并且请求过程中处理了参数
    response = requests.get(url=url, params=param, headers=headers)

    page_text = response.text
    fileName = kw + '.html'
    with open(fileName, 'w', encoding='utf-8') as fp:
        fp.write(page_text)
    print(fileName, '保存成功！！！')