Python爬虫小例子

需要导入的包
requests:抓取网站数据
bs4:使用 Beautiful Soup 解析网页
lxml:html解析器

import requests
from bs4 import BeautifulSoup

# 请求豆瓣主页
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'}
resp = requests.get('https://www.douban.com/', headers=headers)
# 对主页html进行解析
soup = BeautifulSoup(resp.text, 'lxml')
# 如果是json格式的
# content = json.loads(resp.text)
# 查找页面所有的A标签
data = soup.select('a')
# 也可以在谷歌浏览器查看元素的Copy selector复制元素路径
# data = soup.select('#anony-sns > div > div.main > div > div.notes > ul > li.first > div.title > a')
# 遍历取出地址和文本
for d in data:
    print(d.get('href'), d.get_text())

ip代理池方式

proxies={
    "http":"http://10.10.1.10:3128",
    "https":"http://10.10.1.10:1080",
}
response = requests.get(url, proxies=proxies)

参考:http://c.biancheng.net/view/2011.html

你可能感兴趣的:(Python爬虫小例子)