使用 python3 抓取,csdn 某篇文章 的标题,注释写的很全就不多废话了
#coding=utf-8
from urllib import request
import re
class Spider():
#我要爬取的链接
start_url = "https://blog.csdn.net/weixin_42144379/article/details/85332330"
# 目标内容的正则
regex = '([\s\S]*?)
'
#抓取内容,默认 url 参数为 start_url
def getContent(self,url = start_url):
#发送请求,获取请求数据
source = request.urlopen(self.start_url)
#读取请求数据,直接读取的是 byte
html = source.read()
#把读取的数据转为 utf-8 字符串
html = str(html, encoding="utf-8")
#打印抓取的网页
print(html)
return html
def parse(self,url=start_url):
#调用上的方法,抓取网页
html = self.getContent(url)
#使用正则,抓取标题
title = re.findall(self.regex,html)
#打印标题,re.findall 获取的是一个 list
print(title)
#实例化爬虫,运行程序
Spider().parse()
如果报错,少了 urllib 网络库 re 正则库,请使用 pip 安装
python 爬虫 最主要的是 对 urllib 里面 request 和 regex (正则) 的运用