Python爬虫-爬取CSDN网页内容

学习爬虫,需了解正则,详见 https://blog.csdn.net/weixin_45422695/article/details/117334140?spm=1001.2014.3001.5501

1、爬取CSDN网站首页
代码如下:

# 爬取CSDN网站首页
import urllib.request
data = urllib.request.urlopen('http://edu.csdn.net').read().decode('utf-8')
print(data)

结果为:
Python爬虫-爬取CSDN网页内容_第1张图片
2、爬取CSDN课程页面的QQ群
Python爬虫-爬取CSDN网页内容_第2张图片
Python爬虫-爬取CSDN网页内容_第3张图片
代码如下:

# 爬取CSDN课程页面的QQ群
import urllib.request
import re
data = urllib.request.urlopen('https://edu.csdn.net/huiyiCourse/detail/253').read().decode('utf-8')
pat = '

(\d*?)

'
# 需要爬取的内容用()括起来 res = re.compile(pat).findall(data) print(res[0])

结果为:
Python爬虫-爬取CSDN网页内容_第4张图片

你可能感兴趣的:(Python爬虫,python,爬虫)