学习爬虫,需了解正则,详见 https://blog.csdn.net/weixin_45422695/article/details/117334140?spm=1001.2014.3001.5501
1、爬取CSDN网站首页
代码如下:
# 爬取CSDN网站首页
import urllib.request
data = urllib.request.urlopen('http://edu.csdn.net').read().decode('utf-8')
print(data)
# 爬取CSDN课程页面的QQ群
import urllib.request
import re
data = urllib.request.urlopen('https://edu.csdn.net/huiyiCourse/detail/253').read().decode('utf-8')
pat = '(\d*?)
' # 需要爬取的内容用()括起来
res = re.compile(pat).findall(data)
print(res[0])