python3 编写原生爬虫 --爬虫入门

使用 python3 抓取,csdn 某篇文章 的标题,注释写的很全就不多废话了

#coding=utf-8
from urllib import request
import re

class Spider():
    #我要爬取的链接
    start_url = "https://blog.csdn.net/weixin_42144379/article/details/85332330"
    # 目标内容的正则
    regex = '

([\s\S]*?)

' #抓取内容,默认 url 参数为 start_url def getContent(self,url = start_url): #发送请求,获取请求数据 source = request.urlopen(self.start_url) #读取请求数据,直接读取的是 byte html = source.read() #把读取的数据转为 utf-8 字符串 html = str(html, encoding="utf-8") #打印抓取的网页 print(html) return html def parse(self,url=start_url): #调用上的方法,抓取网页 html = self.getContent(url) #使用正则,抓取标题 title = re.findall(self.regex,html) #打印标题,re.findall 获取的是一个 list print(title) #实例化爬虫,运行程序 Spider().parse()

如果报错,少了 urllib  网络库 re 正则库,请使用 pip 安装 

python 爬虫 最主要的是 对 urllib 里面 request 和 regex (正则) 的运用

你可能感兴趣的:(Python)