第1个爬虫程序

知识点:
1 Beautifulsoup库:自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。
2 urllib库:主要用到request.urlopen(url)方法,请求爬取一个网站。
3 类的设计(属性和方法)

代码:
import urllib.request
from bs4 import Beautifulsoup

news = “https://sports.sina.com.cn/”
Scraper(news).scrape()

class Scraper:
def init(self, site):
self.site = site
def scrape(self):
html = urllib.request.urlopen(self.site).read()
parser = “html.parser”
bs = Beautifulsoup(html, parser)
for tag in bs.find_all(“a”):
print(tag.get(“href”))

你可能感兴趣的:(爬虫)