第一个python网络爬虫程序

工作原因需要用到爬虫技术,所以就简单的学习了一下,本博客只用来做课程学习记录,不作为其他用途,博客中的内容是参照唐松老师的书籍<

import requests
from bs4 import BeautifulSoup

# 获取页面
link = "http://www.zwskw.com/info/cn/54" # 要获取的页面的地址
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.3.3.17611'} # 头部信息

r = requests.get(link,headers = headers)

第二步:

# 提取要抓取的内容
soup = BeautifulSoup(r.text, 'lxml')
title = soup.find('div', class_='eui-news-txt').a.text.strip()  # 可以运用浏览器的审查元素功能

第三步:

# 存储要抓取的内容
with open('title.txt', 'a+') as f:
    f.write(title)
    f.close()

最后会在python的同级目录下生成一个名称问title的txt文件,文件中的内容如下所示:
第一个python网络爬虫程序_第1张图片

你可能感兴趣的:(个人,python)