【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)

第一步:

导入模块

  1. >>> import re  
  2. >>> from bs4 import BeautifulSoup  
  3. >>> import urllib.request 

-------------------------------------

第二步:

导入网址

url = "http://zsb.szu.edu.cn/zbs.html"  

-------------------------------------------------------------------------

第三步:

调动模块解析网址

>>> page = urllib.request.urlopen(url) #通过链接获取整个网页

>>> soup = BeautifulSoup(page,'lxml') #格式化排列

print(soup.prettify()) #打印出结构化的数据

第四步:

--------------------------------------------------------


-----------------------------------------------------------

下一步写,模拟浏览器的规格

 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

下一步,复制Xpath路径

/html/body/div[5]/table/tbody/tr/td[2]/div[3]/div[1]/div[2]/a


-----------------------------------------------------------





















你可能感兴趣的:(python,爬虫)