python网络爬虫实战笔记(一)

# -*- coding: utf-8 -*-
"""
Spyder Editor

This is a temporary script file.
"""

import requests
res = requests.get('http://news.sina.com.cn/china/')
res.encoding = 'utf-8'
#print(res.text)
from bs4 import BeautifulSoup
html_sample = '\
 \
 \

Hello World

\ This is link1 \ \ ' soup = BeautifulSoup(html_sample,'html.parser') print(soup.text) #使用select找出含有h1标签的元素 soup = BeautifulSoup(html_sample,'html.parser') header = soup.select('h1') print(header) # 如果要把里面的元素取出来加中括号0 print(header[0]) # 如果仅要文字 print(header[0].text) # 使用select找出含有a标签的元素 soup = BeautifulSoup(html_sample,'html.parser') alink = soup.select('a') print(alink)#里面包含两个元素 for link in alink:#把两个元素分别在两行打印出 print(link) #仅取出文字 print(link.text) # 取得含有特定css属性的元素 # 使用select找出所有id为title的元素(id前面需加#) alink = soup.select('#title') print(alink) #使用select找出所有class为link的元素(class前面需要加.) for link in soup.select('.link'): print(link) # 取得所有a标签内的链接 #使用select找出所有a tag的href连结 alinks = soup.select('a') for link in alinks: print(link) print(link['href'])


你可能感兴趣的:(python网络爬虫实战笔记(一))