网页解析器 —— beautiful soup

基本介绍

网页解析器 —— beautiful soup_第1张图片

基本使用

网页解析器 —— beautiful soup_第2张图片 网页解析器 —— beautiful soup_第3张图片

网页解析器 —— beautiful soup_第4张图片 网页解析器 —— beautiful soup_第5张图片

简单案例

test.html 中的代码




    
    Title


    

标题1

标题2

标题3

标题4

段落

百度
爱奇艺

test.py 中的代码

from bs4 import BeautifulSoup

with open('./test.html', encoding='utf-8') as f:
    html_doc = f.read()

soup = BeautifulSoup(html_doc, 'html.parser')

div_node = soup.find('div', id='content')
print(div_node)
print('='*20)

links = div_node.find_all('a')
for link in links:
    print(link.name, link['href'], link.get_text())

img = div_node.find('img')
print(img['src'])

 代码运行结果

网页解析器 —— beautiful soup_第6张图片

你可能感兴趣的:(python,爬虫,python,爬虫,开发语言)