BeautifulSoup处理html

这是一个python库,用来处理html之类的文本内容
官网http://www.crummy.com/software/BeautifulSoup/#Download 


这个是中文文档

http://zm6.sm-img2.com/?src=http%3A%2F%2Fwww.crummy.com%2Fsoftware%2FBeautifulSoup%2Fbs3%2Fdocumentation.zh.html&uid=51558658fb275070cd84ef8a462ae6b9&hid=&restype=1&from=derive&depth=2&link_type=60&query=&uc_param_str=


这是4的版本的英文文档

http://zm6.sm-img2.com/?src=http%3A%2F%2Fwww.crummy.com%2Fsoftware%2FBeautifulSoup%2Fdocumentation.html&uid=51558658fb275070cd84ef8a462ae6b9&hid=&restype=1&from=derive&depth=3&link_type=60&uc_param_str=&query=beautifulsoup

它有两个版本。一个是BeautifulSoup,另外一个是BeautifulSoup4

安装方法官网都有。

下面是BeautifulSoup的版本,不好用

from BeautifulSoup import BeautifulSoup
soup=BeautifulSoup(html)
len(soup)
<del>soup.contents[0].text</del>

html是str格式的,长度用len来取,

html里面的文本,相当于innerText是用text来表示。

原版的不太好用,还是bs4版本比较好用。


from bs4 import BeautifulSoup

markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'
soup = BeautifulSoup(markup)
print soup.get_text()



你可能感兴趣的:(html,python)