BeautifulSoup如何解析获取标签内的文本信息

BeautifulSoup获取标签内的文本信息通常有以下几种方式:

1. string:获取某个标签下的非标签字符串(如果自身标签下没有内容,则返回空值,即使子孙有),返回的是一个字符串。

2. strings:获取某个标签下的子孙非标签字符串,返回的是一个生成器,通常取值时需要先转换成list。

3. stripped_strings:获取某个标签下的子孙非标签字符串,会去掉空白字符,返回的是一个生成器,通常取值时需要先转换成list。

4. get_text:获取某个标签下的子孙标签字符串,返回的是普通字符串(包含HTML的格式内容,通常配合css选择器(soup.select)进行使用)。

5. text:用来获取目标路径下的子孙非标签字符串,返回的是字符串

 

 

你可能感兴趣的:(爬虫,beautifulsoup)