python代码小tips-从HTML字符串中提取文本内容并去掉标签

从类似HTML格式的字符串中提取文本内容并去掉标签,可以使用Python的 BeautifulSoup 库,这是一个用于解析HTML和XML的强大工具。首先,确保已经安装了 BeautifulSoup,可以使用以下命令来安装它:

pip install beautifulsoup4

然后,可以使用以下示例代码来提取文本内容:

from bs4 import BeautifulSoup

# 假设这是你的HTML字符串
html_string = "11"

# 使用BeautifulSoup解析HTML字符串
soup = BeautifulSoup(html_string, 'html.parser')

# 使用soup.get_text()方法提取文本内容并去掉标签
text_content = soup.get_text()

# 打印提取的文本内容
print(text_content)

在上述示例中,我们首先使用 BeautifulSoup 解析HTML字符串,并使用 soup.get_text() 方法提取文本内容,该方法会自动去除HTML标签。最后,text_content 变量中包含了提取的纯文本内容。

当然,我们也可以直接将 get_text() 返回的内容按照某种方式分割,然后将分割后的文本放在列表中。soup.get_text()返回的内容是多行的字符串,每行字符串之间用’\n’分割,可以使用split(‘\n’)来做到分隔。

# 使用某种方式分割文本,例如按换行符分割
    split_text = text.split('\n')
    
    # 去除空白项并添加到列表中
    cleaned_text = [item.strip() for item in split_text if item.strip()]

链接

你可能感兴趣的:(python,html,beautifulsoup)