去除字符串中的\xa0不间断空白符

记录几个python解析页面时遇到的小问题解决方法

1. 去除字符串中的\xa0不间断空白符

    # 方法一:用编码转换的方式
     import unicodedata
     s = unicodedata.normalize("NFKD", s)
    # 方法二:直接去除所有空白
    s= ''.join(s.split())
    # 方法三:自己转换编码ord方式,或替换replace等(不推荐)

2. xpath解析取标签下所有文字

    # 取出标签下所有文字,有3种方法:
    # 1.用//text()取所有文字然后join;
    remediation = cve_page.xpath("//h2[@id='remediation']/following-sibling::p[1]//text()")
    remediation = ''.join(remediation).strip()
    # 2.用xpath('string(.)')解析;
    remediation = cve_page.xpath("//h2[@id='remediation']/following-sibling::p[1]")
    remediation=remediation[0].xpath('string(.)').strip()
    # 3.转换为str后用正则(不推荐)

你可能感兴趣的:(Python)