爬虫 :结构化和非结构化数据

爬虫程序,主要是运行在网络中进行数据采集的一种计算机程序,由于存在着不同的服务器和软件应用,所以爬虫获取到的数据就会出现各种不同的表现形式,但是总体来说还是有规律的,有规律就可以被掌握的。
一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。

  • 非结构化数据:先有数据,再有结构
    这类 信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据。 结构化数据属于非结构化数据,是非结构化数据的特例 ,无格式字符串数据:用户名、邮箱、账号、电话号码、地址、电影名称、评分、评论、商品名称等等

  • 结构化数据:先有结构、再有数据
    这类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号,HTML网页文档、XML网页文档、JSON等等

  • 不同类型的数据,我们需要采用不同的方式来处理。

非结构化的数据处理

  • 文本、电话号码、邮箱地址
    正则表达式Python正则表达式
    HTML文件
  • HTML文件
    正则表达式
    XPath
    CSS选择器

结构化的数据处理

  • JSON 文件
    JSON Path
    转化成Python类型进行操作(json类)

  • XML 文件
    转化成Python类型(xmltodict)
    XPath
    CSS选择器
    正则表达式

你可能感兴趣的:(爬虫 :结构化和非结构化数据)