数据采集与预处理技术考点复习——第一、二章

第一章:大数据概述

1. 大数据有哪些特征
(1)大量:数据量大
(2)多样:数据种类和来源多样化
(3)价值:数据价值密度相对较低
(4)高速:数据增长速度快,处理速度也快,时效性要求高
(5)准确性:数据处理结果保证一定的准确性和可信赖度
(6)复杂:由于数据大量、多样,产生速度快,对数据处理和分析的难度大

2. 简述大数据处理过程
①大数据采集
②大数据预处理
③大数据存储
④大数据分析与挖掘
⑤大数据可视化

第二章:数据采集基础

1. 互联网数据来源有哪些
门户网站出于媒体属性所发布的新闻、评论、报道等。如新浪财经、搜狐新闻——实时性、专业性
政府部门出于信息公开的目的在互联网上公开的数据。如法院公告——权威性、可信性
社交网站出于其媒体属性和社会属性允许普通用户发表自媒体信息,在提供用户社交服务的同时,将用户的言论、生活轨迹记录下来——时效性、针对性
电商网站出于营销的目的允许用户自由采购产品并查询、发布产品评论及销售量信息——真实性、实时性
论坛——实时性、针对性

2. 大数据采集面临的挑战有哪些
①因为各个门户网站建设水平和结构不一样,所以用统一的方法从互联网中采集信息几乎是不可能的
②互联网数据一般结构复杂,有文本、表格、图片、视频等非结构形式存在
③对于海量数据的采集需要研究分布式框架,满足其采集需求
④能够通过网络爬虫程序自动获取数据,但不同网站出于对爬虫程序的监管,往往设置很多障碍

3. 互联网大数据的主要特点是什么
①多源异构性
②交互性
③时效性
④社会性
⑤突发性
⑥高噪声

4. 什么是网络爬虫
网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的

你可能感兴趣的:(数据采集与预处理技术考点复习——第一、二章)