数据采集的技术方法

1.系统日志采集方法

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等。这些系统采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求,例如,Scribe是Facebook开源的日志收集系统,能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS、分布式文件系统等)上,以便于进行集中统计分析处理,它为日志的“分布式收集,统一处理”提供了一个可扩展的、高容错的方案。

2.对非结构化数据的采集

非结构化数据的采集就是针对所有非结构化的数据的采集,包括企业内部数据的采集和网络数据的采集等。企业内部数据的采集是针对企业内部各种文档、视频、音频、邮件、图片等数据格式之间互不兼容的数据采集。

网络数据采集是指针对通过爬虫或网站公开api等方式从网上获取互联网中相关网页内容的过程,并从中抽取出用户所需要的属性内容。互联网网页数据处理,就是对抽取出来的网页数据进行内容和格式上的处理、转换和加工,使之能够适应用户的需求,并将之存储下来,供以后使用。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网络中包含的内容之外,对于网络流量的采集可以使用DPI(DeepPacketInspection,深度包检测)或DFI(Deep/Dynamic Flow Inspection,深度/动态流检测)等带宽管理技术进行处理。 网络爬虫是一种按照一定的规则自动地抓取万维网信息的程序或者脚本,它是一个自动提取网页的程序,为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。 目前网络数据采集的关键技术为链接过滤,其实质是判断一个链接(当前链接)是不是在一个链接集合(已经抓取过的链接)里。在对网页大数据的采集中,可以采用布隆过滤器(Bloom Filter)来实现对链接的过滤。

3.其他数据采集方法

对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。 尽管大数据技术层面的应用可以无限广阔,但由于受到数据采集的限制,能够用于商业应用、服务于人们的数据要远远小于理论上大数据能够采集和处理的数据。因此,解决大数据的隐私问题是数据采集技术的重要目标之一。 现阶段的医疗机构数据更多来源于内部,外部的数据没有得到很好的应用。对于外部数据,医疗机构可以考虑借助如百度阿里、聘讯等第三方数据平台解决数据采集难题。

你可能感兴趣的:(数据采集的技术方法)