【学习笔记】大数据搜索与挖掘

第一章 绪论

“我们虽然淹没在信息的海洋中,但是却渴求所需的知识。”   美国作家,奈斯比特《大趋势》。

为什么会出现这种情况呢?主要原因之一是缺乏有效的大数据搜索、挖掘与知识获取手段。

何谓大数据?研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策了、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;大数据通常用来形容大量的额非结构化和半结构化数据。

大数据的主要特点:

1)数据量巨大

2)数据多样化

3)数据速度变更快

面对大数据的新特点,如何解决大数据规模大、速度快、多样化以及价值密度低等挑战? 采用大数据分析方法学,即从客观存在的全量超大规模、多源异构、实时变化的微观数据中,利用自然语言处理、信息检索、机器学习等技术抽取知识。转化为智慧的方法学。

Web搜索

Web搜索,又称网络信息检索,其理论基础是信息检索技术。信息检索是对信息按照一定的方式组织、存储,从大量的大数据中找到满足用户信息需求的知识,尤其是对非结构化或半结构化文本的检索(在这一点,信息检索与基于数据库的检索不同。在数据库领域,数据之间有特定关系并按照这种关系进行结构化存储,检索时可按照这种逻辑关系直接找到需要的信息),其主要目的是研究如何从海量文档集中高效检索出于用户需求相关的文档,其研究涉及海量信息采集、表示、组织、内容分析与知识挖掘、索引、访问、表现等方面。

一般地,搜索引擎主要包括信息采集、信息加工、信息检索检索结果提供这几个部分。其中,信息采集模块以一定的策略在因特网等信息原中采集相关信息;信息加工主要指对网页资源进行信息抽取与去噪、内容分析(包括文本分析、分词处理、主题词抽取)、建立倒排索引、根据内容分析的结果编制摘要、完成信息分类等;信息检索模块则根据用户的检索提问对检索项与索引项进行匹配运算以获取对应的检索结果集,有些系统为方便用户使用还提供了高级检索功能、支持自然语言提问等;检索结果提供则是在进行必要的相关分析后以超链等形式给出检索结果。


你可能感兴趣的:(学习旅程记录,大数据挖掘)