零零天

53.大数据之旅——java分布式项目14-信息检索技术之Lucene，Solr

信息检索技术

概念介绍
全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。

全文检索主要对非结构化数据的数据检索。

结构化数据和非结构化数据
结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。
非结构化数据：指不定长或无固定格式的数据，如邮件，word文档，网页等。
当然有的地方还会提到第三种，半结构化数据，如XML，HTML等，当根据需要可按结构化数据来处理，也可抽取出纯文本按非结构化数据来处理。
注：非结构化数据另外一种叫法叫：全文数据。

数据搜索
按照数据的分类，搜索也分为两种：
对结构化数据的搜索：如对数据库的搜索，用SQL语句。再如对元数据的搜索，如利用windows搜索对文件名，类型，修改时间进行搜索等。

对非结构化数据的搜索：如利用windows的搜索也可以搜索文件内容，Linux下的grep命令，再如用Google和百度可以搜索大量内容数据。

我们重点来探讨对非结构化数据的搜索。

顺序扫描法
所谓顺序扫描，比如要找内容包含某一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。

比如：利用windows的搜索也可以搜索文件内容，如果做全盘文件的检索，速度会相当的慢，因为硬盘上的数据很大。Linux下的grep命令也是这一种方式。

大家可能觉得这种方法比较原始，但对于小数据量的文件，这种方法还是最直接，最方便的。但是对于大量的文件，这种方法就很慢了。

有人可能会说，对非结构化数据顺序扫描很慢，对结构化数据的搜索却相对较快（由于结构化数据有一定的结构可以采取一定的搜索算法加快速度），那么把我们的非结构化数据想办法弄得有一定结构不就行了吗？

这种想法很天然，却构成了全文检索的基本思路，也即将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。

这部分从非结构化数据中提取出的然后重新组织的信息，我们称之索引。

索引与全文检索

比如字典，对每一个字的解释是非结构化的，如果字典没有音节表和部首检字表，在茫茫辞海中找一个字只能顺序扫描。

所以，字典的拼音表和部首检字表就相当于字典的索引，每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音，然后按其指向的页数，便可找到我们的非结构化数据——也即对字的解释。
这种先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search)。
下面这幅图来自《Lucene in action》，但却不仅仅描述了Lucene的检索过程，而是描述了全文检索的一般过程。

全文检索原理
全文检索大体分两个过程，创建索引(Indexing)和搜索索引(Search)。
索引创建：将现实世界中所有的结构化和非结构化数据提取信息，创建索引的过程。
搜索索引：就是得到用户的查询请求，搜索创建的索引，然后返回结果的过程。

正向索引
已知文件，欲检索数据，这是建立：文件——数据的映射，称为正向索引，比如下图：

反向索引
在大多数的应用中，我们想做的是搜索某个数据都出现在了哪些文件里或网页里
这是已知数据，欲检索文件，这是建立：数据——文件的映射，称为反向索引，又称倒排索引。
假如我们有100篇文章，想查看一下lucene,hadoop,solr 在哪些文章中出现过，如下图：

左边保存的是一系列字符数据，称为词典。每个字符串都指向包含此字符串的文档(Document)链表，此文档链表称为倒排表(Posting List)。

比如我们要寻找既包含字符串“lucene”又包含字符串“solr”的文档，我们只需要以下几步：

取出包含字符串“lucene”的文档链表。
取出包含字符串“solr”的文档链表。
通过合并链表，找出既包含“lucene”又包含“solr”的文件。

注意：全文检索的确加快了搜索的速度，但是多了索引的过程，两者加起来不一定比顺序扫描快多少。尤其是在数据量小的时候更是如此。并且对一个很大量的数据创建索引也是一个很慢的过程。

然而两者还是有区别的，顺序扫描是每次都要扫描，而创建索引的过程仅仅需要一次，以后便是一劳永逸的了，每次搜索，创建索引的过程不必经过，仅仅搜索创建好的索引就可以了。
这也是全文搜索相对于顺序扫描的优势之一：一次索引，多次使用。

如何创建索引
全文检索的索引创建过程一般有以下几步：
1.第一步：一些要索引的原文档(Document)。
为了方便说明索引创建过程，这里特意用两个文件为例：
文件一：Students should be allowed to go out with their friends, but not allowed to drink beer.
文件二：My friend Jerry went to school to see his students but found them drunk which is not allowed.

2.第二步：将原文档传给分词组件(Tokenizer)。
分词组件(Tokenizer)会做以下几件事情(此过程称为Tokenize)：

将文档分成一个一个单独的单词。
去除标点符号。
去除停词(Stop word)。
所谓停词(Stop word)就是一种语言中最普通的一些单词，由于没有特别的意义，因而大多数情况下不能成为搜索的关键词，因而创建索引时，这种词会被去掉而减少索引的大小。
英语中挺词(Stop word)如：“the”,“a”，“this”等。
对于每一种语言的分词组件(Tokenizer)，都有一个停词(stop word)集合。
经过分词(Tokenizer)后得到的结果称为词元(Token)。
在我们的例子中，便得到以下词元(Token)：
“Students”，“allowed”，“go”，“their”，“friends”，“allowed”，“drink”，“beer”，“My”，“friend”，“Jerry”，“went”，“school”，“see”，“his”，“students”，“found”，“them”，“drunk”，“allowed”。

第三步：将得到的词元(Token)传给语言处理组件(Linguistic Processor)。
语言处理组件(linguistic processor)主要是对得到的词元(Token)做一些同语言相关的处理。
对于英语，语言处理组件(Linguistic Processor)一般做以下几点：

变为小写(Lowercase)。
将单词缩减为词根形式，如“cars”到“car”等。这种操作称为：stemming。
将单词转变为词根形式，如“drove”到“drive”等。这种操作称为：lemmatization。

补充：语言处理组件(linguistic processor)的结果称为词(Term)。
在我们的例子中，经过语言处理，得到的词(Term)如下：
“student”，“allow”，“go”，“their”，“friend”，“allow”，“drink”，“beer”，“my”，“friend”，“jerry”，“go”，“school”，“see”，“his”，“student”，“find”，“them”，“drink”，“allow”。

也正是因为有语言处理的步骤，才能使搜索drove，而drive也能被搜索出来。

第四步：将得到的词(Term)传给索引组件(Indexer)。
索引组件(Indexer)主要做以下几件事情：
4.1. 利用得到的词(Term)创建一个字典。
在我们的例子中字典如下：

搜索结果排名

问题的引出
请思考这样一个问题：
如果仅仅只有一个或十个文档包含我们查询的字符串，我们的确找到了。然而如果结果有一千个，甚至成千上万个呢？那个又是您最想要的文件呢？

如何计算文档和查询语句的相关性呢？
处理思路：我们把查询语句看作一片短小的文档，对文档与文档之间的相关性(relevance)进行打分(scoring)，分数高的相关性好，就应该排在前面。
首先，一个文档有很多词(Term)组成，如search, lucene, full-text, this, a, what等。
其次对于文档之间的关系，不同的Term重要性不同，比如针对一篇关于Lucene的技术文档，search, Lucene, full-text就相对重要一些，this, a , what可能相对不重要一些。所以如果两篇文档都包含search, Lucene，fulltext，这两篇文档的相关性好一些，此外就算一篇文档包含this, a, what，另一篇文档不包含this, a, what，也不能影响两篇文档的相关性。
因而判断文档之间的关系，首先找出哪些词(Term)对文档之间的关系最重要，如search, Lucene, fulltext。然后判断这些词(Term)之间的关系。

找出词(Term)对文档的重要性的过程称为计算词的权重(Term weight)的过程。
计算词的权重(term weight)有两个参数，第一个是词(Term)，第二个是文档(Document)。
词的权重(Term weight)表示此词(Term)在此文档中的重要程度，越重要的词(Term)有越大的权重(Term weight)，因而在计算文档之间的相关性中将发挥更大的作用。

向量空间模型算法(Vector Space Model)

概念介绍
向量空间模型（VSM：Vector Space Model）由Salton等人于20世纪70年代提出，并成功地应用于文本检索系统。
VSM概念简单，把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。
M个无序特征项ti，词根/词/短语/其他每个文档dj可以用特征项向量来表示（a1j,a2j，…，aMj）权重计算，N个训练文档AM*N= (aij) 文档相似度比较

向量空间模型（或词组向量模型) 是一个应用于信息过滤，信息撷取，索引以及评估相关性的代数模型。

算法原理

计算权重(Term weight)的过程。
影响一个词(Term)在一篇文档中的重要性主要有两个因素：
Term Frequency (tf)：即此Term在此文档中出现了多少次。tf 越大说明越重要。
Document Frequency (df)：即有多少文档包含次Term。df 越大说明越不重要。

词(Term)在文档中出现的次数越多，说明此词(Term)对该文档越重要，如“搜索”这个词，在本文档中出现的次数很多，说明本文档主要就是讲这方面的事的。然而在一篇英语文档中，this出现的次数更多，就说明越重要吗？不是的，这是由第二个因素进行调整，第二个因素说明，有越多的文档包含此词(Term), 说明此词(Term)太普通，不足以区分这些文档，因而重要性越低。

我们来看一下模型公式：

说明：

这仅仅只term weight计算公式的简单典型实现。实现全文检索系统的人会有自己的实现，Lucene就与此稍有不同。

判断Term之间的关系从而得到文档相关性的过程，也即向量空间模型的算法(VSM)。
我们把文档看作一系列词(Term)，每一个词(Term)都有一个权重(Term weight)，不同的词(Term)根据自己在文档中的权重来影响文档相关性的打分计算。
于是我们把所有此文档中词(term)的权重(term weight) 看作一个向量。
Document = {term1, term2, …… ,term N}
Document Vector = {weight1, weight2, …… ,weight N}
同样我们把查询语句看作一个简单的文档，也用向量来表示。
Query = {term1, term 2, …… , term N}
Query Vector = {weight1, weight2, …… , weight N}
我们把所有搜索出的文档向量及查询向量放到一个N维空间中，每个词(term)是一维。
如图：

我们认为两个向量之间的夹角越小，相关性越大。
所以我们计算夹角的余弦值作为相关性的打分，夹角越小，余弦值越大，打分越高，相关性越大。

Lucene介绍

官网：http://lucene.apache.org/

Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具

作为一个开放源代码项目，Lucene从问世之后，引发了开放源代码社群的巨大反响，程序员们不仅使用它构建具体的全文检索应用，而且将之集成到各种系统软件中去，以及构建Web应用，甚至某些商业软件也采用了Lucene作为其内部全文检索子系统的核心。

Lucene的优点

Lucene作为一个全文检索引擎，其具有如下突出的优点：
1）索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式，使得兼容系统或者不同平台的应用能够共享建立的索引文件。

2）在传统全文检索引擎的倒排索引的基础上，实现了分块索引，能够针对新的文件建立小文件索引，提升索引速度。然后通过与原有索引的合并，达到优化的目的。

3）优秀的面向对象的系统架构，使得对于Lucene扩展的学习难度降低，方便扩充新功能。

4）设计了独立于语言和文件格式的文本分析接口，索引器通过接受Token流完成索引文件的创立，用户扩展新的语言和文件格式，只需要实现文本分析的接口。

5）已经默认实现了一套强大的查询引擎，用户无需自己编写代码即可使系统可获得强大的查询能力，Lucene的查询实现中默认实现了布尔操作、模糊查询（Fuzzy Search[11]）、分组查询等等。

Lucene的创始人

Lucene['lusen]的原作者是Doug Cutting，他是一位资深全文索引/检索专家，曾经是V-Twin搜索引擎的主要开发者。

他还有另外一个称号，就是Hadoop之父。

Lucene 创建索引

准备工作
在pom.xml文件里引入Lucence的依赖jar包
pom.xml配置：

<dependency>
  <groupId>com.jtgroupId>
  <artifactId>jt-commonartifactId>
  <version>0.0.1-SNAPSHOTversion>
dependency>        
 

<dependency>
<groupId>org.apache.solrgroupId>
<artifactId>solr-solrjartifactId>
<version>5.2.1version>
dependency>
 

<dependency>
<groupId>org.apache.lucenegroupId>
<artifactId>lucene-coreartifactId>
<version>4.10.2version>
dependency>
 
<dependency>
<groupId>org.apache.lucenegroupId>
<artifactId>lucene-analyzers-commonartifactId>
<version>4.10.2version>
dependency>
 
<dependency>
<groupId>org.apache.lucenegroupId>
<artifactId>lucene-queryparserartifactId>
<version>4.10.2version>
dependency>
 

<dependency>
<groupId>org.wltea.analyzergroupId>
<artifactId>ik-analyzerartifactId>
<version>2012FF_u1version>
dependency>

/**
 * 用来测试Lucene的创建索引和索引查询
 * 
 * 如果想为tb_item建立全文索引：实现思路
 * ①表里的一条信息对应一个doc对象
 * Document doc1=new Document();
 * doc1.add(new LongField("id","536563",Store.Yes)
 * doc1.add(new TextFiele("title","阿尔卡特 (OT-927) 炭黑 联通3G手机 双卡双待",Store.Yes)
 * ……
 * 最后如果有3000条商品，就会有3000个doc对象，就会为这3000doc对象创建索引
 * 
 * @author ysq
 *
 */
public class TestDemo {
 
@Test
public void create () throws Exception{
//指定索引存储的目录路径，下面表明会在当前工程下创建索引目录
Directory directory=FSDirectory.open(new File("./index"));
 
//创建英语标准分词器
//Analyzer analyzer=new StandardAnalyzer();
//Analyzer analyzer=new ChineseAnalyzer();
Analyzer analyzer=new IKAnalyzer();
 
IndexWriterConfig config=
new IndexWriterConfig(Version.LUCENE_4_10_2, analyzer);
 
IndexWriter writer=new IndexWriter(directory, config);
 
//自定义创建文档对象
Document doc1=new Document();
//TextField表示的是插入文本类型，此外还支持：LongField ,DoubleField等
//title是自定义的属性名，不固定
//Thinking in Java 是title对应的属性值
//Store 是否存储。Yes表示存储，可以检索到，也可以打印出内容。
//No,不存储，可以检索到，但不能打印内容。所以在海量数据时，应该设置为No。节省空间
doc1.add(new TextField("title","Thinking in Java",Store.YES));
doc1.add(new TextField("desc","学习Java的入门书籍",Store.YES));
 
Document doc2=new Document();
doc2.add(new TextField("title","Thinking in C++",Store.YES));
doc2.add(new TextField("desc", "学习C++的必备教材",Store.YES));
 
writer.addDocument(doc1);
writer.addDocument(doc2);
 
//记得关闭writer,否则索引文件不会生成
writer.close();
}

执行测试后，会在当前工程下生成index索引目录

Lucene 查询索引

代码：

//根据索引搜索文档（doc)
@Test
public void search() throws Exception{
Directory directory=FSDirectory.open(new File("./index"));
 
IndexSearcher searcher=new IndexSearcher(IndexReader.open(directory));
//声明查询条件，下列中表示查询 titel中含java的文档
//注意英文的大小写问题，比如In就搜索不到
TermQuery query=new TermQuery(new Term("desc","学习"));
//①参：查询条件对象
//②参：返回top n结果。
TopDocs docs=searcher.search(query,20);
 
for(ScoreDoc sd:docs.scoreDocs){
//获取文档的得分，是一个>0，小于1的数
float score=sd.score;
//根据docId 获取doc。
Document doc=searcher.doc(sd.doc);
System.out.println("文档得分:"+score+"标题:"+
doc.get("title")+"描述:"+doc.get("desc"));
}
 
directory.close();
}

Solr介绍

介绍

Solr是一个高性能，采用Java开发，基于Lucene的全文搜索服务器，确切的说是运行在Servlet容器（如 Apache Tomcat 或Jetty）的一个独立的全文搜索服务器。

Solr还对Lucene进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。

同类产品Elasticsearch
ElasticSearch也是一个基于Lucene的搜索服务器

10月13日，Elastic在云栖大会上宣布与阿里云达成新的合作伙伴关系，旨在共同研发及发布于阿里云上提供托管的 Elasticsearch，为中国市场提供崭新的用户体验。

这项名为 “ 阿里云 Elasticsearch ” 的新服务能让阿里云的客户随心所欲地运用 Elasticsearch 强大的实时搜索、采集及数据分析功能，是一站式而且主导性的解决方案。

阿里云总裁胡晓明表示：“作为全球领先的云计算服务商，阿里云致力于通过我们的平台向客户提供最先进的产品，使其保持竞争优势并促进创新。” 他指出：“阿里云 Elasticsearch ” 将会成为一项高度差异化的服务，因为它运用了Elastic先进的搜索产品及强大的 X-Pack功能，不论在服务的任何层面上，均容易上手使用以及方便管理。”

Elasticsearch与Solr的比较

当单纯的对已有数据进行搜索时，Solr更快。
当实时建立索引时, Solr会产生io阻塞，查询性能较差, Elasticsearch具有明显的优势。
随着数据量的增加，Solr的搜索效率会变得更低，而Elasticsearch却没有明显的变化。

综上所述，Solr的架构不适合实时搜索的应用

Solr安装

Solr使用

商品搜索整合

实现步骤：
1.配置nginx和hosts文件
配置示例：

#全文搜索solr服务器
server {
listen       80;
server_name  solr.jt.com;
#charset koi8-r;
#access_log  logs/host.access.log  main;
 
proxy_set_header X-Forwarded-Host $host;
proxy_set_header X-Forwarded-Server $host;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
 
location / {
       proxy_pass http://192.168.234.234:8983;
       proxy_connect_timeout 600;
       proxy_read_timeout 600;
}
}
 
#全文搜索服务器
server {
listen       80;
server_name  search.jt.com;
#charset koi8-r;
#access_log  logs/host.access.log  main;
 
proxy_set_header X-Forwarded-Host $host;
proxy_set_header X-Forwarded-Server $host;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
 
location / {
       proxy_pass http://127.0.0.1:8086;
       proxy_connect_timeout 600;
       proxy_read_timeout 600;
}
}

hosts文件：

2.引入相关的pom依赖（添加到 jt-parent工程）：
相关坐标：


<dependency>
<groupId>org.apache.solrgroupId>
<artifactId>solr-solrjartifactId>
<version>5.2.1version>
dependency>
 

<dependency>
<groupId>org.apache.lucenegroupId>
<artifactId>lucene-coreartifactId>
<version>5.2.1version>
dependency>
<dependency>
<groupId>org.apache.lucenegroupId>
<artifactId>lucene-analyzers-commonartifactId>
<version>5.2.1version>
dependency>
<dependency>
<groupId>org.apache.lucenegroupId>
<artifactId>lucene-queryparserartifactId>
<version>5.2.1version>
dependency>
 

<dependency>
<groupId>org.wltea.analyzergroupId>
<artifactId>ik-analyzerartifactId>
<version>5.3.0version>
dependency>

3.建立jt-search工程（web-app骨架），并添加jt-common工程，jt-dubbo工程的依赖


Item类代码：

@JsonIgnoreProperties(ignoreUnknown=true)
public class Item extends BasePojo{
@Field("id")
    private Long id;
 
@Field("title")
    private String title;
 
@Field("sellPoint")
    private String sellPoint;
 
@Field("price")
    private Long price;
 
@Field("image")
    private String image;
    
 
private String[] images;

9.配置 jt-search的 tomcat端口，启动测试（8086端口）

全文检索商品

所在工程 jt-web

SearchController代码：

@Controller
public class SearchController {
 
@Autowired
private DubboSearchRestService dubboSearchRestService;
 
 
//http://www.jt.com/search.html?q=
@RequestMapping("/search")
public String search(String q,Model model) throws Exception{
//防止中文转页面时乱码
q = new String(q.getBytes("ISO-8859-1"), "UTF-8");
 
List<Item> itemList=dubboSearchRestService.getItemListBySearch(q);
 
model.addAttribute("itemList", itemList);
 
model.addAttribute("query", q);
 
return "search";
}
}

所在工程 jt-dubbo
DubboSearchRestService接口代码：

@Path("search")
@Consumes({MediaType.APPLICATION_JSON,MediaType.TEXT_XML})
@Produces({ContentType.APPLICATION_JSON_UTF_8,ContentType.TEXT_XML_UTF_8})
public interface DubboSearchRestService {
 
@POST
@Path("item")
List<Item> getItemListBySearch(String q);
 
}

所在工程 jt-search
DubboSearchRestServiceImpl代码：

public class DubboSearchRestServiceImpl implements DubboSearchRestService{
 
@Autowired
private HttpSolrServer httpSolrServer;
 
 
@Override
public List<Item> getItemListBySearch(String q) {
 
SolrQuery solrQuery=new SolrQuery();
solrQuery.setQuery(q);
 
solrQuery.setStart(0);
                      solrQuery.setRows(200);
 
try {
QueryResponse queryResponse=httpSolrServer.query(solrQuery);
List<Item> itemList=queryResponse.getBeans(Item.class);
return itemList;
} catch (Exception e) {
e.printStackTrace();
return null;
}
 
}
}

Lucene架构

Lucene总的来说是：
一个高效的，可扩展的，全文检索库。
全部用Java实现，无须配置。
仅支持纯文本文件的索引(Indexing)和搜索(Search)。
不负责由其他格式的文件抽取纯文本文件，或从网络中抓取文件的过程。
在Lucene in action中，Lucene 的构架和过程如下图，

上一篇 52.大数据之旅——java分布式项目13-购物车,Quartz使用,RabbitMQ（消息队列）

你可能感兴趣的:(大数据学习之旅)

大数据是什么？华为云学院带你探索大数据之旅舒意从生
大数据是什么？华为云学院带你探索大数据之旅我们首先从大数据是什么开始讲起，！下面由我来带领大家！展开我们本次的大数据学习之旅！大数据是什么，内容将包括大数据的产生，发展大数据的基本概念。首先我们来追溯一下大数据的产生与发展，大数据的产生和发展主要经历了三个阶段。第一个阶段，我们称为是萌芽期！自上世纪九十年代至本世纪初，随着数据挖掘理论和数据库技术的逐步成熟，一批商业智能工具和知识的管理技术也开始得
10.大数据学习之旅——hive2 零零天大数据学习之旅大数据大数据 hive sqoop
Hive解决数据倾斜问题概述什么是数据倾斜以及数据倾斜是怎么产生的？简单来说数据倾斜就是数据的key的分化严重不均，造成一部分数据很多，一部分数据很少的局面。举个wordcount的入门例子，它的map阶段就是形成（“aaa”,1）的形式，然后在reduce阶段进行value相加，得出“aaa”出现的次数。若进行wordcount的文本有100G，其中80G全部是“aaa”剩下20G是其余单词，那
大数据之Hadoop集群搭建（4个节点）普通网友 java java 后端
大数据必备–搭建Hadoop集群（4个节点）初学大数据肯定第一步先搭建hadoop集群，虽然不知道怎么用，但是先搭建集群是你大数据学习之旅的第一步，操作步骤有以下这几步，用的centos系统对四台虚拟机进网络和静态IP设置Hadoop、jdk的安装创建hadoop文件目录导入jdk和hadoop的环境变量修改hadoop配置文件修改虚拟机主机名绑定hostname与ip地址关闭防火墙配置节点之间的
大数据之Hadoop集群搭建（4个节点） m0_67393039 java java 后端
大数据必备–搭建Hadoop集群（4个节点）初学大数据肯定第一步先搭建hadoop集群，虽然不知道怎么用，但是先搭建集群是你大数据学习之旅的第一步，操作步骤有以下这几步，用的centos系统对四台虚拟机进网络和静态IP设置Hadoop、jdk的安装创建hadoop文件目录导入jdk和hadoop的环境变量修改hadoop配置文件修改虚拟机主机名绑定hostname与ip地址关闭防火墙配置节点之间的
大数据学习路线 17aa7dcf7b8c
最近有很多人问我如何学习大数据？大数据本身领域博大精深，其涵盖领域之广技术种类之多确实很难用一篇文章囊括。怎奈“下雨天打孩子，闲着也是闲着”，况笔者一直坚持写技术类的博客，今天也请允许我写一点务虚类的东西吧。本文的目的是希望给所有大数据初学者规划一条比较清晰的学习路线，帮助它们开启大数据学习之旅。鉴于大数据领域内的技术绚丽繁复，每位大数据初学者都应该根据自己的实际情况制定专属的学习路径。要说当下I
大数据解决思想 yyoc97 大数据
目前大数据，AI，机器学习这么热，那我们也要跟紧时代的脚步。记录下大数据学习之旅。大数据为什么能做到普通应用做不到的计算，除了大家熟知的分布式计算外（分治思想），还有就是数据的存储格式，普通的关系型数据型数据库都是采用行存储，而OLAP框架中常会采用列式存储来提高扫描效率，另外还有个技术手段就是内存计算了。传统的数据读写都是在磁盘上操作，相对内存里计算效率差了几个量级。（这个就要求高内存的硬件配置
2.大数据学习之旅——红黑树零零天大数据学习之旅大数据
红黑树自平衡二叉查找树—时间复杂度O(logn)特征：每一个节点非红即黑根节点一定是黑色所有的叶子节点一定是黑色的nil节点红节点的子节点一定是黑节点任意一条路径中的黑色节点个数一致插入的节点一定是红色修复：当前节点为红，并且父节点且叔父节点为红，那么将父节点以及叔父节点涂黑，然后将祖父节点涂红当前节点为红，并且父节点为红且叔父节点为黑，当前节点为右子叶，以当前节点为轴进行左旋当前节点为红，并且父
14.大数据学习之旅——HBASE表设计&HBase优化零零天大数据学习之旅大数据
HBASE表设计Rowkey设计Rowkey是不可分割的字节数，按字典排序由低到高存储在表中。在设计HBase表时，Rowkey设计是最重要的事情，应该基于预期的访问模式来为Rowkey建模。Rowkey决定了访问HBase表时可以得到的性能，原因有两个：1）Region基于Rowkey为一个区间的行提供服务，并且负责区间的每一行；2）HFile在硬盘上存储有序的行。这两个因素是相互关联的。当Re
27.大数据学习之旅——SparkStreaming&spark mllib数据挖掘与机器学习零零天大数据学习之旅大数据 spark
SparkStreaming介绍概述SparkStreaming是一种构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力，以吞吐量高和容错能力强著称。SparkStreamingVSStorm大体上两者非常接近，而且都处于快速迭代过程中，即便一时的对比可能某一方占优势。在Spark老版本中，SparkStreaming的延迟级别达到秒级，而Storm可以达到毫秒级别。而在
25.大数据学习之旅——Spark集群模式安装&Spark架构原理零零天大数据学习之旅
实现步骤：1）上传解压spark安装包2）进入spark安装目录的conf目录3）配置spark-env.sh文件配置示例：#本机ip地址SPARK_LOCAL_IP=hadoop01#spark的shuffle中间过程会产生一些临时文件，此项指定的是其存放目录，不配置默认是在/tmp目录下SPARK_LOCAL_DIRS=/home/software/spark/tmpexportJAVA_HO
15.大数据学习之旅——Storm 零零天大数据学习之旅大数据
Storm介绍介绍官方网址：http://storm.apache.org/官方对于Storm的介绍：ApacheStormisafreeandopensourcedistributedrealtimecomputationsystem.Stormmakesiteasytoreliablyprocessunboundedstreamsofdata,doingforrealtimeprocessin
23.大数据学习之旅——scala进阶零零天大数据学习之旅
函数式编程的概念编程范式函数式编程是一种编程范式，我们常见的编程范式有：1）命令式编程（Imperativeprogramming），常见的面向对象编程是也是一种命令式编程。比如java，c等。命令式编程是完全依托于冯诺依曼体系机来实现的，即代码最后会转变为一条条的指令去执行，所以指令式编程的时间复杂度是和指令数相关的。根据摩尔定律，冯诺依曼体系机的性能可能本世纪30年代就不再提高，即当冯诺依曼体
24.大数据学习之旅——spark手把手带你入门零零天大数据学习之旅
Spark介绍ApacheSpark™isafastandgeneralengineforlarge-scaledataprocessing.SparkIntroduceRunprogramsupto100xfasterthanHadoopMapReduceinmemory,or10xfasterondisk.ApacheSparkhasanadvancedDAGexecutionengineth
4.大数据学习之旅——Avro 零零天大数据学习之旅大数据
一、概述Avro是一种远程过程调用和数据序列化框架，是在Apache的Hadoop项目之内开发的。它使用JSON来定义数据类型和通讯协议，使用压缩二进制格式来序列化数据。它主要用于Hadoop，它可以为持久化数据提供一种序列化格式，并为Hadoop节点间及从客户端程序到Hadoop服务的通讯提供一种电报格式。二、序列化和反序列化概述数据序列化就是将对象或者数据结构转化成特定的格式，使其可在网络中传
8.大数据学习之旅——hadoop-Hadoop完全分布式配置零零天大数据学习之旅大数据大数据 hadoop完全分布式
Hadoop完全分布式配置关闭防火墙修改主机名配置hosts文件。将需要搭建集群的主机全部配置到hosts文件中192.168.32.138hadoop01192.168.32.139hadoop02192.168.32.140hadoop03配置免密登录安装jdk安装zk配置Hadoop编辑hadoop-env.sh，并且重新生效编辑core-site.xmlfs.defaultFShdfs:/
9.大数据学习之旅——hive 零零天大数据学习之旅大数据
Hive介绍Hadoop开发存在的问题只能用java语言开发，如果是c语言或其他语言的程序员用Hadoop，存在语言门槛。需要对Hadoop底层原理，api比较了解才能做开发。Hive概述Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现
26.大数据学习之旅——Spark调优&源码解读&SparkSQL入门零零天大数据学习之旅大数据 spark
Spark调优—上篇更好的序列化实现Spark用到序列化的地方1）Shuffle时需要将对象写入到外部的临时文件。2）每个Partition中的数据要发送到worker上，spark先把RDD包装成task对象，将task通过网络发给worker。3）RDD如果支持内存+硬盘，只要往硬盘中写数据也会涉及序列化。默认使用的是java的序列化。但java的序列化有两个问题，一个是性能相对比较低，另外它
0基础大数据学习路径 kuntoria
最近有很多人问科多老师如何学习大数据？我也是思考了很多时日才动笔写下此文。本文的目的是希望给所有大数据初学者规划一条比较清晰的学习路线，帮助它们开启大数据学习之旅。鉴于大数据领域内的技术绚丽繁复，每位大数据初学者都应该根据自己的实际情况制定专属的学习路径。要说当下IT行业什么最火？ABC无出其右。所谓ABC者，AI+BigData+Cloud也，即人工智能、大数据和云计算(云平台)。每个领域目前都
22.大数据学习之旅——scala手把手带你入门零零天大数据学习之旅
Scala介绍Scala介绍官方网址：http://www.scala-lang.org官网对scala的介绍：Scala既是面向对象的语言，也是面向函数的语言。scala可以为你在做大量代码重用和扩展是提供优雅的层次结构，并可以通过高阶函数来实现这样的目标。（高阶函数是函数式编程里的特性之一，允许函数作为参数传递，也允许函数作为返回值来返回）Scala创始人MartinOdersky马丁·奥德斯
大数据技术学习路线指南 qq_43958076 大数据学习 Hadoop linux 大数据大数据开发 spark Hive 大数据技术程序员数据分析
引言本文的目的是希望给所有大数据初学者规划一条比较清晰的学习路线，帮助他们开启大数据学习之旅。鉴于大数据领域内的技术绚丽繁复，每位大数据初学者都应该根据自己的实际情况制定专属的学习路径。大数据，即BigData，关于它的定义很多，最权威的莫属IBM的定义，读者可以自行查阅，笔者在这里不再赘述。既然本文关注的是如何学习大数据，那么我们首先就要定义大数据领域内的不同角色，这样各位读者才能根据自身实际情
21.大数据学习之旅——flume进阶零零天大数据学习之旅大数据
flume的Sourcesource学习网址：http://flume.apache.org/FlumeUserGuide.html一、Avro类型的Source监听Avro端口来接收外部avro客户端的事件流。和netcat不同的是，avro-source接收到的是经过avro序列化后的数据，然后反序列化数据继续传输。所以，如果是avro-source的话，源数据必须是经过avro序列化后的数据
20.大数据学习之旅——flume安装和配置零零天大数据学习之旅大数据
实现步骤：安装jdk，1.6版本以上上传flume的安装包解压安装在conf目录下，创建一个配置文件，比如：template.conf（名字可以不固定,后缀也可以不固定）配置agent组件相关配置：#配置Agenta1的组件a1.sources=r1a1.channels=c1(可以配置多个，以空格隔开，名字自己定）a1.sinks=s1(可以配置多个，以空格隔开，名字自己定）#描述/配置a1的r
19.大数据学习之旅——flume介绍零零天大数据学习之旅大数据
flume介绍概述Flume最早是Cloudera提供的日志收集系统，后贡献给Apache。所以目前是Apache下的项目，Flume支持在日志系统中定制各类数据发送方，用于收集数据。Flume是一个高可用的，高可靠的鲁棒性（robust健壮性），分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据(source);同时，Flume提供对数据进行简单处
（前言）我的大数据学习之旅 Ares_song 云计算与大数据 hadoop spark flink kafka
这是对大数据相关内容做的总结，也是初学者想了解大数据所要学习的相关知识。在此我将自己本科阶段学习的内容做一个相关的学习介绍，用序号的方式进行记录我的学习历程。一、大数据运维之Linux基础打好Linux基础，以便更好地学习Hadoop，hbase,NoSQL，Spark，Storm，docker,openstack等。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。1）Linux系统概
大数据学习之旅2——从零开始搭hadoop完全分布式集群萌新瑟瑟发抖
前言本文从零开始搭hadoop完全分布式集群，大概花费了一天的时间边搭边写博客，一步一步完成完成集群配置，相信大家按照本文一步一步来完全可以搭建成功。需要注意的是本文限于篇幅和时间的限制，也是为了突出重点，一些很基础的操作就不再详细介绍，如果是完全不懂linux，建议先看一下Linux的基础教程，再进行hadoop配置。同时建议，hadoop安装版本不宜很高。第一次写这么长的博客，希望对大家有所帮
大数据学习之旅1——HDFS版本演化萌新瑟瑟发抖
最近开始学习大数据，发现大数据有很多很多组件，我现在负责的是HDFS（Hadoop分布式储存系统）的学习，整理了一下HDFS的版本情况。因为HDFS是Hadoop的重要组成部分，所以有关HDFS的版本信息我也是通过查看Hadoop官网的每一个版本的Hadoop中HDFS的变化情况得到的，我尽可能的翻看了所有的信息，但是也可能有所疏漏，大家如果发现有不恰当的地方，可以在评论区留言，我有空的时候会做出
大数据是什么？华为云学院带你探索大数据之旅 weixin_33714884
大数据是什么？华为云学院带你探索大数据之旅我们首先从大数据是什么开始讲起，！下面由我来带领大家！展开我们本次的大数据学习之旅！大数据是什么，内容将包括大数据的产生，发展大数据的基本概念。首先我们来追溯一下大数据的产生与发展，大数据的产生和发展主要经历了三个阶段。第一个阶段，我们称为是萌芽期！自上世纪九十年代至本世纪初，随着数据挖掘理论和数据库技术的逐步成熟，一批商业智能工具和知识的管理技术也开始得
开启大数据学习之旅静Hadoop
之前接触过Hadoop，感觉蜻蜓点水，从今天开始系统的学习大数据，有个好老师幸福— 《从技术角度思考Hadoop到底是什么》http://edu.51cto.com/course/course_id-1151.html DT大数据梦工厂微信公众号：DT_Spark，希望大家一起学习，加油！感谢王家林老师！
大数据学习之旅开启了 ff2008zhj
一个偶然的机会听了一次王家林老师的大数据课程，讲得非常棒，从今天开始向王老师学习，一步步打好大数据的基础，加油！下面的链接是王家林老师录制的视频：开始学习^-^http://pan.baidu.com/s/1eQsHZAq
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1