W_chuanqi

HBase高手之路7—HBase之全文检索Phoneix

文章目录

HBase之全文检索Phoenix
- 一、全文检索
- 二、全文检索工具phoenix简介
- - 1. 简介
  - 2. 使用Phoenix是否会影响HBase性能
  - 3. 哪些公司在使用Phoenix
  - 4. 官方性能测试
  - - 4.1 Phoenix对标Hive（基于HDFS和HBase）
    - 4.2 Phoenix对标Impala
    - 4.3 关于上述官网两张性能测试的说明
- 三、OLTP和OLAP
- - 1. OLAP
  - 2. OLTP
- 四、Phoenix的安装
- - 1.下载
  - 2.上传服务器
  - 3.解压
  - 4.修改HBase的配置文件hbase-site.xml
  - 5.分发HBase的配置文件到其他节点
  - 6.复制依赖包
  - - 1)复制phoenix的服务器端jar包到master和worker的hbase的lib文件夹下
    - 2)复制phoenix的客户端jar包到phoenix的客户端也就是hadoop001的phoenix的bin文件夹下
    - 3）将配置后的hbase-site.xml拷贝到phoenix的bin目录
- 五、启动phoenix客户端
- - 1.启动zookeeper
  - 2.启动hdfs
  - 3.启动hbase
  - 4.启动phoenix
  - 5.查看表
  - 6.查看HBase的web ui
- 六、Phoenix的基本使用
- - 1.创建表
  - 2.查看表结构
  - 3.删除表
  - 4.列名大小写的问题
  - 5.插入数据
  - 6.查询数据
  - 7.修改数据
  - 8.删除数据
- 七、HBase的命名空间
- - 1.简介
  - 2.创建命名空间
  - 3.列出命名空间
  - 4.查看命名空间详情
  - 5.删除命名空间
  - 6.在指定的命名空间下创建表
  - 7.添加数据到命名空间表
- 八、列簇设计
- 九、版本设计
- 十、数据压缩
- - 1.压缩算法
  - 2.查看表的压缩算法
  - 3.设置数据压缩
  - - 1)创建新表的时候
    - 2)修改已有表的压缩算法
- 十一、ROWKEY设计原则
- - 1.避免使用递增行键/时序的数据
  - 2.避免rowkey和列的长度过大
  - 3.使用long等类型比String类型更节省空间
  - 4.rowkey唯一性
  - 5.避免数据热点
  - - 1)热点
    - 2)预分区
    - 3)start key和end key
    - 4)预分区的个数
    - 5)rowkey避免数据热点设计
- 十二、设置预分区
- - 1.指定start key和end key来分区
  - - 1)创建预分区
    - 2)hbase的web ui查看分区的占用情况
  - 2.指定分区的数量、分区策略
  - - 1)创建预分区
    - 2)hbase的web ui查看分区的占用情况
    - 3)分区数量
    - 4)分区策略
- 十三、Phoenix的视图
- - 1.创建视图
  - 2.查询数据
- 十四、二级索引
- - 1.索引分类
  - - 1)全局索引
    - 2)本地索引
    - 3)覆盖索引
    - 4)函数索引
  - 2.创建索引
  - 3.根据索引查询数据
  - 4.删除索引
  - 5.查看索引

HBase之全文检索Phoenix

一、全文检索

全文数据库是全文检索系统的主要构成部分。所谓全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文数据库不仅存储了信息，而且还有对全文数据进行词、字、段落等更深层次的编辑、加工的功能，而且所有全文数据库无一不是海量信息数据库。

二、全文检索工具phoenix简介

Phoenix官方网址：http://phoenix.apache.org/

1. 简介

Phoenix官网：「We put the SQL back in NoSQL」
Apache Phoenix让Hadoop中支持低延迟OLTP和业务操作分析。
提供标准的SQL以及完备的ACID事务支持
通过利用HBase作为存储，让NoSQL数据库具备通过有模式的方式读取数据，我们可以使用SQL语句来操作HBase，例如：创建表、以及插入数据、修改数据、删除数据等。
Phoenix通过协处理器在服务器端执行操作，最小化客户机/服务器数据传输

Apache Phoenix可以很好地与其他的Hadoop组件整合在一起，例如：Spark、Hive、Flume以及MapReduce。

2. 使用Phoenix是否会影响HBase性能

Phoenix不会影响HBase性能，反而会提升HBase性能
Phoenix将SQL查询编译为本机HBase扫描
确定scan的key的最佳startKey和endKey
编排scan的并行执行
将WHERE子句中的谓词推送到服务器端
通过协处理器执行聚合查询
用于提高非行键列查询性能的二级索引
统计数据收集，以改进并行化，并指导优化之间的选择
跳过扫描筛选器以优化IN、LIKE和OR查询
行键加盐保证分配均匀，负载均衡

3. 哪些公司在使用Phoenix

链接：https://phoenix.apache.org/who_is_using.html

4. 官方性能测试

链接：https://phoenix.apache.org/performance.html

4.1 Phoenix对标Hive（基于HDFS和HBase）

4.2 Phoenix对标Impala

4.3 关于上述官网两张性能测试的说明

上述两张图是从Phoenix官网拿下来的，这容易引起一个歧义。就是：有了HBase + Phoenix，那是不是意味着，我们将来做数仓（OLAP）就可以不用Hadoop + Hive了？

千万不要这么以为，HBase + Phoenix是否适合做OLAP取决于HBase的定位。Phoenix只是在HBase之上构建了SQL查询引擎（注意：我称为SQL查询引擎，并不是像MapReduce、Spark这种大规模数据计算引擎）。HBase的定位是在高性能随机读写，Phoenix可以使用SQL快插查询HBase中的数据，但数据操作底层是必须符合HBase的存储结构，例如：必须要有ROWKEY、必须要有列蔟。因为有这样的一些限制，绝大多数公司不会选择HBase + Phoenix来作为数据仓库的开发。而是用来快速进行海量数据的随机读写。这方面，HBase + Phoenix有很大的优势。

三、OLTP和OLAP

1. OLAP

在线分析处理系统，hadoop、hbase、hive提供支持

2. OLTP

在线事务处理系统，传统的关系数据库支持

四、Phoenix的安装

1.下载

链接：https://phoenix.apache.org/download.html

从官网上下载与HBase版本对应的Phoenix版本。

2.上传服务器

3.解压

tar -zxvf phoenix-hbase-2.4.0-5.1.3-bin.tar.gz -C ../servers/

解压文件：

查看：

4.修改HBase的配置文件hbase-site.xml

添加内容如下：

property>
  
	<property>
		<name>phoenix.schema.isNamespaceMappingEnabledname>
		<value>truevalue>
	property>
	<property>
		<name>hbase.table.sanity.checksname>
		<value>falsevalue>
	property>
	<property>
		<name>hbase.coprocessor.abortonerrorname>
		<value>falsevalue>
	property>
	
	<property>
	  <name>hbase.regionserver.wal.codecname>
	  <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodecvalue>
	property>

5.分发HBase的配置文件到其他节点

scp conf/hbase-site.xml hadoop002:$PWD/conf 
scp conf/hbase-site.xml hadoop003:$PWD/conf

6.复制依赖包

1)复制phoenix的服务器端jar包到master和worker的hbase的lib文件夹下

hadoop001：

cp phoenix-server-hbase-2.4.0-5.1.3.jar /export/servers/hbase-2.4.10/lib/

hadoop002：

scp phoenix-server-hbase-2.4.0-5.1.3.jar hadoop002:/export/servers/hbase-2.4.10/lib/

hadoop003：

scp phoenix-server-hbase-2.4.0-5.1.3.jar hadoop003:/export/servers/hbase-2.4.10/lib/

2)复制phoenix的客户端jar包到phoenix的客户端也就是hadoop001的phoenix的bin文件夹下

cp phoenix-client-hbase-2.4.0-5.1.3.jar bin/

3）将配置后的hbase-site.xml拷贝到phoenix的bin目录

cp conf/hbase-site.xml ../phoenix-hbase-2.4.0-5.1.3-bin/bin/
cd ../phoenix-hbase-2.4.0-5.1.3-bin/bin/

五、启动phoenix客户端

1.启动zookeeper

2.启动hdfs

3.启动hbase

4.启动phoenix

bin/sqlline.py hadoop001:2181

说明启动成功

5.查看表

6.查看HBase的web ui

六、Phoenix的基本使用

1.创建表

语法：

create table if not exists 表名（
rowkey 名称 类型 primary key,
列簇名.列名 类型,
......
）;

在实际操作中，先用vscode之类的编辑工具，写好相关的语句，然后再复制到phoenix中运行

-- 创建表ORDER_1
create table if not exists ORDER_1 (
    ID varchar primary key ,
    C1.STATUS varchar ,
    C1.PAY_MONEY float ,
    C1.PAY_WAY integer ,
    C1.USER_ID varchar ,
    C1.OPERATION_DATE varchar ,
    C1.CATEGORY varchar
);

2.查看表结构

语法：

！desc 表名

3.删除表

语法：

drop table if exists 表名;

drop table if exists ORDER_1;

4.列名大小写的问题

如果在使用列簇、列名的时候没有添加双引号，Phoenix会自动转换为大写

create table if not exists ORDER_1 (
    ID varchar primary key ,
    C1.Status varchar ,
    C1.PAY_MONEY float ,
    C1.PAY_WAY integer ,
    C1.user_id varchar ,
    C1.OPERATION_DATE varchar ,
    C1.category varchar
);

如果要将列名改为小写，则要用双引号括起来
如果一旦加了双引号，后面任何使用该列的地方都得使用双引号，否则就会报错

5.插入数据

在Phoenix中，插入数据并不是insert，而是upsert，相当于insert和update合起来的缩写，与HBase shell中的put相当于，如果数据存在则修改，如果不存在则插入。

语法：

upsert into 表名(列簇名.列名,...) values(值1,...);

upsert into ORDER_1 values ('000001','已完成',2000,1,'494419','2024-04-20 12:00:30','手机');

6.查询数据

与标准的sql一样，在Phoenix中也是用select实现数据的查询

select * from ORDER_1;

7.修改数据

在Phoenix中，修改数据也使用upsert

语法：

upsert into 表名(列簇名.列名,...) values(值1,...);

upsert into ORDER_1(ID,C1.STATUS) values('000001','已付款') ;

8.删除数据

在Phoenix中，删除数据与标准的sql一样，也是用delete from实现数据的删除

语法：

delete from 表名 where rowkey列名=值;

delete from ORDER_1 where ID = '000001';

七、HBase的命名空间

1.简介

类似与mysql和hive中的数据库，对数据进行分类存放，按照业务域来划分类别，这些不同的业务域就叫做命名空间（namespace）。

在HBase中有一个默认的命名空间叫做default，默认情况下，创建的表都在default命名空间下。
在HBase中还有一个命名空间，叫做hbase，用于存放系统的内建表（namespace，meta）

list_namespace

2.创建命名空间

语法：

create_namespace 命名空间名

create_namespace "network"

3.列出命名空间

语法：

list_namespace

4.查看命名空间详情

describe_namespace 命名空间名

describe_namespace "network"

5.删除命名空间

语法：

drop_namespace 命名空间名

drop_namespace "network"

注意：
删除命名空间时，必须在该命名空间下没有表，否则无法删除

6.在指定的命名空间下创建表

语法：

create “命名空间名:表名”,”列簇名”

create "network:students","info"

在web ui 上查看：

注意：
使用带有命名空间的表，用冒号将命名空间和表名连起来

7.添加数据到命名空间表

语法：

put “命名空间名:表名”,”rowkey”,”列簇名:列名”,值

put "network:students","0001","info:name","张三"                
put "network:students","0001","info:age",20
scan "network:students",{FORMATTER=>'toString'}

八、列簇设计

HBase列蔟的数量应该越少越好，一般情况下，一个表只设计一个列簇

两个及以上的列蔟HBase性能并不是很好
一个列蔟所存储的数据达到flush的阈值时，表中所有列蔟将同时进行flush操作，这将带来不必要的I/O开销，列蔟越多，对性能影响越大

九、版本设计

版本数一般设计为1

一般情况下，如果对数据不做修改，只保留一个版本，可以节省大量的存储空间

describe "network:students"

十、数据压缩

1.压缩算法

在HBase可以使用多种压缩编码，包括LZO、SNAPPY、GZIP。只在硬盘压缩，内存中或者网络传输中没有压缩。

压缩算法	压缩后占比	压缩	解压缩
GZIP	13.4%	21 MB/s	118 MB/s
LZO	20.5%	135 MB/s	410 MB/s
Zippy/Snappy	22.2%	172 MB/s	409 MB/s

GZIP的压缩率最高，但是其实CPU密集型的，对CPU的消耗比其他算法要多，压缩和解压速度也慢；
LZO的压缩率居中，比GZIP要低一些，但是压缩和解压速度明显要比GZIP快很多，其中解压速度快的更多；
Zippy/Snappy的压缩率最低，而压缩和解压速度要稍微比LZO要快一些

根据实际情况，选择合适的压缩算法

2.查看表的压缩算法

HBase中的表默认不适用压缩，进行数据压缩可以节省存储空间

3.设置数据压缩

1)创建新表的时候

语法：

create "命名空间名:表名",{NAME => '列簇名', COMPRESSION => '压缩算法名'}

示例：

create_namespace "shop"
create "shop:orders",{NAME => 'C1',COMPRESSION => 'GZ'}
describe "shop:orders"

2)修改已有表的压缩算法

语法：

alter “命名空间名:表名”,{NAME => ‘列簇名’, COMPRESSION => ‘压缩算法名’}

示例

create "shop:goods","C1"
alter "shop:goods",{NAME => 'C1', COMPRESSION => 'GZ'}

十一、ROWKEY设计原则

1.避免使用递增行键/时序的数据

如果ROWKEY设计的都是按照顺序递增（例如：时间戳），这样会有很多的数据写入时，负载都在一台机器上。我们尽量应当将写入大压力均衡到各个RegionServer

2.避免rowkey和列的长度过大

在HBase中，要访问一个Cell（单元格），需要有ROWKEY、列蔟、列名，如果ROWKEY、列名太大，就会占用较大内存空间。所以ROWKEY和列的长度应该尽量短小
ROWKEY的最大长度是64KB，建议越短越好

3.使用long等类型比String类型更节省空间

long类型为8个字节，8个字节可以保存非常大的无符号整数，例如：18446744073709551615。如果是字符串，是按照一个字节一个字符方式保存，需要快3倍的字节数存储。

4.rowkey唯一性

设计ROWKEY时，必须保证RowKey的唯一性
由于在HBase中数据存储是Key-Value形式，若向HBase中同一张表插入相同RowKey的数据，则原先存在的数据会被新的数据覆盖。

5.避免数据热点

1)热点

热点是指大量的客户端（client）直接访问集群的一个或者几个节点（可能是读、也可能是写）
大量地访问量可能会使得某个服务器节点超出承受能力，导致整个RegionServer的性能下降，其他的Region也会受影响

2)预分区

默认情况，一个HBase的表只有一个Region，被托管在一个RegionServer中

3)start key和end key

每个Region有两个重要的属性：Start Key、End Key，表示这个Region维护的ROWKEY范围
如果只有一个Region，那么Start Key、End Key都是空的，没有边界。所有的数据都会放在这个Region中，但当数据越来越大时，会将Region分裂，取一个Mid Key来分裂成两个Region

4)预分区的个数

预分区个数 = 节点的倍数。默认Region的大小为10G，假设我们预估1年下来的大小为10T，则10000G / 10G = 1000个Region，所以，我们可以预设为1000个Region，这样，1000个Region将均衡地分布在各个节点上

5)rowkey避免数据热点设计

1.反转策略

如果设计出的ROWKEY在数据分布上不均匀，但ROWKEY尾部的数据却呈现出了良好的随机性，可以考虑将ROWKEY的翻转，或者直接将尾部的bytes提前到ROWKEY的开头。

示例：

182xxxx7890-->0987xxx281

182xxxx6379-->9736xxx281

182xxxx1355-->5531xxx281

20200911145043-->34054111900202

20200911145058-->85054111900202

20200911145501-->10554111900202

优点：实现简单

缺点：反转策略可以使ROWKEY随机分布，但是牺牲了ROWKEY的有序性；利于Get操作，但不利于Scan操作，因为数据在原ROWKEY上的自然顺序已经被打乱

2.加盐策略
在原来的rowkey的前面加上固定长度的随机数，这个随机数就叫做盐，这样使得rowkey具有随机性

优点：rowkey的随机性能保障数据在所有的regionserver之间的负载均衡
缺点：因为添加的是随机数，基于原来的rowkey查询时无法知道随机数是什么，会影响查询速度，不适合数据的读取

3.哈希策略
基于 ROWKEY的完整或部分数据进行 Hash，而后将Hashing后的值完整替换或部分替换原ROWKEY的前缀部分
这里说的 hash 包含 MD5、sha1、sha256 或 sha512 等算法

优点：同加盐策略

缺点：Hashing 也不利于 Scan，因为打乱了原RowKey的自然顺序

十二、设置预分区

1.指定start key和end key来分区

1)创建预分区

语法：

create_namespace "test"
create "test:t1",'C1',SPLITS=>['10','20','30','40']

2)hbase的web ui查看分区的占用情况

点击t1表，查看详情

2.指定分区的数量、分区策略

1)创建预分区

create "test:t2","C1",{NUMREGIONS=>6,SPLITALGO=>'HexStringSplit'}

2)hbase的web ui查看分区的占用情况

点击t2查看详情

3)分区数量

一般按照数据量来预估或者根据节点数的倍数来设定

4)分区策略

HexStringSplit：rowkey是采用十六进制字符串作为前缀
DecimalStringSplit：rowkey采用十进制数字字符串作为前缀
UniformStringSplit：rowkey的前缀是随机的

十三、Phoenix的视图

Phoenix的视图就是对已经创建的HBase表建立映射关系，从而实现对已有表的快速查询。

1.创建视图

语法：

create view if not exists "命名空间名"."表名" (
    "Rowkey名" 类型r primary key,   
    "列簇"."列名" 类型,
"列簇"."列名" 类型
……
);

示例：

create view if not exists "shop"."goods" (
    "id" varchar primary key,
    "C1"."name" varchar,
    "C1"."price" varchar
);

2.查询数据

语法：

select * from "命名空间名"."表名" where 条件;

示例：

添加数据(hbase shell)：

put "shop:goods","000001","C1:name","冰箱"
put "shop:goods","000001","C1:price",5800
put "shop:goods","000002","C1:name","洗衣机"
put "shop:goods","000002","C1:price",3500

查询：

select * from "shop"."goods";

十四、二级索引

一般情况下，Hbase会根据rowkey建立索引，来提供查询的速度，这样的索引叫做一级索引。如果根据name进行查询，因为没有根据name建立索引，所以查询效率比较低，这是可以给name来创建二级索引。

1.索引分类

全局索引
本地索引
覆盖索引
函数索引

1)全局索引

全局索引适用于读多写少的业务
全局索引主要的负载发生在写入操作时，比如upsert、delete，Phoenix会拦截数据表的更新，构建索引更新，开销比较大
读取时，Phoenix会选择最快的能够查询出数据的索引。
全局索引一般要跟覆盖索引搭配使用

语法：

create index 索引名称 on 表名(列名1，列名2……);

举例：

添加数据：

upsert into ORDER_1 values ('000001','已完成',2000,1,'494419','2024-04-20 12:00:30','手机');
upsert into ORDER_1 values ('000002','已付款',6666,1,'494420','2024-04-20 12:00:30','电脑');

创建视图：

create index idxname on ORDER_1(CATEGORY);

注意：Phoenix中的索引，其实底层还是Hbase的表结构，这些索引表是专门用来加快查询速度。

2)本地索引

本地索引适合写操作频繁的场景
在本地索引中，索引数据和业务表数据存储在同一个服务器上，加快写入的速度
本地索引的数据是保存在一个影子列簇中

创建语法：

create local index 索引名称 on 表名(列名1，列名2……);

3)覆盖索引

可以不需要在找到索引条目后返回到主表中，可以将关心的数据捆绑在索引行中，从而节省了读取的时间开销。

创建语法：

create index 索引名称 on 表名(列名1，列名2……) include(列名3);

示例：

create index idxcombo on ORDER_1(CATEGORY,STATUS,PAY_MONEY) include(USER_ID);

4)函数索引

适用于高版本的phoenix，可以基于任意表达式（函数）创建索引
语法

create index 索引名称 on 表名(函数名(列名1)，列名2……);

2.创建索引

create index idxsuerid on ORDER_1(C1.USER_ID) include(ID,C1.PAY_MONEY);

3.根据索引查询数据

select C1.USER_ID,ID,C1.PAY_MONEY from ORDER_1 where C1.USER_ID='494419';

注意：查询的时候还是得加上列簇。

4.删除索引

drop index 索引名 on 表名

示例：

drop index IDXCOMBO on ORDER_1;

5.查看索引

参考文章：

全文检索

刚搭完HBase集群，Phoenix一启动，HBase就全崩了，是什么原因?

Phoenix映射hbase原表实现

HBase系列（四）、HBase优化之RowKey 设计

你可能感兴趣的:(HBase高手之路,hbase,全文检索,hadoop)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
开启你的思维成长之路希思维
图片发自App很多时候我们都羡慕别人家的孩子思维敏捷，记忆超强，脑回路清晰等，认为那些都是天生的能力，而自己要达到那样的境界几乎不可能，殊不知每个人都有一个强大的小宇宙，就看你是否找到了开启你思维小宇宙的方法。我们每个人的大脑都具有无限潜能，大部分人只开发出10-20%，还有很多潜力深埋于冰山底，而如何找到自己思维的动力呢?首先就是要了解我们神奇的大脑，从大脑神经元素，到神经回路的形成，知晓大脑思
大都会资本BMAN的2018年终总结非线性思考
1投资的本质是认知变现赚钱=足够的认知*高效的的变现。2投资的三大基石策略:提升认知高效变现知行合一3如果你亏钱了要么是认知的问题，要么是变现的问题，要么而是知行合一的问题。4投资需要知行合一，很简单的道理，却拦住了很多高手，是因为认知和行动中间还隔着人性。顶级的高手能把自己从贪嗔痴中抽离出来，顶级高手没有人性，只有原则。5如果你玩的是空气币，就不要幻想拿着它改变世界，那是你套出了幻觉，眼光放短一
《我的人间烟火》火遍全网，姐弟恋专业户魏大勋用演技为自己正名，他的代表作并非三个女人天然农场
说起魏大勋，真是一言难尽！毕业于中央戏剧学院的他，出道十几年居然没有塑造出让观众记住的角色，一直被大家定位为综艺咖，甚至有人打趣道，魏大勋的代表作就是三段姐弟恋。他的绯闻女友，囊括了马苏、杨幂、秦岚这三位顶级女神。不得不承认，魏大勋虽然形象欠佳，但是眼光不错，艳福不浅，直逼当年的泡妞高手李亚鹏。与李亚鹏不同的是，魏大勋每次都是奔着结婚而去，并非玩玩而已，毕竟不以结婚为目标的恋爱都是耍流氓！有网友评
《跃迁》5/7-5组-橙子-张静12.16 静言物于
【便签5】【片段来源】《跃迁：成为高手的技术》第四章【R原文】一位客户咨询时抱怨：“这个我做不到。”我问他：“如果我请你现在出去裸奔，你能做到吗？”“这个我也做不到”“其实并不是做不到，而是不愿意做，或者不想承担裸奔的代价吧。你不是做不到，而是选择不去做。如果有一天你裸奔能救自己家人、孩子，也许就能做到了。”为什么要做这个区分？如果一个人经常和自己说“做不到”，他的能力范围会越来越小，会成为一个无
误落尘网中，一去三十年不会功夫的谭大侠
图片发自App图片发自App图片发自App《财富自由之路》中开篇就讲述了财富自由的目的是为了时间自由，高中觉得每个月一千块是财富自由，大学觉得每个月两千块是财富自由，毕业时觉得每个月五千是财富自由，现在感觉每个月一万都不一定自由。思来想去，货币贬值也没有这么快，还是自己欲望太大了，欲壑难填。大学有一个梦想去西藏，当时觉得两千块就能去，现在感觉有一万都不够。膨胀了啊！曾经想过时间自由了干什么，我就半
如何自学软件编程？零基础自学编程入门指南 _pangzi
前言零基础自学编程的动力是什么?在开启学习编程之路的时候必须搞清楚自己为什么要学编程?是因为工资高?还是对编程有浓厚的兴趣？还有自己有一定的编程基础想要继续提升自己？其实对于这个问题需要具体分析，如果是单纯看到程序员工资高，而自己本身并没有什么兴趣，那我不建议自学，可以选择参加培训或者不要进入编程领域不然自己学不会没有获得高薪，反而浪费了大把的时间，如果方法不对，反而会打击自信心。下面小编针对学习
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
《我的职业是小说家》 simple梦
《我的职业是小说家》：《我的职业是小说家》是村上春树前所未有的自传性作品，历时六年完成。一个人，写作三十五年，十三部长篇小说，超过五十种语言译本。虽然拥有享誉世界的知名度，但关于村上春树，许多事情始终包裹在神秘的面纱中：他是怎样下定决心走上职业小说家之路？对他来说，人生中幸福的事是什么？究竟如何看待芥川奖与诺贝尔文学奖……小说家看似风光，却是份孤独的职业。三十五年来，村上春树在孤独中编织着美妙动人
python实现规则引擎_规则引擎python weixin_39601511 python实现规则引擎
广告关闭回望2020，你在技术之路上，有什么收获和成长么？对于未来，你有什么期待么？云+社区年度征文，各种定制好礼等你！我正在用python编写日志收集分析应用程序，我需要编写一个“规则引擎”来匹配和处理日志消息。它需要具有以下特点：正则表达式匹配消息本身消息严重性优先级的算术比较布尔运算符我设想一个例子规则可能是这样的：(message~program:messageandseverity>=h
生老病死贝贝_1
生老病死是生命的必然过程，是人生的必由之路。人生在世不过几十年，所包罗的生、老、病、死是不以人的意志为转移的。我们唯一能做到的就是顺乎自然，珍惜生命，老有所乐，战胜病魔，笑对死亡。生图片发自App“生”不由己，尽管你不愿睁开眼睛，尽管你哭着喊着，但你还是被带到了这个世界，而所有围着你的人包括你的父母，就是要听见你离开母体发出的这一串串生命的哭声，他们才会笑，并且笑得那般的欣慰。是啊，这第一声哭是你
在模拟游戏《星露谷物语》中，体验一把闪婚需要多长时间？爱游戏的萌博士
我们知道：游戏圈中有许多速通玩家，他们追求尽可能短的时间完成游戏里的某项挑战，“RTA（RealTimeAttack）”就是其中主要的玩法，也就是“从游戏开始到通关画面出现为止所需现实时间尽可能短”。为了增加难度，高手们有时候还给自己设定一些限制，比如：有玩家挑战在“无伤”的前提下通关《塞尔达传说：荒野之息》等等。近日，博士就在海外玩家社群中留意到一项新的游戏速通纪录引发了热议！游戏产品并非《塞尔
【剽悍一只猫的剽悍行动营】不忘初心，砥砺前行财务自由的社群运营人苏宝
作者/梅子我在第15期剽悍行动营奇迹四连四排的同桌叫Tony。今天，我来讲一讲他的故事。Tony出生在湖北恩施的一个贫困的小山村，因为家里很穷，他很想通过自己的努力改变家庭的命运，所以他中途辍了学，过早的步入了社会。一开始的时候他也很迷茫，不知道到自己到底该干什么？能干什么？后来经同学介绍进入了一家鞋厂，从事搬运工作，开启了他人生中的第一次独立自主的打工之路。可是，现实与理想的差距，让他在鞋厂只干
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
大学时期的自我探索之路 Hello芒果
大学的时候，我主要是通过两种方式来加深对自己的了解。第一种，就是让朋友同学对我进行评价。我曾经在朋友圈让大家写下关于我的三个关键词，也曾经制作一个简单的问卷，让大家告诉我他们所认识的芒果是一个什么样的人。我的这种方式是外求。可以说，当局者迷，看不清自己，也可以说，我不够自信，需要从他人的眼里看到自己的优点和特点。其实朋友们大部分都给我给予的是好评，我记得那些好评和领导组织能力、动静皆宜、乐于助人、
《女子监狱》系列，Netflix自此走上牛B之路 IMTVS_cc
文|温水排版|不二今天小编要给大家推荐的是让Netflix大方打上“原创剧集”这个牛气标签，也让HBO这些老牌电视网倒吸一口凉气的美剧《女子监狱》。剧集播出后，IMDB得分在9分徘徊，媒体评价持续走高。从收视率及口碑上来看，《女子监狱》是网飞当之无愧的王牌，自上线以来斩获金球奖等重要奖项6次、提名19次，网络话题数不胜数。《女子监狱》的英文原名是“Orangeisthenewblack”，直译过来
财富自由之路读书笔记2 Elaine_a963
继续财富自由读书笔记，今天就第十-二十三章进行归纳总结思考。这本书可以说是边学边练的武功秘籍。秘籍一：注意力。先从认知上刷新，先前谈到价值的重要性及单位价值提升的必要性。这里就引出了：“注意力”是在任何地方“挖掘”价值的最基本工具。那么，要自如运用注意力，就得练习。这里李老师给的无他，就是基本功训练扎实-坐享。秘籍二：活在未来。再一次颠覆认知，大众的思维是活在当下，而这里指引我们要活在未来。用正确
推动党史学习教育常态化长效化贵在知行合一 Mxz
中共中央办公厅近日印发《关于推动党史学习教育常态化长效化的意见》（以下简称《意见》），就推动党史学习教育常态化长效化提出了六个方面要求、作出重大部署。这是贯彻落实党中央指示精神、不断巩固拓展党史学习教育成果的重要举措，必将为更加坚定自觉地牢记初心使命、在新的赶考之路上考出好成绩注入强大精神动能。在全党开展党史学习教育，是以习近平同志为核心的党中央立足百年党史新起点、着眼开创事业发展新局面作出的一项
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
不简单的简化之路颜小婧
简化16年前，畅销书作者理查德·科克向世人介绍了80/20法则，即我们80%的成就源于仅仅20%的时间、努力和关键决策。对于这个80/20法则，我相信大家都很熟悉了。而被称为80/20法则之父的的理查德·科克和格雷格·洛克伍德一起合作了一本《极简法则》，揭示了：简化是创造大规模市场、建立高盈利企业的秘密。通过对亚马逊、苹果、宜家、福特等成功的企业所采取的商业模式的分析得出两种简化策略：价格简化和命
读书笔记语馨_f389
王聪丽坚持分享第1008天《亲密关系》期望就是通往地狱之路，因为期望会把接受和让人自由等充满爱意的感觉挡在门外。如果我不能接受别人现在的样子或不让他们自由地走自己的路，那么我就不是真的爱他们，我只是想从他们身上得到满足，与他们建立亲密关系的目的并不是为了爱，而是为了满足我小小的自私需求。我们可以觉察一下，在潜意识里，我对他有什么要求。让人惊讶的是，不开心的原因往往是沉睡多年的需求。不论是用暗示还是
洛谷P1719 最大加权矩形 0hang 算法 c++开发语言
洛谷P1719最大加权矩形题目描述为了更好的备战NOIP2013，电脑组的几个女孩子LYQ,ZSC,ZHQ认为，我们不光需要机房，我们还需要运动，于是就决定找校长申请一块电脑组的课余运动场地，听说她们都是电脑组的高手，校长没有马上答应他们，而是先给她们出了一道数学题，并且告诉她们：你们能获得的运动场地的面积就是你们能找到的这个最大的数字。校长先给他们一个n\timesnn×n矩阵。要求矩阵中最大加
修行之路天赐_7417
单位是上班的地方，工作的地方，不是讲人情的地方。如果领导仁慈，那再好不过，不过不是，也不必难过，这本就是单位的本质。你只不过是认识到了它的本质而已。这不是坏事。在单位，你做得好，领导不一定看到，即使看到，也不一定会给予肯定，因为他们认为做得好是你应该的；做得差，那领导一定会批评，因为他不想看到你犯错误。但是人非圣贤，孰能无过？领导批评就批评吧！可能他批评的方式很过激，但那不是员工需要考虑的问题，他
对待工作的态度杨奶茶
今天下午听了教授的一番话，听了很认真，人要学着傻，我就是以为自己很聪明，其实聪明反被聪明误，以前总是眼高手低，总觉得不给好处不做，什么都想谈条件，往往这样我得不到成长而且做事态度也很差，我现在才明白，什么事情先去做，而且认真做好，有一句话是但行好事，莫问前程。首先把事情做好，晚上美美让我做表格，其实我是最头疼表格的，眼睛都看花了，但是我内心里面我是很开心的，我喜欢承担责任，表格不会我可以学，做的慢
今日碎碎念万里风来韩小邪
财务自由之路到底是本什么书呢？里面的感觉读着真的还不错。我应该给自己定一个时间来认真的读这些吧。最近沉迷于张云雷不可自拔。要问相思赋予谁？小辫儿二爷张云雷！粉丝们说我们不是在追星，我们是在捧角儿。相声到底是个什么神奇的事物呢？其实喜欢的还是京剧吧？那些书生软糯的戏腔。一身长袍一首小曲儿真是绝了
校园高手传（九十）拼命鸡三郎紫光极星雨
第九十章拼命鸡三郎鸡妖小火趁着高约七十来米的白色巨大身影，随龙星冲出洞穴之际，展开翅膀，跃入了漆黑不见底的洞穴之中…“哇！这么黑吗？”才进入雷钢鼠栖息的洞穴，小火就察觉到一丝不对劲，四周似乎是有些黑得异常。“吸～”深深吸了一口空气里传来的铁屑和氮肥气息，小火不禁偏过头，把小巧的脑袋迈入翅膀之间，想要借此回避迎面而来的难闻气味，可奈何这股味道太过于浓厚，几乎已经渗透入这座洞穴的每个角落，根本挥之不去
时间买卖 ziworeborn
以下为《通往财富自由之路》专栏中，关于时间买卖的笔记摘要。如果把一个人比作一个公司的话，刚开始我们的商业模式只能单份出售自己的时间。在这个阶段，升级个人商业模式的核心只有一个，提高我们的单位时间售价。在这个阶段，大多数人会做出最终被证明不明智的选择，把自己的付出与自己的单位时间售价直接挂钩，于是，开始不由自主地采用两个简单粗暴的方式提高自己的单位时间售价：磨洋工、喊高价。然而，长期来看，这其实是不
2023-07-28 云汐若
书名:昆虫记文章：黑肚皮的塔兰图拉毒蛛作者：法布尔优美词汇：温柔可人、面不改色、泰然自若、天经地义、没心没肺凯旋而归、毫不客气、地地道道、稀奇古怪、三三两两丑陋不堪、豺狼虎豹、忽如其来、兴趣盎然、熠熠生辉悄无声息、黯然失色、仪态万方、一无所知、怪模怪样精彩句段：蜘蛛是真正的纺织高手、聪明的猎人，悲惨的婚姻，还有其他吸引人的特征。赏析：对蜘蛛特点的总结，体现了作者对他们进行了认真而又仔细的研究。蜘蛛
走好人生启航之路-送给即将上大学的下一代遇见陈溪月
亲爱的外甥女:写这封信的时候，转眼间你已经满18岁了，即将迈入大学。而脑海中浮现的还是刚刚搬家到华苑新城的时候，刚学会走路蹒跚的样子，一不小心就被光滑的地板摔了个跟头。那天我和董明也回去了，而那时的我们也即完成大学学业迈入社会，对未来充满无限憧憬，我想此时的你对大学生活和未来肯定也有着美好的梦想。自从你迈入大学的第一天起离开家，开始了独立的学习生活。而这正是你自我管理的开始。社会就是从依赖、独立走
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少