潜心_守道

大数据面试系列之——Hbase

Hbase是一个分布式的列式存储的数据库

1.说说Hbase的特点

1.分布式架构，Hbase通过集群存储数据，数据最终会落到HDFS上
2.是一种NoSQL的非关系型数据库，不符合关系型数据库的范式
3.面向列存储，底层基于key-value结构
4.适合存储半结构化、非结构化的数据
5.适合存储稀疏的数据，空的数据不占用空间
6.提供实时的增删改查的能力，但是不提供严格的事务机制，只能在行级别提供事务

2.Hbase的架构组成及其作用

1.Zookeeper，作为分布式的协调。RegionServer也会把自己的信息写到ZooKeeper中。
2.HDFS是Hbase运行的底层文件系统
3.RegionServer，理解为数据节点，存储数据的
4.Master RegionServer要实时的向Master报告信息。Master知道全局的RegionServer运行情况，可以控制RegionServer的故障转移和Region的切分

3.说说行存储和列存储的特点

1.行存储在磁盘上的存储是连续的；列存储在磁盘上的存储是不连续的
2.从写入性能上对比，写入次数越少性能越高。因为针对磁盘的每一次写入，都要发生磁头调度，产生寻道时间。因为行存储是只写一次而列存储要写多次，所以行存储在写入性能上更有优势
3.从读取性能上对比：
a. 如果读取的是整表，则行存储性能较高
b. 如果是读取指定的列，则行存储会产生冗余列，而冗余列的消除是在内存中发生。而列存储则不会存在冗余列
4.在存储数据的时候，如果基于行存储，由于一行数据的字段类型可能不同，所以会产生频繁的数据类型转换；如果是基于列存储，由于同一列数据的类型一般一致，则可以避免频繁的数据类型转换，同时可以考虑一些更好的压缩算法对一列数据进行压缩

4.Hbase行键列族的概念，物理模型，表的设计原则

行键：是hbase表自带的，每个行键对应一条数据。
列族：是创建表时指定的，为列的集合，每个列族作为一个文件单独存储，存储的数据都是字节数组，其中数据可以有很多，通过时间戳来区分。
物理模型：整个hbase表会拆分成多个region，每个region记录着行键的起始点保存在不同的节点上，查询时就是对各个节点的并行查询，当region很大时使用.META表存储各个region的起始点，-ROOT又可以存储.META的起始点。
Rowkey的设计原则：各个列族数据平衡，长度原则、相邻原则，创建表的时候设置表放入regionserver缓存中，避免自动增长和时间，使用字节数组代替string，最大长度64kb，最好16字节以内，按天分表，两个字节散列，四个字节存储时分毫秒。
列族的设计原则：尽可能少(按照列族进行存储，按照region进行读取，不必要的io操作)，经常和不经常使用的两类数据放入不同列族中，列族名字尽可能短

5.HBase简单读写流程

读：
找到要读数据的region所在的RegionServer，然后按照以下顺序进行读取：先去BlockCache读取，若BlockCache没有，则到Memstore读取，若Memstore中没有，则到HFile中去读。
写：
找到要写数据的region所在的RegionServer，然后先将数据写到WAL(Write-Ahead Logging，预写日志系统)中，然后再将数据写到Memstore等待刷新，回复客户端写入完成。

6.请描述如何解决Hbase中region太小和region太大带来的结果

Region过小会发生多次compaction，将数据读一遍并写一遍到hdfs上，占用io，region过大会造成多次split，region会下线，影响访问服务，调整hbase.heregion.max.filesize为256m。

7.Hbase表的设计原则

1、列族的数量及列族的势
建议将HBase列族的数量设置的越少越好。当前，对于两个或两个以上的列族HBase并不能处理的很好。这是由于HBase的Flushing和压缩是基于Region的。当一个列族所存储的数据达到Flushing的阈值时，该表中所有列族将同时进行Flushing操作。这将带来不必要的I/O开销，列族越多，该特性带来的影响越大。
此外，还要考虑到同一个表中不同列族所存储的记录数量的差别，即列族的势(Cardinality)。当两个列族数量差别过大时会使包含记录数量较少列族的数据分散在多个Region上，而Region有可能存储在不同的RegionServer上。这样，当进行查询或scan操作的时候，系统效率将会受到影响。
2、行键(RowKey)的设计
首先应该避免使用时序或单调(递减/递增)行键。因为当数据到来的时候，HBase首先需要根据记录的行键来确定存储的位置，即Region的位置，如果使用时序或单调行键，那么连续到来的数据将被分配到同一个Region中，而此时系统的其他Region/RegionServer处于空闲状态，这是分布式最不希望看到的状态。
3、尽量最小化行键和列族的大小
在HBase中，一个具体的值由存储该值的行键、对应的列(列族：列)以及该值的时间戳决定。HBase中索引是为了加速随即访问的速度，索引的创建是基于“行键+列族：列+时间戳+值”的，如果行键和列族的大小过大，甚至超过值本身的大小，那么将会增加索引的大小。并且在HBase中数据记录往往非常之多，重复的行键、列将不但使索引的大小过大，也将加重系统的负担
4、版本的数量
默认情况下为3个，可以通过HColumnDescriptor进行设置，建议不要设置的过大

8.Hbase如何导入数据

使用 MapReduce Job 方式，根据 Hbase API 编写 java 脚本，将文本文件用文件流的方式截取，然后存储到多个字符串数组中，在 put 方法下，通过对表中的列族进行 for 循环遍历列名，用 if 判断列名后进行 for 循环调用 put.add 的方法对列族下每一个列进行设值，每个列族下有几个列就赋值几次，没有表就先创建表。

9.Hbase的存储结构

Hbase 中的每张表都通过行键(rowkey)按照一定的范围被分割成多个子表（HRegion），默认一个 HRegion 超过 256M 就要被分割成两个，由 HRegionServer 管理，管理哪些 HRegion由 Hmaster 分配。 HRegion 存取一个子表时，会创建一个 HRegion 对象，然后对表的每个列族（Column Family）创建一个 store 实例，每个 store 都会有 0 个或多个 StoreFile 与之对应，每个 StoreFile 都会对应一个 HFile， HFile 就是实际的存储文件，因此，一个 HRegion 还拥有一个 MemStore 实例。

10.Hbase 和 hive 有什么区别hive 与 hbase 的底层存储是什么？hive是产生的原因是什么？habase是为了弥补hadoop的什么缺陷？

Hive和Hbase都是架构在Hadoop上，底层存储都是HDFS
区别：
- 1.Hive是建立在Hadoop之上为了减少MapReducejobs编写工作的批处理系统，HBase是为了支持弥补Hadoop对实时操作的缺陷的项目
- 2.想象你在操作RMDB数据库，如果是全表扫描，就用Hive+Hadoop,如果是索引访问，就用HBase+Hadoop
- 3.Hive query就是MapReduce jobs可以从5分钟到数小时不止，HBase是非常高效的，肯定比Hive高效的多
- 4.Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑
- 5.hive借用hadoop的MapReduce来完成一些hive中的命令的执行
- 6.hbase是物理表，不是逻辑表，提供一个超大的内存hash表，搜索引擎通过它来存储索引，方便查询操作
- 7.hbase是列存储
- 8.hdfs作为底层存储，hdfs是存放文件的系统，而Hbase负责组织文件
- 9.hive需要用到hdfs存储文件，需要用到MapReduce计算框架

11.解释下 hbase 实时查询的原理

实时查询，可以认为是从内存中查询，一般响应时间在 1 秒内。 HBase 的机制是数据先写入到内存中，当数据量达到一定的量（如 128M），再写入磁盘中，在内存中，是不进行数据的更新或合并操作的，只增加数据，这使得用户的写操作只要进入内存中就可以立即返回，保证了 HBase I/O 的高性能

12.列簇怎么创建比较好

rowKey 最好要创建有规则的 rowKey，即最好是有序的。 HBase 中一张表最好只创建一到两个列族比较好，因为 HBase 不能很好的处理多个列族

13.描述 Hbase 中 scan 和 get 的功能以及实现的异同

1.按指定RowKey 获取唯一一条记录， get方法（org.apache.hadoop.hbase.client.Get）Get 的方法处理分两种 : 设置了 ClosestRowBefore 和没有设置的 rowlock .主要是用来保证行的事务性，即每个 get 是以一个 row 来标记的.一个 row 中可以有很多 family 和 column.
2.按指定的条件获取一批记录， scan 方法(org.apache.Hadoop.hbase.client.Scan)实现条件查询功能使用的就是 scan 方式.1)scan 可以通过 setCaching 与 setBatch 方法提高速度(以空间换时间)； 2)scan 可以通过 setStartRow 与 setEndRow 来限定范围([start， end]start 是闭区间， end 是开区间)。范围越小，性能越高。3)scan 可以通过 setFilter 方法添加过滤器，这也是分页、多条件查询的基础。
3.全表扫描，即直接扫描整张表中所有行记录

14.请详细描述 Hbase 中一个 Cell 的结构

HBase 中通过 row 和 columns 确定的为一个存贮单元称为 cell。Cell：由{row key, column(= + ), version}是唯一确定的单元 cell中的数据是没有类型的，全部是字节码形式存储

15.请描述 Hbase 中 scan 对象的 setCache 和 setBatch 方法的使用

cache：
- 在默认情况下，如果你需要从hbase中查询数据，在获取结果ResultScanner时，hbase会在你每次调用ResultScanner.next（）操作时对返回的每个Row执行一次RPC操作。即使你使用ResultScanner.next(int nbRows)时也只是在客户端循环调用RsultScanner.next()操作，你可以理解为hbase将执行查询请求以迭代器的模式设计，在执行next（）操作时才会真正的执行查询操作，而对每个Row都会执行一次RPC操作。
- 因此显而易见的就会想如果我对多个Row返回查询结果才执行一次RPC调用，那么就会减少实际的通讯开销。这个就是hbase配置属性“hbase.client.scanner.caching”的由来，设置cache可以在hbase配置文件中显示静态的配置，也可以在程序动态的设置。
- cache值得设置并不是越大越好，需要做一个平衡。cache的值越大，则查询的性能就越高，但是与此同时，每一次调用next（）操作都需要花费更长的时间，因为获取的数据更多并且数据量大了传输到客户端需要的时间就越长，一旦你超过了maximum heap the client process 拥有的值，就会报outofmemoryException异常。当传输rows数据到客户端的时候，如果花费时间过长，则会抛出ScannerTimeOutException异常。
batch：
- 在cache的情况下，我们一般讨论的是相对比较小的row，那么如果一个Row特别大的时候应该怎么处理呢？要知道cache的值增加，那么在client process 占用的内存就会随着row的增大而增大。在hbase中同样为解决这种情况提供了类似的操作：Batch。可以这么理解，cache是面向行的优化处理，batch是面向列的优化处理。它用来控制每次调用next（）操作时会返回多少列，比如你设置setBatch（5），那么每一个Result实例就会返回5列，如果你的列数为17的话，那么就会获得四个Result实例，分别含有5,5,5,2个列。

16.简述 HBASE 中 compact 用途是什么，什么时候触发，分为哪两种,有什么区别，有哪些相关配置参数？

在 hbase 中每当有 memstore 数据 flush 到磁盘之后，就形成一个 storefile，当 storeFile 的数量达到一定程度后，就需要将 storefile 文件来进行 compaction 操作。

Compact 的作用：

1>.合并文件

2>.清除过期，多余版本的数据

3>.提高读写数据的效率

HBase 中实现了两种 compaction 的方式：

minor and major. 这两种 compaction 方式的区别是：

1、 Minor 操作只用来做部分文件的合并操作以及包括 minVersion=0 并且设置 ttl 的过期版本清理，不做任何删除数据、多版本数据的清理工作。
2、 Major 操作是对 Region 下的 HStore 下的所有 StoreFile 执行合并操作，最终的结果是整理合并出一个文件。

17.简述 Hbase filter 的实现原理是什么？结合实际项目经验，写出几个使用 filter 的场景

HBase 为筛选数据提供了一组过滤器，通过这个过滤器可以在 HBase 中的数据的多个维度（行，列，数据版本）上进行对数据的筛选操作，也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上（由行键，列名，时间戳定位）。 RowFilter、 PrefixFilter。。。hbase的filter是通过scan设置的，所以是基于scan的查询结果进行过滤.过滤器的类型很多，但是可以分为两大类——比较过滤器，专用过滤器过滤器的作用是在服务端判断数据是否满足条件，然后只将满足条件的数据返回给客户端；如在进行订单开发的时候，我们使用rowkeyfilter过滤出某个用户的所有订单

18.Hbase 内部是什么机制

在 HBase 中无论是增加新行还是修改已有行，其内部流程都是相同的。 HBase 接到命令后存下变化信息，或者写入失败抛出异常。默认情况下，执行写入时会写到两个地方：预写式日志（write-ahead log，也称 HLog）和 MemStore。 HBase 的默认方式是把写入动作记录在这两个地方，以保证数据持久化。只有当这两个地方的变化信息都写入并确认后，才认为写动作完成。MemStore 是内存里的写入缓冲区， HBase 中数据在永久写入硬盘之前在这里累积。当MemStore 填满后，其中的数据会刷写到硬盘，生成一个 HFile。 HFile 是 HBase 使用的底层存储格式。 HFile 对应于列族，一个列族可以有多个 HFile，但一个 HFile 不能存储多个列族的数据。在集群的每个节点上，每个列族有一个 MemStore。大型分布式系统中硬件故障很常见， HBase 也不例外。设想一下，如果 MemStore 还没有刷写，服务器就崩溃了，内存中没有写入硬盘的数据就会丢失。 HBase 的应对办法是在写动作完成之前先写入 WAL。 HBase 集群中每台服务器维护一个 WAL 来记录发生的变化。WAL 是底层文件系统上的一个文件。直到 WAL 新记录成功写入后，写动作才被认为成功完成。这可以保证 HBase 和支撑它的文件系统满足持久性。大多数情况下， HBase 使用Hadoop 分布式文件系统（HDFS）来作为底层文件系统。如果 HBase 服务器宕机，没有从 MemStore 里刷写到 HFile 的数据将可以通过回放WAL 来恢复。你不需要手工执行。 Hbase 的内部机制中有恢复流程部分来处理。每台HBase 服务器有一个 WAL，这台服务器上的所有表（和它们的列族）共享这个 WAL。你可能想到，写入时跳过 WAL 应该会提升写性能。但我们不建议禁用 WAL，除非你愿意在出问题时丢失数据。如果你想测试一下，如下代码可以禁用 WAL：注意：不写入 WAL 会在 RegionServer 故障时增加丢失数据的风险。关闭 WAL，出现故障时 HBase 可能无法恢复数据，没有刷写到硬盘的所有写入数据都会丢失。

19.HBase 宕机如何处理

宕机分为 HMaster 宕机和 HRegisoner 宕机，如果是 HRegisoner 宕机， HMaster 会将其所管理的 region 重新分布到其他活动的 RegionServer 上，由于数据和日志都持久在 HDFS中，该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。如果是 HMaster 宕机， HMaster 没有单点问题， HBase 中可以启动多个 HMaster，通过Zookeeper 的 Master Election 机制保证总有一个 Master 运行。即 ZooKeeper 会保证总会有一个 HMaster 在对外提供服务

20.导致Hbase挂掉的场景

导致Hbase挂掉的场景

HMaster
HMaster会出现异常(执行abort())停止的场景如下：
1.zk异常导致的master停止服务是最常见的场景，涉及操作包含但不限于以下：
a)Zk链接超时，超时时间通过zookeeper.session.timeout配置，默认为3分钟, 如果fail.fast.expired.active.master配置的值为false（默认为false），则不会立即abort，而是会尝试恢复zk的过期session；
b)在打开region后，需要从zk中删除opened节点，如果zk有该节点，但是删除失败；
c)在split region过程中，从zk删除split节点时；
d)Master节点改变时；
e)从zk中创建unassigned节点时；
f)在下线disabled的regoin时，从zk中删除disabled的region如果发生zk异常；
g)还有很多操作zk的节点时如果出现异常。
2.在assign时，如果设置region为offlined状态，但是region之前的状态不是closed或者offlined；
3.在assign时，如果无法从.META.表中读取region信息；
4.把新的hbase集群加入到正在运行的hbase集群时，如果zk的/hbase/unassigned节点没有数据；
5.使用线程池批量分配region时，如果出现未被捕获的异常，实现方式如下：
6.在启动master的服务线程时，出现了异常；
7.在hdfs中检查hbase日志路径时，发现了dead的server时，需从hdfs中读出log，如果出现io异常需要检查hdfs文件系统，如果fsOk状态为true，但是通过FSUtils工具类进行检查时出现io异常；
8.在校验并且分配-ROOT-的region时，如果zk异常，或者其它异常（其它异常会重试10次），比如：“-ROOT- is onlined on the dead server”。
HRegionServer
HRegionServer会出现异常停止(执行abort())服务的场景如下：
1.在读写hdfs时如果出现IOException异常，此时会发起hdfs的文件系统检查（checkFileSystem）1.
2.Regionserver的服务线程出现了未捕获异常；
3.在启动HRegionServer时出现异常；
4.在进行HLog回滚时，出现异常；
5.在flush memstore时，如果持久化失败，会重启RS，在重启中把hlog的内容重新加载到memstore；
6.出现zk异常，包括但不限于以下场景：
a)Zk链接超时，超时时间通过zookeeper.session.timeout配置，默认为3分钟，与master不同，如果zk操作不会重试；
b)启动HRegionServer时出现KeeperException异常；
c)在进行split操作时，如果出现异常会进行回滚操作，在回滚过程中需要从zk中删除region的spliting状态，如果删除时出现KeeperException或者回滚的其它操作出现异常；
d)在打开region时，出现了KeeperException异常；
e)在进行hbase集群复制时，很多与zk交互的操作出现KeeperException异常时均会导致abort；
7.在close region时，如果出现异常，比如：不能成功的flush memstore；
8.Flush memstore时，如果HLog发现该region已经在flush则会强制终止JVM，采用的是Runtime.getRuntime().halt(1)方法，该方法不会执行正常退出的关闭钩子，从而不会flush RS的所有region，也不会迁移region，只有等待ZK的session超时后master才会发现该RS不可用，做迁移工作。
总结
Hbase挂掉的可能性有很多，主要由zk或者hdfs的问题导致，因此zk、hdfs的可用对于hbase极其重要，关于zk：
1.zk如果停止了服务则在很多时候会导致master、rs挂掉，hbase集群基本上就失去了服务的能力，因此zk一定要是稳定可靠的，当client已经于rs建立了链接，这时zk挂掉，如果不进行split等小数与zk交互失败会导致触发rs的abort()的操作时rs还是可以提供服务的；
2.如果rs/master进行了长时间的gc或者改动了服务器时间，导致出现zk的session超时会导致rs/master停止服务，目前已经出现了2次因为服务器时间变化导致hbase停止服务的事故;
3.别轻易人为改变zk的hbase节点数据，master/rs在进行很多操作时会比较依赖zk的数据，如果发现不符合预期可能会导致master/rs停止服务，尤其是master。
Master通过ZK知道RS是否可用，一般情况下RS在停止服务时均会正常退出，在正常退出时会从ZK中删除/hbase/rs/$regionserver的节点，Master会监听该节点的被删除，从而较快的(速度取决于所有region关闭时间)对该RS负责的region进行重新分配，如果是强制退出，比如 kill -9或者出现HRegionServer挂掉的第8条时则只有等待ZK的session超时时才会删除RS在ZK的节点（RS在ZK中添加节点时采用的是CreateMode.EPHEMERAL模式，该模式创建的节点会在session关闭时自动删除），那时Master才会进行重新assign。
Kill RS的进程也是正常退出（不能使用kill -9强制退出），RS使用Runtime的addShutdownHook方法注册了jvm关闭钩子，在关闭钩子中会执行RS的退出逻辑，实际上hbase-daemon.sh的停止RS就是采用kill。

21.Hbase的原理 regionserver挂了如何恢复数据？新的数据从Hlog里读出来是如何恢复的

引起RegionServer宕机的原因各种各样，有因为Full GC导致、网络异常导致、官方Bug导致（close wait端口未关闭）以及DataNode异常导致等等

HBase检测宕机是通过Zookeeper实现的，正常情况下RegionServer会周期性向Zookeeper发送心跳，一旦发生宕机，心跳就会停止，超过一定时间（SessionTimeout）Zookeeper就会认为RegionServer宕机离线，并将该消息通知给Master

一旦RegionServer发生宕机，HBase都会马上检测到这种宕机，并且在检测到宕机之后会将宕机RegionServer上的所有Region重新分配到集群中其他正常RegionServer上去，再根据HLog进行丢失数据恢复，恢复完成之后就可以对外提供服务，整个过程都是自动完成的，并不需要人工介入.

22.讲一下Hbase，Hbase二级索引用过吗

默认情况下，Hbase只支持rowkey的查询，对于多条件的组合查询的应用场景，不够给力。

如果将多条件组合查询的字段都拼接在RowKey中显然又不太可能

全表扫描再结合过滤器筛选出目标数据(太低效)，所以通过设计HBase的二级索引来解决这个问题。

这里所谓的二级索引其实就是创建新的表，并建立各列值（family：column）与行键（rowkey）之间的映射关系。这种方式需要额外的存储空间，属于一种以空间换时间的方式

23.Hbase如何优化的

内存优化
- Ø 垃圾回收优化:CMS, G1(Region）
- Ø JVM启动：-Xms(1/64) –Xmx(1/4)
Region优化
- Ø 预分区
- Ø 禁用major合并，手动合并
客户端优化
- 批处理
Hbase配置优化
- 设置RPC监听数量
  hbase-site.xml
  属性：hbase.regionserver.handler.count
  解释：默认值为 30，用于指定 RPC 监听的数量，可以根据客户端的请求数进行调整，读写请求较多时，增加此值。
- 优化 HStore 文件大小
  hbase-site.xml
  属性：hbase.hregion.max.filesize
  解释：默认值 10737418240（10GB），如果需要运行 HBase 的 MR 任务，可以减小此值，因为一个 region 对应一个 map 任务,
  如果单个 region 过大，会导致 map 任务执行时间过长。该值的意思就是，如果 HFile 的大小达到这个数值，则这个 region 会被切分为两个 Hfile
- 优化 hbase 客户端缓存
  hbase-site.xml
  属性：hbase.client.write.buffer
  解释：用于指定 HBase 客户端缓存，增大该值可以减少 RPC 调用次数，但是会消耗更多内存，反之则反之。一般我们需要设定一定的缓存大小，以达到减少 RPC 次数的目的
- 指定 scan.next 扫描 HBase 所获取的行数
  hbase-site.xml
  属性：hbase.client.scanner.caching
  解释：用于指定 scan.next 方法获取的默认行数，值越大，消耗内存越大。
- flush、compact、split 机制
  当 MemStore 达到阈值，将 Memstore 中的数据 Flush 进 Storefile；compact 机制则是把 flush 出来的小文件合并成大的 Storefile 文件。split 则是当 Region 达到阈值，会把过大的 Region 一分为二。
  涉及属性：
  即：128M 就是 Memstore 的默认阈值
  hbase.hregion.memstore.flush.size：134217728
  即：这个参数的作用是当单个 HRegion 内所有的 Memstore 大小总和超过指定值时，flush
  该 HRegion 的所有 memstore。RegionServer 的 flush 是通过将请求添加一个队列，模拟生产消费模型来异步处理的。那这里就有一个问题，当队列来不及消费，产生大量积压请求时，可能会导致内存陡增，最坏的情况是触发 OOM。
  hbase.regionserver.global.memstore.upperLimit：0.4
  hbase.regionserver.global.memstore.lowerLimit：0.38
  即：当 MemStore 使用内存总量达到 hbase.regionserver.global.memstore.upperLimit 指定值时，将会有多个 MemStores flush 到文件中，MemStore flush 顺序是按照大小降序执行的，直到刷新到 MemStore 使用内存略小于 lowerLimit
HDFS优化
- NameNode 元数据备份使用 SSD
- 定时备份 NameNode 上的元数据
  
  每小时或者每天备份，如果数据极其重要，可以 5~10 分钟备份一次。备份可以通过定时任务复制元数据目录即可。
- 为 NameNode 指定多个元数据目录
  使用 dfs.name.dir 或者 dfs.namenode.name.dir 指定。这样可以提供元数据的冗余和健壮性，以免发生故障。
- NameNode 的 dir 自恢复
  设置 dfs.namenode.name.dir.restore 为 true，允许尝试恢复之前失败的 dfs.namenode.name.dir
  目录，在创建 checkpoint 时做此尝试，如果设置了多个磁盘，建议允许。
- HDFS 保证 RPC 调用会有较多的线程数
  属性：dfs.namenode.handler.count
  解释：该属性是 NameNode 服务默认线程数，默认值是 10，根据机器的可用内存可以调整为 50~100
  属性：dfs.datanode.handler.count
  解释：该属性默认值为 10，是 DataNode 的处理线程数，如果 HDFS 客户端程序读写请求比较多，可以调高到 15~20，设置的值越大，内存消耗越多，不要调整的过高，一般业务中，
  5~10 即可。
  hdfs-site.xml
- HDFS 副本数的调整
  属性：dfs.replication
  解释：如果数据量巨大，且不是非常之重要，可以调整为 2~3，如果数据非常之重要，可以调整为 3~5。
  
  hdfs-site.xml
- HDFS 文件块大小的调整
  
  属性：dfs.blocksize
  解释：块大小定义，该属性应该根据存储的大量的单个文件大小来设置，如果大量的单个文件都小于 100M，
  建议设置成 64M 块大小，对于大于 100M 或者达到 GB 的这种情况，建议设置成 256M，一般设置范围波动在 64M~256M 之间。
  
  hdfs-site.xml
- MapReduce Job 任务服务线程数调整
  
  属性：mapreduce.jobtracker.handler.count
  解释：该属性是 Job 任务线程数，默认值是 10，根据机器的可用内存可以调整为 50~100
  
  mapred-site.xml
- Http 服务器工作线程数
  mapred-site.xml
  
  属性：mapreduce.tasktracker.http.threads
  解释：定义 HTTP 服务器工作线程数，默认值为 40，对于大集群可以调整到 80~100
- 文件排序合并优化
  mapred-site.xml
  
  属性：mapreduce.task.io.sort.factor
  解释：文件排序时同时合并的数据流的数量，这也定义了同时打开文件的个数，默认值为
  10，如果调高该参数，可以明显减少磁盘 IO，即减少文件读取的次数。
- 设置任务并发
  mapred-site.xml
  
  属性：mapreduce.map.speculative
  解释：该属性可以设置任务是否可以并发执行，如果任务多而小，该属性设置为 true 可以明显加快任务执行效率，但是对于延迟非常高的任务，建议改为 false，这就类似于迅雷下载。
- MR 输出数据的压缩
  mapred-site.xml
  属性：mapreduce.map.output.compress、mapreduce.output.fileoutputformat.compress
  解释：对于大集群而言，建议设置 Map-Reduce 的输出为压缩的数据，而对于小集群，则不需要。
- 优化 Mapper 和 Reducer 的个数
  mapred-site.xml
  属性：mapreduce.tasktracker.map.tasks.maximum mapreduce.tasktracker.reduce.tasks.maximum
  解释：以上两个属性分别为一个单独的 Job 任务可以同时运行的 Map 和 Reduce 的数量。
  设置上面两个参数时，需要考虑 CPU 核数、磁盘和内存容量。假设一个 8 核的 CPU，业务内容非常消耗 CPU，那么可以设置 map 数量为 4，如果该业务不是特别消耗 CPU 类型的，
  那么可以设置 map 数量为 40，reduce 数量为 20。这些参数的值修改完成之后，一定要观察是否有较长等待的任务，如果有的话，可以减少数量以加快任务执行，
  如果设置一个很大的值，会引起大量的上下文切换，以及内存与磁盘之间的数据交换，这里没有标准的配置数值，
  需要根据业务和硬件配置以及经验来做出选择。
  在同一时刻，不要同时运行太多的 MapReduce，这样会消耗过多的内存，任务会执行的非常缓慢，我们需要根据 CPU 核数，内存容量设置一个 MR 任务并发的最大值，
  使固定数据量的任务完全加载到内存中，避免频繁的内存和磁盘数据交换，从而降低磁盘 IO，提高性能。
  大概估算公式：
  map = 2 + ⅔cpu_core， reduce = 2 + ⅓cpu_core
- 优化 DataNode 允许的最大文件打开数
  hdfs-site.xml
  属性：dfs.datanode.max.transfer.threads
  解释：HBase 一般都会同一时间操作大量的文件，根据集群的数量和规模以及数据动作，设置为 4096 或者更高。默认值：4096
- 优化延迟高的数据操作的等待时间
  hdfs-site.xml
  属性：dfs.image.transfer.timeout
  解释：如果对于某一次数据操作来讲，延迟非常高，socket 需要等待更长的时间，建议把该值设置为更大的值（默认 60000 毫秒），以确保 socket 不会被 timeout 掉。
- 优化数据的写入效率
  mapred-site.xml
  属性：
  mapreduce.map.output.compress mapreduce.map.output.compress.codec
  解释：开启这两个数据可以大大提高文件的写入效率，减少写入时间。第一个属性值修改为true，第二个属性值修改为：org.apache.hadoop.io.compress.GzipCodec 或者其他压缩方式
- 优化 DataNode 存储
  属性：dfs.datanode.failed.volumes.tolerated
  解释：默认为 0，意思是当 DataNode 中有一个磁盘出现故障，则会认为该 DataNode shutdown 了。
  如果修改为 1，则一个磁盘出现故障时，数据会被复制到其他正常的 DataNode 上，当前的 DataNode 继续工作。

你可能感兴趣的:(面经,大数据)

大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统_bert+lstm 2301_76348014 程序员深度学习大数据知识图谱
文章目录大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统一、项目概述二、系统实现基本流程三、项目工具所用的版本号四、所需要软件的安装和使用五、开发技术简介Django技术介绍Neo4j数据库Bootstrap4框架Echarts简介NavicatPremium15简介Layui简介Python语言介绍MySQL数据库深度学习六、核心理论贪心算法A
大数据专业毕业设计选题118例：数据挖掘数据分析可视化 HaiLang_IT 毕设选题教程毕业设计大数据数据挖掘
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇总
《深入浅出多模态》（五）：多模态经典模型ALBEF GoAI 深入浅出多模态多模态大模型 LLM 深度学习人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：</
大数据之-hdfs+hive+hbase+kudu+presto集群(6节点) 管哥的运维私房菜大数据 hdfs hive kudu presto hbase
几个主要软件的下载地址：prestohttps://prestosql.io/docs/current/index.htmlkudurpm包地址https://github.com/MartinWeindel/kudu-rpm/releaseshivehttp://mirror.bit.edu.cn/apache/hive/hdfshttp://archive.apache.org/dist/ha
使用Docker搭建Flink集群 O_1CxH Flink大数据 Kafka大数据 docker flink 容器
目录使用Docker搭建Flink集群docker-compose一键搭建步骤附录参考资料使用Docker搭建Flink集群在学习大数据框架的时候，需要一个真实的环境。我们知道，像spark、flink这些计算框架都有多种运行模式：在本地使用多线程模拟集群真正的分布式集群如果直接在IDE（Intellj）里面编译和运行写好的程序，实际上是用的前一种运行模式；如果想尝试真正的生产环境中任务的提交和管
国家网络安全宣传周 | 2024年网络安全领域重大政策法规一览网安加社区安全网络安全政策法规
随着我国网络安全政策法规不断健全，网络安全工作机制也日渐成熟，各项工作已稳步步入法治化的轨道，与此同时，网络安全标准体系逐步清晰，安全防线日益坚固，为国家的网络安全建设提供了坚实的基础。网安加社区特为大家整理了2024年国内发布的网络安全领域相关政策法规，希望能为广大从业者与关注者提供相关参考，共同促进网络安全生态的健康发展。2024年网络安全重大政策法规一览◉1.《旅游大数据安全与隐私保护要求（
【计算机毕设选题】2025计算机毕业设计选题推荐-高通过率选题指南（二）计算机YiDian 计算机毕设实战案例毕业设计选题/开题源码计算机毕业设计选题毕业设计选题计算机毕设选题计算机毕业设计
计算机毕业设计作为大学生涯的收官之作，承载着对学生专业技能、创新思维及实践能力的全面考验。随着信息技术的飞速发展，计算机毕业设计的形式也日益多样化，从传统的网站（Web）开发到新兴的小程序、APP构建，再到大数据分析与处理，每一种形式都代表着不同的技术挑战与实现路径。本文旨在探讨这些多样化的毕业设计形式及其背后的技术支撑，为即将踏上毕业设计征程的学子们提供一份详实的参考指南，对毕设开发需要帮助，以
Mongodb主从模式最佳方案 Christian Bai mongodb 数据库
我整理的一些关于【Java】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/bLN8S1MongoDB主从模式最佳方案MongoDB是一款开源的文档型数据库，被广泛应用于许多现代应用中。其强大的性能和灵活的数据结构使得它特别适合处理大数据和高并发访问。本文将介绍MongoDB的主从模式，并提供最佳方案和示例代码，帮助你更好地理解这种模式的运作原理。什么
DeepSeek推荐未来好就业的十大专业东锋1.3 人工智能 deepseek推荐就业
一、人工智能与数据科学专业聚焦人工智能、大数据技术、计算机科学与技术、机器学习、数据科学与大数据技术等专业，构成了这一前沿领域的核心。这些专业旨在培养学生掌握从数据收集、处理到模型构建、算法优化的全流程能力。就业前景洞察人工智能已广泛渗透到医疗、金融、制造、交通等众多领域。在医疗领域，AI辅助诊断系统帮助医生更精准地识别疾病；金融行业里，智能风控模型有效防范风险。未来，算法工程师负责开发和优化各种
云桌面主流架构解析与应用场景分析一休哥助手架构
引言随着云计算、大数据和虚拟化技术的快速发展，云桌面作为一种高效、安全、便捷的办公方式，逐渐被企业、教育和政府等多个领域广泛采用。云桌面通过虚拟化技术将计算资源集中管理，并将桌面操作系统、应用程序和数据存储在云端。用户通过终端设备访问云桌面，从而实现随时随地的灵活办公。云桌面架构的设计是其性能、安全性和用户体验的关键因素。目前主流的云桌面架构有多种类型，包括集中式架构、分布式架构、混合式架构等。本
微信视频号中的“多位朋友看过”是真的有朋友看过，还是系统分析过大数据后推荐的？ cda2024 微信大数据
不知道你有没有注意到，在微信视频号里，经常会出现“多位朋友看过”的提示。这一行小字往往能勾起人们的好奇心，让人不由自主地想要点击观看。那么，这究竟是不是真的意味着我们的朋友确确实实地浏览过这些视频呢？今天，我们就来聊聊这个话题。一、社交网络背后的算法在探讨这个问题之前，我们首先得了解一下社交网络平台背后的算法原理。社交网络平台的推荐机制主要依赖于大数据分析技术，通过用户的行为习惯、兴趣偏好等多维度
云计算、大数据、人工智能、物联网、虚拟现实技术、区块链技术 2301_79098963 程序员云计算大数据人工智能
物联网一、物联网的基本概念二、物联网的特征(一)物体感知(二)信息传输(三)智能处理三、物联网关键技术(一)射频识别技术(二)产品电子编码(三)短距离通信技术(四)互联网(五)感知控制技术(六)无线网络技术(七)中间件技术(八)智能处理技术四、物联网的应用领域虚拟现实技术一、VR的基本概念二、VR的特征(一)沉浸性(二)人交互性(三)多感知性(四)想象性(五)自主性三、VR的技术应用(一)在影视娱
阿里云MWC 2019发布7款重磅产品，助力全球企业迈向智能化数据库技术分享者大数据数据库人工智能
当地时间2月25日，在巴塞罗那举行的MWC2019上，阿里云面向全球发布了7款重磅产品，涵盖无服务器计算、高性能存储、全球网络、企业级数据库、大数据计算等主要云产品，可满足电子商务、物流、金融科技以及制造等各行业企业的数字化转型需求，助力全球企业迈向智能化。在大会期间，阿里云还携手德勤、RedHat以及VMware等合作伙伴展示了从基础设施到企业级应用的智能化解决方案。阿里云在MWC2019上展示
Spark 和 Flink 信徒_ spark flink 大数据
Spark和Flink都是目前流行的大数据处理引擎，但它们在架构设计、应用场景、性能和生态方面有较大区别。以下是详细对比：1.架构与核心概念方面ApacheSparkApacheFlink计算模型微批（Micro-Batch）为主，但支持结构化流（StructuredStreaming）原生流（TrueStreaming），基于事件驱动处理方式以RDD、DataFrame/Dataset作为核心抽
尚硅谷课程【笔记】——大数据之Zookeeper【一】赶紧写完去睡觉大数据生态圈大数据 zookeeper linux
课程视频：【尚硅谷Zookeeper教程】一、Zookeeper入门概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper就将负责同志已经在Zookeeper上注册的哪些观察者做出
集群与分片：深入理解及应用实践一休哥助手架构系统架构
目录引言什么是集群？集群的定义集群的类型什么是分片？分片的定义分片的类型集群与分片的关系集群的应用场景负载均衡高可用性分片的应用场景大数据处理数据库分片集群与分片的架构设计系统架构设计数据存储设计案例分析Hadoop集群Elasticsearch分片性能优化策略集群性能优化分片性能优化挑战和解决方案总结参考资料引言在现代计算系统中，处理大规模数据和提高系统的可靠性已经成为了基础需求。集群和分片是两
如何学习Elasticsearch（ES）：从入门到精通的完整指南狮歌~资深攻城狮 jenkins 运维 elasticsearch 大数据
如何学习Elasticsearch（ES）：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据搜索和分析感兴趣，并且想要掌握Elasticsearch这一强大的分布式搜索引擎，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解Elasticsearch。1.基础知识准备1.1理解全文搜索在开始学习Elasticsearch之前，建议先了解一下全文搜索的基本概念。全文搜索
如何学习HBase：从入门到精通的完整指南狮歌~资深攻城狮 hbase 大数据
如何学习HBase：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据存储感兴趣，并且想要掌握HBase这一强大的分布式数据库，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解HBase。1.基础知识准备1.1理解NoSQL数据库在开始学习HBase之前，建议先了解一下NoSQL数据库的基本概念和分类。NoSQL数据库与传统的关系型数据库（如MySQL）有很大的不同，
Go 语言的优势和学习路线图 weixin_jie401214 golang 学习 java
简介Go语言又称Golang，由Google公司于2009年发布，近几年伴随着云计算、微服务、分布式的发展而迅速崛起，跻身主流编程语言之列，和Java类似，它是一门静态的、强类型的、编译型编程语言，为并发而生，所以天生适用于并发编程（网络编程）。目前Go语言支持Windows、Linux等多个平台，也可以直接在Android和iOS等移动端执行，从业务角度来看，Go语言在云计算、微服务、大数据、区
架构师技术图谱 modouwu 系统架构
分布式漫谈分布式系统大数据存储微服务可落地的DDD(6)-工程结构推荐系统框架消息队列编程语言设计模式重构集群
python 读取各类文件格式的文本信息:doc,html,mht,excel 北房有佳人手写功能 python读取doc文档 python读取mht python读取excel python读取html
引言众所周知,python最强大的地方在于，python社区汇总拥有丰富的第三方库，开源的特性，使得有越来越多的技术开发者来完善python的完美性。未来人工智能，大数据方向，区块链的识别和进阶都将以python为中心来展开。咳咳咳！好像有点打广告的嫌疑了。当前互联网信息共享时代，最重要的是什么?是数据。最有价值的是什么？是数据。最能直观体现技术水平的是什么?还是数据。所以，今天我们要分享的是：如
python中常见的生成器内容哈哈哈哈q python python
在Python中，生成器（Generator）是一种特殊的迭代器，可以通过函数中的yield关键字轻松创建。生成器的主要特点有：惰性计算：生成器不会一次性计算出所有的值，而是在需要时逐个生成值。节省内存：因为不会一次性存储所有值，所以在处理大数据时效率很高。访问的形式
大数据java篇——复制 sp_ur 笔记 java 文件夹复制大数据 java
1.文件夹复制packageCopy;importjava.io.File;importjava.io.FileInputStream;importjava.io.FileNotFoundException;importjava.io.FileOutputStream;publicclassDirCopyDemo{publicstaticStringsrcRoot;publicstaticvoid
【大数据安全分析】网络异常相关安全分析场景扫地僧009 大数据安全分析网络安全大数据 web安全
引言在当今数字化时代，网络安全面临着前所未有的挑战。随着信息技术的飞速发展，网络环境变得日益复杂，各种网络攻击手段层出不穷。在大数据安全分析领域，威胁情报关联和账号异常分析已经取得了较好的效果，而网络异常分析同样具有重要的价值。网络异常相关安全分析场景丰富多样，通过对这些场景的深入研究和分析，可以及时发现潜在的网络安全威胁，采取有效的防范措施，保障网络系统的安全稳定运行。本文将详细介绍网络异常相关
国标GB28181网页直播平台EasyGBS国标GB28181软件与GB28181应用场景分析科技小E 音视频视频监控安全
随着5G、AI、云计算、大数据、物联网等新兴技术的快速发展，各行各业都在积极探索智能化、现代化的管理与运营模式。国标GB28181网页直播平台EasyGBS作为一款基于国标GB28181协议的视频云服务平台，凭借其强大的功能和广泛的应用场景，在众多领域中展现出了独特的优势。一、EasyGBS场景智慧交通在交通视频监控领域，通过搭建全套的国标系统，可满足GB/T28181的要求，实现和公安网的对接。
《小区综合管理服务平台设计与实现》任务书 zp8126 毕业设计任务书论文
任务书项目名称小区综合管理服务平台设计与实现项目背景随着信息技术的发展，社区服务逐渐向数字化、智能化方向转型。为了提高居民生活质量，增强物业管理效率，减少人力成本，构建一个高效便捷的小区综合管理服务平台显得尤为重要。本项目旨在通过结合云计算、大数据分析等技术手段，为用户提供包括但不限于物业报修、费用缴纳、公告通知、安防监控等功能在内的全方位服务体验。一、课题主要内容1.需求分析目标用户群体：明确平
深入HBase——引入黄雪超大数据基础 #深入HBase 大数据数据库 hbase
引入前面我们通过深入HDFS到深入MapReduce，从设计和落地，去深入了解了大数据最底层的基石——存储与计算是如何实现的。这个专栏则开始来看大数据的三驾马车中最后一个。通过前面我们对于GFS和MapReduce论文实现的了解，我们知道GFS在数据写入时，只对顺序写入有比较弱的一致性保障，而对于数据读取，虽然GFS支持随机读取，但在当时的硬件条件下，实际上也是支撑不了真正的高并发读取的；此外，M
数字化转型三大核心要素：数据、技术、人才千千标寻大数据云计算人工智能 ai
数字化转型的三大核心要素——数据、技术和人才，是推动企业在数字经济时代取得成功的关键。数据数据是数字化转型的基础。高质量的数据能够为企业提供深刻的市场洞察和客户行为分析，帮助做出更明智的决策。通过有效管理和利用数据，企业可以优化运营流程，提升产品和服务质量，从而实现更高的效率和客户满意度。技术先进的技术支持是实现数字化转型的关键驱动力。无论是云计算、人工智能、大数据分析还是物联网，这些前沿技术的应
探索数据云的无缝桥梁：Apache Spark 与 Snowflake 的完美结合窦育培
探索数据云的无缝桥梁：ApacheSpark与Snowflake的完美结合spark-snowflakeSnowflakeDataSourceforApacheSpark.项目地址:https://gitcode.com/gh_mirrors/sp/spark-snowflake项目介绍在大数据处理的浩瀚宇宙中，Snowflake以其独特的云数据仓库能力闪耀，而ApacheSpark则是数据分析和
如何学BI大数据想做富婆大数据相关大数据 BI大数据
职业规划建议1.短期目标（1-2年）积累经验：通过实习或初级岗位（如数据分析师、商业分析师）积累经验。提升技能：深入学习SQL、Python、BI工具，掌握数据分析和可视化技能。建立作品集：完成个人项目或参与开源项目，展示数据分析能力。2.中期目标（3-5年）专业化发展：根据兴趣选择细分方向，如数据可视化、BI开发或数据运营。提升软技能：加强沟通、项目管理能力，提升商业敏感度。行业深耕：选择感兴趣
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p