wbj0110

HBase/Hadoop学习笔记 (转)

HBase/Hadoop学习笔记

学习目标：

至少掌握五点：

1. 深入理解HTable，掌握如何结合业务涉及高性能的HTable。

2. 掌握与HBase的交互，通过HBase Shell命令及Java API进行数据的增删改查。

3. 掌握如何用MapReduce分析HBase里的数据

4. 掌握如何测试HBase MapReduce。

HBase简介：

HBase在产品中还包含了Jetty，在HBase启动时采用嵌入式的方式来启动Jetty，因此可以通过web界面对HBase进行管理和查看当前运行的一些状态，非常轻巧。

简单来说，你在HBase中的表创建的可以看做是一张很大的表，而这个表的属性可以根据需求去动态增加，在HBase中没有表与表之间关联查询。

列存储

HStore存储是HBase存储的核心了，其中由两部分组成，一部分是MemStore，一部分是StoreFiles。MemStore是 Sorted Memory Buffer，用户写入的数据首先会放入MemStore，当MemStore满了以后会Flush成一个StoreFile（底层实现是HFile），当StoreFile文件数量增长到一定阈值，会触发Compact合并操作，将多个StoreFiles合并成一个StoreFile，合并过程中会进行版本合并和数据删除，因此可以看出HBase其实只有增加数据，所有的更新和删除操作都是在后续的compact过程中进行的，这使得用户的写操作只要进入内存中就可以立即返回，保证了HBase I/O的高性能。当StoreFilesCompact后，会逐步形成越来越大的StoreFile，当单个StoreFile大小超过一定阈值后，会触发Split操作，同时把当前Region Split成2个Region，父Region会下线，新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer 上，使得原先1个Region的压力得以分流到2个Region上。

HFile里面的每个KeyValue对就是一个简单的byte数组。

HRegion是Hbase中分布式存储和负载均衡的最小单元。最小单元就表示不同的Hregion可以分布在不同的HRegion server上。但一个Hregion是不会拆分到多个server上的。

HFile格式：

一、HBase基本概念：

2个主要概念：

a) Rowkey: Hbase 中的记录是按照rowkey来排序的；

b) Column family：(列族)是在系统启动之前预先定义好的；

c) Hbase优缺点：

1.不支持条件查询以及orderby等查询；

2.列可以动态增加，列为空则不存储数据，节省存储空间；

3.会自动切分数据；4.可以提供高并发读写操作的支持；

访问方式：访问hbasetable中的行，只有三种方式：

1 通过单个row key访问

2 通过row key的range

3 全表扫描

Row key：行键 (Row key)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，在hbase内部，row key保存为字节数组。

存储： HBase以表的形式存储数据。表有行和列组成，存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)

存储类型： TableName 是字符串

RowKey 和 ColumnName 是二进制值（Java 类型 byte[]）

Timestamp 是一个 64 位整数（Java 类型 long）

value 是一个字节数组（Java类型 byte[]）

存储结构：即HTable按Row key自动排序，每个Row包含任意数量个Columns，Columns之间按Columnkey自动排序，每个Column包含任意数量个Values。理解该存储结构将有助于查询结果的迭代。

(RowKey,List(SortedMap(column,List(value,TimeStamp))))

列簇：hbase表中的每个列，都归属与某个列族。列名都以列族作为前缀。

HBase中的列可以动态新增。

存储单元：HBase中通过row和columns确定的为一个存贮单元称为cell。

每个cell都保存着同一份数据的多个版本。版本通过时间戳来索引。

HBase为null的Column不会被存储，这样既节省了空间又提高了读性能

cell中的数据是没有类型的，全部是字节码形式存贮

两种数据版本回收方式：一是保存数据的最后n个版本

二是保存最近一段时间内的版本（比如最近七天）

用户可以针对每个列族进行设置值value：每个值由4个键唯一索引

tableName+RowKey+ColumnKey+Timestamp=>value

二、搭建HBase环境：

http://hbase.apache.org/book/quickstart.html和http://hbase.apache.org/book/notsoquick.html。如果你在windows环境下配置cygwin及ssh遇到问题可以参考http://qa.taobao.com/?p=10633

1. 创建一个Maven工程。

mvn archetype:generate-DgroupId=com.alibaba.webx -DartifactId=tutorial1 -Dversion=1.0-SNAPSHOT -Dpackage=com.alibaba.webx.tutorial1-DarchetypeArtifactId=archetype-webx-quickstart-DarchetypeGroupId=com.alibaba.citrus.sample-DarchetypeVersion=1.0-SNAPSHOT -DinteractiveMode=false

cmd进入刚才建立的项目，运行：mvn jetty:run 在浏览器中打开：localhost:8081就可以看到我们新建的webx项目了。具体里面是怎么运行的，可以查看webx用户手册。

2. 加入Hadoop、HBase依赖：

3. 在src/test/resources目录下新建文件conf/hbase-site.xml

文件具体配置为：

[java] view plaincopy

hbase.zookeeper.property.clientPort
2222
hbase.zookeeper.quorum
xxx.xxx.xxx.xxx.xxx
"true">
hbase.defaults.for.version
0.90.2

配置你工程要使用的zookeeper客户端端口号和zookeeper的地址，这个地址可以向开发索要。

4. 写测试文件：

[java] view plaincopy

public class HbaseTest {
private static Configuration conf = null;
static {
conf = HBaseConfiguration.create();
conf.addResource("conf/hbase-site.xml");
}}

如果不报错，表示链接已经通过，接下来就可以创建表以及对表的增删改查了。

三、基础知识：

1. 通过HBase shell 与HBase交互：

进入控制台：bin/hbase shell

创建表：create ‘表名’,’列簇名’,’列簇名’

增加记录：put ‘表名’,’Row Key’,’列簇名：列名’,’value’

查询：get ‘表名’,’Row Key’

删除：delete‘表名’,’Row Key’,’列簇名：列名’ （只能删除一列）

delete‘表名’,’Row Key’ （删除RowKey的所有列）

删除表：>disable ‘表名’

>drop ‘表名’

2. 通过Java 的API与HBase交互：

步骤一：

创建一个Maven工程加入依赖：

[java] view plaincopy

org.apache.hbase
hbase
0.90.2

如果你的Maven库里还没有hbase，还需要配置下repository:

[java] view plaincopy

cloudera
https://repository.cloudera.com/content/groups/public

步骤二：

 确保HBase环境已启动且能连接到，将HBase环境的hbase-site.xml文件拷贝到上述工程的src/test/resources目录

加载配置->创建表->增加记录->根据RowKey查询->遍历查询与迭代->删除记录->删除表

具体操作可以参考：http://qa.taobao.com/?p=13894

http://www.cnblogs.com/panfeng412/archive/2011/08/14/2137984.html

四、深入理解HBase：

思考：HBase服务器内部由那些主要部件构成？

HBase的内部工作原理是什么？

1. HBase的工作原理：

首先HBase Client端会连接Zookeeper Qurom(从下面的代码也能看出来，例如：HBASE_CONFIG.set("hbase.zookeeper.quorum","192.168.50.216") )。通过Zookeeper组件Client能获知哪个Server管理-ROOT-Region。那么Client就去访问管理-ROOT-的 Server，在META中记录了HBase中所有表信息，(你可以使用 scan '.META.' 命令列出你创建的所有表的详细信息),从而获取Region分布的信息。一旦Client获取了这一行的位置信息，比如这一行属于哪个 Region，Client将会缓存这个信息并直接访问HRegionServer。久而久之Client缓存的信息渐渐增多，即使不访问.META.表也能知道去访问哪个HRegionServer。HBase中包含两种基本类型的文件，一种用于存储WAL的log，另一种用于存储具体的数据，这些数据都通过DFS Client和分布式的文件系统HDFS进行交互实现存储。

2. Client访问数据过程：

Client访问用户数据之前需要首先访问zookeeper，然后访问-ROOT-表，接着访问.META.表，最后才能找到用户数据的位置去访问，中间需要多次网络操作，不过client端会做cache缓存。

-ROOT-表、.META都是存放在哪里？？

client访问hbase上数据的过程并不需要master参与（寻址访问zookeeper和region server，数据读写访问region server），master仅仅维护者table和region的元数据信息，负载很低。

3. 在HBase上进行MapReduce操作：

4. HBase系统架构：

　　 HBase Client使用HBase的RPC机制与HMaster和HRegionServer进行通信，对于管理类操作，Client与HMaster进行RPC；对于数据读写类操作，Client与HRegionServer进行RPC

5. Zookeeper：

Zookeeper简单说就是协调和服务于分布式应用程序的服务。

　　 Zookeeper Quorum中除了存储了-ROOT-表的地址和HMaster的地址，HRegionServer也会把自己以Ephemeral方式注册到 Zookeeper中，使得HMaster可以随时感知到各个HRegionServer的健康状态。此外，Zookeeper也避免了HMaster的单点问题。

1 保证任何时候，集群中只有一个master

2存贮所有Region的寻址入口。

3 实时监控RegionServer的状态，将Region server的上线和下线信息实时通知给Master

4 存储Hbase的schema,包括有哪些table，每个table有哪些column family

Zookeeper到底为我们干了什么？

1. 集中配置：可以APP1的配置配置到/APP1 znode下的所有机器。

2. 集群管理：同步：维护活机列表(让集群所有机器得到实时更新)，

组服务：从集群中选择Master。

3. …..

参考：http://hi.baidu.com/surendaxiao/blog/item/cb1b42f86b03084e252df233.html

6. HMaster：

　　HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的MasterElection机制保证总有一个Master运行，HMaster在功能上主要负责Table和Region的管理工作：

　　1. 管理用户对Table的增、删、改、查操作

　　2. 管理HRegionServer的负载均衡，调整Region分布

　　3. 在Region Split后，负责新Region的分配

　　4. 在HRegionServer停机后，负责失效HRegionServer 上的Regions迁移

7. HRegionServer：

　　HRegionServer主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是HBase中最核心的模块。

　　HRegionServer内部管理了一系列HRegion对象，每个HRegion对应了Table中的一个Region，HRegion中由多个HStore组成。每个HStore对应了Table中的一个ColumnFamily的存储，可以看出每个Column Family其实就是一个集中的存储单元，因此最好将具备共同IO特性的column放在一个ColumnFamily中，这样最高效。

思考：

8. Hadoop+HBase+Zookeeper三者关系：

1.经过Map、Reduce运算后产生的结果看上去是被写入到HBase了，但是其实HBase中HLog和StoreFile中的文件在进行flush to disk操作时，这两个文件存储到了HDFS的DataNode中，HDFS才是永久存储。

2.ZooKeeper跟HadoopCore、HBase有什么关系呢？ZooKeeper都提供了哪些服务呢？主要有：管理Hadoop集群中的NameNode，HBase中HBaseMaster的选举，Servers之间状态同步等。具体一点，细一点说，单只HBase中 ZooKeeper实例负责的工作就有：存储HBase的Schema，实时监控HRegionServer,存储所有Region的寻址入口，当然还有最常见的功能就是保证HBase集群中只有一个Master。

Hadoop、ZooKeeper和HBase之间应该按照顺序启动和关闭：启动Hadoop—>启动ZooKeeper集群—>启动HBase—>停止HBase—>停止ZooKeeper集群—>停止Hadoop。

参考：http://www.tbdata.org/archives/1509

五：理解Hadoop：

Hadoop学习网址：http://book.51cto.com/art/201106/269616.htm

1. MapReduce

(1) MapReduce基础：
一个简单的MapReduce程序需要三样东西
1. 实现Mapper，处理输入的对，输出中间结果
2. 实现Reduce，对中间结果进行运算，输出最终结果
3. 在main方法里定义运行作业，定义一个job，在这里控制job如何运行等。

Mapper接口：是一个泛型，有4个形式的参数类型，分别指定map函数的输入键，输入值，输出键，输出值。

数据类型：Hadoop规定了自己的一套可用于网络序列优化的基本类型，而不是使用内置的java类型，这些都在 org.apache.hadoop.io包中定义，上面使用的Text类型相当于java的String类型，IntWritable类型相当于 java的Integer类型。

Maper 和Reducer 可以理解为分久必合，合久必分！

Maper是将任务切分成很多个小任务，分配给不同的工作者去完成

Reducer是将哪些工作者做完的工作结果收集起来加以整理汇总成最后结果。

总结：job的配置有着复杂的属性参数，如文件分割策略、排序策略、map输出内存缓冲区的大小、工作线程数量等，深入理解掌握这些参数才能使自己的MapReduce程序在集群环境中运行的最优。

(2)深入理解MapReduce：

（1）在map进行之前，需要对输入文件在客户端先进行“分片”，然后将分片信息上传到HDFS。

（2）分片上传结束后，jobtracker拿到分片信息，来分配map,reduct task；map对每条记录的输出以的形式输出。

（3）如果定义了combiner，则在本地会对map处理的结果进行处理：对相同key的聚合，对key的排序，value的迭代。combiner完成类似于本地reduce的功能。

（4）在进入reduce阶段之前，系统会完成一些列操作（merge，sort）：将list中key相同的数据进行合并、排序，最后形成>的数据；

然后发往一个reduce

（5）进入一个reduce，相同的key的map输出会到达同一个reduce，reduce对key相同的多个value进行“reduce操作”；

> 没有combiner的处理过程：

> 添加combiner的处理过程：

？为什么我买的map函数和reduce函数一般使用静态类？

答：task内部可以共享静态类属性，每个task可能会多次调用map或reduce函数，但每个key只对应某个节点上的某个task的reduce函数的一次执行。

多个task之间不能共享静态类属性，即使是在同一台机器上，因为是以进程的方式在运行。

1. Map类：(继承TableMapper或者Mapper)

Map原理：

在map阶段，使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites，同时 InputFormat提供一个RecordReder的实现。本例子中使用的是 TextInputFormat，他提供的RecordReder会将文本的一行的行号作为key，这一行的文本作为value。这就是自定义Map的输入是的原因。然后调用自定义Map的map方法，将一个个对输入给Map的map方法。注意输出应该符合自定义Map中定义的输出。最终是生成一个List。在map阶段的最后，会先调用 job.setPartitionerClass对这个List进行分区，每个分区映射到一个reducer。每个分区内又调用 job.setSortComparatorClass设置的key比较函数类排序。可以看到，这本身就是一个二次排序。如果没有通过 job.setSortComparatorClass设置key比较函数类，则使用key的实现的compareTo方法。在第一个例子中，使用了 IntPair实现的compareTo方法，而在下一个例子中，专门定义了key比较函数类。

Q: map的结果发给那个reduce？谁来管理这一切？

A: Partitioner用于划分键值空间（key space）。

Partitioner负责控制map输出结果key的分割。Key（或者一个key子集）被用于产生分区，通常使用的是Hash函数。分区的数目与一个作业的reduce任务的数目是一样的。因此，它控制将中间过程的key（也就是这条记录）应该发送给m个reduce任务中的哪一个来进行reduce操作。

2. Reduce类:(继承TableReducer或者Reducer)

Reduce的原理：在reduce阶段，reducer接收到所有映射到这个reducer的map输出后，也是会调用 job.setSortComparatorClass设置的key比较函数类对所有数据对排序。然后开始构造一个key对应的value迭代器。这时就要用到分组，使用jobjob.setGroupingComparatorClass设置的分组函数类。只要这个比较器比较的两个key相同，他们就属于同一个组，它们的value放在一个value迭代器，而这个迭代器的key使用属于同一个组的所有key的第一个key。最后就是进入Reducer 的reduce方法，reduce方法的输入是所有的（key和它的value迭代器）。同样注意输入与输出的类型必须与自定义的Reducer中声明的一致。

reduce的输出是没有排序的。

Q: Reduce的数目应该设置多少？

A:Reduce的数目建议是0.95或1.75乘以 ( *mapred.tasktracker.reduce.tasks.maximum)。用0.95，所有reduce可以在maps一完成时就立刻启动，开始传输map的输出结果。用1.75，速度快的节点可以在完成第一轮reduce任务后，可以开始第二轮，这样可以得到比较好的负载均衡的效果。上述比例因子比整体数目稍小一些是为了给框架中的推测性任务（speculative-tasks）或失败的任务预留一些reduce的资源。

Q: Reduce的三个阶段都干了什么？

A: Reducer有3个主要阶段：shuffle、sort和reduce。

Shuffle ：Reducer的输入就是Mapper已经排好序的输出。在这个阶段，框架通过HTTP为每个Reducer获得所有Mapper输出中与之相关的分块。（其实就是copy的过程）

Sort ：这个阶段，框架将按照key的值对Reducer的输入进行分组（因为不同mapper的输出中可能会有相同的key，combain保证了同一台机器相同key的合并，但是不同机器也可能有相同的key）。

map的输出是一边被取回一边被合并的。

3. Job 的配置：

(1). 使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,HadoopMap/Reduce框架为每一个Split产生一个map任务.

Map的数目通常是由输入数据的大小决定的，一般就是所有输入文件的总块（block）数。如果你输入10TB的数据，每个块（block）的大小是 128MB，你将需要大约82,000个map来完成任务，除非使用setNumMapTasks(int)将这个数值设置得更高。

(2).如果需要中间过程对key的分组规则和reduce前对key的分组规则不同，那么可以通过 JobConf.setOutputValueGroupingComparator(Class)来指定一个Comparator。再加上 JobConf.setOutputKeyComparatorClass(Class)可用于控制中间过程的key如何被分组，所以结合两者可以实现按值的二次排序

(3).一些作业的参数可以被直截了当地进行设置（例如： setNumReduceTasks(int)），而另一些参数则与框架或者作业的其他参数之间微妙地相互影响，并且设置起来比较复杂（例如： setNumMapTasks(int)）

(4).Mapper和Reducer的实现可以利用Reporter 来报告进度，或者仅是表明自己运行正常。我们从界面上看到的图形就是利用Reporter来进行进度的展示。

(2) MapReduce基本编程：

Ø 创建一个Maven工程

Ø 加入hadoop依赖

Ø 编写Map类

Ø 编写reduce类

Ø 定义job

(3) 进行Mapreduce测试：

l 用MRUnit做单元测试：

Ø 加入mrunit依赖

Ø 单独测试Map

Ø 单独测试Reduce

Ø 测试MapReduce

参考：叶渡：Hadoop学习笔记_yedu.pdf

疑惑：1. 使用MRUnit，测试代码在.run下通过，在.runTest()失败，原因是什么？两者有什么区别？

l 运行MapReduce Job进行集成测试

流程：预设置(准备输入文件、启动hadoop进程等)->运行作业->输出结果跟预期结果的对比->报告导致失败的原因

l 精简HBaseMapReduce测试：

使用Hadoop/HBaseMini Cluster (iTest-hadoop)

参考文档：http://qa.taobao.com/?p=13939

（不安装Hadoop、HBase环境，只要有JDK搞定MapReduce的Job测试）

2. 本地搭建单机版hadoop环境（win）：

Hadoop主要是在Linux 平台下运行的，如果想在 Windows 平台下运行，你需要安装 Cygwin 才能运行， Hadoop 脚本。

按照“在Windows上安装Hadoop教程.pdf“执行完成。

安装还可以参考文档：http://blog.csdn.net/savechina/article/details/5656937

按照“在Windows上安装Hadoop教程.pdf“的说明进行到最后一步时，在启动./start-all.sh之前，需要格式化一个新的分布式文件，./hadoopnamenode –format .这样就会启动JobTracker.

浏览NameNode 和JobTracker 的网络接口，他们的地址默认为：

NameNode – http://localhost:50070/

JobTracker – http://localhost:50030/

Node数为0，如何配置NameNode 和Datanode？？

Ø 运行hadoop自带jar文件：

运行hadoop自带的jar文件，理解MapReduce的过程：hadoop-0.20.2-examples.jar

跑通自己第一个Job程序：

首先开启hadoop服务： ./start-all.sh

1. 根据文档示例编写wordCout程序。

2. 将编写的代码打包成HadoopTest.jar放到本地某一个目录下， (打包的时候要选择mainclass)

或者直接运行hadoop自带文件中的示例jar包(hadoop-0.20.2-examples.jar)。

3. 将要分析的数据传到hdfs上去

在dfs上创建测试输入目录：./hadoop dfs –mkdir test-in

然后将本地文件copy到test-in中: ./hadoop dfs –copyFromLocal [本地文件目录] test-in

验证文件是否复制成功： ./hadoop dfs –ls test-in

注：这里的test-in其实是HDFS路径下的目录，七绝对路径为

“http://localhost:50070/user/XXXXX/test-in”

4. 开始执行

./bin/hadoopjar hadoop-0.20.2-examples.jar wordCount test-in test-out

当遇到文件已存在异常的时候，只要将test-out改一个名字即可。

5. 遇到问题：

抛出文件不存在的异常，原因是找不到tmp目录。开如图上的目录看到并不存在那样的目录结构，说明根本就没有创建相应的目录结构，可能是连tmp都没有找到，所以查找配置文件发现，conf下的mapred-site.xml中中默认配置是

./tmp,所以修改成自己的相应目录就可以了。

6. 运行成功：

Ø 运行自己编写的文件：

(1).逻辑性代码：

1. 编写自己的mapper函数：继承Mapper基类，实现map方法

2. 编写自己的reducer函数：继承reducer基类，实现reduce方法

3. 编写自己的主函数：创建job，配置map、combiner、reducer类型，设置输入输出路径，设置输出键/值格式，提交任务

(2).驱动性代码：驱动类来注册业务的class为一个可标示的命令，让hadoop jar可以执行。

如：

(3). 最后一步：将自己的项目导出成jar格式，注意：在选择main class时，是选择我们创建的驱动类，而不是逻辑主类。

3. 一个Job的请求过程：

用户通过界面提交一个Job，服务器把Job请求发送给gateway，gateway接收请求后按照一定的逻辑拼装成MR需要的请求文件。

Gateway：我把可以把gateway理解为跳板机，我们的机器不能直接访问集群，需要一个入口，这个入口就是Gateway。

思考：这个跳板机是单独拿出来的一台机器专门做Job的入口的呢，还是只是机群中的普通机器？

JobTracker：

TaskTracker：

我们提交一个JOB（一般通过JobClient，这个类有三种策略来提交一个JOB，1、job完成后才返回状态2、job提交后，返回一个持有状态的Handler，3、提交job，但是不返回状态）

首先会从JobTracker（hadoop中运用了master/slaver机制，他是master服务，那么slaver在这里就是tasktracker）中的得到一个job的definition Id, 其实这个id也就是JobTracker管理job的个数

jobClient会从Configuration找到hadoop系统目录（"mapred.system.dir",默认值"/tmp /hadoop/mapred/system"）在这里jobClient做了一件比较重要的事情，他把input的数据做split操作（相当于将大数据量切分成若干块，具体切分成多大，这个通过一个公式来计算的：FileInputFormat的策略max(minimumSize,min(maximumSize, blockSize)) 其中minSize表示一个map切分的最小容量，maxSize即最大容量，blockSize表示HDFS中的block容量）[1]，从而决定了 Map的个数（其实就是MapTask的数量）。jobClient还将一部分资源文件放到jobtracker的FS中（jar、file、 archives、split[2]）

正式提交

JT(jobtracker)会根据这个job创建一个JobInProgress对象，这个对象记录着这个job所有信息。最后JT会将这个 job注册到JobInProgressListener中（以下简称JIPL），让JIPL监听这些job。JIPL是在JT启动的时候启动的监听器（由TaskScheduler注入，作用参照step 7）。一个EagerTaskInitializationListener：它是一个生命周期和JT一样的监听线程，主要功能就是初始化这个Job,并且创建相应的TaskInProgress(TIP,包括M个MapTask,N个ReduceTask,2个CleanTask,2个 SetupTask)。另一个就是JobQueueJobInProgressListener，这个listener是处理job队列的，也就是job 提交的先后顺序跟它有关系，默认的是FIFO。

在初始化job的时候（其实是初始化MapTask）,会将之前的input数据split的信息回流回来，初始化maptask

到这里，JT初始化job工作完毕。

每台slaver机器启动的时候，都会启动一个tasktracker的线程，这个线程主要负责和JT去通信，也就是发送心跳（通过RPC通信协议）。当发送心跳的时候，TT会将自己现有的状态（是否是刚刚启动、是否刚初始化，自己状态是否可以申请新的task，如果JT中没有这个TT的引用，那么需要保存下来）JT首先会获取Setup和CleanUp的Task（默认每个job都会有两个setuptask和两个cleanup task），如果没有了以上两种类型的task，那么剩下的就是MapTask和ReduceTask此时，JT会去向TaskScheduler这个调度类去申请Task。在hadoop中，默认的TaskScheduler是JobQueueTaskScheduler，他持有JPL的引用。当TT发送一个心跳表明自己空闲需要执行Task时，这时候，JT会调用Schedule的assignTask方法去获得一个Task。（这里Hadoop找 MapTask的时候，首先node-local，然后rack-local，最后才是不同机架，具体怎么找，还未仔细看）

TT发送心跳后，JT返回给TT一个HeartbeatResponse对象的引用，这里面包含着需要执行Tasks的action数组（如果 action的类型LaunchTaskAction：执行一个新的Task, 如果CommitTaskAction：加入commitResponses列表，由Task在适当的时候提交给JobTracker），同时JT还会更新TTS的内容。所以TT根据这两点，就可以很好的判断自己Task在JT那边的状态。执行任务前先调用localizeTask()更新一下jobConf文件并写入到本地目录中。然后通过调用Task的createRunner()方法创建TaskRunner对象并调用其start()方法，值得注意点是，TaskRunner会去新开一个JVM去执行Task(如果考虑掉Task开销小而且多，可以将jvm reuse)。

两种启动Job方式：

A:Submit()

submit函数会把Job提交给对应的Cluster，然后不等待Job执行结束就立刻返回。同时会把Job实例的状态设置为 JobState.RUNNING，从而来表示Job正在进行中。然后在Job运行过程中，可以调用getJobState()来获取Job的运行状态。

B:waitForCompletion(boolean)

waitForCompletion函数会提交Job到对应的Cluster，并等待Job执行结束。函数的boolean参数表示是否打印Job执行的相关信息。返回的结果是一个boolean变量，用来标识Job的执行结果。

执行Job的内部流程：

1).Inputformat会从job的INPUT_DIR目录下读入待处理的文件，检查输入的有效性并将文件切分成InputSplit列表。 Job实例可以通过setInputFormatClass(Class)函数来设置所需的inputformat。

2).当Inputformat对输入文件分片后，会对每个分片构建一个MapperTask实例（MapTask(String, TaskAttemptID, int, TaskSplitIndex, int)）。其实整个Mapper类的调度过程，都是由MapperTask来实现的。MapperTask的 run(JobConf,TaskUmbilicalProtocol)方法实现了对于Mapper task调度的整个过程。

2.1) RecordReader会解析InputSplit，生成对应的key/value pair。Inputformat中有一个除了用于分片的getSplits(JobContext)方法外，还有一个方法 createRecordReader(InputSplit,TaskAttemptContext)，该方法用于给每一个分片创建一个 RecordReader。重写这个方法，可以添加自己的RecordReader。

2.2)Mapper类会对属于一个InputSplit所有key/value pair调用一次map函数。关于Mapper类的作用，在Javadoc中描述如下：“Mapper maps input key/value pairs to a set ofintermediate key/value pairs”。 Job实例可以通过setMapperClass(Class)函数来设置自己的Mapper类。

2.3)可以通过Job实例的setSortComparatorClass(Class)方法来为Mapper设定一个Comparator class，用来对Mapper的结果根据key进行排序。

2.4)可以通过Job实例的setPartitionerClass(Class)方法来为Mapper设定一个Partitioner Class，用来对Mapper的结果根据Reducer进行分片。

2.5)可以通过Job实例的setCombinerClass(Class)方法为Mapper设定一个Combiner Class，用来在本地进行聚集操作，从而减少从Mapper到Reducer的数据传输量。

3).Mapper执行结束之后，ReducerTask类会被用来进行整个Reducer操作的调度

3.1)Shuffle类会被调用从而来获取在Mapper输出中属于本Reducer的分片，并将多个分片combine成一个。

3.2)Shuffle类会使用MergeManager根据Job实例的 setSortComparatorClass(Class)所设定的Comparator class对key/value pair进行排序

3.3)在shuffle操作执行结束之后，如果对于Reducer的input数据，有使用特殊分组的需求的话，可以通过Job实例的 setGroupingComparatorClass(Class)方法来实现定制的分组策略，否则，则使用 setSortComparatorClass(Class)的比较方式。

3.4)在分组后的结果中，针对每一个 pair 调用Reduce的reduce(K2, Iterator, OutputCollector,Reporter)方法。可以通过Job实例的setReducerClass(Class)方法类设置相应的Reduce实现。

4).Reduce的结果将由OutputCollector.collect(WritableComparable, Writable)写入文件系统

参考文档：http://blog.csdn.net/derekjiang/article/details/6851625

思考：

3. 启动Hadoop过程：

(1) 启动NameNode:

启动NameNode节点；

初始化操作(如在name目录下创建文件)；

记录HDFS状态(如安全模式状态)；

本机FS注册，启动HDFS容器，并初始化；

(2) 启动DataNode:

(3) 启动SecondaryNameNode:

(4) 启动JobTracker:

(5) 启动TaskTracker:

4. 运行Map，Reduce过程：

1. 在分布式环境中客户端创建任务并提交。

2. InputFormat做Map前的预处理，主要负责以下工作：

1. 验证输入的格式是否符合JobConfig的输入定义，这个在实现Map和构建Conf的时候就会知道，不定义可以是Writable的任意子类。

2. 将input的文件切分为逻辑上的输入InputSplit，其实这就是在上面提到的在分布式文件系统中blocksize是有大小限制的，因此大文件会被划分为多个block。

3. 通过RecordReader来再次处理inputsplit为一组records，输出给Map。（inputsplit只是逻辑切分的第一步，但是如何根据文件中的信息来切分还需要RecordReader来实现，例如最简单的默认方式就是回车换行的切分）

3. RecordReader处理后的结果作为Map的输入，Map执行定义的Map逻辑，输出处理后的key和value对应到临时中间文件。

4. Combiner可选择配置，主要作用是在每一个Map执行完分析以后，在本地优先作Reduce的工作，减少在Reduce过程中的数据传输量。

5. Partitioner可选择配置，主要作用是在多个Reduce的情况下，指定Map的结果由某一个Reduce处理，每一个Reduce都会有单独的输出文件。（后面的代码实例中有介绍使用场景）

6. Reduce执行具体的业务逻辑，并且将处理结果输出给OutputFormat。

7. OutputFormat的职责是，验证输出目录是否已经存在，同时验证输出结果类型是否如Config中配置，最后输出Reduce汇总后的结果。

5. MapReduce 中如何处理HBase中的数据？如何读取HBase数据给Map？如何将结果存储到HBase中？

Mapper类：包括一个内部类(Context)和四个方法(setup,map,cleanup,run)；

setup,cleanup用于管理Mapper生命周期中的资源。setup -> map -> cleanup，

run方法执行了这个过程；

map方法用于对一次输入的key/value对进行map动作，对应HBase操作也就是一行的处理；

job的配置：

5.1TableInputFormat完成了什么功能？

(1)通过设置conf.set(TableInputFormat.INPUT_TABLE,"udc_sell");设定HBase的输入表；

设置conf.set(TableInputFormat.SCAN,TableMRUtil.convertScanToString(scan));设定对HBase输入表的scan方式；

(2)通过TableInputFormat.setConf(Configration conf)方法初始化scan对象；

scan对象是从job中设置的对象，以字符串的形式传给TableInputFormat，在TableInputFormat内部将scan字符创转换为scan对象

* TableMapReduceUtily有两个方法：convertScanToString和convertStringToScan作用？

将scan实例转换为Base64字符串和将Base64字符串还原为scan实例；

Q:为什么不直接穿Scan对象而是费尽周折地转换来转换去呢？

(3)TableInputFormat继承了TableInputFormatBase实现了InputFormat抽象类的两个抽象方法：

getSplits()和createRecordReader()方法：

l getSplits()断定输入对象的切分原则：对于TableInputFormatBase，会遍历 HBase相应表的所有HRegion，每一个HRegion都会被分成一个split，所以切分的块数是与表中HRegion的数目是相同的； InputSplitsplit =newTableSplit(table.getTableName(),splitStart, splitStop, regionLocation);在split中只会记载HRegion的其实rowkey和终止rowkey，具体的去读取这篇区域的数据是createRecordReader()实现的。

计算出来的每一个分块都将被作为一个map Task的输入；

Q:但是分出的块分给那台机器的那个task去执行Map，即jobTracker如何调度任务给taskTracker？

A: 需要进一步了解Map的本地化运行机制和jobTracker的调度算法；（可能是就近原则）.

对于一个map任务，jobtracker会考虑tasktracker的网络位置，并选取一个距离其输入分片文件最近的tasktracker。在最理想的情况下，任务是数据本地化的(data-local),也就是任务运行在输入分片所在的节点上。同样，任务也可能是机器本地化的：任务和输入分片在同一个机架，但不在同一个节点上。reduce任务，jobtracker简单滴从待运行的reduce任务列表中选取下一个来运行，用不着考虑数据段饿本地化。

l createRecordReader()按照必然格式读取响应数据：

接收split块，返回读取记录的结果；

public RecordReader createRecordReader(InputSplit split, TaskAttemptContext context){

}

trr.init()返回的是这个分块的起始rowkey的记录;

RecordReader将一个split解析成对的形式提供给map函数，key就是rowkey，value就是对应的一行数据；

RecordReader用于在划分中读取对。RecordReader有五个虚方法，分别是： initialize：初始化，输入参数包括该Reader工作的数据划分InputSplit和Job的上下文context；nextKey：得到输入的下一个Key，如果数据划分已经没有新的记录，返回空； nextValue：得到Key对应的Value，必须在调用nextKey后调用；getProgress：得到现在的进度； close：来自java.io的Closeable接口，用于清理RecordReader。

5.2 job.setInputFormatClass(TableInputFormat.class);

5.3 TableMapReduceUtil.initTableReducerJob("daily_result",DailyReduce.class, job);

使用了该方法就不需要再单独定义

initTableReducerJob()方法完成了一系列操作：

(1). job.setOutputFormatClass(TableOutputFormat.class); 设置输出格式；

(2). conf.set(TableOutputFormat.OUTPUT_TABLE, table);设置输出表；

(3).初始化partition；

六：HBase测试点：

前提：自己维护HBase集群，否则无需关注HBase本身。

1. 功能测试：

(1) Row Key的校验(重点)：

rowkey的长度、rowkey的排序、rowkey是否有遗失

(2) Value的校验：

(3) Table schema：

TTL(生存周期)：

压缩方式：Value值的压缩是否出错。

(4) Family名称正确性的校验：

(5) 破坏性校验：

由于HBase的数据都是在集群中有备份的，所以才去人工宕机，查看数据是否能够正常取出。

2. 性能测试：

(1) 对HBase性能测试的工具：YCSB

YCSB（Yahoo!Cloud Serving Benchmark）是雅虎开源的一款通用的性能测试工具。

通过这个工具我们可以对各类NoSQL产品进行相关的性能测试。

参考文档：http://www.cnblogs.com/gpcuster/archive/2011/08/16/2141430.html

参考：http://www.spnguru.com/(趋势科技)

七：Hadoop测试点：

1. Job任务请求：

job需要解析一个request的请求文件，这里需要考虑到文件编码格式的问题。

2. MR数据处理：

(1) MR异常：

3. 程序的稳定和优化：

Hadoop测试参考：HADOOP测试常见问题和测试方法.docx

八：附

1. RPC通信协议：

RPC（RemoteProcedure Call Protocol）——远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。

九：随想：

1. Hadoop 的分布式并行运算有一个作为主控的JobTracker，用于调度和管理其它的 TaskTracker, JobTracker 可以运行于集群中任一台计算机上。TaskTracker负责执行任务，必须运行于 DataNode 上，即 DataNode 既是数据存储结点，也是计算结点。

思考： JobTracker是如何从闲置的机器中选择出来的？是不是任何一台集群中的机器都可能有成为JobTracker的可能？所以机器都同事装了JobTracker和TaskTracker吗？

是谁在管理着JobTracker的分配和TaskTracker的运行？

随笔记录：

1.Zookeeper中记录了-ROOT-表的location，我们的程序会通过我们配置的zookeeper地址找到zookeeper，然后根据zookeeper中存储的-ROOT-表的location，去到相应的机器上访问-ROOT-表，根据-ROOT-表中描述的.META表找到相应的Ration信息。

-ROOT-表只有一个区域，而.META可以有多个区域。

你可能感兴趣的:(Hive,MapReduce,测试,Hadoop,Hbase,Storm,性能,Hadoop,Hbase,MapReduce,性能,测试)

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
docker-compose方式搭建lnmp环境——筑梦之路筑梦之路 linux系统运维国产化 docker android adb
docker-compose.yml文件#生成docker-compose.ymlcat>docker-compose.ymlnginx/conf.d/default.conf">www/index.phpecho"开始启动服务..."docker-composeup-d#获取本机ipip_addr=$(hostname-I|awk'{print$1}')echo"部署完成！"echo"访问测试页
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
本地包解决npm error code E404 雅痞yuppie npm 前端 node.js
这个错误提示表明npm找不到名为create-vue-admin-cli的包。这是因为你开发的CLI工具还没有发布到npm官方注册表。要解决这个问题，有两种方法：方法一：使用本地开发模式测试1.确保你的CLI已正确链接到全局在你的vue-admin-cli项目根目录下执行：npmlink这会在全局环境中创建一个符号链接，指向你本地的CLI项目。2.使用本地链接的CLI创建项目直接使用命令：vue-
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
cesium添加原生MVT矢量瓦片方案 zhu_zhu_xia cesium vue arcgis cesium webgl javascript
项目中需要基于cesium接入mvt格式的服务并支持属性拾取查询，通过一系列预研测试，最后选择cesium-mvt-imagery-provider开源插件完成，关键源码信息如下：npmicesiumcesium-mvt-imagery-provider//安装依赖包//加载图层importCesiumMVTImageryProviderfrom"cesium-mvt-imagery-provid
无线鼠标产品整体技术分析总结悟空胆好小计算机外设
无线鼠标产品对比分析，以小米为例文章目录无线鼠标产品对比分析，以小米为例一.小米无线鼠标产品对比1.1小米无线鼠标XMSMSB05YM2.4G单模款1.2小米无线鼠标XMSMSB01YM2.4G+BT双模款二.**单模鼠标与双模的区别****1.连接方式****2.通信性能与可靠性****3.功耗管理****4.适用场景****5.技术扩展性**6.**小结**三.无线鼠标产品技术重点分析3.1.
玩转Docker | 使用Docker部署gopeed下载工具心随_风动玩转Docker docker 容器运维
玩转Docker|使用Docker部署gopeed下载工具前言一、gopeed介绍Gopeed简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署gopeed服务下载镜像创建容器检查容器状态检查服务端口安全设置四、访问gopeed应用五、测试与下载六、总结前言在当今信息爆炸的时代，高效地获取和管理网络资源变得尤为重要。无论是下载大型文件还是进行日常的数据传输，一个稳
android判断深色模式的方法东东旭huster android java 开发语言
android10以后的版本才完全支持深色模式，测试下面两种方法判断系统是否深色模式都是有效的。publicstaticbooleanisDarkMode1(){if(Build.VERSION.SDK_INT
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
Topview Avatar 2深度实测：AI数字人带货的新高度，还是又一个营销噱头？神码小Z AI工具人工智能
在AI数字人赛道越来越卷的今天，各家产品都在宣传自己的"独门秘技"。最近，TopviewAI推出的Avatar2引起了我的注意——号称突破了产品尺寸限制，实现了"万物皆可带"。作为一个经常需要制作营销视频的内容创作者，我决定亲自上手测试一番，看看这款工具是否真的像宣传的那样强大。TopviewAvatar2是什么？革命性升级还是渐进式改良？TopviewAvatar2是TopviewAI推出的第二
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
初始化列表与类型转换（C++） 2401_89195731 c++开发语言
初始化列表和构造函数体在C++中都是用于给类的成员变量赋初值区别：初始化列表是给每个成员变量定义初始化的地方，即使有成员变量没有给它显式在初始化列表初始化，它也会走初始化列表初始化时机初始化列表：在对象创建时，成员变量通过初始化列表被直接初始化，这发生在构造函数体执行之前。构造函数体内赋值：成员变量首先被默认初始化，然后在构造函数体内通过赋值语句进行赋值。性能差异初始化列表：通常更高效，因为它避免
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
HashMap的Get(),Put()源码解析 Ttang23 哈希算法散列表算法
1、什么是HashMap？HashMap是Java中用于存储键值对（Key-Value）的集合类，它实现了Map接口。其核心特点是：无序性：不保证元素的存储顺序，也不保证顺序恒定不变。唯一性：键（Key）不能重复，若插入重复键会覆盖原有值。允许null：允许一个null键和任意数量的null值。非线程安全：相比HashTable，HashMap不支持同步，性能更高。2.核心数据结构：哈希表（Has
Flutter——数据库Drift开发详细教程之迁移(九) 怀君 flutter flutter 数据库
迁移入门引导式迁移配置用法例子切换到make-migrations开发过程中手动迁移迁移后回调导出模式导出架构下一步是什么？调试导出架构的问题修复这个问题架构迁移助手自定义分步迁移转向逐步迁移手动生成测试迁移编写测试验证数据完整性在运行时验证数据库模式迁移器API一般提示迁移视图、触发器和索引复杂的迁移更改列的类型更改列约束删除列重命名列合并列添加新列入门Drift通过严格的架构确保查询类型安全。
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
Kubernetes自动扩缩容方案对比与实践指南浅沫云归后端技术栈小结 kubernetes autoscaling devops
Kubernetes自动扩缩容方案对比与实践指南随着微服务架构和容器化的广泛采用，Kubernetes自动扩缩容（Autoscaling）成为保障生产环境性能稳定与资源高效利用的关键技术。面对水平Pod扩缩容、垂直资源调整、集群节点扩缩容以及事件驱动扩缩容等多种需求，社区提供了HPA、VPA、ClusterAutoscaler、KEDA等多种方案。本篇文章将从业务背景、方案对比、优缺点分析、选型建
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
Centos7安装uwsgi详细步骤快乐骑行^_^ 大数据 Centos7 安装uwsgi
Centos7安装uwsgi详细步骤步骤一：下载源码到centos7服务器步骤二：解压步骤三：编译环境准备步骤四：进入解压目录，并且编译uwsgi步骤五：准备测试安装是否成功的python代码testUwsgi步骤六：启动uWSGI来运行一个HTTP服务器步骤七：服务器ip+端口号访问步骤一：下载源码到centos7服务器uwsgi最新版2.0.20下载地址如下：https://github.co
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &