u014393917

日志重播分析

Hbase的日志重播分为启动时的日志重播与rs下线时的日志重播操作。

通过hbase.master.distributed.log.replay来控制日志的split是在region的reopen前执行还是reopen后执行

如果是true表示在reopen后执行,否则相反

Rs下线时的日志重播分析

master监听下线

master通过RegionServerTracker监听rs在zk上的节点，当节点被删除时(rs下线)。触发nodeDeleted

publicvoidnodeDeleted(Stringpath) {

if(path.startsWith(watcher.rsZNode)){

解析出zk中rs路径下的rs名称，并解析成ServerName实例。

String serverName= ZKUtil.getNodeName(path);

....................此处部分日志打印信息没有显示

ServerName sn= ServerName.parseServerName(serverName);

如果下线的rs在ServerManager的onlineServers中已经不包含，不做处理，

if(!serverManager.isServerOnline(sn)){

....................此处部分日志打印信息没有显示

return;

}

从RegionServerTracker.onlineServers列表中移出此rs

remove(sn);

执行ServerManager.expireServer进行下线处理

this.serverManager.expireServer(sn);

}

执行ServerManager.expireServer进行下线处理

publicsynchronizedvoidexpireServer(finalServerName serverName){

....................此处部分代码没有显示

把rs添加到deadservers列表中。

this.deadservers.add(serverName);

从onlineServers列表中移出此rs

this.onlineServers.remove(serverName);

synchronized(onlineServers){

onlineServers.notifyAll();

}

从rsAdmins(对rs进行RPC调用的接口实现类)容器中移出此rs

this.rsAdmins.remove(serverName);

....................此处部分代码没有显示

检查此rs中是否包含meta的region，如果是，执行MetaServerShutdownHandler.否则执行ServerShutdownHandler

booleancarryingMeta= services.getAssignmentManager().isCarryingMeta(serverName);

if(carryingMeta){

this.services.getExecutorService().submit(newMetaServerShutdownHandler(this.master,

this.services,this.deadservers,serverName));

}else{

this.services.getExecutorService().submit(newServerShutdownHandler(this.master,

this.services,this.deadservers,serverName,true));

}

....................此处部分日志打印没有显示

}

MetaServerShutdownHandler.process方法处理流程:

publicvoidprocess()throwsIOException {

booleangotException= true;

try{

AssignmentManager am= this.services.getAssignmentManager();

try{

检查是否需要做hlog的split，生成此实例时，shouldSplitHlog的值为true

if(this.shouldSplitHlog){

LOG.info("Splittinghbase:meta logs for " +serverName);

检查hbase.master.distributed.log.replay配置是否设置为true,默认值为false

if(this.distributedLogReplay){

先对metaregion执行prepareLogReplay处理。

见MasterFileSystem.prepareLogReplay分析

Set<HRegionInfo>regions =newHashSet<HRegionInfo>();

regions.add(HRegionInfo.FIRST_META_REGIONINFO);

this.services.getMasterFileSystem().prepareLogReplay(serverName,regions);

} else{

否则在没有配置distributedLogReplay时，执行splitMetaLog对rs的日志进行split,等待split完成

见MasterFileSystem.splitMetaLog分析

this.services.getMasterFileSystem().splitMetaLog(serverName);

}

从AssignmentManager.RegionStates.lastAssignments中移出metaregion的分配。

am.getRegionStates().logSplit(HRegionInfo.FIRST_META_REGIONINFO);

}

} catch(IOException ioe){

....................此处部分代码没有显示

}

//Assign meta if we were carrying it.

//Check again: region may be assigned to other where because of RIT

//timeout

检查此server上还没有完成regionopen操作(regionInTransition还在)如果包含有metaregion,

if(am.isCarryingMeta(serverName)){

LOG.info("Server" + serverName+ " was carrying META. Trying toassign.");

更新RegionStates中此region的状态为offline

从regionsInTransition中移出此region,

从serverHoldings中移出此server中metaregion的分配信息

从regionAssignments中移出此metaregion的分配信息

从regionsToReopen中移出此metaregion

从regionPlans中移出此metaregion

am.regionOffline(HRegionInfo.FIRST_META_REGIONINFO);

等待metaregion的分配,

通过hbase.catalog.verification.retries配置metaregion分配的重试次数,默认10次

通过hbase.catalog.verification.timeout配置每次分配重试的间隔时间,默认1000ms

verifyAndAssignMetaWithRetries();

如果meta在zk中的地址过期数据被删除,重新执行meta的分配,并等待meta分配完成

} elseif(!this.services.getCatalogTracker().isMetaLocationAvailable()){

//the meta location as per master is null. This could happen in casewhen meta assignment

//in previous run failed, while meta znodehas been updated to null. We should try to

//assign the meta again.

如果metaregion在zk中的地址没有注册的数据,执行metaregion的分配,并等待分配结束

通过hbase.catalog.verification.retries配置metaregion分配的重试次数,默认10次

通过hbase.catalog.verification.timeout配置每次分配重试的间隔时间,默认1000ms

verifyAndAssignMetaWithRetries();

} else{

LOG.info("METAhas been assigned to otherwhere, skip assigning.");

}

try{

如果distributedLogReplay配置为true,等待regionreplay的regionintranstion事务完成

也就是RegionStates.regionsInTransition中不在包含此metaregion的regionintransition

regionreplay的等待超时通过hbase.master.log.replay.wait.region.timeout配置，默认为15000ms

如果在超时的时间内没有完成regionintransition时，此方法返回false

if(this.shouldSplitHlog&& this.distributedLogReplay){

if(!am.waitOnRegionToClearRegionsInTransition(HRegionInfo.FIRST_META_REGIONINFO,

regionAssignmentWaitTimeout)){

....................此处部分代码没有显示

}

执行logsplit,并等待split完成,如果是distributedLogReplay时，

此时regionassign已经完成,开始spltlog

见MasterFileSystem.splitMetaLog分析

this.services.getMasterFileSystem().splitMetaLog(serverName);

}

} catch(Exception ex){

....................此处部分代码没有显示

}

gotException= false;

}finally{

if(gotException){

//If we had an exception, this.deadServers.finish will be skipped insuper.process()

this.deadServers.finish(serverName);

}

执行此rs中非metaregion的日志重播与regionassign，

见ServerShutdownHandler.process方法处理流程

super.process();

}

MasterFileSystem.prepareLogReplay分析

此方法在hbase.master.distributed.log.replay配置为true时,分执行此操作

publicvoid prepareLogReplay(ServerNameserverName, Set<HRegionInfo>regions) throwsIOException {

一些必要的检查,检查是否设置有日志的分布式replay模式,要进行分布式日志的region列表是否为空

if(!this.distributedLogReplay){

return;

}

//mark regions in recovering state

if(regions ==null|| regions.isEmpty()){

return;

}

try{

通过SplitLogManager.markRegionsRecoveringInZK在/hbase/recovering-regions中添加region路径

this.splitLogManager.markRegionsRecoveringInZK(serverName,regions);

}catch(KeeperExceptione) {

thrownewIOException(e);

}

执行distributedLogReplay

voidmarkRegionsRecoveringInZK(finalServerName serverName, Set<HRegionInfo>userRegions)

throwsKeeperException {

一些必要的检查,检查是否设置有日志的分布式replay模式,要进行分布式日志的region列表是否为空

if(userRegions== null|| !this.distributedLogReplay){

return;

}

try{

this.recoveringRegionLock.lock();

//mark that we're creating recovering znodes

更新SplitLogManager中最后一次recoveringnode的时间为当前时间

this.lastRecoveringNodeCreationTime= EnvironmentEdgeManager.currentTimeMillis();

开始迭代执行要replay的每一个region,如果是metaregion,此时只有一个迭代

for(HRegionInfo region: userRegions){

String regionEncodeName= region.getEncodedName();

得到hbase.splitlog.zk.retries配置的在zk中创建子路径的最大重试次数,默认为3

longretries =this.zkretries;

do{

在zookeeper.znode.recovering.regions配置的路径下生成一个通过regionname为名称的子路径

默认为/hbase/recovering-regions/region-name

String nodePath= ZKUtil.joinZNode(watcher.recoveringRegionsZNode,regionEncodeName);

longlastRecordedFlushedSequenceId= -1;

try{

得到region中的最大的seqid,此seqid在ServerManager.flushedSequenceIdByRegion中存储,

记录着region中flush的最大的seqid

longlastSequenceId= this.master.getServerManager().getLastFlushedSequenceId(

regionEncodeName.getBytes());

....................此处部分代码没有显示

检查在zk中的recovering-regions中是否已经包含此region,

byte[]data =ZKUtil.getData(this.watcher,nodePath);

if(data ==null){

如果recovering-regions中还不包含此region的replay信息,

把region的最后一次flush的seqid写入到replay路径下

ZKUtil.createSetData(this.watcher,nodePath,

ZKUtil.positionToByteArray(lastSequenceId));

} else{

如果recovering-regions中已经包含有此region的replay信息,

得到上一次region的recovering的seqid,

如果上一次的seqid小于当前region的最后一次flush的seqid,更新zk中此region的replay的seqid为最新的seqid

否则不做修改(上一次flush的seqid比记录的flush的seqid更加的新)

lastRecordedFlushedSequenceId= SplitLogManager.parseLastFlushedSequenceIdFrom(data);

if(lastRecordedFlushedSequenceId< lastSequenceId){

//update last flushed sequence id in the region level

ZKUtil.setData(this.watcher,nodePath,ZKUtil.positionToByteArray(lastSequenceId));

}

//go one level deeper with server name

在recovering-regions/region-name下生成当前下线的server子路径

nodePath= ZKUtil.joinZNode(nodePath,serverName.getServerName());

如果当前region的flush的seqid小于上一次的recovering中replay的seqid,

(上一次flush的seqid比记录的flush的seqid更加的新),更新region的lastflush seqid为上一次的seqid

if(lastSequenceId<= lastRecordedFlushedSequenceId){

//the newly assigned RS failed even before any flush to the region

lastSequenceId= lastRecordedFlushedSequenceId;

}

在/hbase/recovering-regions/region-name/server-name路径下记录最后一次flush的seqid.

ZKUtil.createSetData(this.watcher,nodePath,

ZKUtil.regionSequenceIdsToByteArray(lastSequenceId,null));

....................此处部分代码没有显示

break;

} catch(KeeperExceptione) {

....................此处部分代码没有显示

}

} while((--retries)> 0 && (!this.stopper.isStopped()));

}

}finally{

this.recoveringRegionLock.unlock();

}

MasterFileSystem.splitMetaLog分析

splitMetaLog传入需要执行split操作的server(下线的server),方法去调用splitLog方法，

由于此时只针对metaregion的hlog时行split,因此在splitLog方法时传入META_FILTER来区分是否metasplit

publicvoid splitLog(finalSet<ServerName>serverNames, PathFilterfilter) throwsIOException {

longsplitTime =0, splitLogSize= 0;

从/hbase/WALs的日志路径下得到通过下线的servers命名的所有日志路径,老版本中.logs目录

如：/hbase/WALs/server-name1

并把下线的server路径名称更新为/hbase/WALs/server-name1-splitting路径

List<Path>logDirs =getLogDirs(serverNames);

把下线的所有rsserver添加到SplitLogManager.deadWorkers中，

等待SplitLogManager.TimeoutMonitor线程定期去处理,

见SplitLogManager.TimeoutMonitor线程分析

splitLogManager.handleDeadWorkers(serverNames);

splitTime= EnvironmentEdgeManager.currentTimeMillis();

执行hlogsplit操作，见SplitLogManager.splitLogDistributed分析

splitLogSize= splitLogManager.splitLogDistributed(serverNames,logDirs,filter);

splitTime= EnvironmentEdgeManager.currentTimeMillis()- splitTime;

....................此处部分代码没有显示,监控信息

}

MasterFileSystem.splitLog分析

splitLog传入需要执行split操作的server(下线的server),方法去调用splitLog方法，

由于此时只针对非metaregion的hlog时行split,

因此在splitLog方法时传入NON_META_FILTER来区分是否非metasplit

publicvoid splitLog(finalSet<ServerName>serverNames, PathFilterfilter) throwsIOException {

longsplitTime =0, splitLogSize= 0;

从/hbase/WALs的日志路径下得到通过下线的servers命名的所有日志路径,老版本中.logs目录

如：/hbase/WALs/server-name1

并把下线的server路径名称更新为/hbase/WALs/server-name1-splitting路径

List<Path>logDirs =getLogDirs(serverNames);

把下线的所有rsserver添加到SplitLogManager.deadWorkers中，

等待SplitLogManager.TimeoutMonitor线程定期去处理,

见SplitLogManager.TimeoutMonitor线程分析

splitLogManager.handleDeadWorkers(serverNames);

splitTime= EnvironmentEdgeManager.currentTimeMillis();

执行hlogsplit操作，见SplitLogManager.splitLogDistributed分析

splitLogSize= splitLogManager.splitLogDistributed(serverNames,logDirs,filter);

splitTime= EnvironmentEdgeManager.currentTimeMillis()- splitTime;

....................此处部分代码没有显示,监控信息

}

SplitLogManager.splitLogDistributed分析

此方法主要用于对serverhlog根据region进行split操作，生成splittask，并等待split完成。

publiclong splitLogDistributed(finalSet<ServerName>serverNames, finalList<Path>logDirs,

PathFilterfilter)throwsIOException {

....................此处部分代码没有显示,监控信息,日志信息

得到/hbase/WALs/server-name-splitting下的所有日志文件,

如果传入的filter为META_FILTER,那么只获取.meta的hlog文件,否则获取全部hlog文件

FileStatus[] logfiles= getFileList(logDirs,filter);

....................此处部分代码没有显示,监控信息,日志信息

longtotalSize =0;

TaskBatch batch= newTaskBatch();

Boolean isMetaRecovery= (filter== null)? null: false;

for(FileStatus lf: logfiles){

....................此处部分代码没有显示,监控信息,日志信息

totalSize+= lf.getLen();

得到日志文件路径去掉/hbase的部分名称，如/WALs/server-name-splitting/aaa.meta

String pathToLog= FSUtils.removeRootPath(lf.getPath(),conf);

1.把hlog的全路径去掉/hbase部分通过URLEncoder.encode进行转码(/会被转换成%2F)

2.把hlog的全路径添加到zookeeper.znode.splitlog配置的路径下默认为splitWAL，作为其子路径存在。

3.在SplitLogManager.tasks中添加一个Task实例,key为2中zk生成的path，value为生成的Task实例,

设置Task的status为IN_PROGRESS，并把task的batch实例为上面生成的TaskBatch实例(batch),

把batch中的installed加一，表示增加一个批量执行的Task

4.根据hbase.splitlog.zk.retries配置的zk重试次数,默认为3，

生成SplitLogTask实例，设置其originServer为master的ServerName

设置其state为ZooKeeperProtos.SplitLogTask.State.UNASSIGNED

在zk中注册此地址,并把SplitLogTask写入到此zk的路径下。

5.regionserver中监听zk的splitWAL的路径，

见regionserver中处理splitlog

6.master中通过SplitLogManager.nodeDataChanged来监听rs中SplitLogTask的状态修改。

见SplitLogManager.nodeDataChanged分析

if(!enqueueSplitTask(pathToLog,batch)) {

thrownewIOException("duplicatelog split scheduled for " +lf.getPath());

}

等待split操作完成,

a.batch中所有的Task.status为TerminationStatus.IN_PROGRESS的task个数为0

b.splitWAL路径下的所有子路径的个数为0

c.每次迭代都需要等待batch被nodeDataChanged或者其它地方对batch进行notify

waitForSplittingCompletion(batch,status);

//remove recovering regions from ZK

if(filter ==MasterFileSystem.META_FILTER/* reference comparison */){

....................此处部分代码没有显示,日志信息

isMetaRecovery= true;

}

删除zk的recovering-regions下对应的region路径下传入的servers子路径

(如果region下所有的servers子路径不存在,直接删除region子路径)

如果isMetaRecovery等于true表示只删除metaregion的recovering路径

this.removeRecoveringRegionsFromZK(serverNames,isMetaRecovery);

如果有日志split出现错误,直接throwIOException

if(batch.done!= batch.installed){

batch.isDead= true;

....................此处部分代码没有显示,日志信息

thrownewIOException(msg);

}

for(PathlogDir:logDirs){

status.setStatus("Cleaningup log directory...");

try{

删除WALs目录下对应的server-name-splitting的日志文件。

if(fs.exists(logDir)&& !fs.delete(logDir,false)){

LOG.warn("Unableto delete log src dir. Ignoring. "+ logDir);

}

} catch(IOException ioe){

....................此处部分代码没有显示,日志信息

}

SplitLogCounters.tot_mgr_log_split_batch_success.incrementAndGet();

}

....................此处部分代码没有显示,监控信息,日志信息

returntotalSize;

}

ServerShutdownHandler.process方法处理流程:

ServerShutdownHandler的处理流程主要对非metaregion的下线处理，region的重新分配,日志split

publicvoid process()throws IOException {

booleanhasLogReplayWork= false;

finalServerName serverName= this.serverName;

try{

....................此处部分代码没有显示

AssignmentManager am= services.getAssignmentManager();

if(isCarryingMeta()// hbase:meta

||!am.isFailoverCleanupDone()){

this.services.getServerManager().processDeadServer(serverName,this.shouldSplitHlog);

return;

}

....................此处部分代码没有显示

NavigableMap<HRegionInfo,Result>hris =null;

while(!this.server.isStopped()){

try{

从meta表中进行scan,扫描出当前下线的regionserver中所有的userregion 列表。

this.server.getCatalogTracker().waitForMeta();

hris= MetaReader.getServerUserRegions(this.server.getCatalogTracker(),

this.serverName);

break;

} catch(InterruptedException e){

Thread.currentThread().interrupt();

thrownewIOException("Interrupted",e)

} catch(IOException ioe){

....................此处部分代码没有显示

}

if(this.server.isStopped()){

thrownewIOException("Serveris stopped");

}

try{

shouldSplitHlog在ServerShutdownHandler实例生成时默认为true

if(this.shouldSplitHlog){

LOG.info("Splittinglogs for " + serverName+ " before assignment.");

检查hbase.master.distributed.log.replay配置是否设置为true,默认值为false

if(this.distributedLogReplay){

LOG.info("Markregions in recovery before assignment.");

Set<ServerName>serverNames= newHashSet<ServerName>();

serverNames.add(serverName);

如果设置有distributedLogReplay，执行logsplit的预处理,

见MasterFileSystem.prepareLogReplay分析

this.services.getMasterFileSystem().prepareLogReplay(serverNames);

} else{

如果没有设置distributedLogReplay，执行logsplit,并等待split完成

见MasterFileSystem.splitLog分析

this.services.getMasterFileSystem().splitLog(serverName);

}

从RegionStates.lastAssignments中移出此server对应的所有region分配信息

从RegionStates.processedServers中移出超出时间限制的

通过hbase.master.maximum.logsplit.keeptime配置的时间的server,默认为7200000ms(2hour)

am.getRegionStates().logSplit(serverName);

} else{

LOG.info("Skippinglog splitting for " + serverName);

}

} catch(IOException ioe){

resubmit(serverName,ioe);

}

....................此处部分代码没有显示

1.从AssignmentManager.regionPlans中移出包含此server的regionplan,

2.从regionStates.serverHoldings中得到此server所有的regionassign,

如果region的状态为online/splitting/merging,把region的状态设置为offline

并从regionsInTransition与regionAssignments移出这些个region.

如果region的状态为splitting/merging时，删除region在zk中region-in-transition的注册信息

3.从regionsInTransition中找到所有此server中transition的

状态为PENDING_OPEN/OPENING/FAILED_OPEN/FAILED_CLOSE/OFFLINE的region,并返回

4.根据3返回的在regionsInTransition中的region,删除region在zk中region-in-transition的注册信息

zk中的路径通过zookeeper.znode.unassigned进行配置。

5.注意：3中返回的region是当前下线的server在assignments中不包含的,

同时在regionInTransition又包含,也就是这些个region准备在当前下线的server上启动,

但此时这个server挂掉了。此方法的主要作用是删除掉当前下线server中正在做transition的region的zk信息,

把这些个region的状态设置为offline,等待下面的代码逻辑重新执行分配.

List<HRegionInfo>regionsInTransition= am.processServerShutdown(serverName);

....................此处部分代码没有显示

把上面得到的正在做transition的regions添加到待分配的region列表中

List<HRegionInfo>toAssignRegions= newArrayList<HRegionInfo>();

toAssignRegions.addAll(regionsInTransition);

//Iterate regions that were on this server and assign them

if(hris !=null){

RegionStates regionStates= am.getRegionStates();

迭代从meta表中得到的所有当前下线server的userregion,

for(Map.Entry<HRegionInfo,Result>e:hris.entrySet()){

HRegionInfo hri= e.getKey();

如果此region在transition中已经包含,重新迭代下一次

if(regionsInTransition.contains(hri)){

continue;

}

String encodedName= hri.getEncodedName();

Locklock =am.acquireRegionLock(encodedName);

try{

RegionState rit= regionStates.getRegionTransitionState(hri);

检查region所在的table是否被删除/是否是disable的table,如果不是执行如下流程

if(processDeadRegion(hri,e.getValue(),am,server.getCatalogTracker())){

ServerName addressFromAM= regionStates.getRegionServerOfRegion(hri);

if(addressFromAM!= null&& !addressFromAM.equals(this.serverName)){

....................此处部分代码没有显示

continue;

}

if(rit !=null){

if(rit.getServerName()!= null&& !rit.isOnServer(serverName)){

....................此处部分代码没有显示

continue;

}

try{

....................此处部分代码没有显示

删除region在zk中region-in-transition的注册信息,zk中的路径通过zookeeper.znode.unassigned进行配置,

并更新region的状态为offline

ZKAssign.deleteNodeFailSilent(services.getZooKeeper(),hri);

regionStates.updateRegionState(hri,State.OFFLINE);

} catch(KeeperExceptionke) {

this.server.abort("UnexpectedZK exception deleting unassigned node "+ hri, ke);

return;

}

} elseif(regionStates.isRegionInState(

hri,State.SPLITTING_NEW,State.MERGING_NEW)){

如果region的状态是准备split或者准备merge时，重新设置region状态为offline

regionStates.regionOffline(hri);

}

添加此region到待分配的region列表中

toAssignRegions.add(hri);

} elseif(rit !=null){

region所在的table现在是disable的table,设置region状态为offline,

a.如果region在zk中的eventType为M_ZK_REGION_CLOSING/RS_ZK_REGION_CLOSED,从zk中删除此region的路径

zk中region-in-transition的注册信息,zk中的路径通过zookeeper.znode.unassigned进行配置

b.如果region在zk中的eventtype为RS_ZK_REGION_CLOSED/M_ZK_REGION_OFFLINE，从zk中删除此region的路径

if(rit.isPendingCloseOrClosing()

&&am.getZKTable().isDisablingOrDisabledTable(hri.getTable())){

....................此处部分代码没有显示

regionStates.updateRegionState(hri,State.OFFLINE);

am.deleteClosingOrClosedNode(hri,rit.getServerName());

am.offlineDisabledRegion(hri);

} else{

LOG.warn("THISSHOULD NOT HAPPEN: unexpected region in transition "

+ rit+ " not to be assigned by SSH ofserver " + serverName);

}

} finally{

lock.unlock();

}

try{

执行region的批量assign操作

am.assign(toAssignRegions);

} catch(InterruptedException ie){

LOG.error("Caught" + ie+ " during round-robinassignment");

thrownewIOException(ie);

}

if(this.shouldSplitHlog&& this.distributedLogReplay){

//wait for region assignment completes

for(HRegionInfo hri: toAssignRegions){

try{

此处只能是distributedLogReplay设置为true时，因为这时rs中不做logreplay,

distributedLogReplay设置为true时,region下不存在recovered.edits路径,因此openregion时replay不会执行,

所以此时等待region的open完成是可行的。等待每一个region的assign完成,

也就是assign时的RegionInTransition在RegionStates.regionsInTransition的处理完成(列表中不包含此region)

或者说等待分配的超时时间hbase.master.log.replay.wait.region.timeout过期,默认15000ms

在assign时会在zk中的region-in-transition注册一个region地址,等待rs处理,

此方法会不停止的迭代,直接timeout或者regionsInTransition中移出此region的transition,

每次迭代会让regionstates处于wait状态，等待AssignmentManager.nodeDataChanged/nodeDeleted对其notify

完成后通过AssignmentManager中的相关nodeDataChanged处理事件方法对regionsInTransition更新，

通过nodeDeleted处理事件对regionsInTransition移出

if(!am.waitOnRegionToClearRegionsInTransition(hri,regionAssignmentWaitTimeout)){

//Wait here is to avoid log replay hits current dead server and incur aRPC timeout

//when replay happens before region assignment completes.

LOG.warn("Region" + hri.getEncodedName()

+ "didn't complete assignment in time");

}

} catch(InterruptedException ie){

thrownewInterruptedIOException("Caught" + ie

+ "during waitOnRegionToClearRegionsInTransition");

}

//submit logReplay work

如果设置distributedLogReplay为true，此时regionassign完成,执行logsplit,并等待split完成

见MasterFileSystem.splitLog分析

this.services.getExecutorService().submit(

newLogReplayHandler(this.server,this.services,this.deadServers,this.serverName));

hasLogReplayWork= true;

}

}finally{

this.deadServers.finish(serverName);

}

if(!hasLogReplayWork){

LOG.info("Finishedprocessing of shutdown of " +serverName);

}

regionserver中处理splitlog

regionserver中通过regionserver启动时启动的SplitLogWorker线程,

通过其的run方法监听master在zk中生成splitWAL，一但master在zk中注册splitWAL路径成功,

执行taskLoop方法默认5s进行一次splitlog的检查(线程等待,timeout为5000ms),

通过nodeChildrenChanged来监听zk中splitWAL子路径的修改,并notify此线程,

通过nodeDataChanged来更新每一个SplitLogTask的状态更新，

publicvoidrun(){

try{

....................此处部分代码没有显示

//wait for master to create the splitLogZnode

intres = -1;

while(res == -1&& !exitWorker){

try{

监听master对zk中splitWAL的注册

res= ZKUtil.checkExists(watcher,watcher.splitLogZNode);

} catch(KeeperExceptione) {

//ignore

LOG.warn("Exceptionwhen checking for " +watcher.splitLogZNode + " ... retrying",e);

}

if(res == -1){

try{

....................此处部分代码没有显示

Thread.sleep(1000);

} catch(InterruptedException e){

....................此处部分代码没有显示

exitWorker= true;

break;

}

if(!exitWorker){

定期检查并启动执行splithlog的处理

taskLoop();

}

}catch(Throwable t){

....................此处部分代码没有显示

}finally{

LOG.info("SplitLogWorker" + this.serverName+ " exiting");

}

检查并执行splithlog

privatevoid taskLoop(){

while(!exitWorker){

intseq_start =taskReadySeq;

得到所有的需要进行logsplit的servername的路径

List<String>paths =getTaskList();

if(paths ==null){

LOG.warn("Couldnot get tasks, did someone remove "+

this.watcher.splitLogZNode+ " ... worker thread exiting.");

return;

}

//pick meta walfirstly

首先定义一个先执行的servernamehlog split的路径值,默认为随机取一个下标

如果要split的server中包含有meta的region，那么先从meta的server开始执行

intoffset =(int)(Math.random()* paths.size());

for(inti = 0; i< paths.size();i ++){

if(HLogUtil.isMetaFile(paths.get(i))){

offset= i;

break;

}

intnumTasks =paths.size();

for(inti = 0; i< numTasks;i++) {

计算执行顺序,从offset开始执行,如：paths.size()=6,offset=5,那么执行顺序为501234

intidx = (i+ offset) %paths.size();

//don't call ZKSplitLog.getNodeName() because that will lead to

//double encoding of the path name

每一个server最大同时执行splithlog的task个数通过hbase.regionserver.wal.max.splitters配置，默认为2

得到现在活着的所有的regionserver列表,根据要split的server个数,

平均下来后计算此server最多要执行多少个splttask,

最多同时执行个数不超过hbase.regionserver.wal.max.splitters配置,每次执行tasksInProgress值加一

if(this.calculateAvailableSplitters(numTasks)> 0) {

如果此server还有能力执行splithlog task，

更新zk中splitWAL中此servername(待split)的SplitLogTask为SplitLogTask.Owned,

并把当前执行split的rs更新到zk中。生成HLogSplitterHandler实例，并启动线程执行此处理程序

把tasksInProgress的正在处理的splittask的值加一,见HLogSplitterHandler.process流程分析

等待500-1000ms在重新执行下一次分配,这样能保证其它的rs也能分配到任务

注意：此部分逻辑第一次执行此方法时不会执行，因为第一次执行时zk中splitWAL路径下可能为空,

直接进入下面部分，让此线程进入wait状态，等待nodeChildrenChanged来进行notify

grabTask(ZKUtil.joinZNode(watcher.splitLogZNode,paths.get(idx)));

} else{

LOG.debug("Currentregion server " + this.serverName+ " has "

+this.tasksInProgress.get()+ " tasks in progress and can'ttake more.");

break;

}

if(exitWorker){

return;

}

SplitLogCounters.tot_wkr_task_grabing.incrementAndGet();

synchronized(taskReadyLock){

此次任务执行完成，zk中splitWAL在任务执行到此时还没有更新的rs下线被注册进来

while(seq_start== taskReadySeq){

try{

线程进行等待状态，等待nodeChildrenChanged来进行notify

taskReadyLock.wait(checkInterval);

if(this.server!= null){

//check to see if we have stale recovering regions in our internalmemory state

如果是设置有distributedLogReplay模式，此时在regionopen后才开始执行splitlog,

那么得到要进行splitlog的region列表。迭代每一个region，

从recovering-regions中检查是否此region需要splitlog,

如果recovering-regions中不存在此region,从rs中的recoveringRegions列表中移出此region

并设置此Hregion的recovering的值为false.

开始回到taskLoop方法的顶部，重新对这部分region进行splitlog

Map<String,HRegion>recoveringRegions= this.server.getRecoveringRegions();

if(!recoveringRegions.isEmpty()){

//Make a local copy to prevent ConcurrentModificationException whenother threads

//modify recoveringRegions

List<String>tmpCopy =newArrayList<String>(recoveringRegions.keySet());

for(String region: tmpCopy){

String nodePath= ZKUtil.joinZNode(this.watcher.recoveringRegionsZNode,region);

try{

if(ZKUtil.checkExists(this.watcher,nodePath)== -1) {

HRegion r= recoveringRegions.remove(region);

if(r != null){

r.setRecovering(false);

}

LOG.debug("Markrecovering region:" + region+ " up.");

} else{

....................此处部分代码没有显示

break;

}

} catch(KeeperExceptione) {

....................此处部分代码没有显示

break;

}

} catch(InterruptedException e){

....................此处部分代码没有显示

exitWorker= true;

return;

}

HlogSplitterHandler.process处理流程分析

HlogSplitterHandler是具体对hlog进行处理的handler,通过其传入的TaskExecutor.exec方法执行,

TaskExecutor是在SplitLogWorker实例生成时在构造方法中生成的一个匿名实现类,

publicHLogSplitterHandler(finalServer server,String curTask,

finalMutableInt curTaskZKVersion,

CancelableProgressablereporter,

AtomicInteger inProgressTasks,TaskExecutorsplitTaskExecutor){

设置EventType为RS_LOG_REPLAY

super(server,EventType.RS_LOG_REPLAY);

this.curTask= curTask;

this.wal= ZKSplitLog.getFileName(curTask);

this.reporter= reporter;

this.inProgressTasks= inProgressTasks;

把regionserver中执行splitlog 的task的值加一,表示占用一个执行位置

this.inProgressTasks.incrementAndGet();

this.serverName= server.getServerName();

this.zkw= server.getZooKeeper();

this.curTaskZKVersion= curTaskZKVersion;

见SplitLogWorker的构造方法最后一个参数

this.splitTaskExecutor= splitTaskExecutor;

}

publicvoid process()throws IOException {

longstartTime =System.currentTimeMillis();

try{

执行splitlog的处理程序,见下面的SplitLogTaskExecutor.exec处理分析，并得到流程执行的返回状态

Statusstatus =this.splitTaskExecutor.exec(wal,reporter);

switch(status) {

caseDONE:

成功结束，调用endTask结束任务，

设置zk中splitWAL路径的servername中SplitLogTask的状态为SplitLogTask.Done

endTask(zkw,newSplitLogTask.Done(this.serverName),

SplitLogCounters.tot_wkr_task_done,curTask,curTaskZKVersion.intValue());

break;

casePREEMPTED:

如果splittask是一个抢占的资源,不做处理

SplitLogCounters.tot_wkr_preempt_task.incrementAndGet();

LOG.warn("taskexecution prempted " + wal);

break;

caseERR:

执行过程错误，调用endTask结束任务,

设置zk中splitWAL路径的servername中SplitLogTask的状态为SplitLogTask.Err

if(server!= null&& !server.isStopped()){

endTask(zkw,newSplitLogTask.Err(this.serverName),

SplitLogCounters.tot_wkr_task_err,curTask,curTaskZKVersion.intValue());

break;

}

//if the RS is exiting then there is probably a tons of stuff

//that can go wrong. Resign instead of signaling error.

//$FALL-THROUGH$

caseRESIGNED:

如果资源的task执行被放弃,调用endTask结束任务,

设置zk中splitWAL路径的servername中SplitLogTask的状态为SplitLogTask.Resigned

if(server!= null&& server.isStopped()){

LOG.info("taskexecution interrupted because worker is exiting "+ curTask);

}

endTask(zkw,newSplitLogTask.Resigned(this.serverName),

SplitLogCounters.tot_wkr_task_resigned,curTask,curTaskZKVersion.intValue());

break;

}

}finally{

LOG.info("worker" + serverName+ " done with task "+ curTask +" in "

+ (System.currentTimeMillis()- startTime)+ "ms");

把regionserver中的splitlog task的值减一，表示有一个空闲的位置

this.inProgressTasks.decrementAndGet();

}

SplitLogTaskExecutor.exec处理分析:

publicStatus exec(Stringfilename, CancelableProgressablep) {

Path rootdir;

FileSystemfs;

try{

rootdir= FSUtils.getRootDir(conf);

fs= rootdir.getFileSystem(conf);

} catch(IOException e){

LOG.warn("couldnot find root dir or fs", e);

如果得到hdfs中/hbase目录出错或生成/hbase的FileSystem出错时,返回RESIGNED(放弃)

returnStatus.RESIGNED;

}

//TODOhave to correctly figure out when log splitting has been

//interrupted or has encountered a transient error and when it has

//encountered a bad non-retry-able persistent error.

Try{

执行splitlog操作，生成一个SplitLogFile实例，并执行其splitLogFile方法，

方法执行返回trueor false,执行过程中定期向zk中此hlogreplay的路径发送心跳，如果心跳发送失败返回false

发送心跳的间隔通过hbase.splitlog.report.period配置，默认为hbase.splitlog.manager.timeout(120000)/3

发送心跳其实就是定期在zk中重新注册此servername,并得到上一次注册的version,

如果上一次version小于1表示PREEMPTED（此server有资源抢占）

1.通过hbase.regionserver.hlog.splitlog.buffersize配置读取源hlog的buffer大小，默认为128*1024*1024

2.通过hbase.regionserver.hlog.splitlog.writer.threads配置OutputSink的写入线程个数

3.配置hbase.regionserver.wal.logreplay.batch.size，默认为64

4.如果distributedLogReplay设置为true,生成的OutputSink为HLogSplitter.LogReplayOutputSink/

否则生成HLogSplitter.LogRecoveredEditsOutputSink实例

5.通过hbase.hlog.split.skip.errors配置是否跳过spliterror,默认为false

6.通过hbase.splitlog.report.interval.loglines配置每次读取的行数，默认为1024

读取过程中如果hlog的entity的seqid小于region中的seqid或者cocovering-regions中存储的seqid,continue.

数据在output时，根据regionname，在regionname下创建一个recovered.edits目录，并写入hlog数据到此目录下

具体请参见HLogSplitter.splitLogFile方法源代码。

if(!HLogSplitter.splitLogFile(rootdir,fs.getFileStatus(newPath(rootdir,filename)),

fs,conf, p,sequenceIdChecker,watcher)) {

此server有资源抢占,主要是在zk上定期注册此server对hlog的split

returnStatus.PREEMPTED;

}

} catch(InterruptedIOException iioe){

LOG.warn("logsplitting of " + filename+ " interrupted, resigning",iioe);

returnStatus.RESIGNED;

} catch(IOException e){

Throwable cause= e.getCause();

if(einstanceofRetriesExhaustedException

&& (causeinstanceofNotServingRegionException

|| causeinstanceofConnectException

|| causeinstanceofSocketTimeoutException)) {

LOG.warn("logreplaying of " + filename+ " can't connect to the targetregionserver, "

+ "resigning",e);

returnStatus.RESIGNED;

} elseif(causeinstanceofInterruptedException) {

LOG.warn("logsplitting of " + filename+ " interrupted, resigning",e);

returnStatus.RESIGNED;

} elseif(causeinstanceofKeeperException){

LOG.warn("logsplitting of " + filename+ " hit ZooKeeper issue,resigning", e);

returnStatus.RESIGNED;

}

LOG.warn("logsplitting of " + filename+ " failed, returning error",e);

returnStatus.ERR;

}

returnStatus.DONE;

}

SplogLogWorker.nodeDataChanged方法中监听到zk的状态修改时,如果状态不是如下状态是,调用stopTask结束线程

String taskpath= currentTask;

if(taskpath!= null&& taskpath.equals(path)){

//have to compare data. cannot compare version because then there

//will be race with attemptToOwnTask()

//cannot just check whether the node has been transitioned to

//UNASSIGNED because by the time this worker sets the data watch

//the node might have made two transitions - from owned by this

//worker to unassigned to owned by another worker

if(! slt.isOwned(this.serverName)&&

!slt.isDone(this.serverName)&&

!slt.isErr(this.serverName)&&

!slt.isResigned(this.serverName)){

LOG.info("task" + taskpath+ " preempted from "+

serverName+ ", current task state and owner="+ slt.toString());

stopTask();

}

结束线程的执行过程

voidstopTask() {

LOG.info("Sendinginterrupt to stop the worker thread");

worker.interrupt();// TODOinterrupt often gets swallowed, do what else?

}

SplitLogManager.nodeDataChanged流程分析

regionserver中执行splitlog操作，并根据执行情况修改zk中splitWAL中SplitLogTask的状态。

SplitLogManager.nodeDataChanged在master端对zk中splitWAL进行监听，

从tasks列表中找到对应修改的task,把task的状态从IN_PROGRESS修改为SUCCESS,

设置task对应的TaskBatch的done或error的值加一。调用TaskBatch.notify方法叫醒线程的等待。

在waitForSplittingCompletion方法中会每执行一次检查把TaskBatch.wait，因此需要对其做notify

Regionopen数据重播分析

HregionServer.openRegion-->OpenRegionHandler.process-->openRegion-->

Hregion.openRegion-->生成HRegion实例，并调用实例的r.openHRegion(reporter)-->initialize

-->initializeRegionInternals-->initializeRegionStores-->replayRecoveredEditsIfAny

注意：日志重播时传入的每一个store中最大的seqid是不包含blukload的hfile的seqid，

而regionopen时得到并计算nextsequence id的所有store中最大的seqid是包含blukload的hfile的seqid

protectedlongreplayRecoveredEditsIfAny(finalPath regiondir,

Map<byte[],Long>maxSeqIdInStores,

finalCancelableProgressablereporter,finalMonitoredTaskstatus)

throwsUnsupportedEncodingException, IOException {

取出所有的store中flush到磁盘上的所有store中最小的一个seqid

longminSeqIdForTheRegion= -1;

for(Long maxSeqIdInStore: maxSeqIdInStores.values()){

if(maxSeqIdInStore< minSeqIdForTheRegion|| minSeqIdForTheRegion== -1) {

minSeqIdForTheRegion= maxSeqIdInStore;

}

longseqid =minSeqIdForTheRegion;

FileSystemfs =this.fs.getFileSystem();

取出region目录下recovered.edits子路径下所有的文件，但不包含结尾是.temp的文件,并根据文件名称排序返回

hlog在region下的文件名称是此文件对应的最大seqid,也就是按seqid从小到大排序。

NavigableSet<Path>files =HLogUtil.getSplitEditFilesSorted(fs,regiondir);

if(LOG.isDebugEnabled()){

LOG.debug("Found" + (files== null? 0 : files.size())

+ "recovered edits file(s) under " +regiondir);

}

没有需要重播的日志文件，直接返回当前所有的store中最小的seqid,如果是表示不需要进行replay

if(files ==null|| files.isEmpty())returnseqid;

for(Path edits:files) {

检查日志文件是否存在

if(edits ==null|| !fs.exists(edits)){

LOG.warn("Nullor non-existent edits file: " +edits);

continue;

}

检查文件大小是否为空，如果是空文件直接删除,如果是表示不需要进行replay

if(isZeroLengthThenDelete(fs,edits))continue;

longmaxSeqId =Long.MAX_VALUE;

String fileName= edits.getName();

检查此文件中最大的seqid是否小于region是所有store中最小的seqid,如果是表示此文件不需要进行replay

maxSeqId= Math.abs(Long.parseLong(fileName));

if(maxSeqId<= minSeqIdForTheRegion){

if(LOG.isDebugEnabled()){

String msg= "Maximum sequenceid for this logis " + maxSeqId

+ "and minimum sequenceid for the region is "+ minSeqIdForTheRegion

+ ",skipped the whole file, path=" +edits;

LOG.debug(msg);

}

continue;

}

try{

得到replay的edits中每一个kv,并根据kv得到对应的store,

如果kv中的seqid小于store中最大的seqid，此kv不需要replay,

否则把kv添加到store中，得到添加的kvsize,把size添加到：

a.RegionServerAccounting.replayEditsPerRegion中对应的region的大小中，

表示此region中replay的memory使用情况

b.RegionServerAccounting.atomicGlobalMemstoreSize中，表示全局的memstore使用情况

c.添加到此region的memstore中，HRegion.memstoreSize,表示当前region的memory使用情况

d.检查memstore是否达到flush的值，通过hbase.hregion.memstore.flush.size配置，默认1024*1024*128L

如果达到memstore的flush值，对memstore进行flush

f.返回最新的seqid

seqid= replayRecoveredEdits(edits,maxSeqIdInStores,reporter);

} catch(IOException e){

出现replay错误，检查hbase.hregion.edits.replay.skip.errors是否配置为true

老版本使用hbase.skip.errors进行配置，默认值为false,表示不跳过error

booleanskipErrors= conf.getBoolean(

HConstants.HREGION_EDITS_REPLAY_SKIP_ERRORS,

conf.getBoolean(

"hbase.skip.errors",

HConstants.DEFAULT_HREGION_EDITS_REPLAY_SKIP_ERRORS));

if(conf.get("hbase.skip.errors")!= null){

LOG.warn(

"Theproperty 'hbase.skip.errors' has been deprecated. Please use "+

HConstants.HREGION_EDITS_REPLAY_SKIP_ERRORS+ " instead.");

}

如果配置有跳过replayerror，把此edits文件重命名为editsname.systime,并remove到region的根目录下

if(skipErrors){

Path p= HLogUtil.moveAsideBadEditsFile(fs,edits);

LOG.error(HConstants.HREGION_EDITS_REPLAY_SKIP_ERRORS

+ "=trueso continuing. Renamed " + edits+

"as " + p,e);

} else{

throwe;

}

//The edits size added into rsAccounting during this replaying will not

//be required any more. So just clear it.

把RegionServerAccounting.replayEditsPerRegion中此region对应的replaykvsize清空

if(this.rsAccounting!= null){

this.rsAccounting.clearRegionReplayEditsSize(this.getRegionName());

}

如果进行了replay,那么当前replay后的seqid一定是大于原来的store的seqid，强制对region进行flush

if(seqid >minSeqIdForTheRegion){

//Then we added some edits to memory. Flush and cleanup split editfiles.

internalFlushcache(null,seqid,status);

}

//Now delete the content of recovered edits. We're done w/ them.

删除region下所有的recovered.edits下的文件

for(Path file:files) {

if(!fs.delete(file,false)){

LOG.error("Faileddelete of " + file);

} else{

LOG.debug("Deletedrecovered.edits file=" + file);

}

returnseqid;

}

distributedLogReplay为true的日志重播

通过hbase.master.distributed.log.replay配置的值为true时，在splitLog时，

生成HLogSplitter实例时OutputSink的实现会选择HLogSplitter.LogReplayOutputSink，

此实现不经过recovered.edits目录，直接把数据replay到region中。具体实现请查看相关源代码

你可能感兴趣的:(分布式,源代码,hbase)

GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
KVM虚拟机源代码分析【转】 xidianjiapei001 #虚拟化技术
1.KVM结构及工作原理1.1KVM结构KVM基本结构有两部分组成。一个是KVMDriver，已经成为Linux内核的一个模块。负责虚拟机的创建，虚拟内存的分配，虚拟CPU寄存器的读写以及虚拟CPU的运行等。另外一个是稍微修改过的Qemu，用于模拟PC硬件的用户空间组件，提供I/O设备模型以及访问外设的途径。KVM基本结构如图1所示。其中KVM加入到标准的Linux内核中，被组织成Linux中标准
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Scanpy源码浅析之pp.normalize_total 何物昂
版本导入Scanpy,其版本为'1.9.1'，如果你看到的源码和下文有差异，其可能是由于版本差异。importscanpyasscsc.__version__#'1.9.1'例子函数pp.normalize_total用于Normalizecountspercell，其源代码在scanpy/preprocessing/_normalization.py我们通过一个简单例子来了解该函数主要功能:将一
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
慢速连接攻击是什么？慢速连接攻击怎么防护？快快小毛毛网络 ddos 服务器
慢速连接攻击（SlowConnectionAttack），又称慢速攻击（SlowlorisAttack），是一种网络攻击技术，旨在通过占用服务器上的所有可用连接资源来使其无法响应正常请求。与传统的拒绝服务（DoS）和分布式拒绝服务（DDoS）攻击不同，慢速攻击并不依赖于发送大量数据包来消耗带宽，而是利用HTTP、TCP或SSL等协议的特性，通过发送大量不完整的请求或缓慢发送数据来占用服务器资源，使
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
linux gcc 格式,Linux下gcc与gdb简介神奇的战士 linux gcc 格式
gcc编译器可以将C、C++等语言源程序、汇编程序编译、链接成可执行程序。gdb是GNU开发的一个Unix/Linux下强大的程序调试工具。linux下没有后缀名的概念。但gcc根据文件的后缀来区别输入文件的类别：.cC语言源代码文件.a由目标文件构成的库文件.C、.cc、.cppC++源码文件.h头文件.i经过预处理之后的C语言文件.ii经过预处理之后的C++文件.o编译后的目标文件.s汇编源码
Gobelieve 架构 weixin_34099526 数据库 golang json
Gobelievegithub地址声明:转简书JackieF的文章,为了自己方便copy了一份,加一些自己的东西.链接：https://www.jianshu.com/p/8121d6e85282IMCore主要分三大块:im客户连接服务器（可分布式部署，暂无负载均衡模块)imr路由查询服务器（主要解决im分布式部署的问题）ims存储服务器(主从部署)基础模块1.数据包协议包：header(12)
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
使用FPGA接收MIPI CSI RX信号并进行去抖动、RGB转YUV处理：FX3014 USB3.0 UVC传输与帧率控制源代码，FPGA实现MIPI CSI RX接收，去Debayer， RGB转 kVfINoSzdrt fpga开发程序人生
fpgamipicsirx接收去debayer,rgb转yuv,fx3014usb3.0uvc传输与帧率控制源代码，具体架构看图，除dphy物理层外，mipi均为源码sensorimx219mipi源码mipi4lanecsirxraw10fpgamachXO3lf-690usb3.0fx301432bityuvdatawithframesync测试模式3280*246415fps1920*108
好看的vue登录页面(附源代码背景图) 小小薛定谔 vue.js javascript css 前端
一、效果展示二、代码你好!欢迎回来登录忘记密码?注册exportdefault{name:"MedLogin",data(){return{confirm_disabled:false,loginForm:{no:'',password:''},rules:{no:[{required:true,message:'请输入账号',trigger:'blur'},{min:3,max:6,messag
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
MacOS Catalina 从源码构建Qt6.2开发库之01: 编译Qt6.2源代码捕鲸叉 QT macos c++QT
安装xcode，cmake，ninjabrewinstallnodemac下安装OpenGL库并使之对各项目可见在macOS上安装OpenGL通常涉及到安装一些依赖库，如MGL、GLUT或者是GLEW等，同时确保LLVM的OpenGL框架和相关工具链的兼容性。以下是一个基本的安装步骤，你可以在终端中执行：安装Homebrew（如果还没有安装的话）：/bin/bash-c"$(curl-fsSLht
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
Rides实现分布式锁，保障数据一致性,Redisson分布式事务处理朱杰jjj 缓存分布式
分布式环境下分布式锁有三种方式：基于数据库分布式锁基于Redis分布式锁基于zk分布式锁本帖只介绍Redis分布式锁为什么需要用到分布式锁？在单机环境下一个服务中多个线程对同一个事物或数据资源进行操作时，可以通过添加加锁方式（synchronized和lock）来解决数据一致性的问题。但是如果出现多个服务的情况下，这时候我们在通过synchronized和lock的方式来加锁会出现问题，因为多个服
机电综合管理系统架构小熊coder 机载系统系统架构
文章目录一、机电综合管理系统架构1.系统概述2.架构层次3.核心组件二、余度管理1.余度概述2.硬件冗余3.软件冗余4.通信冗余三、总线架构1.MIL-STD-1553B总线2.ARINC429总线3.ARINC629总线4.AFDX/ARINC664总线四、未来发展趋势1.分布式架构2.高速网络3.智能化与自动化结语机电综合管理系统（ElectromechanicalManagementSyst
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
Linux命令行基础——软件包管理 HHwxtx linux 运维服务器
1.软件包管理的发展初始阶段最早的软件包管理可以追溯到Unix系统的早期版本。在那时，软件通常以源代码的形式分发，并由系统管理员手动编译和安装。这种方式的管理比较原始和繁琐，因为每次安装都需要手动解决依赖关系和编译问题。软件包的引入为了简化安装过程，软件包被引入Linux，它将软件及其所有文件和资源打包在一起的集合，通常包括可执行文件、库文件、配置文件、文档和元数据（如软件名称、版本号、依赖关系等
Dubbo架构概览：服务注册与发现、远程调用、监控与管理木南曌 dubbo 架构
Dubbo是一个成熟的、高性能的、基于Java的微服务开发框架，它主要用于解决分布式系统中的服务治理问题，包括服务的注册与发现、远程过程调用（RPC）、服务监控与管理等多个关键环节。以下是Dubbo架构概览的详细介绍：服务注册与发现Dubbo的服务注册与发现机制是其核心功能之一，它依赖于注册中心来管理服务的生命周期和定位服务提供者。1.服务提供者（Provider）服务提供者是实际提供服务的节点，
nfs服务搭建 GHope
nfs是什么？基哥度娘网络文件系统(NFS)是sun微系统最初开发的分布式文件系统协议,[1]允许客户端计算机上的用户通过计算机网络访问文件很像本地存储被访问。NFS与许多其他协议一样,在开放网络计算远程过程调用(很久以前RPC)系统上建立。NFS是在请求注释(RFC)中定义的开放标准,允许任何人实现协议。NFSNFS优势：节省本地存储空间，将常用的数据存放在一台NFS服务器上且可以通过网络访问，
外卖分销分佣小程序外卖cps小程序返利系统源码分享 m0_56957302 java 小程序 linux python docker
外卖返利小程序源码;轻松部署搭建，小程序服务号数据互通；对接美团官方;佣金比例自定义分配;三级分佣，所有资金数据一目了然；拉新立减最低4.9元购月卡；签到20天免费领取会员卡；提现秒到账！外卖cps带分销返利源码源代码地址美团/饿了么外卖CPS联盟返利公众号小程序裂变核心源码截图步骤下载以上源代码到本地http://y.mybei.cn/修改为你自己的微信小程序，打开/dist/pages/ele
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比