约翰-117

Alluxio部署实践与性能调优

1. Alluxio基本介绍

1.1 Alluxio架构

Alluxio主要有三个角色：master、worker和client。

master

master负责管理所有的元数据，包括inode元数据、数据块元数据以及Alluxio自身的工作负载元数据等等；master还会保存文件block与worker的对应关系，并检查所有的worker状态，worker会定期向当前master发送心跳包。HA部署模式下，leader master会记录操作日志到journal中；

worker

worker负责管理worker所在节点的资源，如内存、SSD和HDD等。worker也负责响应client的请求，将数据写入到缓存中的block中，当缓存被写满时，worker还会根据预设的策略进行数据块替换。

client

client，即客户端，是与Alluxio进行交互的入口。client与master通信以获取元数据，对worker发起请求以进行数据的读写。Alluxio提供了基于HDFS、S3等等的API以进行数据读写，也支持通过多种语言的API访问。需要注意的是，通过client无法直接访问底层存储，即使不开启缓存，访问请求和返回数据也会经过Alluxio进行转发。

1.2 Alluxio服务组成

从实际使用的角度出发，可将Alluxio的节点角色抽象为三种服务：Caching、Catalog和Transformation。

Caching

Caching即缓存服务，就是worker所负责的功能，包括了数据的读写、请求响应、缓存替换等功能，这部分主要体现在worker中，也是Alluxio的核心功能。为保持最高的缓存性能，Caching需要在集群中配置ramdisk内存文件系统，更为常见的做法是多层存储，将SSD、HDD等介质的存储资源均配置到Caching中。除此之外，可通过配置数据块生存时间、数据块副本来最大化缓存性能，Caching中也内置了一些优化策略，用来提高缓存数据的读取效率。

Catalog

从Alluxio 2.1开始，Alluxio引入了Catalog服务，Catalog负责管理结构化元数据以及Alluxio自身的元数据Cache，存储了数据库的表、数据格式、存储目录等信息，并支持读取Hive或Glue的元数据，这部分功能体现在master中。分布式查询引擎PrestoSQL和PrestoDB内置了支持Alluxio的连接器，通过Catalog服务，PrestoSQL和PrestoDB可直接访问缓存在Alluxio中的元数据，而不需要从HMS获取元数据，提高了查询的执行效率。Catalog服务的一些使用方法将在下文中详细展开介绍，包括数据文件格式转换、attach数据库、元数据同步等等。

Transformation

基于Catalog服务，Alluxio还有一个独立的服务Transformation。同样是从Alluxio 2.1开始，Alluxio引入了Transformation服务，主要功能是将csv、parquet、orc等格式的文件统一转换为parquet格式文件，同时将小文件进行合并，这部分功能主要体现在job_master和job_worker中。从Alluxio 2.3开始，Transformation的结果统一为parquet格式，Transformation的功能需要Catalog服务先attach一个Hive的数据库，随后通过命令行进行文件格式转换，Alluxio会通过job_master将任务分发到job_worker上进行执行，转换后的文件将写入到Caching中，但元数据不会写回Hive metastore。

1.3 Alluxio与其他大数据系统

Alluxio可作为Spark、Presto、Impala等系统的后端存储，也可作为HDFS、S3、COS等存储引擎的上层缓存，通过在配置文件中设置不同的访问方式，客户端可访问Alluxio中的数据或绕路访问底层存储的数据。Alluxio通过统一命名空间，可同时挂载不同存储引擎的底层存储，如通过mount命令可实现通过alluxio://path的地址来同时访问HDFS和S3上的存储，并把这些不同存储引擎上的数据缓存到Alluxio中，降低了运维管理成本。Alluxio也可作为Presto等查询引擎的存储后端，通过将查询热点缓存到内存/SSD中来提高查询效率。将查询频率较高的表从HDFS缓存到Alluxio中，并利用pin命令禁止将其替换出缓存，相比从HDFS获取数据，利用Alluxio可实现较为可观的查询效率提升。对于数据集规模较大的机器学习场景，也可将数据集缓存到Alluxio中，加速如Tensorflow、PyTorch等机器学习框架的训练速度。

2. Alluxio基本使用

2.1 Alluxio基本运维

Alluxio的编译&部署可见另一篇文档，此处不作赘述，仅简要介绍Alluxio的运维相关操作。

启动

如果部署账户能免密到所有部署节点，则可通过一台机器统一启动Alluxio集群：

进入$ALLUXIO_HOME/bin，执行./alluxio-start.sh all，随后脚本将自动kill已启动的Alluxio服务进程，并重新启动所有Alluxio服务进程，如果有节点上的服务启动失败，可在节点上单独重新启动。

如果没有配置或无法配置免密ssh，也可手动单独启动服务：

在master所在节点的$ALLUXIO_HOME/bin目录执行./alluxio-start.sh master，如果配置了高可用，可同时启动所有master，启动成功后会自动进行leader选举，通过alluxio fs masterInfo查看。master启动完成后执行./alluxio-start.sh job_master和./alluxio-start.sh proxy，启动作业master服务和代理服务。
master启动并选举出leader master后，在所有worker节点执行./alluxio-start.sh worker Mount，启动worker服务，并挂载ramdisk到配置的目录中（如果已挂载则忽略）。启动成功后再执行./alluxio-start.sh job_worker和./alluxio-start.sh proxy，启动作业worker服务和代理。

Alluxio集群启动后可通过WebUI查看集群情况，有不同的页面用来查看存储空间、配置项、数据目录、worker节点情况等等。

停止

有免密ssh的可直接在任意节点执行./alluxio-stop.sh all，如果有报错停止失败的服务可直接到节点上kill掉。没有ssh免密的节点则需要手动停止所有Alluxio服务，执行./alluxio-stop.sh master/worker/job_master /job_worker/proxy，执行顺序可任意。

2.2 Alluxio常用操作

Alluxio的命令行操作与Hadoop命令类似，下表简要介绍了常用的一些Alluxio命令，完整的命令说明可见官方文档。

命令	功能
alluxio getConf	读取alluxio-site.properties查看当前的Alluxio配置（不一定是目前生效的配置，需要重启集群才能使修改后的配置生效）
alluxio fs masterInfo	查看HA模式部署的当前Alluxio master
alluxio fs ls [-R] /path/to/data	（递归地）查看/path/to/data路径的文件
alluxio fs chmod [-R] XXX /path	（递归地）将/path目录的权限设为XXX，chgrp和chown同理
alluxio fs rm [-R] [–alluxioOnly] /path	（递归地）将Alluxio及UFS（或仅Alluxio）上/path的数据删除（正在使用中的数据立即不可用）
alluxio fs load /path	将UFS上的/path目录加载到Alluxio缓存中
alluxio fs free /path	将Alluxio缓存上的/path目录释放（正在使用中的数据仍可用）
alluxio fs pin/unpin /path	将Alluxio缓存上/path路径固定住/解除固定，用于禁止空间不足时的数据块换出
alluxio fs location /path	查看/path目录的数据位于哪些worker上
alluxio fs mount /path UFS://u_path	将UFS上的/u_path挂载到Alluxio的/path目录
alluxio fs setTtl [–action delete] /path ttl_ms	将/path路径的数据设为ttl_ms毫秒后失效，将其移出Alluxio
alluxio fs checkConsistency [-r]	检查（并修复）Alluxio与UFS元数据的差异
alluxio fs setfacl ‘u/g/o:name:rwx’ /path	设置/path路径的UGO权限
alluxio fs getfacl /path	返回/path路径的UGO权限

下面基于上表的命令，针对几个Alluxio的特性功能和常见问题进行详细介绍。

文件格式转换（合并）

从Alluxio 2.1版本开始，Alluxio支持将ORC、Parquet以及CSV格式的文件转换为Parquet格式，同时将文件合并为至少100个、每个2GB的大小（默认）。通过以下步骤实现：

通过Catalog服务将底层数据库attach到Alluxio中，执行

alluxio table attachdb --ignore-sync-errors hive thrift://{hostname}:{hms_port} db_name

其中底层数据库支持Hive或Glue；
2. 执行alluxio命令

alluxio table transform db_name table_name
# 如果在attach之后数据产生变动，需要额外执行同步操作：
alluxio table sync db_name

转换的结果文件默认存储在ufs://namespace/catalog目录，因此没有根目录读写权限时会转换失败，可通过增加配置项来更改转换结果的位置目录：
alluxio.table.catalog.path=/path/to/catalog

元数据同步

当上层数据写入底层时，如果全部读写均走Alluxio，则不存在元数据问题；但如果仅通过Alluxio读或部分写入操作通过Alluxio完成，可能存在元数据不同步的问题，如下图所示：

此时读取非Alluxio更改的数据，将可能读取失败，同时Alluxio会报错：

针对此问题，Alluxio有手动同步元数据的命令（上表的最后一个），执行

alluxio fs checkConsistency -r /path

将修复Alluxio中/path目录与UFS的元数据异常，即进行同步。另外，在Alluxio 2.0.0以后的版本中，引入了元数据自动同步的功能（需UFS为HDFS，且版本>2.6.1）。Alluxio侧将主动监听HDFS的数据修改事件，并自动将其同步在Alluxio中，通过以下命令开启：

alluxio fs startSync /path

开启后Alluxio将自动监听/path目录的写入删除操作。而Alluxio官方表示，元数据同步效率较低，不推荐频繁同步，因此还有若干配置项用来提高自动同步的效率：

alluxio.master.activesync.interval
此配置项默认值为30，表示每30秒同步一次元数据，也可自行设定为其他值；
alluxio.master.activesync.maxactivity
如果目前对同步目录进行了较大的修改操作，为了不增加UFS的工作负载，Alluxio会在同步目录相对不那么忙碌的期间进行元数据同步。此配置项表示HDFS的修改事件数目的指数移动平均值最大达到多大时停止元数据同步。举例来说，如果在3个间隔内，每个间隔的HDFS事件数分别为100、10、1，则这期间的HDFS事件指数移动平均值为3，如果配置项的值小于3，则会停止元数据自动同步。在实际使用场景中，应预先考虑到可能的HDFS操作，并根据实际情况设定；
alluxio.master.activesync.maxage
为防止alluxio.master.activesync.maxactivity配置项导致很长时间内都没有元数据自动同步，可增加此配置项来进行限制。假如设定为5，那么在maxactivity配置项的基础上，当跳过了5个同步间隔时，强行进行元数据同步，防止Alluxio与UFS的元数据出现不一致。

元数据缓存

区别于上文中的UFS元数据，此处的元数据是指Alluxio中master所管理的所有元数据，不仅包括UFS元数据，还有Alluxio自身存储的ACL相关数据等等。这些数据默认存储在内存中，如果master因为某些原因宕机，元数据就会丢失，即使master恢复也可能出现元数据丢失导致的数据访问报错。针对此问题，Alluxio在2.0版本开始支持了将元数据存储在RocksDB的配置项：
alluxio.master.metastore=ROCKS #默认为HEAD，即存储在内存中
配置为ROCKS后，所有元数据将存储于RocksDB数据库中，重启master也不会丢失。由于Alluxio中数据的ACL继承于UFS，如果UFS不支持ACL配置则需要用户自己设置目录权限组，使得一旦元数据丢失则会产生很大的运维成本，此时将元数据配置为RocksDB存储就可应对这种情况。
Alluxio也支持内存和RocksDB两种存储方式之间的切换，比如Alluxio集群部署时没有配置RocksDB元数据存储，使用一段时间后想要切换为RocksDB时，则需要进行切换。Alluxio给出的步骤为：

1. 备份。执行以下命令：
   alluxio fsadmin backup  
2. 修改alluxio-site.properties配置文件：
   alluxio.master.metastore=ROCKS
3. 关闭master，然后执行日志格式化：
   ./alluxio-stop.sh masters
   alluxio formatMasters
4. 从备份启动master
   ./alluxio-start.sh -i /path/to/backup masters

其中备份存储路径/path/to/backup如下图所示，在执行备份命令时输出的Backup URI。通过上述命令启动后master将从之前备份的元数据继续恢复运行。

Alluxio对于RocksDB中的元数据也采用了分级缓存的策略，访问频率相对较高的元数据将存储在内存Cache中，其他冷数据将存储在RocksDB中。就inode元数据来说，每1千万个inode将占用约1GB的存储空间，为节约元数据对内存的空间占用，Alluxio引入了数个配置项来优化元数据的存储。
alluxio.master.metastore.dir
默认为$ALLUXIO_HOME/metastore，表示RocksDB数据的存储目录。
alluxio.master.metastore.inode.cache.max.size
默认10000000，表示内存Cache存储的最大inode数量，默认10000000即表示占用1GB空间。
alluxio.master.metastore.inode.cache.evict.batch.size
默认为1000，表示达到缓存替换阈值时，默认每次缓存替换内存Cache中的1000个inode。
alluxio.master.metastore.inode.cache.high.water.mark.ratio
默认0.85，表示内存Cache空间使用了85%时，达到缓存替换阈值，开始进行缓存替换。
alluxio.master.metastore.inode.cache.low.water.mark.ratio
默认为0.8，表示当缓存替换使得内存Cache空间占用比例小于80%时，停止缓存替换。

ACL相关设置

在S3场景下，UFS中的数据不像在HDFS中可以设置权限，而直接通过chmod/chown/chgrp将更改整个目录的权限，无法灵活设置各子目录的ACL，因此需要通过Alluxio来设置目录访问权限。Alluxio设置ACL的方式与linux系统中的setfacl命令类似，也是可单独为某个目录及子目录设置某用户/用户组的rwx权限，设置方法举例如下：

# 给/path/to/data路径（-R表示同时递归更改子目录及文件）增加hadoop用户组的所有rwx权限
alluxio fs setfacl [-R] -m 'group:hadoop:rwx' /path/to/data
# 给/path/to/data路径增加netease用户的所有rwx默认权限（仅增加默认权限，不改变现有ACL，新建的子目录及文件会继承默认权限）
alluxio fs setfacl -d -m 'user:netease:rwx' /path/to/data
# 给/path/to/data路径及其子目录递归增加hadoop用户组的r-x权限（仅对目录生效，对文件不生效）
alluxio fs setfacl -R -d -m 'group:hadoop:r-x' /path/to/data

查看某个目录的ACL可通过getfacl实现：

alluxio fs getfacl /path/to/data

返回类似下图

通过setfacl命令设置ACL需要遵循’user/group/other:name:rwx’的规则。需要注意的是，所有设置的访问权限均无法超过mask值的限制，如果某目录的mask值为r-x，那么即使设置了某用户的rwx权限，也只能获得r-x的权限。在实际线上环境的使用过程中，我们发现Alluxio社区版的两个问题（2.4.1-1版本）：
1.设置了默认mask后，子目录无法正确继承mask值
经过多次测试均发现，对某个目录设置了默认mask为rwx后，新建的子目录的mask仍为r-x。分析Alluxio代码后发现是由于新建目录时，Alluxio会先获取父目录的默认mask，然后与父目录的group权限相与，得到的结果作为子目录的mask值。
2.通过setfacl -R -d -m设置目录权限时，如果目录中有文件，会设置失败
Alluxio虽然仿照linux系统的setfacl命令实现了Alluxio版本的setfacl命令，但对于存在文件的场景没有正确处理。在linux中，如果某目录存在文件，对整个目录通过递归方式设置默认权限不会报错（文件inode无法设置默认权限），而是自动跳过文件并设置其他子目录的权限。Alluxio中则会直接报类似下图的错误，然后不会设置其他子目录的权限，这样使得当目录已存在很多数据时，无法统一为其添加新的ACL设置，只能一个一个子目录去单独设置。

对于以上两个问题，笔者所在团队基于Alluxio 2.4.1-1增加了两个临时patch，用来1）使子目录能够正确继承默认mask；2）当目录中存在文件时，setfacl会自动跳过，而不是直接返回。

3. Alluxio性能调优配置

在Alluxio中，某些配置项仅使用默认值会对性能产生负面影响，而某些配置项如果根据使用场景进行配置，则会提高缓存性能。本节将从配置项出发，对可能影响Alluxio性能的配置项进行简介，并针对性地给出一些推荐值。

worker定位相关配置

1. alluxio.user.ufs.block.read.location.policy
默认值：alluxio.client.block.policy.LocalFirstPolicy
此配置项表示在读取数据时，优先去哪些worker进行扫描，由于alluxio读取未缓存数据时，根据不同的配置策略可能在读数据的时候也会进行写入，因此读取数据与写入数据的worker策略类似，可选项如下：

1. alluxio.client.block.policy.DeterministicHashPolicy         
表示不同的访问请求采用相同的哈希函数确定worker序号，并通过alluxio.user.ufs.block.read.location.policy.deterministic.hash. shards参数来确定请求会被路由到多少个worker上；

2. alluxio.client.block.policy.LocalFirstPolicy
表示总是先选择本地worker进行读取；如果本地worker空间已满，则随机返回一个worker；

3. alluxio.client.block.policy.LocalFirstAvoidEvictionPolicy
与LocalFirstPolicy类似，优先返回本地worker；如果本地worker空间已满，则随机返回一个worker；如果没有满足条件的worker，则仍返回本地worker（将触发缓存替换）

4. alluxio.client.block.policy.MostAvailableFirstPolicy
总是返回可用空间最大的worker

5. alluxio.client.block.policy.RoundRobinPolicy
轮流返回每一个可用的worker

6. alluxio.client.block.policy.SpecificHostPolicy
通过hostname指定每次访问时的worker

此配置项也可以通过自行实现BlockLocationPolicy接口来实现自定义的worker选择策略。如果想要数据在各worker之间的分布相对均衡，可使用RoundRobinPolicy；如果要读写性能最佳，则应使用默认配置LocalFirstPolicy；如果是查询频率较高的场景，推荐使用DeterministicHashPolicy，并设置shards与数据副本数相同。

2. alluxio.user.block.write.location.policy.class
默认值：alluxio.client.block.policy.LocalFirstPolicy
在写入数据块时，决定选取哪个worker进行写入的配置，与alluxio.user.ufs.block.read.location.policy配置项相同，也可以自行实现BlockLocation-Policy接口来实现自定义的worker选择策略，此配置有4个可选项：

1. alluxio.client.block.policy.LocalFirstPolicy
表示总是先选择本地worker进行写入；如果本地worker空间已满，则随机返回一个worker；

2. alluxio.client.block.policy.MostAvailableFirstPolicy
总是返回可用空间最大的worker进行写入；

3. alluxio.client.block.policy.RoundRobinPolicy
轮流返回每一个可用的worker进行写入；

4. alluxio.client.block.policy.SpecificHostPolicy
通过hostname指定每次写入时的worker；

数据缓存相关配置

1. alluxio.worker.block.annotator.class
默认值：alluxio.worker.block.annotator.LRUAnnotator
此配置项表示，当某个缓存层（MEM/SSD/HDD）空间不足时，采用哪种缓存数据块替换策略，有两个可选项：

#以下选项适用于Alluxio 2.3.0及以上版本

1. alluxio.worker.block.annotator.LRUAnnotator
最近最少使用替换策略，将选取最近最少访问的数据块进行替换。

2. alluxio.worker.block.annotator.LRFUAnnotator
最近最不经常使用与LRU的混合策略，有两个配置项可对此进行相关参数调整：
    a. alluxio.worker.block.annotator.lrfu.step.factor
    LRFU的权重参数，取值[0, 1]，靠近0时将接近LFU策略，靠近1时将接近LRU策略；
    b. alluxio.worker.block.annotator.lrfu.attenuation.factor
    衰减因子，取值[2, +∞)，控制块替换的顺序；

2. alluxio.worker.tieredstore.reserver.interval.ms
默认值：1000
表示默认每1000毫秒检查一次缓存层空间是否足够，如果不足则需要进行缓存替换。

3. alluxio.worker.allocator.class
默认值：alluxio.worker.block.allocator.MaxFreeAllocator
用来确定新存储块写入时，往哪个缓存层的目录进行写入（针对相同层有多个存储目录），有3个可选项：

1. alluxio.worker.block.allocator.MaxFreeAllocator
返回具有最大可用空间比例的目录，而且总是返回最高存储层

2. alluxio.worker.block.allocator.GreedyAllocator
直接返回第一个符合写入数据块大小的目录

3. alluxio.worker.block.allocator.RoundRobinAllocator
先从最高层开始，最高层的每个目录轮流进行数据块的写入，如果空间不足，则顺延到下一缓存层

4. alluxio.user.file.readtype.default
默认值：CACHE
通过Alluxio读取数据时，如果此数据没有缓存在Alluxio中，Alluxio会根据配置来决定是否将其缓存进来，此配置项控制了通过Alluxio读取数据时，缓存的相关策略，共有3个可选项：

1. CACHE：在读取UFS上的数据时，不仅将其缓存，还要缓存在最高的缓存层中
2. CACHE_PROMOTE：读取UFS的数据时，行为与CACHE模式的相同；读取Alluxio上的数据时，也将其移动到最高缓存层；
3. NO_CACHE：读取UFS数据时，不将其缓存到Alluxio中，读取Alluxio已缓存的数据也不会移动其缓存层；

5. alluxio.user.file.writetype.default
默认值：ASYNC_THROUGH
通过Alluxio写入数据时，Alluxio会根据不同的配置来决定是否将其持久化到UFS中，抑或是否只写入Alluxio或UFS，有4个可选项：

1. ASYNC_THROUGH：先将数据写到Alluxio，再异步地将数据写到UFS持久化；
2. MUST_CACHE：数据块只写在Alluxio中，且会写在最高层，这种模式最快；
3. CACHE_THROUGH：数据块试图写到worker的最高层，并同步地写回UFS；
4. THROUGH：不缓存数据在Alluxio中，直接将其写到UFS；

数据规模相关配置

1. alluxio.user.file.passive.cache.enabled
默认值：true
表示是否将远程worker读取过来的数据块缓存到本地worker。

2. alluxio.user.file.replication.max
默认值：-1
数据块副本的数量上限，为-1时表示无上限，即所有worker都保留有任意数据块的副本。

3. alluxio.user.file.replication.min
默认值：0
数据块副本的数量下限，结合前一个配置表示默认情况下，每个worker都将缓存同一个数据块的数据，会造成数据冗余。

4. alluxio.user.file.replication.durable
默认值：1
当写入配置采用ASYNC_THROUGH时，此配置生效，表示向worker写入数据时的初始副本个数，写入模式为其他时，初始副本个数以alluxio.user.file.replication.min为准。
（注：数据副本也可通过命令行来设置，如执行alluxio fs setReplication --min 3 --max 5 -R /path，则将把/path目录设定为最少3个最多5个副本，用这种方式设定副本的数据将被pin在缓存中，不可换出）

5. alluxio.master.persistence.blacklist
默认值：空
设定为某目录后，此目录下的数据都不会缓存到Alluxio中。

6. alluxio.user.file.persist.on.rename
默认值：false
表示默认不将重命名的文件或目录持久化到UFS中。

7. alluxio.master.whitelist
默认值：/
表示默认将缓存根目录的所有数据到Alluxio中，也可以配置为单独的某个目录，此时只会缓存此目录的数据；

8. alluxio.master.startup.block.integrity.check.enabled
默认值：true
在Alluxio 1.7.1版本后开始支持，表示在启动master时，是否删除缓存中孤立失效的数据块。

其他性能相关配置

1. alluxio.worker.ufs.instream.cache.enabled
默认值：true
此配置表示默认将UFS文件的定位信息流缓存到Alluxio元数据缓存中，下次访问相同数据块时，可提高访问速度。

2. alluxio.worker.ufs.instream.cache.expiration.time
默认值：5min
结合前一个配置项，表示每个文件定位信息流的缓存有效期为默认5分钟。

3. alluxio.worker.ufs.instream.cache.max.size
默认值：5000
表示缓存定位信息流的最大个数默认为5000，与HDFS集群中的dfs.datanode.handler.count配置相对应。

4. alluxio.integration.master.resource.cpu
默认值：1
默认每个master进程将占用1个CPU的资源。

5. alluxio.integration.master.resource.mem
默认值：1
默认每个master进程将占用1GB的内存资源。

6. alluxio.integration.worker.resource.cpu
默认值：1
默认每个worker进程将占用1个CPU的资源。

7. alluxio.integration.worker.resource.mem
默认值：1
默认每个worker进程将占用1GB的内存资源。

8. alluxio.underfs.hdfs.remote
默认值：true
表示默认情况下，当dn与worker处于相同节点时，alluxio不通过HDFS的api获取本地数据块的距离信息，否则将通过getFileBlockLocations来获取数据块的位置，将产生额外数据访问开销。

集群稳定性相关配置

使用Alluxio内置Raft协议实现高可用部署

alluxio.master.hostname：配置高可用时，需将所有master的hostname加入到此配置项中。
alluxio.master.mount.table.root.ufs：UFS的访问URI。
alluxio.master.embedded.journal.addresses：参加leading master选举的所有master的hostname。

以上配置完成并启动master后，可通过alluxio fs masterInfo来查看目前的leading master，高可用模式下，master之间将自动同步元数据。

使用ZooKeeper实现高可用部署

alluxio.zookeeper.enabled：是否开启zk实现高可用
alluxio.zookeeper.address：要连接的zk集群地址
alluxio.master.journal.type：zk模式只能通过UFS来存放读写日志
alluxio.master.journal.folder：UFS中日志存储位置的URI

连接高可用模式的Alluxio集群时，需要将所有master的地址均写入到客户端的配置文件中。

worker可用性相关配置

1. alluxio.worker.block.heartbeat.interval
默认值：1s
表示worker每1秒发送心跳包给master。

2. alluxio.worker.block.heartbeat.timeout
默认值：1h
表示默认master在1小时没有收到worker的心跳后，将此worker放入failed worker中，需要注意的是，数据块读取失败的worker也会变为failed worker。

3. alluxio.underfs.allow.set.owner.failure
默认值：false
alluxio会试图将新写入数据的owner改为alluxio，默认情况下，如果获取不到owner权限，数据将无法写入，将此配置项改为true可解决此问题。

4. 总结

Alluxio作为一个开源分布式缓存系统，其性能对使用过程中的配置较为敏感。本文介绍了Alluxio的基础使用方法，并给出了一些有助于Alluxio性能调优的配置项及推荐值。在实际使用过程中发现了一些Alluxio的问题：Alluxio社区版的ACL设置命令有一定缺陷，不够灵活；Alluxio目录结构中的默认权限设置存在bug等等

你可能感兴趣的:(big,data,hadoop,大数据)

springboot 根据UUID生成唯一的短链接 iteye_10392 网站设计 spring boot java spring
为了生成唯一的短链接，我们可以利用UUID（通用唯一识别码）来确保每个短链接的唯一性。然后，我们将这个UUID进行Base62编码以缩短其长度。以下是完整的SpringBoot应用程序示例，展示了如何实现这一功能。1.添加依赖首先，在你的pom.xml文件中添加必要的依赖项：org.springframework.bootspring-boot-starter-webcom.h2databaseh
深入探索Go中的网络编程 AI天才研究院一天一门编程语言自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术深入探索Go中的网络编程1.引言1.1.背景介绍网络编程是计算机网络领域中的一个重要分支,涉及如何在程序中实现网络通信,使程序具有网络访问能力。随着云计算、大数据、物联网等技术的普及,网络编程的需求也越来越大。Go作为一个静态类型的编程语言,以其简洁、高效、安全等特点,成为了许多开发者首选的网络编程语言。本文将深入探索Go中网络编程的特点、原理和实现,帮助读者更好地利用
告别 Excel，拥抱 R 语言：开启数据分析新时代码农老关【关东升】 excel r语言数据分析
在这个数据驱动的时代，数据分析已然成为每个行业的核心竞争力。从市场营销到金融领域，从医疗健康到教育行业，数据无处不在，深刻影响着每一个决策。然而，面对日益复杂的数据集，单纯依靠Excel进行分析，已渐渐难以满足不断增长的需求。为何弃Excel选R语言？强大的数据处理能力Excel简单易用，但其处理大数据集时，效率与能力着实有限。R语言作为专业的数据分析工具，处理成千上万的数据行不在话下，还支持丰富
【YashanDB知识库】重装新库及元数据和数据导出导入指导数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7253741.html?templateId=171...开始本文操作之前默认已经部署有3mn3cn3-3dn的yashan分布式数据库，并且已经配置好环境变量，开始操作之前请先停止所有业务。从旧库导出数据创建目录$cd~$mkdir-p/data/yashan/save\_data
内附源码｜头部基模企业信赖之选——DMS+Lindorm智能搜索方案数据库阿里云data+ai
本文为数据库「拥抱Data+AI」系列连载第6篇，该系列是阿里云瑶池数据库面向各行业Data+AI应用场景，基于真实客户案例&最佳实践，展示Data+AI行业解决方案的连载文章。本篇针对企业构建智能搜索服务的痛点，介绍如何利用阿里云Data+AI解决方案构建一站式AI搜索服务，深入分析了DMS+Lindorm的智能搜索解决方案。1、智能搜索成为信息消费的趋势近两年，AI大模型的迅速崛起为搜索产品注
Apache DolphinScheduler 限制秒级别的定时调度数据库
背景ApacheDolphinScheduler定时任务配置采用的7位Crontab表达式，分别对应秒、分、时、月天、月、周天、年。在团队日常开发工作中，工作流的定时调度一般不会细化到秒级别。但历史上出现过因配置的疏忽大意而产生故障时间，如应该配置每分钟执行的工作流被配置长了每秒执行，造成短时间内产生大量工作流实例，对ApacheDolphinScheduler服务可用性和提交任务的Hadoop集
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程 brhhh_sehe 爬虫 scrapy
前言在大数据和网络爬虫领域，Scrapy是一个功能强大且广泛使用的开源爬虫框架。它能够帮助我们快速地构建爬虫项目，并高效地从各种网站中提取数据。在本篇文章中，我将带大家从零开始使用Scrapy框架，构建一个简单的爬虫项目，爬取豆瓣电影Top250的电影信息。Scrapy官方文档：ScrapyDocumentation豆瓣电影Top250：豆瓣电影Top250本文的爬虫项目配置如下：系统：Windo
【Navicat+MySQL】在Navicat内创建管理数据库、数据库表。 brhhh_sehe 面试学习路线阿里巴巴数据库 mysql oracle
一、数据库1.创建数据库使用CREATE命令可以创建一个数据库。CREATEDATABASE[[DEFAULT]CHARACTERSET][DEFAULT]COLLATE];–DEFAULT：指定默认值–CHARACTERSET：指定数据库字符集（charset），其后的_字符集名_要用MySQL具体支持的字符集名称代替，如utf-8–COLLATE：指定字符集的校对规则，其后的_校对规则名_要用
EasyExcel 导出，保留两位小数并显示千分位 Leslie_Lei Excel java excel
实体类属性类型为BigDecimal注解@NumberFormat("#,###.00")试过了不顶用，原因不太清楚值为0.81这种，导出后变为.81所以，换个思路，写个转换器，就是麻烦点转换器BigDecimalConvertimportcn.hutool.core.util.StrUtil;importcom.alibaba.excel.converters.Converter;importc
有了TiDB，是否还需要“散装”大数据组件？狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
有了TiDB，是否还需要“散装”大数据组件？最近和同事们讨论一个问题：在大数据应用日益增多的今天，如果使用了TiDB这样的一体化数据库，还需要使用那些传统的大数据组件（比如Hadoop、Spark等）吗？相信大家在公司或项目中，常常遇到需要处理大量数据的场景，特别是互联网、金融、电商等行业。随着TiDB的兴起，它作为一款分布式关系型数据库，似乎能够解决不少大数据问题。那么，问题来了：如果我们已经选
Hadoop是什么，怎么部署安装？狮歌~资深攻城狮 hadoop 大数据分布式
Hadoop是什么？Hadoop是一个由Apache基金会开发的开源分布式系统基础架构，主要用于处理和存储大规模数据集。它包括两个核心组件：Hadoop分布式文件系统（HDFS）和HadoopYARN（YetAnotherResourceNegotiator）。HDFS提供了一个高吞吐量的数据访问接口，允许用户在集群中存储大量数据。它通过将文件分割成多个块并分布在集群的不同节点上来实现高可靠性和可
MPP数据库：大数据处理的“高手” 狮歌~资深攻城狮数据仓库数据分析数据库
MPP数据库：大数据处理的“高手”最近听到很多朋友讨论大数据处理的技术，其中就有一个词常常被提起，那就是MPP（MassivelyParallelProcessing，大规模并行处理）。那么，什么是MPP数据库呢？简单来说，它是一种专门用于大数据分析和处理的数据库技术，通过将数据和计算任务分配到多个节点上，达到高效、快速地处理海量数据的效果。1.MPP数据库是如何工作的？MPP数据库的工作方式和我
MPP 和 TiDB：大数据处理的两大“巨头” 狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
MPP和TiDB：大数据处理的两大“巨头”在大数据处理的世界里，MPP（MassivelyParallelProcessing）和TiDB都是非常强大的工具，它们都能帮助我们高效地处理海量的数据。但它们的工作原理和使用场景有所不同。今天，我们就来看看这两个技术的对比，帮助你了解它们各自的优缺点，选出最适合你项目的解决方案。MPP系统是什么？如前所述，MPP（大规模并行处理）是一种通过将数据分布到多
什么是数据分析？狮歌~资深攻城狮数据分析数据挖掘
什么是数据分析？数据分析（DataAnalysis）是指通过对数据进行收集、整理、处理、建模和解读，以揭示数据中的有用信息、支持决策和解决实际问题的过程。它是一门将数据转化为知识的学科，广泛应用于商业、科学研究、医疗、社会经济等多个领域。在现代社会中，数据被称为“新石油”，因为它已经成为驱动企业创新、优化运营和提升竞争力的关键资源。而数据分析，就是挖掘这一资源潜力的重要手段。数据分析的核心目标数据
Delete the specified node in the linked list with dummy header 青眸ღ. 算法链表数据结构 c语言
分数20作者伍建全单位重庆科技大学PleasecreateafunctionwiththeprototypevoiddeleteNode(ListL,intkey).ThisfunctionshoulddeletethefirstnodefromthelinkedlistLwithdummyheader,wherethedatafieldisequaltokey.Iftherearenonodes
HCIP-Datacom-ARST必选题库_设备【道题】小红红的学习笔记网络 HCIP-Datacom
单选1.交换机控制平面的功能不包括哪个?业务处理A路由运算系统加载流呈统计2.业务报文转发处理流程中，将报文送往交换网板之前，会进行以下哪一动作?获取封装信息切片查表转发PFE3.相比较于路由器、交接机,防火墙转发独有的模块为?交换网板MPUBLPUSPU4.下列关于交换设备转发平面说法不正确的是?实现报文的封装和解封装由主控板以及接口板组成B提供高速无阻塞的数据通道可以实现报文的统计5.数据中心
基于微信小程序的个人健康管理系统计算机学姐微信小程序源码微信小程序小程序 spring boot java vue.js intellij-idea mybatis
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示基于微信小程序+Java+SpringBoot+Vue+
从MySQL迁移到PostgreSQL的完整指南 m0_74825718 面试学习路线阿里巴巴 mysql postgresql 数据库
1.引言在现代数据库管理中，选择合适的数据库系统对业务的成功至关重要。随着企业数据量的增长和对性能要求的提高，许多公司开始考虑从MySQL迁移到PostgreSQL。这一迁移的主要原因包括以下几个方面：1.1性能和扩展性PostgreSQL以其高性能和优秀的扩展能力而闻名。它支持复杂的查询优化和并发控制，能够更高效地处理大规模数据。与MySQL相比，PostgreSQL在处理复杂查询和大数据集时表
分库分表实践：单 KEY 业务场景 rain1309 数据库 mysql 数据库架构
前言随着业务的快速增长和数据量的爆炸性增加，传统的单体数据库架构已经难以满足性能和扩展性的需求。为了解决这一问题，分库分表技术应运而生，成为支撑大规模业务的重要手段。分库分表方式中间件Cobar：阿里巴巴开发的分库分表中间件，支持自动分片和路由TDDL（TencentDatabaseLinker）：腾讯开发的分库分表中间件，支持多种分片策略Atlas：由LinkedIn开发的分库分表中间件，支持自
WPF中DataContext的规范写法 C#气氛组队员 WPF C#wpf ui microsoft
学习过程：初学WPF，一般会在窗口的构造函数中进行数据绑定。如下所示：usingSystem.Windows;namespaceWpfApp1{//////MainWindow.xaml的交互逻辑///publicpartialclassMainWindow:Window{publicMainWindow(){InitializeComponent();DataContext=newViewMod
WPF之设置DataContext的三种方式烟火色极光 wpf
WPF之设置DataContext的三种方式1.代码设置在Window初始化时设置，如下publicMainWindow(){InitializeComponent();this.DataContext=newMainViewModel();}优点：简单方便。缺点：在xaml中没有代码提示2.在xaml设置如果viewmodel不在默认的命名空间中，需要先引入命名空间这种方式最常见，推荐使用3.使
52.this.DataContext = new UserViewModel()； C#例子 WPF例子军训猫猫头 c#wpf 开发语言
“对于这个(this)窗口(View)，请使用这个实例(UserViewModel)作为其数据源(DataContent)。”下面是对this.DataContext=newUserViewModel();这行代码的详细解释：this关键字：在这个上下文中，this指的是当前的View对象，即正在创建的或已经存在的窗口（Window）、用户控件（UserControl）或其他类型的视图容器。Dat
自定义注解格式化处理BigDecimal 都要好好的O java 自定义注解
一、场景描述在开发过程中，如果有实体类的属性中存在BigDecimal的属性，并且需要对其进行校验，例如：限制BigDecimal的小数点位数是两位或者处理精度自动补0。但目前没有注解可以完成这个操作，因此我们可以使用下面的工具类和注解进行处理。二、实现步骤1、自定义类importcom.fasterxml.jackson.core.JsonGenerator;importcom.fasterxm
Docker部署minio-arm64版本，阿里官方推荐 m0_60721649 2024年程序员学习 docker 服务器阿里云
一、下载minio下载地址：https://dl.min.io/server/minio/release/linux-arm64/二、创建minio目录//启动目录mkdir/data/minio//bin//配置目录mkdir/data/minio/etc//数据mkdir/data/minio/data三、上传文件将下载好的minio文件到/usr/local/minio/bin目录下四、在目
深度学习基础18（多层感知机代码实现） NDNPOMDFLR 深度学习深度学习 python 经验分享人工智能神经网络
多层感知机的从零开始实现现在自己实现一个多层感知机。为了与之前softmax回归获得的结果进行比较，将继续使用Fashion-MNIST图像分类数据集importtorchfromtorchimportnnfromd2limporttorchasd2lbatch_size=256train_iter,test_iter=d2l.load_data_fashion_mnist(batch_size)
【深度学习基础】线性神经网络 | softmax回归的简洁实现 Francek Chen PyTorch深度学习深度学习神经网络回归 softmax 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈PyTorch深度学习⌋⌋⌋深度学习(DL,DeepLearning)特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据
Docker部署minio-arm64版本 GSL_566 arm-docker部署 docker 容器运维
一、下载minio下载地址：https://dl.min.io/server/minio/release/linux-arm64/二、创建minio目录//启动目录mkdir/data/minio//bin//配置目录mkdir/data/minio/etc//数据mkdir/data/minio/data三、上传文件将下载好的minio文件到/usr/local/minio/bin目录下四、在目
南京大学苏州校区学生代表团到访合合信息，开启“沉浸式”人工智能企业行人工智能图像识别程序员
为进一步深化校企合作，探索产业科技拔尖创新人才培养新模式，近期，南京大学苏州校区师生代表到访上海合合信息科技股份有限公司（以下简称“合合信息”，股票代码：SH688615）。此次活动设置了展厅讲解、技术交流、模拟面试等多个体验环节，旨在增强学生对人工智能及商业大数据技术在实际应用中的理解和认识，引导学生系统性开展职业规划，提升职业胜任力。图说：南京大学苏州校区学生代表团到访合合信息合影留念合合信息
5.7 涓� 8.0 瀵圭浉鍚屾枃浠剁殑 LOAD DATA 璇彞缁撴灉涓嶅悓鏁版嵁搴�/a>mysql
5.7涓�8.0瀵圭浉鍚屾枃浠剁殑LOADDATA璇彞缁撴灉涓嶅悓闂鎻忚堪鏌愬鎴风幇鍦烘敮鎸侊紝鐢盡ySQL5.7.21鍗囩骇MySQL8.0.25鍚庯紝閫氳繃LOADDATA瀵煎叆鏂囦欢锛屽綋鍚屼竴浼氳瘽杩炵画瀵煎叆涓嶅悓鐨勭紪鐮侊紙UTF8/GB18030锛夋枃浠舵椂浼氬嚭鐜颁贡鐮併�傛暟鎹簱鐗堟湰鏈崌绾т箣鍓嶏紝鐩稿悓鐨勫鍏ユ搷浣滃湪MySQL5.7.21鏈嚭鐜颁贡鐮併��/
python3.6 split用法_对sklearn的使用之数据集的拆分与训练详解(python3.6) weixin_39849054 python3.6 split用法
研修课上讲了两个例子，融合一下。主要演示大致的过程：导入->拆分->训练->模型报告以及几个重要问题：①标签二值化②网格搜索法调参③k折交叉验证④增加噪声特征(之前涉及)fromsklearnimportdatasets#从cross_validation导入会出现warning，说已弃用fromsklearn.model_selectionimporttrain-test_splitfromsk
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分