爪哇者

alluxio简单使用

本文是基于alluxio官网和自己实践整理。

Alluxio版本：1.8.1
CDH 1.15.2

1、介绍

以内存为中心的分布式虚拟存储系统。Alluxio在上层计算框架和底层存储系统之间架起了桥梁，应用层只需要访问Alluxio即可以访问底层对接了的任意存储系统的数据。作者是李浩源/范斌，都是中国人，所以官网也提供了中文的文档。

2、功能简介

灵活的API
兼容Haddop 的HDFS文件系统接口
分级存储，自定义分配和回收策略
统一命名空间
完整的命令行
Web UI

3、下载编译

默认从官网下载的执行包，支持的Hadoop 2.2.x，一般我们需要自己编译源码。从gitHub上下载下来，通过以下命令构建适合自己的版本

mvn -T 2C install -Phadoop-2 -Dhadoop.version=2.6.0-cdh5.15.2 -DskipTests -Dmaven.javadoc.skip -Dfindbugs.skip -Dcheckstyle.skip -Dlicense.skip
说明
- -T 2C：开启多线程编译，每个核cpu开启2个线程
- -P：hadoop-2 为haddop大版本，可以是hadoop-1、hadoop-3
- -D：具体细分版本号，我们这里是cdh版本

4、搭建和部署

部署一般建议和计算框架同置（co-locate）部署。本次以3台做个集群，其中p1机器是alluxio主节点，若要做高可用可引入zk（2.0版本会使用masters自身做高可用，不需要zk），这里没有做高可用配置。

下载/编译出适合自己的执行包
上传到服务器上（3台都要）,我将源码文件放在/usr/local/git并软链接到/opt下，后续我就直接在/opt下操作
选取其中一台机器作为主节点master,hostname是p1
在${ALLUXIO_HOME}/conf下
- cp conf/alluxio-site.properties.template conf/alluxio-site.properties
- alluxio.master.hostname=p1(主节点的主机名)
- alluxio.underfs.address=hdfs://p1:8020/alluxio/home（namenode地址，即将hdfs跟路径挂载到alluxio下）
- workers文件里面添加woker主机名字，例如我这里是p2、p3
- masters文件里面添加master主机名字，例如我这里是p1
- 利用alluxio提供拷贝命令到其他集群机器
在hdfs 上新建/alluxio/home目录，hdfs dfs -mkdir /alluxio/home
启动Alluxio
- 用启动hadoop同一用户来启动，例如hdfs
- cd ${ALLUXIO_HOME}/bin，然后运行 ./alluxio format，只是第一次需要运行，会清空alluxio里面的数据
- cd ${ALLUXIO_HOME}/bin，然后运行 ./alluxio-start.sh all SudoMount，过程需要输入几次启动用户的密码
- SudoMount 只是在第一次启动需要加，目的是挂载/mnt/ramdisk给alluxio作为默认的存储，若是一直hang住，检查启动用户是否配置了免密，我是将hdfs ALL=(ALL) NOPASSWD: ALL加入了/etc/sudoers里面。
- ${ALLUXIO_HOME}/bin ./alluxio runTests测试集群，其实就是上传一些文件到/alluxio/home
- 到web UI查看：http://p1:19999/home，其中p1是你master主机的ip
- 执行命令查看集群信息：cd ${ALLUXIO_HOME}/bin然后./alluxio fsadmin report

5、系统架构与原理

5.1 与操作系统文件系统对比

5.2 系统组件

集群组成：master、worker、client、UFS（底层存储）

master

管理集群的元数据
- 文件inode树
- 文件到数据块block的映射
- 数据快block到woker位置的映射
- woker元数据（worker的状态）
被动响应客户端RPC请求
- client的对请求文件的操作
- woker汇报状态心跳
记录文件系统日志（集群重启后可以准确恢复）

secondary master

高可用模式下，集群可以有多个master节点，其中只有一个会被选举为primary mater，其余均为standby状态，称为secondary master，它不接受任何Alluxio组件的请求，只是将文件系统的日志持久化存储，在多个master间共享。

worker

管理本机的存储资源（RAM、SSD、HDD）
和底层存储（UFS）交互，缓存数据
根据配置的缓存替换策略分配保存缓存数据

client

向master发起操作文件的RPC请求
从worker读取写入数据
client的jar包在编译后的源码文件${ALLUXIO_HOME}/client中
client jar 不能单独使用，需要与应用程序在同一个JVM里面，否则会抛异常
woker与client在一台机器，会短路读取数据（绕过请求worker的RPC请求，直接用本地文件系统读取woker里数据）

5.3、读写

5.3.1 读

关键配置参数：alluxio.user.file.readtype.default

值	说明
CACHE_PROMOTE（默认）	将数据块移动到worker最顶层，且缓存一个副本到本机worker
CACHE	将一个副本添加到本地worker中
NO_CACHE	不会创建副本

1.命中worker

命中本地worker（“短路读取”）

此时client直接通过本地文件系统读取存储在worker上的数据，称作为“短路读取”。

此时需要获取本地文件的操作权限
容器化容器里面运行alluxio client 和woker，可以通过 Unix domain socket 方式访问。

Unix domain socket 又叫 IPC(inter-process communication 进程间通信) 主要用于同一主机上的进程间通信。与主机间的进程通信不同，它不是通过 "IP地址:端口号"的方式进程通信，不需要经过网络协议栈，不需要打包拆包、计算校验和、维护序号和应答等，只是将应用层数据从一个进程拷贝到另一个进程，使用 socket 类型的文件来完成通信。

命中远程worker

client 通过RPC连接远程的worker，woker 处理请求返回client数据
并缓存一个副本在本地(发起rpc的机器的worker)，这样可以加快下一次访问，但是副本数会增多，引起数据爆炸（但是这也是alluxio的特点，不像hdfs那样设置副本后就是固定死了）我们可以通过设置ReadType为NO_CACHE不缓存副本。
2.0版本里面会有针对某个文件设置缓存的副本数量（但是没有全局的设置副本数量）

2.未命worker

1.8 之前版本，alluxio client 会承担缓存任务，还需要配置读取的数据是部分还是整个，采取缓存/不缓存
1.8 之后，缓存数据的任务交给woker异步执行，不需要关心读取的数据是完整的还是部分，因为所有的动作都在woker这边，默认woker工作机制是这样
- 客户端顺序完整读取文件，则woker顺便缓存整个文件副本
- 客户端不是顺序/完整读取，则woker会放弃读取时候顺便缓存，但是客户端会在读取完成后向woker发送异步缓存命令，worker 会继续缓存整个文件。
- woker节点线程池大小：alluxio.worker.network.netty.async.cache.manager.threads.max默认大小8。

5.3.2 写

关键配置参数：alluxio.user.file.writetype.default

写类型

值	说明
MUST_CACHE（默认）	同步将数据存储在Alluxio中（不怕丢），本地有worker，“短路写”，本地无worker，写入远程woker
THROUGH	同步将数据存储在UFS中（怕丢，但是数据不会立即用到）
CACHE_THROUGH	同步将数据存储在Alluxio中和UFS中（怕丢，且数据会立即用到）
ASYNC_THROUGH（异步）	同步将数据写入到alluxio，所有数据块block会驻留在一个woker上，然后异步地写入底层存储系统。实验性写类型，2.0 版本会稳定些

写定位策略

值	说明
LocalFirstPolicy（默认）	优先使用本地worker，若本地Worker没有足够的容量，从有效的worker列表中随机选择一个
MostAvailableFirstPolicy	使用拥有最多可用容量的worker
RoundRobinPolicy	循环选取存储下一个数据块的worker，若该worker没有足够的容量，跳过
SpecificHostPolicy	返回指定主机名的Worker

6、与HDFS集成

6.1 前提

HDFS 集群启动
Alluxio编译打包成对应的HDFS版本（参考上述下载编译）
上传Alluxio编译后的源码包到集群机器上，我的位置为/opt/alluxio
确定好namenode的地址，我的cdh版本这里是：hdfs://p1:8020，p1为我namenode主机的ip

6.2 集成配置

配置方式

普通模式：参考上面，搭建和部署目录
高可用模式
- 将Hadoop目录下的hds-site.xml、core-site.xml软链接到${ALLUXIO_HOME}/conf下
- 更改{ALLUXIO_HOME}/conf下的alluxio-site.properties里面的属性alluxio.underfs.address=nameservice，其中nameservice为core-site.xml文件里面配置的HDFS服务名称。

权限

alluxio文件系统实现了类似POSIX文件系统的用户和权限验证，所以我们需要确保HDFS上的用户、组和访问模式等文件的权限信息与Alluxio里面一致。alluxio提供了用户模拟功能，我们在{ALLUXIO_HOME}/conf里的alluxio-site.properties添加：

alluxio.master.security.impersonation.hdfs.users=*
alluxio.master.security.impersonation.yarn.users=*
alluxio.master.security.impersonation.hive.users=*
alluxio.master.security.impersonation.root.users=*

7、常用命令

通过上述的步骤，基本的一个基于HDFS存储的Alluxio集群搭建好了，我们一起来试试常用的命令感受下。首先cd {ALLUXIO_HOME}/alluxio/bin下。

7.1 管理员命令(fsadmin)

[hdfs@p1 bin]$ ./alluxio fsadmin
Usage: alluxio fsadmin [generic options]
	 [backup [directory] [--local]]
	 [doctor [category]]
	 [report [category] [category args]]
	 [ufs [--mode ] ]
[hdfs@p1 bin]$

backup 备份元数据

// 备份到hdfs中
[hdfs@p1 bin]$ ./alluxio fsadmin backup /meta
Successfully backed up journal to hdfs://p1:8020/meta/alluxio-backup-2019-11-13-1573636945711.gz
// 备份到本地文件中
[hdfs@p1 bin]$ ./alluxio fsadmin backup  /opt/ --local
Successfully backed up journal to file:///opt/alluxio-backup-2019-11-13-1573637112922.gz on master p1
// 从备份文件中恢复元数据
hdfs@p1 bin]$ ./alluxio-start.sh -i /opt/alluxio-backup-2019-11-13-1573637112922.gz masters
Executing the following command on all master nodes and logging to /usr/local/git/alluxio/logs/task.log: /usr/local/git/alluxio/bin/alluxio-stop.sh master
Waiting for tasks to finish...
All tasks finished
Executing the following command on all master nodes and logging to /usr/local/git/alluxio/logs/task.log: /usr/local/git/alluxio/bin/alluxio-start.sh -i /opt/alluxio-backup-2019-11-13-1573637112922.gz master
Waiting for tasks to finish...
All tasks finished

doctor 检查alluxio的配置

[hdfs@p1 bin]$ ./alluxio fsadmin doctor
No server-side configuration errors or warnings.

report 报告集群信息

// 有4个可选项，默认集群信息摘要，如：web界面地址，端口，woker数目等
[hdfs@p1 bin]$ ./alluxio fsadmin report -h
report [category] [category args]
Report Alluxio running cluster information.
Where [category] is an optional argument. If no arguments are passed in, summary information will be printed out.
[category] can be one of the following:
    capacity         worker capacity information
    metrics          metrics information
    summary          cluster summary(默认)
    ufs              under filesystem information
    
// capacity， wokers的容量信息汇总  
[hdfs@p1 bin]$ ./alluxio fsadmin report capacity
Capacity information for all workers:
    Total Capacity: 20.68GB
        Tier: MEM  Size: 20.68GB
    Used Capacity: 0B
        Tier: MEM  Size: 0B
    Used Percentage: 0%
    Free Percentage: 100%

Worker Name      Last Heartbeat   Storage       MEM
p2               0                capacity      10.34GB
                                  used          0B (0%)
p3               0                capacity      10.34GB
                                  used          0B (0%)
// ufs 集群配置底层存储系统信息                                  
[hdfs@p1 bin]$ ./alluxio fsadmin report ufs
Alluxio under filesystem information:
hdfs://p1:8020/alluxio/home                                   on  /                    (hdfs, capacity=70.64GB, used=1197.66MB(1%), not read-only, not shared, properties={})

ufs 存储层文件系统

// 有一个 --mode 可选择项目，下面可以跟三个参数
[hdfs@p1 bin]$ ./alluxio  fsadmin ufs -h
Usage: ufs [--mode ]

7.1 普通用户命令(fs)

[hdfs@p1 bin]$ ./alluxio fs
Usage: alluxio fs [generic options]
	 [cat ]
	 [checkConsistency [-r] ]
	 [checksum ]
	 [chgrp [-R]  ]
	 [chmod [-R]  ]
	 [chown [-R] [:] ]
	 [copyFromLocal  ]
	 [copyToLocal  ]
	 [count ]
	 [cp [-R]  ]
	 [createLineage   [  ...]]
	 [deleteLineage  ]
	 [du ]
	 [fileInfo ]
	 [free [-f] ]
	 [getCapacityBytes]
	 [getUsedBytes]
	 [head [-c ] ]
	 [help []]
	 [leader]
	 [listLineages]
	 [load [--local] ]
	 [loadMetadata ]
	 [location ]
	 [ls [-d|-f|-p|-R|-h|--sort=option|-r] ]
	 [masterInfo]
	 [mkdir  [path2] ... [pathn]]
	 [mount [--readonly] [--shared] [--option ]  ]
	 [mv  ]
	 [persist  [ ...]]
	 [pin ]
	 [report ]
	 [rm [-R] [-U] [--alluxioOnly] ]
	 [setTtl [--action delete|free]  ]
	 [stat [-f ] ]
	 [tail [-c ] ]
	 [test [-d|-f|-e|-s|-z] ]
	 [touch ]
	 [unmount ]
	 [unpin ]
	 [unsetTtl ]

命令很多，如果熟悉Linux命令的话，掌握起来不难。我们重点看几个命令

checkConsistency

对比某个给定路径下Allluxio及底层存储系统的元数据。给出的路径是目录，会比较所有子内容。检查的是目录子树的读锁，在命令完成之前，无法对目录子树文件/目录进行更新或者写操作。
copyFromLocal

// 将本地文件/目录 拷贝到alluxio里面
[hdfs@p1 bin]$ ./alluxio fs  copyFromLocal /opt/fm.text  /123
Copied file:///opt/fm.text to /123

free

将文件从释放中释放，前提是这个文件已经持久化到UFS了，不然是没办法释放的。

[hdfs@p1 bin]$ ./alluxio fs free /123
Cannot free file /123 which is not persisted

location

显示文件所在的worker

[hdfs@p1 bin]$ ./alluxio fs location /123
/123 with file id 16810770431 is on nodes:
p3

mount

//显示所有挂载点
[hdfs@p1 bin]$ ./alluxio fs mount
hdfs://p1:8020                                                on  /                    (hdfs, capacity=70.64GB, used=1191.04MB(1%), not read-only, not shared, properties={})
// 挂载hdfs://p1:8020/meta 到/meta下
[root@p1 bin]# ./alluxio fs mount /meta hdfs://p1:8020/meta
Mounted hdfs://p1:8020/meta at /meta

unMount

取消挂载点

[root@p1 bin]# ./alluxio fs unmount /meta
Unmounted /meta

persist

// 将aluxio的/1234目录持久化到hdfs中
[root@p1 bin]# ./alluxio fs persist /1234
persisted file /1234 with size 46

// 查看hdfs是否持久化了，我们初始化时候是挂载hdfs目录/alluxio/home到alluxio中的
[root@p1 bin]# hdfs dfs -ls /alluxio/home
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-5.15.2-1.cdh5.15.2.p0.3/jars/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-5.15.2-1.cdh5.15.2.p0.3/lib/hadoop/lib/alluxio-1.8.1-client.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
Found 2 items
-rw-r--r--   2 hdfs supergroup         46 2019-11-14 11:36 /alluxio/home/1234
drwxr-xr-x   -                          0 2019-11-14 10:20 /alluxio/home/default_tests_files

setTtl
- –action deltele 参数(alluxio和ufs里面都会删除)

// 设置5秒后删除（alluxio和hdfs里面都会删除）
[root@p1 bin]# ./alluxio fs setTtl --action delete /1234 5000
TTL of path '/1234' was successfully set to 5000 milliseconds, with expiry action set to DELETE

//5秒后，查看alluxio（/1234 没了）
[root@p1 bin]# ./alluxio fs ls /
             46   NOT_PERSISTED 11-14-2019 10:46:46:775 100% /123
             46   NOT_PERSISTED 11-14-2019 10:47:18:184 100% /12345
             12       PERSISTED 11-14-2019 10:20:41:992  DIR /default_tests_files
             46   NOT_PERSISTED 11-14-2019 10:44:37:127 100% /fm.text

// 5秒后，查看hdfs（/1234 没了）
[root@p1 bin]# hdfs dfs -ls /alluxio/home
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-5.15.2-1.cdh5.15.2.p0.3/jars/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-5.15.2-1.cdh5.15.2.p0.3/lib/hadoop/lib/alluxio-1.8.1-client.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
Found 1 items
drwxr-xr-x   -          0 2019-11-14 10:20 /alluxio/home/default_tests_files

7.3通过hadoop命令来操作Alluxio

Alluxio提供了兼容HDFS的接口，因此我们可以在执行hdfs命令时候，通过alluxio client 传递给allxuio 实现操作alluxio的目的。

在cm控制台，修改hadoop-env.sh

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wfGMhSB5-1574129851147)(/Users/huangfan/Desktop/hadoop-env.png)]

操作alluxio里面文件

// 查看allxuio全部文件
[root@p1 bin]# hdfs dfs -ls alluxio://localhost:19998/
Found 4 items
-rw-r--r--   3         46 2019-11-14 10:46 alluxio://localhost:19998/123
-rw-r--r--   3         46 2019-11-14 10:47 alluxio://localhost:19998/12345
drwxr-xr-x   -         12 2019-11-14 11:49 alluxio://localhost:19998/default_tests_files
-rw-r--r--   3         46 2019-11-14 11:54 alluxio://localhost:19998/fm.text
// 创建文件并查看
[root@p1 bin]# hdfs dfs -mkdir  alluxio://localhost:19998/from-hdfs
[root@p1 bin]# hdfs dfs -ls alluxio://localhost:19998/
Found 5 items
-rw-r--r--   3         46 2019-11-14 10:46 alluxio://localhost:19998/123
-rw-r--r--   3         46 2019-11-14 10:47 alluxio://localhost:19998/12345
drwxr-xr-x   -         12 2019-11-14 11:49 alluxio://localhost:19998/default_tests_files
-rw-r--r--   3         46 2019-11-14 11:54 alluxio://localhost:19998/fm.text
drwxrwxrwx   -          0 2019-11-14 12:08 alluxio://localhost:19998/from-hdfs

8、与计算框架整合

计算框架使用alluxio client需要在同一个JVM里面，且在classpath下能够找到alluxio client。
编译打包后alluxio client在${ALLUXIO_HOME}/client下。

8.1 与MapReduce整合

8.1.1 整合方式

-libjars命令，它会把alluxio client放到Hadoop的Distributed Cache中，所有节点均可以访问到。
手动将alluxio client放到每个MapReduce的${HADOOP_HOME}/lib下，对于我的CDH是在/opt/cloudera/parcels/CDH/lib/hadoop/lib下。

8.1.2 验证

命令验证

[hdfs@p1 bin]$ pwd
/opt/alluxio/integration/checker/bin
[hdfs@p1 bin]$ ./alluxio-checker.sh mapreduce
... 省略 ... 
***** Integration test passed. *****

wordcount验证

准备被统计的文件

// 将${ALLUXIO_HOME}下的LICENSE文件拷贝到alluxio中 
[hdfs@p1 lib]$ /opt/alluxio/bin/alluxio fs  copyFromLocal /opt/alluxio/LICENSE /input

wordcount

// 我的 cdh 的hadoop 安装目录在 /opt/cloudera/parcels/CDH/lib
[hdfs@p1 opt]$ cd /opt/cloudera/parcels/CDH/lib
// 执行 wordcount
[hdfs@p1 lib]$ hadoop jar hadoop-mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.15.2.jar wordcount -libjars /opt/alluxio/client/alluxio-1.8.1-client.jar alluxio://p1:19998/input   alluxio://p1:19998/output

到alluxio的Web UI统计信息

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MhB1n816-1574129851147)(/Users/huangfan/Desktop/wordcount.png)]

8.2 与Hive整合

前提：alluxio与MapReduce整合成功。

我在cm控制台修改hive.env.sh 文件，其他方式请自行找到hive-env.sh 文件修改

添加：

HIVE_AUX_JARS_PATH=/usr/local/git/alluxio/client/alluxio-1.8.1-client.jar:${HIVE_AUX_JARS_PATH}

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S7BksU1N-1574129851147)(/Users/huangfan/Desktop/hive.env.png)]

8.2.1 存储部分Hive表

场景：常用的表存储在Alluxio中，获取高吞吐量和低延迟。

准备：下载文件下载ml-100k.zip 文件，上传到服务器上，例如我上传到p1 /opt下，解压。拷贝到Alluxios上

[hdfs@p1 opt]$ alluxio/bin/alluxio fs mkdir  /ml-100
[hdfs@p1 opt]$ alluxio/bin/alluxio fs copyFromLocal /opt/ml-100k/u.user alluxio://localhost:19998/ml-100

存储内部表

CREATE TABLE u_user (
userid INT,
age INT,
gender CHAR(1),
occupation STRING,
zipcode STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
LOCATION 'alluxio://p1:19998/ml-100';

存储外部表

CREATE EXTERNAL TABLE hive_hdfs (
userid INT,
age INT,
gender CHAR(1),
occupation STRING,
zipcode STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|';
LOCATION 'alluxio://p1:19998/ml-100';

此时hive内部表的存储位置变成了ml-100目录下，不是在默认的hdfs下面了。内部表，在hive里面删除表u_user时候，alluxio里存储的/ml-100也会被删除。外部表，在hive里面删除表u_user时候，alluxio里面的/ml-100不会被删除。

使用hdfs里面的表

hive> alter table u_user set location "alluxio://127.0.0.1:19998/tables/u_user";
OK
Time taken: 3.572 seconds

恢复到hdfs里面

hive> alter table u_user set location "hdfs://127.0.0.1:8020/alluxio/home";
OK
Time taken: 1.554 seconds

8.2.1 存储全部Hive表

这种情况是Hive使用Alluxio作为默认文件系统替代hdfs。

修改hive-siet.xml


  fs.defaultFS
  alluxio://localhost:19998

案例就不演示了，因为hive底层还是用hdfs好些，节省空间。

8.3 与Presto整合

版本：presto-server-0.228

Prest是从HiveMetaStore里面获取元数据信息，然后通过元数据信息来获取底层ufs（这里是hdfs），它查询数据不是像hive那样提交MapReduce，而是直接操作底层ufs。

8.3.1 下载配置presto

presto下载配置移步

其他基本配置可以参照官网，其中catalog配置是关键，我这hive.properties配置如下：

connector.name=hive-hadoop2
hive.metastore.uri=thrift://p1:9083
// 保证presto可以访问到hdfs
hive.config.resources=/etc/hive/conf/core-site.xml,/etc/hive/conf/hdfs-site.xml
hive.allow-drop-table=false
hive.allow-rename-table=false
hive.allow-add-column=false
hive.allow-rename-column=false
hive.force-local-scheduling=true

将${ALLUXIO_HOME}/conf下的alluxio-site.properties文件路径加到presto的jvm.config中，这样在allxuio里面设置的属性会应用到presto

-Xbootclasspath/p:/opt/alluxio/conf

做以下几个配置

读写超时配置（alluxio-site.properties）

// sec、min、hour、day结尾的配置都可以，从源码看到，代码层做了自适应
alluxio.user.network.netty.timeout=10min

启用Presto中数据本地性（${PRESTO_HOME/etc/catalog/hive.properties}）

一般 Presto worker 与 Alluxio worker 同置部署，开启这个属性后，pesto处理分片的工作可以被调度到有该分片的机器上。

hive.force-local-scheduling=true

注意：网上很多说，presto调度是基于Alluxio worker的文件块地址与Presto worker地址之间的字符串匹配进行的（没看pesto源码我不确定）

设置Presto分布式查询粒度（${PRESTO_HOME/etc/catalog/hive.properties}）

// 默认 alluxio.user.block.size.bytes.default=512M，我们需要将查询分割设置>512MB，减少presto在同一个块上多次并行查询带来相互阻塞。
hive.max-split-size=600MB

更改读写类型（alluxio-site.properties）

//默认读，首先将数据块从SSD或者HDD移动到MEM，然后再读取MEM中的数据块
 alluxio.user.file.readtype.default=CACHE_PROMOTE
 // 双写（内存和ufs），默认写是MUST_CACHE，只写内存
 alluxio.user.file.writetype.default=CACHE_THROUGH

8、配置使用

8.1 服务端配置

主要配置都是在${ALLUXIO_HOME}/conf下的alluxio-site.properties配置里面，集群内所有的机器上都需要设置。可以在alluxio的Web UI 界面看每个属性配置的值/默认值。

8.2 客户端配置

alluxio客户端的初始化是以集群master配置新来初始化的，也就是在${ALLUXIO_CONF}/conf下 alluxio-site.properties里面配置的信息会应用到客户端的初始化。例如设置写类型：alluxio.user.file.writetype.default=CACHE_THROUGH。
当然这样一刀切的配置肯定不是最优的，可以通过在客户端设置：alluxio.user.conf.cluster.default.enable=false来忽略或者覆盖集群范围内默认值，客户端的配置一般是通过设置JVM参数"-D"，或者通过api在代码里面设置。

8.3 配置工具

alluxi 提供了一些在配置时候提高效率的小工具，说到底就是shell脚本来，具体可以看${ALLUXIO_HOME}/conf/alluxio这个脚本内容。

copyDir

//同步配置到所有worker机器上，不用再傻傻scp了。
./alluxio copyDir [path to alluxio's conf dir]

getConf

// 查看属性值
[hdfs@p1 bin]# ./alluxio getConf   alluxio.user.file.writetype.default
CACHE_THROUGH
// 查看属性配置来源
[hdfs@p1 bin]# ./alluxio getConf --source  alluxio.user.file.writetype.default
SITE_PROPERTY (/usr/local/git/alluxio/conf/alluxio-site.properties)
// 查看集群默认配置
[root@p1 bin]# ./alluxio getConf --master

alluxio.conf.dir=/usr/local/git/alluxio/conf
alluxio.conf.validation.enabled=true
alluxio.debug=false
alluxio.extensions.dir=/usr/local/git/alluxio/extensions
alluxio.fuse.cached.paths.max=500
alluxio.fuse.debug.enabled=false
alluxio.fuse.fs.name=alluxio-fuse
alluxio.fuse.maxwrite.bytes=128KB
alluxio.home=/usr/local/git/alluxio
alluxio.integration.master.resource.cpu=1
alluxio.integration.master.resource.mem=1024MB
alluxio.integration.mesos.alluxio.jar.url=http://downloads.alluxio.org/downloads/files/1.8.1/alluxio-1.8.1-bin.tar.gz
alluxio.integration.mesos.jdk.path=jdk1.8.0_151
alluxio.integration.mesos.jdk.url=LOCAL
alluxio.integration.mesos.master.name=AlluxioMaster
alluxio.integration.mesos.master.node.count=1
alluxio.integration.mesos.principal=alluxio
alluxio.integration.mesos.role=*
alluxio.integration.mesos.secret=(no value set)
alluxio.integration.mesos.user=(no value set)
alluxio.integration.mesos.worker.name=AlluxioWorker
alluxio.integration.worker.resource.cpu=1
alluxio.integration.worker.resource.mem=1024MB
alluxio.integration.yarn.workers.per.host.max=1
...

9、存储管理

9.1 单层模式

不需要设置，默认在集群启动时候，alluxio会为wokers分配ramdisk，

alluxio与ufs元数据同步

客户端

alluxio1.7 之后支持

客户端调用时候，增加参数：alluxio.user.file.metadata.sync.interval=int，int<0 永远不同步，int>0 在间隔时间内不同步，int=0 操作之前，代理总是会同步路径的元数据

alluxio fs ls -R -Dalluxio.user.file.metadata.sync.interval=0 /dirpath

服务端异步

alluxio 2.0 + HDFS 2.7 以上版本

// 启动
./alluxio fs startSync /syncedDirPath

// 关闭
./alluxio fs stopSync /syncedDir

10、异常诊断和调试

10.1 日志

在${ALLUXIO_HOME}/logs下，*.log为log4j 生成的，*.out是标准的输出和错误流重定向文件。一般我们查看master.log 、worker.log、user_${USER}.log来排查问题。

10.2 远程调试

在 ${ALLUXIO_HOME}/conf下的alluxio-env.sh配置调试的环境变量:

export ALLUXIO_WORKER_JAVA_OPTS="$ALLUXIO_JAVA_OPTS -agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=6606"
export ALLUXIO_MASTER_JAVA_OPTS="$ALLUXIO_JAVA_OPTS -agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=6607"
export ALLUXIO_USER_DEBUG_JAVA_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=6609"

然后我们就可以在 IntelliJ IDEA 或者Eclipse里面开启Remote Debug 调试了。

你可能感兴趣的:(大数据)

2024年第五届MathorCup数学应用挑战赛--大数据竞赛思路、代码更新中..... 宇哥预测优化代码学习 1024程序员节
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️研赛及概况一、竞赛背景与目的二、组织机构与参赛对象三、竞赛时间与流程四、竞赛要求与规则五、奖项设置与奖励六、研究文档撰写建议七、参考资料与资源1找程序网站推荐2公式编辑器、流程图、论文排版324年研赛资源下载4思路、Python、Matlab代码分享......⛳
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &