nszkadrgg

spark2.3.2+Yarn+Carbondata Thrift Server 配置carbondata1.5

Carbondata简介

Apache Carbondata 是一种新的融合存储解决方案，利用先进的列式存储，索引，压缩和编码技术提高查询效率。

Apache Carbondata 中文文档地址: http://carbondata.iteblog.com

Apache Carbondata 英文文档: http://carbondata.apache.org/

GitHub 源码地址 https://github.com/apache/carbondata/

1.是基于CDH集成Carbondata

安装mysql

https://blog.csdn.net/nszkadrgg/article/details/78666628 tar 包的安装方式

https://blog.csdn.net/nszkadrgg/article/details/85052693 rpm 包的安装方式

https://blog.csdn.net/a774630093/article/details/79270080 yum 的安装方式

安装CDH

https://blog.csdn.net/nszkadrgg/article/details/80022704 CDH5.10离线安装

2.编译个安装Carbondata基于CDH

https://github.com/apache/carbondata/tree/master/build Carbondata编译文档

下载Spark2.3.2的版本

https://archive.apache.org/dist/spark/spark-2.3.2/

解压下载好的 Spark2.3.2

下载maven 配置环境变量

配置的环境变量 vim /etc/profile

记得 source /etc/profile 让配置的环境变量生效

maven环境变量是否生效的验证

jdk1.8 环境变量的配置

验证JDK1.8是否安装成功

https://blog.csdn.net/cjf_wei/article/details/78700321 安装thrift 很重要，按照里面的步骤来安装，thrift 选择0.9.3的版本，其他的组件就是文章中写的版本来安装。

Carbondata 编译

下载 Carbondata,选择branch-1.5的分支，然后Clone or download

解压 carbondata包，然后进入目录

编译命令报了如下的错误，然后 mvn clean

然后修改里面的pom.xml文件

cloudera

cloudera Repository

https://repository.cloudera.com/artifactory/cloudera-repos

删除然后:wq 保存退出

localhost:8086

thrift://localhost:8086

然后再次进入carbondata目录进行编译。

命令:

mvn clean package -DskipTests -Pspark-2.3 -Dspark.version=2.3.2 -Phadoop-2.8 -Phive -Phive-thriftserver -Pyarn -Dyarn.version=2.6.0-cdh5.15.2 -Dhadoop.version=2.6.0-cdh5.15.2 package -Pbuild-with-format

编译CarbonData，使用Spark 2.3.2，CDH hadoop 2.6：别人编译通过的

mvn -DskipTests -Pspark-2.3 -Phadoop-2.8 -Pbuild-with-format -Pmv -Dspark.version=2.3.2 -Dhadoop.version=2.6.0-cdh5.15.0 clean package

[WARNING] The requested profile "hive" could not be activated because it does not exist.

[WARNING] The requested profile "hive-thriftserver" could not be activated because it does not exist.

[WARNING] The requested profile "yarn" could not be activated because it does not exist.

[ERROR] Failed to execute goal on project carbondata-examples: Could not resolve dependencies for project org.apache.carbondata:carbondata-examples:jar:1.5.3-SNAPSHOT: Failed to collect dependencies at org.alluxio:alluxio-core-client-hdfs:jar:1.8.1: Failed to read artifact descriptor for org.alluxio:alluxio-core-client-hdfs:jar:1.8.1: Could not transfer artifact org.alluxio:alluxio-core-client-hdfs:pom:1.8.1 from/to alimaven (http://maven.aliyun.com/nexus/content/groups/public/): Timeout while waiting for concurrent download of /opt/repo/org/alluxio/alluxio-core-client-hdfs/1.8.1/alluxio-core-client-hdfs-1.8.1.pom.part to progress -> [Help 1]

[ERROR]

[ERROR] To see the full stack trace of the errors, re-run Maven with the -e switch.

[ERROR] Re-run Maven using the -X switch to enable full debug logging.

[ERROR]

[ERROR] For more information about the errors and possible solutions, please read the following articles:

[ERROR] [Help 1] http://cwiki.apache.org/confluence/display/MAVEN/DependencyResolutionException

[ERROR]

[ERROR] After correcting the problems, you can resume the build with the command

[INFO] ------------------------------------------------------------------------

[INFO] BUILD FAILURE

[INFO] ------------------------------------------------------------------------

[INFO] Total time: 25:22 min

[INFO] Finished at: 2019-02-23T17:35:21+08:00

[INFO] ------------------------------------------------------------------------

[WARNING] The requested profile "hive" could not be activated because it does not exist.

[WARNING] The requested profile "hive-thriftserver" could not be activated because it does not exist.

[WARNING] The requested profile "yarn" could not be activated because it does not exist.

[ERROR] Failed to execute goal org.scala-tools:maven-scala-plugin:2.15.2:compile (default) on project carbondata-examples: wrap: org.apache.commons.exec.ExecuteException: Process exited with an error: 1(Exit value: 1) -> [Help 1]

[ERROR]

[ERROR] To see the full stack trace of the errors, re-run Maven with the -e switch.

[ERROR] Re-run Maven using the -X switch to enable full debug logging.

[ERROR]

[ERROR] For more information about the errors and possible solutions, please read the following articles:

[ERROR] [Help 1] http://cwiki.apache.org/confluence/display/MAVEN/MojoExecutionException

[ERROR]

[ERROR] After correcting the problems, you can resume the build with the command

[ERROR] mvn -rf :carbondata-examples

[root@cdh01 carbondata-branch-1.5]# mvn clean package -DskipTests -Pspark-2.3 -Dspark.version=2.3.2 -Phadoop-2.8 -Phive -Phive-thriftserver -Pyarn -Dyarn.version=2.6.0-cdh5.15.2 -Dhadoop.version=2.6.0-cdh5.15.2 package -Pbuild-with-format

编译成功！

然后找到编译后源码包的位置

[root@cdh01 scala-2.11]#cd /opt/software/carbondata-branch-1.5/assembly/target/scala-2.11

carbondata的部署

先到spark包的目录

[root@cdh01 software]# cd spark-2.3.2-bin-2.6.0-cdh5.15.2/

新建carbonlib包

[root@cdh01 spark-2.3.2-bin-2.6.0-cdh5.15.2]# mkdir carbonlib

已经编译好的carbondata 放入 carbonlib包中

[root@cdh01 spark-2.3.2-bin-2.6.0-cdh5.15.2]# cd carbonlib/

[root@cdh01 carbonlib]# ll

total 91344

-rw-r--r--. 1 root root 93533271 Feb 26 09:15 apache-carbondata-1.5.3-SNAPSHOT-bin-spark2.3.2-hadoop2.6.0-cdh5.15.2.jar

到spark 的conf 目录，修改参数

[root@cdh01 spark-2.3.2-bin-2.6.0-cdh5.15.2]# cd conf/

[root@cdh01 conf]# ll

total 56

-rw-r--r--. 1 root root 4094 Feb 26 09:22 carbon.properties

-rw-r--r--. 1 root root 4094 Feb 26 09:22 carbon.properties.template

-rw-rw-r--. 1 root root 996 Sep 16 20:13 docker.properties.template

-rw-rw-r--. 1 root root 1105 Sep 16 20:13 fairscheduler.xml.template

-rw-rw-r--. 1 root root 2025 Sep 16 20:13 log4j.properties.template

-rw-rw-r--. 1 root root 7801 Sep 16 20:13 metrics.properties.template

-rw-rw-r--. 1 root root 862 Feb 26 09:30 slaves.template

-rw-r--r--. 1 root root 1292 Feb 26 09:30 spark-defaults.conf

-rw-rw-r--. 1 root root 1292 Sep 16 20:13 spark-defaults.conf.template

-rwxr-xr-x. 1 root root 4298 Feb 26 09:21 spark-env.sh

-rwxrwxr-x. 1 root root 4221 Sep 16 20:13 spark-env.sh.template

复制文件

[root@cdh01 conf]# cp carbon.properties.template carbon.properties

[root@cdh01 conf]# cp spark-defaults.conf.template spark-defaults.conf

[root@cdh01 conf]# cp spark-env.sh.template spark-env.sh

添加主机名修改后保存退出

[root@cdh01 conf]# vim slaves.template

# Licensed to the Apache Software Foundation (ASF) under one or more

# contributor license agreements. See the NOTICE file distributed with

# this work for additional information regarding copyright ownership.

# The ASF licenses this file to You under the Apache License, Version 2.0

# (the "License"); you may not use this file except in compliance with

# the License. You may obtain a copy of the License at

# http://www.apache.org/licenses/LICENSE-2.0

# Unless required by applicable law or agreed to in writing, software

# distributed under the License is distributed on an "AS IS" BASIS,

# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

# See the License for the specific language governing permissions and

# limitations under the License.

# A Spark Worker will be started on each of the machines listed below.

cdh01

[root@cdh01 conf]# vim spark-defaults.conf

添加如下参数

spark.master=yarn-client

spark.yarn.dist.files=/opt/spark-2.3.2-bin-2.6.0-cdh5.15.2/conf/carbon.properties

spark.yarn.dist.archives=/opt/spark-2.3.2-bin-2.6.0-cdh5.15.2/carbonlib/carbondata.tar.gz

spark.executor.extraJavaOptions="-Dcarbon.properties.filepath = carbon.properties"

spark.executor.extraClassPath=carbondata.tar.gz/carbonlib/*

spark.driver.extraClassPath=/opt/spark-2.3.2-bin-2.6.0-cdh5.15.2/carbonlib/*

spark.driver.extraJavaOptions="-Dcarbon.properties.filepath = $SPARK_HOME/conf/carbon.properties"

# 如果你的 CarbonData 实例仅用于查询，你可以在 spark 配置文件设置 spark.speculation = true 属性

spark.speculation = true

# # 这个值可以设置成 executor 核总数的 1 到 2倍。在一个聚合场景里，将这个值从 200 减少到 32，查询时间从 17 秒减少到 9 秒。

# #spark.sql.shuffle.partitions=40

spark.sql.shuffle.partitions=32

# #增加每个spark任务处理的数据量，可以减少spark的任务个数，可以减少文件数

set mapred.min.split.size=1342177280

修改carbon.properties 加入以下参数

[root@cdh01 conf]# vim carbon.properties

carbon.storelocation=hdfs://192.168.1.130:8020/user/hive/warehouse/carbon.store

carbon.task.distribution=merge_small_files

hive 的metadata db(很重要)

是把hive-site.xml 放在编译后的conf文件中吧，这个我漏了写了，是，要从cdh的配置中拷出来，放的位置/opt/spark-2.3.2-bin-2.6.0-cdh5.15.2/conf

修改 spark-env.sh 添加以下环境变量(参数都结合你资源的情况来进行调整)

export SPARK_MASTER_IP=cdh01

export SCALA_HOME=/opt/software/scala-2.11.8

export SPARK_WORKER_MEMORY=3g

export JAVA_HOME=/usr/java/jdk1.8.0_45

export HADOOP_HOME=/opt/cloudera/parcels/CDH-5.15.2-1.cdh5.15.2.p0.3/lib/hadoop

export HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH-5.15.2-1.cdh5.15.2.p0.3/lib/hadoop/etc/hadoop

添加启动脚本

[root@cdh01 hadoop-hdfs]# pwd

/var/lib/hadoop-hdfs

[root@cdh01 hadoop-hdfs]# vim startup.sh

sh /opt/software/spark-2.3.2-bin-2.6.0-cdh5.15.2/bin/spark-submit \

--class org.apache.carbondata.spark.thriftserver.CarbonThriftServer \

--num-executors 2 --driver-memory 3g --executor-memory 6g --executor-cores 2 \

/opt/software/spark-2.3.2-bin-2.6.0-cdh5.15.2/carbonlib/apache-carbondata-1.5.3-SNAPSHOT-bin-spark2.3.2-hadoop2.6.0-cdh5.15.2.jar \

hdfs://192.168.137.130:8020/user/hive/warehouse/carbon.store #carbondata元数据的位置

以上参数添加完了以后保存

chmod +x startup.sh 执行了以后变成绿色就可以了

然后启动

[root@cdh01 hadoop-hdfs]# sh startup.sh

报了一下错误，这我们要修改cdh yarn 服务的资源

java.lang.IllegalArgumentException: Required executor memory (6144+614 MB) is above the max threshold (1041 MB) of this cluster! Please check the values of 'yarn.scheduler.maximum-allocation-mb' and/or 'yarn.nodemanager.resource.memory-mb'.

at org.apache.spark.deploy.yarn.Client.verifyClusterResources(Client.scala:318)

at org.apache.spark.deploy.yarn.Client.submitApplication(Client.scala:166)

at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:57)

at org.apache.spark.scheduler.TaskSchedulerImpl.start(TaskSchedulerImpl.scala:164)

at org.apache.spark.SparkContext.(SparkContext.scala:500)

at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2493)

at org.apache.spark.sql.CarbonSession$CarbonBuilder$$anonfun$2.apply(CarbonSession.scala:241)

at org.apache.spark.sql.CarbonSession$CarbonBuilder$$anonfun$2.apply(CarbonSession.scala:233)

at scala.Option.getOrElse(Option.scala:121)

at org.apache.spark.sql.CarbonSession$CarbonBuilder.getOrCreateCarbonSession(CarbonSession.scala:233)

at org.apache.spark.sql.CarbonSession$CarbonBuilder.getOrCreateCarbonSession(CarbonSession.scala:169)

at org.apache.carbondata.spark.thriftserver.CarbonThriftServer$.main(CarbonThriftServer.scala:74)

at org.apache.carbondata.spark.thriftserver.CarbonThriftServer.main(CarbonThriftServer.scala)

at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)

at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

at java.lang.reflect.Method.invoke(Method.java:497)

at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)

at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:894)

at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:198)

at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:228)

at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:137)

at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

2019-02-26 13:38:45 INFO AbstractConnector:318 - Stopped Spark@7d3c09ec{HTTP/1.1,[http/1.1]}{0.0.0.0:4040}

2019-02-26 13:38:45 INFO SparkUI:54 - Stopped Spark web UI at http://cdh01:4040

2019-02-26 13:38:45 WARN YarnSchedulerBackend$YarnSchedulerEndpoint:66 - Attempted to request executors before the AM has registered!

2019-02-26 13:38:45 INFO YarnClientSchedulerBackend:54 - Stopped

2019-02-26 13:38:45 INFO MapOutputTrackerMasterEndpoint:54 - MapOutputTrackerMasterEndpoint stopped!

2019-02-26 13:38:45 INFO MemoryStore:54 - MemoryStore cleared

2019-02-26 13:38:45 INFO BlockManager:54 - BlockManager stopped

2019-02-26 13:38:45 INFO BlockManagerMaster:54 - BlockManagerMaster stopped

2019-02-26 13:38:45 WARN MetricsSystem:66 - Stopping a MetricsSystem that is not running

2019-02-26 13:38:45 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint:54 - OutputCommitCoordinator stopped!

2019-02-26 13:38:45 INFO SparkContext:54 - Successfully stopped SparkContext

Exception in thread "main" java.lang.IllegalArgumentException: Required executor memory (6144+614 MB) is above the max threshold (1041 MB) of this cluster! Please check the values of 'yarn.scheduler.maximum-allocation-mb' and/or 'yarn.nodemanager.resource.memory-mb'.

at org.apache.spark.deploy.yarn.Client.verifyClusterResources(Client.scala:318)

at org.apache.spark.deploy.yarn.Client.submitApplication(Client.scala:166)

at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:57)

at org.apache.spark.scheduler.TaskSchedulerImpl.start(TaskSchedulerImpl.scala:164)

at org.apache.spark.SparkContext.(SparkContext.scala:500)

at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2493)

at org.apache.spark.sql.CarbonSession$CarbonBuilder$$anonfun$2.apply(CarbonSession.scala:241)

at org.apache.spark.sql.CarbonSession$CarbonBuilder$$anonfun$2.apply(CarbonSession.scala:233)

at scala.Option.getOrElse(Option.scala:121)

at org.apache.spark.sql.CarbonSession$CarbonBuilder.getOrCreateCarbonSession(CarbonSession.scala:233)

at org.apache.spark.sql.CarbonSession$CarbonBuilder.getOrCreateCarbonSession(CarbonSession.scala:169)

at org.apache.carbondata.spark.thriftserver.CarbonThriftServer$.main(CarbonThriftServer.scala:74)

at org.apache.carbondata.spark.thriftserver.CarbonThriftServer.main(CarbonThriftServer.scala)

at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)

at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

at java.lang.reflect.Method.invoke(Method.java:497)

at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)

at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:894)

at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:198)

at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:228)

at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:137)

at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

2019-02-26 13:38:45 INFO ShutdownHookManager:54 - Shutdown hook called

2019-02-26 13:38:45 INFO ShutdownHookManager:54 - Deleting directory /tmp/spark-3633c790-3350-4aab-a175-d0ee0d3a224a

2019-02-26 13:38:45 INFO ShutdownHookManager:54 - Deleting directory /tmp/spark-5c91ab1f-a2be-405f-8a00-c48adfa050f9

修改hive的端口，hive的端口默认是10000,我们修改20000,carbondata Thrift Server 默认的端口是20000，这样就避免的端口的冲突。

点击yarn

选择配置，根据资源的情况我们给我yarn 最大6G，然后保存

修改yarn nodemanager 的内存，然后保存，然后会有提示重新启动yarn的服务，记住下一步的时候那个单选按钮一个要勾上。

然后重启yarn 。

以上是我在我自己电脑的虚拟机上配置的自己的电脑资源小,下来我用公司的电脑进行一下测试。

首先我们启动 carbondata Thrift Server

后台的启动方式nohup ~/startup.sh

查看日志 tail -f

测试机集群的资源，配置的时候我使用我本地的参数安装和编译的，我本地的机器资源小，查询速度不明显。

启动以后我们在yarn的界面查看任务，在Running中，有一个ApplicationMaster，点击进去。

通过beeline的方式连接carbonThriftServer，切换到hdfs用户，如果没有添加hdfs用户，用root用户也行。

连接上了，show database。

创建carbondata的hive表时，我们可以看看官网表的优化机制，可以加快查询速度。

http://carbondata.iteblog.com/data-management-on-carbondata.html carbondata的中文文档，主要还是以英文文档为主。

在创建表中有一个使用指南。

1.字典编码设置，这个参数是需要你查询结果小于10w条记录的时候推荐使用。

TBLPROPERTIES ('DICTIONARY_INCLUDE'='column1, column2')

2.倒排序索引配置，默认情况下，倒排序索引是默认启用的，有可能有助于提高压缩率和查询速度，特别是对除于有利位置的低基数列。建议使用用例，对于高基数列，你可以禁用倒排序索引以提高数据加载性能,使用频率高的字段放在最后。

TBLPROPERTIES ('NO_INVERTED_INDEX'='column1, column3')

TBLPROPERTIES (
'MAJOR_COMPACTION_SIZE'='2048', # Major compaction 大小可以使用这个参数进行配置。segments 大小总和低于此阈值的将会被合并。此值的单位为 MB
'AUTO_LOAD_MERGE'='true', # 数据加载的时候启用压缩。

'COMPACTION_LEVEL_THRESHOLD'='4,3', #该属性在 minor compaction 时使用，决定要合并多少个 segments。比如：如果将这个属性设置为 2, 3，那么每 2 个 segments 会触发一次 Level 1 的 minor compaction。每 3 个 Level 1 的 compacted segment 将会进一步压缩成新的 segment。
'COMPACTION_PRESERVE_SEGMENTS'='10', # 如果用户想防止一些 segments 被压缩，可以通过设置这个参数。比如 carbon.numberof.preserve.segments = 2，那么 2 个最新的 segments 总是被排除在压缩之外。默认没有 segments 被保留。如果用户想防止一些 segments 被压缩，可以通过设置这个参数。比如 carbon.numberof.preserve.segments = 2，那么 2 个最新的 segments 总是被排除在压缩之外。默认没有 segments 被保留。

'ALLOWED_COMPACTION_DAYS'='5', #压缩属性，在指定的天数内加载的 segment 将被合并。如果配置为 2，仅在 2 天内加载的 segment 被合并，2 天之前的 segment 不会被合并。默认没有被启用
NO_INVERTED_INDEX=' id,name,age',
'SORT_COLUMNS'='id, #就是使用频率最高的放在最后面，最低的放在最前面，比如where后面的条件。
name,
age
'SORT_SCOPE'='GLOBAL_SORT');

'SORT_SCOPE'='GLOBAL_SORT'这会增加数据的查询性能，特别是高并发查询。如果你特别关心加载资源的隔离时使用，因为系统使用 Spark 的 GroupBy 对数据进行排序，我们可以通过 Spark 来控制资源。

这是我创建表的语句，第二张小表也是一样。

加载数据的方式（load数据一定要放在hdfs中，在本地load 数据会提示文件不存在）

load data inpath '/opt/20181201.csv' into table jwdss.carbon_yw_data_detail_10 partition (driverdate='20181201') OPTIONS('GLOBAL_SORT_PARTITIONS'='2','HEADER'='false');

HEADER'='false' 解释

如果你加载不带文件头的 CSV 文件并且文件头和表的模式一致，这时候你可以在加载数据的 SQL 里面加上 'HEADER'='false'，这时候用户就不需要指定文件头。默认情况下这个属性的值是 'true'。 false: CSV 文件不带文件头；true: CSV 文件带文件头。

GLOBAL_SORT_PARTITIONS=2 解释

（GLOBAL_SORT_PARTITIONS'='2')和（GLOBAL_SORT_PARTITIONS'='1')

但是load上传文件大小小于block size时，这个参数是不是就不起作用了

同样的数据量，分区多，文件肯定多。

类似spark中的repartition(4) 这样就有4个分区

也就是说，我将多个小的分区合并成大的分区，我设置成2，就是2个大的分区

比如1G文件，hdfs block size 是128M，那么就有8个分区，此时设置为2，那就会把4个分区的数据合并为1个。

导出数据的方式,(导出成csv文件)

beeline -u jdbc:hive2://192.168.1.100:10000 --showHeader=false --verbose=true --outputformat=csv2 -e "select * from test.test_6 where driverdate='20181201'">>/opt/middle_20181201_.csv

现在查询时间是15秒。

carbondata优化(数据加载完成之后在做一下的优化会生效)

CREATE TABLE 大表(
age STRING,
city STRING,
name STRING,
cost STRING,
earnings STRING)
STORED BY 'carbondata'
row format delimited fields terminated by ','
TBLPROPERTIES (
'MAJOR_COMPACTION_SIZE'='512',
'AUTO_LOAD_MERGE'='true',
'COMPACTION_LEVEL_THRESHOLD'='4,3',
'SORT_COLUMNS'='earnings,cost,name,city,age',
'NO_INVERTED_INDEX'='earnings,cost,name,city,age',
'SORT_SCOPE'='GLOBAL_SORT');

CREATE TABLE 小表(
id STRING,
city STRING,
name STRING,
cost STRING,
earnings STRING)
STORED BY 'carbondata'
row format delimited fields terminated by ','
TBLPROPERTIES (
'MAJOR_COMPACTION_SIZE'='512',
'AUTO_LOAD_MERGE'='true',
'COMPACTION_LEVEL_THRESHOLD'='4,3',
'SORT_COLUMNS'='earnings,cost,name,city,id',
'NO_INVERTED_INDEX'='earnings,cost,name,city,id',
'SORT_SCOPE'='GLOBAL_SORT');

以上是建表的优化

加载数据的优化

load data inpath '/opt/1.csv' into table kldss.大表 OPTIONS('GLOBAL_SORT_PARTITIONS'='1','HEADER'='false');

load data inpath '/opt/1.csv' into table kldss.小表 OPTIONS('GLOBAL_SORT_PARTITIONS'='1','HEADER'='false');

创建表完成后，load 数据完成后执行下面三个

show segments for table table; #显示表中的分片该命令用于获取CarbonData表的段
ALTER TABLE tableCOMPACT 'MAJOR'; #启动手动压缩,压缩会提高查询的速度
clean files for table table; #删除Compacted 压缩文件

压缩

ALTER TABLE test COMPACT 'MINOR' (有三种方式，具体的可以看文档)。

在压缩完成之后清理 segments

清理已经压缩的 segments:

CLEAN FILES FOR TABLE test.test_6;

还有carbondata 支持update和delete

clean files for table xxx 删除数据的时候会产生很多deletedelta文件，会影响删除的速度，可以删除表的deletedelta文件。

locks文件什么时候会自动删除？无效或被删除的segment lock才会被删除，默认是2天前的好像，在加载数据的时候会产生。

最后我新建了两张表，数据还是不变，看看查询的速度，查询速度不到两秒(大表1700W，小表4000条)

优化前的速度

优化后的查询速度。

还有一种场景，load数据和inset into table partition (date='20101212') select cloumn from table 的查询速度是一样的,这个我做过测试。

遇到的一些问题

1.carbondata数据加载，要上传到hdfs，本地现在无法加载数据，会报文件找不到
答：是的现在只能把csv文件上传到hdfs，才可以加载数据到carbondata的表中。

2.添加分区字段
答：alter table carbon_yw_data_detail_4 if not exists add partition (driverdate='20180808');

3.压缩可以显着地提高查询性能,有三种类型的 Compaction ALTER TABLE [db_name.]table_name COMPACT 'MINOR/MAJOR/CUSTOM' (具体可以看官网)
答:show segments for table test;     #显示表中的分片该命令用于获取CarbonData表的段
     ALTER TABLE test COMPACT 'MAJOR'; #启动手动压缩,压缩会提高查询的速度
     clean files for table test; #删除Compacted 压缩文件
4.是不是一个segment可以包含多个.carbondata文件？
答：是的,在hdfs上可以看到,这个是的，可以多个，看node数，分区数，然后会有一个carbonindexmerge文件，这个是该segment的索引文件，一个segment可能会有多个carbondata文件，看配置和加载数据的大小。

5.carbon.compaction.level.threshold=4,3
答:对多批次导入数据，可以做压缩，这样索引效果会更好。每4个合并一次，每4个合并后的3个再合并一次。
insert into 50次压缩一次连续5次在压缩一次 carbon.compaction.level.threshold=50,5
这个y合并的是x的segment，进行5次x合并后就触发y合并，就是对原始segment达到50时进行x合并，当x的segment达到5时，触发y合并这么理解对吗，是的。这样理解是吧，没合并前这个segment是level1,合并一次就是level2了，那个3就代表3个level2会进行合并,支持表级别和配置级别。

6.GLOBAL_SORT: 这会增加数据的查询性能，特别是高并发查询。如果你特别关心加载资源的隔离时使用，
答：因为系统使用 Spark 的 GroupBy 对数据进行排序，我们可以通过 Spark 来控制资源。

7.物化视图，可以优化查询的速度。
答：使用物理化视图，就是可以把where后面的条件放到dataMap中，然后where条件就不需要全表扫描，具体的类CompactionSupportGlobalSortParameterTest.scala.

8. carbondata数据导出csv文件。
答：beeline -u jdbc:hive2://192.168.1.100:10000 --showHeader=false --verbose=true --outputformat=csv2 -e "select * from test
where jwd=1 and driverdate=20181201">>/opt/cs1.csv.

9.carbondata数据导出csv文件，数据要上传hdfs
答：load data inpath '/opt/20181202.csv' into overwrite table test partition (driverdate='20181202') OPTIONS('GLOBAL_SORT_PARTITIONS'='2','HEADER'='false');

10.删除分区的时候,在表中可以删除，show partitions test 是没有已经删除的分区，但是在hdfs中是有的。
答：clean files for table test; 然后刷新hdfs界面就不会显示已经删除的分区了。
删除分区的命令 ALTER TABLE test DROP PARTITION (driverdate='20181202')

11.（GLOBAL_SORT_PARTITIONS'='2')和（GLOBAL_SORT_PARTITIONS'='1')
答：但是load上传文件大小小于block size时，这个参数是不是就不起作用了同样的数据量，分区多，文件肯定多。类似spark中的repartition(4) 这样就有4个分区也就是说，我将多个小的分区合并成大的分区，我设置成2，就是2个大的分区,是的。比如1G文件，hdfs block size 是128M，那么就有8个分区，此时设置为2，那就会把4个分区的数据合并为1个。

12. locks文件什么时候会自动删除？
答：无效或被删除的segment lock才会被删除，默认是2天前的好像，在加载数据的时候会产生。

13.删除数据的时候会产生deletedelta
答：clean files for table xxx；删除表的deletedelta文件

14. carbon.compaction.level.threshold 参数针对的是segment数和分区不分区没有关系
答：针对的是分割segment，alter table major是根据分割segment size来的，你说的那个4，如果开启自动和，当load第四次后，就会自动把前4个segment compact。

15.是不是一个segment可以包含多个.carbondata文件。
答:是的一个segment可能会有多个carbondata文件，看配置和加载数据的大小。

16.hive 的metadata db
答：是把hive-site.xml 放在编译后的conf文件中吧，这个我漏了写了，是，要从cdh的配置中拷出来，放的位置/opt/spark-2.3.2-bin-2.6.0-cdh5.15.2/conf

17.drop partition时，会不会同delete一样产生一些文件
答：会的

18.clean files 与load 冲突。
答：不会

19.carbondata 查询union all
答：这个我测试过两张大表union all 总共8000W条数据查询速度4秒(load 加载数据和inset select 查询的速度是一致的)

20.streaming怎么部署
答：这个问题我还没有解决。

你可能感兴趣的:(Spark)

pyspark学习rdd处理数据方法——学习记录亭午学习
python黑马程序员"""文件，按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompysparkimportSparkConf,SparkContextimportosimportjsonos.environ['PYSPARK_PYTHON']=r"D:\anaconda\envs\py10\python.exe"#创建Spark
数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1) 2301_79098963 程序员知识图谱人工智能
4.Schema变更支持对比项ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi仅支持添加可选列
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Azure Delta Lake、Databricks和Event Hubs实现实时欺诈检测 weixin_30777913 azure 云计算
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合AzureEventHubs/Kafka摄入实时数据，通过DeltaLake实现Exactly-Once语义，实时欺诈检测（流数据写入DeltaLake，批处理模型实时更新），以及具体实现的详细步骤和关键PySpark代码。完整实现代码需要根据具体数据格式和业务规则进行调整，建议通过DatabricksR
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
基于Azure云平台构建实时数据仓库 weixin_30777913 云计算 azure 开发语言 spark python
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合电商网站的流数据，构建实时数据仓库，支持T+0报表（如电商订单分析），具以及具体实现的详细步骤和关键PySpark代码。一、架构设计[电商网站]→[AzureEventHubs]→[AzureDatabricksStreaming]↓[AzureDeltaLake]←→[DatabricksSQLAnal
优化Apache Spark性能之JVM参数配置指南 weixin_30777913 jvm spark 大数据开发语言性能优化
ApacheSpark运行在JVM之上，JVM的垃圾回收（GC）、内存管理以及堆外内存使用情况，会直接对Spark任务的执行效率产生影响。因此，合理配置JVM参数是优化Spark性能的关键步骤，以下将详细介绍优化策略和配置建议。通过以下优化方法，可以显著减少GC停顿时间、提升内存利用率，进而提高Spark作业吞吐量和数据处理效率。同时，要根据具体的工作负载和集群配置进行调整，并定期监控Spark应
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
【新品发售】NVIDIA 发布全球最小个人 AI 超级计算机 DGX Spark segmentfault
GTC2025大会上，NVIDIA正式推出了搭载NVIDIAGraceBlackwell平台的个人AI超级计算机——DGXSpark。赞奇可接受预订，直接私信后台即刻预订！DGXSpark(前身为ProjectDIGITS)支持AI开发者、研究人员、数据科学家和学生，在台式电脑上对大模型进行原型设计、微调和推理。用户可以在本地运行这些模型，或将其部署在NVIDIADGXCloud或任何其他加速云或
Kafka Connect Node.js Connector 指南丁操余
KafkaConnectNode.jsConnector指南kafka-connectequivalenttokafka-connect:wrench:fornodejs:sparkles::turtle::rocket::sparkles:项目地址:https://gitcode.com/gh_mirrors/ka/kafka-connect项目介绍KafkaConnectNode.jsConn
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
Hive与Spark的UDF：数据处理利器的对比与实践窝窝和牛牛 hive spark hadoop
文章目录Hive与Spark的UDF：数据处理利器的对比与实践一、UDF概述二、HiveUDF解析实现原理代码示例业务应用三、SparkUDF剖析-JDBC方式使用SparkThriftServer设置通过JDBC使用UDFSparkUDF的Java实现（用于JDBC方式）通过beeline客户端连接使用业务应用场景四、Hive与SparkUDF在JDBC模式下的对比五、实际部署与最佳实践六、总结
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
元戎启行最新战略RoadAGI：所有移动智能体都将被AI驱动量子位
2025年3月18日（北京时间），元戎启行作为国内人工智能企业代表，出席由NVIDIA主办的GTC大会。会上，公司CEO周光发表了技术主题演讲，展示了公司的最新战略布局RoadAGI，并发布道路通用人工智能平台——AISpark（以下简称”Spark平台”）。RoadAGI是元戎启行实现物理世界通用人工智能的关键一步，旨在让包括智能驾驶汽车在内的移动智能体，都具有在道路上自主行驶、与物理世界深度交
SparkSQL编程-RDD、DataFrame、DataSet 早拾碗吧 Spark spark hadoop 大数据 sparksql
三者之间的关系在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD(Spark1.0)—>Dataframe(Spark1.3)—>Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
pyspark 遇到**Py4JJavaError** Traceback (most recent call last) ~\AppData\ 2pi spark python
Py4JJavaErrorTraceback(mostrecentcalllast)~\AppData\Local\Temp/ipykernel_22732/1401292359.pyin---->1feat_df.show(5,vertical=True)D:\Anaconda3\envs\recall-service-cp4\lib\site-packages\pyspark\sql\data
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Spark 解析_spark.sparkContext.getConf().getAll() 闯闯桑 spark 大数据分布式
spark.sparkContext.getConf().getAll()是ApacheSpark中的一段代码，用于获取当前Spark应用程序的所有配置项及其值。以下是逐部分解释：代码分解：spark：这是一个SparkSession对象，它是Spark应用程序的入口点，用于与Spark集群进行交互。spark.sparkContext：sparkContext是Spark的核心组件，负责与集群通
Pandas与PySpark混合计算实战：突破单机极限的智能数据处理方案 Eqwaak00 Pandas pandas 学习 python 科技开发语言
引言：大数据时代的混合计算革命当数据规模突破十亿级时，传统单机Pandas面临内存溢出、计算缓慢等瓶颈。PySpark虽能处理PB级数据，但在开发效率和局部计算灵活性上存在不足。本文将揭示如何构建Pandas+PySpark混合计算管道，在保留Pandas便捷性的同时，借助Spark分布式引擎实现百倍性能提升，并通过真实电商用户画像案例演示全流程实现。一、混合架构设计原理1.1技术栈优势分析维度P
自定义Spark启动的metastore_db和derby.log生成路径节昊文 spark 大数据分布式
1.进入安装spark目录的conf目录下2.复制spark-defaults.conf.template文件为spark-defaults.conf3.在spark-defaults.conf文件的末尾添加一行：spark.driver.extraJavaOptions-Dderby.system.home=/log即生成的文件存放的目录
介绍 Apache Spark 的基本概念和在大数据分析中的应用佛渡红尘 apache
ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。相比于传统的MapReduce框架，Spark具有更快的数据处理速度和更强大的计算能力。ApacheSpark的基本概念包括：弹性分布式数据集（RDD）：是Spark中基本的数据抽象，是一个可并行操作的分区记录集合。RDD可以在集群中的节点间进行分布式计算。转换（Transform
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
Hive 与 SparkSQL 的语法差异及性能对比自然术算 Hive hive hadoop 大数据 spark
在大数据处理领域，Hive和SparkSQL都是极为重要的工具，它们为大规模数据的存储、查询和分析提供了高效的解决方案。虽然二者都致力于处理结构化数据，并且都采用了类似SQL的语法来方便用户进行操作，但在实际使用中，它们在语法细节和性能表现上存在诸多差异。了解这些差异，对于开发者根据具体业务场景选择合适的工具至关重要。语法差异数据定义语言（DDL）表创建语法Hive：在Hive中创建表时，需要详细
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源