yu616568

Parquet与ORC性能测试报告

一、环境说明

Hadoop集群：使用测试Hadoop集群，节点：

hadoop230
hadoop231
hadoop232
hadoop233

这几台机器配置一样，具体参数可参考如下：
CPU数量：2个
CPU线程数：32个
内存：128GB
磁盘：48TB

使用测试机群上的同一个队列，使用整个集群的资源，所有的查询都是无并发的。

Hive使用官方的hive 1.2.1版本，使用hiveserver2的方式启动，使用本机的mysql存储元数据。

二、测试数据生成

测试数据为TPC-DS基准测试的数据，官方文档：http://www.tpc.org/information/current_specifications.asp，这个数据集一共24个表：7个事实表，17个维度表，每一个事实表和大部分的维度表组成雪花模型，scale_factor设置为100，也就是生成100GB的数据。

2.1 下载hive-testbench

git clone https://github.com/hortonworks/hive-testbench

这个项目是用于生成TPC-DS数据集并且将其导入到hive，在使用之前需要保证已经将hive、hadoop等命令加入到PATH中。

2.2 编译

进入该目录，执行./tpcds-build.sh，该命令会从TPC-DS下载源代码，并编译，初始化metaStore，为导入数据到hive做准备。

2.3 导入数据

导入ORC数据：./tpcds-setup.sh 100 默认的文件格式就是ORC，所以不需要指定存储格式。
导入Parquet数据：FORMAT=parquet ./tpcds-setup.sh 100 指定文件格式为Parquet
参数100表示生成100GB的数据，改程序首先会生成text格式的数据到临时目录，然后再将这些数据转换成orc或者parquet格式。

2.4 执行测试

该项目在sample-queries-tpcds/testbench.settings文件中给出了一些hive的配置，在启动hive之前设置这些参数，在sample-queries-tpcds目录下给出了65个测试SQL，这部分是可以在hive上跑的TPC-DS查询，通过参考之前的测试，选择了其中的50个查询用于本次测试。

本次测试主要对比orc文件格式和parquet文件格式之间的查询性能，并和未压缩的text格式进行对比。hive通过hiveserver2后台运行，客户端通过jdbc的方式分别执行每一条查询，对比查询使用的Wall Time（每次查询结束的时间戳减去查询之前的时间戳）。

2.5 测试数据模型

Parquet与ORC性能测试报告_第1张图片

测试使用的数据是TPC-DS数据集中以store_sales为事实表的一个雪花状模型，不同的场景基于这个数据集构造不同的表结构。

三、测试程序

输入参数为待测试的数据库列表、待测的SQL和循环轮次N
重复执行N轮查看，每一轮开始之前向hiveserver2为每一个数据库创建一个connection，然后顺序的执行每一个待测的SQL，* 执行顺序为对dbA执行query1、对dbB执行query1，对dbC执行query1，对dbA执行query2…由于每一个数据存储在不同的目录下，可以避免缓存等其他因素的影响。
每一轮结束之后重新销毁之前的connection，重新重复2.
时间统计：统计执行每一个sql消耗的时间。
对比的存储格式：TEXT格式、ORC格式和Parquet格式
所有的查询都是无并发的，防止查询之间的影响

四、场景设置

场景一：多个事实表、多个维度表，复杂的join查询

不需要修改任何数据，直接在TPC-DS数据集上执行查询。text表不是分区表（100个reducer生成），另外两种存储格式的事实表是根据data_id进行分区的分区表，执行了两次测试：1、执行全部的50个查询，2、选取符合测试数据模型的查询，分别为query27,query7,query28,query67,query82,query42,query43,query46,query73,query96，执行N此查询，计算平均值。

场景二：维度表和事实表join之后生成的宽表，只在一个表上做查询。

选取数据模型中的store_sales, household_demographics, customer_address, date_dim, store表生成一个扁平式宽表(store_sales_wide_table)，基于这个表执行查询，由于场景一种选择的query大多数不能完全match到这个宽表，所以使用了一些新的查询sql，表的模型、load数据的sql和查询可以参考附件。

场景三：复杂的数据结构组成的宽表，struct、list、map等（1层）

在场景二的基础上，将维度表（除了store_sales表）转换成一个struct或者map对象，源store_sales表中的字段保持不变。生成有一层嵌套的新表（store_sales_wide_table_one_nested），使用的查询逻辑和场景二中相同，修改sql以满足新的表结构。表的模型、load数据的sql和查询可以参考附件。

场景四：复杂的数据结构，多层嵌套。（3层）

在场景三的基础上，将部分维度表的struct内的字段再转换成struct或者map对象，只存在struct中嵌套map的情况，最深的嵌套为三层。生成一个多层嵌套的新表（store_sales_wide_table_more_nested），使用的查询逻辑和场景三中相同，修改sql以满足新的表结构。表的模型、load数据的sql和查询可以参考附件。

五、测试结果

每一种场景下对比测试主要关注两个方面：1、测试数据的大小，以对比不同的文件格式在存储上的优劣，2、相同场景中的不同文件格式查询时间对比。另外，在场景二、场景三、场景四中向新表中导数据的速度为ORC > parquet > text

场景一

该场景中设计到TPC-DS中全部的表，以store_sales表为例，该表的记录数：287,997,024，文件大小为：

原始Text格式，未压缩 : 38.1 G
ORC格式，默认压缩（ZLIB）,一共1800+个分区 : 11.5 G
PARQUET格式，默认压缩（Snappy?），一共1800+个分区： 14.8 G

测试1(执行全部50个查询)结果：

Parquet与ORC性能测试报告_第2张图片

说明：原始Text格式相差并不大，甚至有的更优？！可能原因是在多个表join的情况下，每一个查询需要多达10+个MR任务处理，而这些查询文件存储格式之间的查询主要存在于前几个读取原始表记录的job，而后面的任务相差并不大，进而导致查询时间的差异减小，从后面单个宽表的测试结果可以看到，Text和其它两种列式存储格式的性能上的差异还是挺大的。

测试2(执行其中10条查询)结果：

说明：和测试1类似，相差不大，对于query82，ORC格式差很多？！

场景二

该场景中只涉及到了一个宽表，并且没有任何分区字段，store_sales_wide_table表记录数：263,704,266，表大小为：

原始Text格式，未压缩： 149.0 G
ORC格式，默认压缩： 10.6 G 比store_sales表还小？
PARQUET格式，默认压缩： 12.5 G 比store_sales表还小？

查询测试结果：

Parquet与ORC性能测试报告_第3张图片

场景三

该场景中只涉及一个嵌套的宽表，没有任何分区字段，store_sales_wide_table_one_nested表记录数：263,704,266，表大小为：

原始Text格式，未压缩： 245.3 G
ORC格式，默认压缩： 10.9 G 比store_sales表还小？
PARQUET格式，默认压缩： 29.8 G

查询测试结果：

Parquet与ORC性能测试报告_第4张图片

场景四

该场景中只涉及一个多层嵌套的宽表，没有任何分区字段，store_sales_wide_table_more_nested表记录数：263,704,266，表大小为：

原始Text格式，未压缩： 222.7 G
ORC格式，默认压缩： 10.9 G 比store_sales表还小？
PARQUET格式，默认压缩： 23.1 G 比一层嵌套表store_sales_wide_table_one_nested要小？

查询测试结果：

Parquet与ORC性能测试报告_第5张图片

六、总结

本文使用HIVE对三种不同的文件存储格式——Text、ORC和Parquet进行了对比测试，从测试结果来看，星状模型对于数据分析场景并不是很合适，多个表的join会大大拖慢查询速度，并且不能很好的利用列式存储带来的性能提升，在使用宽表的情况下，ORC文件格式在存储空间上要远优于Text格式，较之于PARQUET格式有一倍的存储空间提升，在导数据（insert into table select 这样的方式）方面ORC格式也要优于PARQUET，在最终的查询性能上可以看到，无论是无嵌套的扁平式宽表，或是一层嵌套表，还是多层嵌套的宽表，两者的查询性能相差不多，较之于Text格式有2到3倍左右的提升，在query_join2这个查询中，使用宽表和另外一个维度表执行join查询的时候，ORC要优于PARQUET格式。

另外，通过对比场景二和场景三的测试结果，可以发现扁平式的表结构要比嵌套式结构的查询性能有所提升，所以如果选择使用大宽表，则设计宽表的时候尽可能的将表设计的扁平化，减少嵌套数据。

通过这三种文件存储格式的测试对比，ORC文件存储格式无论是在空间存储、导数据速度还是查询速度上表现的都较好一些，并且ORC可以一定程度上支持ACID操作，社区的发展目前也是Hive中比较提倡使用的一种列式存储格式，另外，本次测试主要针对的是Hive引擎，所以不排除存在Hive与ORC的敏感度比PARQUET要高的可能性。

你可能感兴趣的:(hadoop,hive,Parquet,列式存储,ORC)

Apache ZooKeeper 分布式协调服务 slovess 分布式 apache zookeeper
1.ZooKeeper概述1.1定义与定位核心定位：分布式系统的协调服务，提供强一致性的配置管理、命名服务、分布式锁和集群管理能力核心模型：基于树形节点（ZNode）的键值存储，支持Watcher监听机制生态地位：Hadoop/Kafka等生态核心依赖，分布式系统基础设施级组件1.2设计目标强一致性：所有节点数据最终一致（基于ZAB协议）高可用性：集群半数以上节点存活即可提供服务顺序性：全局唯一递
Hadoop常用端口号海洋之心 Hadoop问题解决 hadoop hbase 大数据
Hadoop是一个由多个组件构成的分布式系统，每个组件都会使用一些特定的端口号来进行通信和交互。以下是Hadoop2.x常用的端口号列表：HDFS端口号：NameNode：50070SecondaryNameNode：50090DataNode：50010DataNode（数据传输）：50020YARN端口号：ResourceManager：8088NodeManager：8042MapReduc
python编译成dll文件_Python 调用DLL文件 weixin_39682511 python编译成dll文件
http://blog.csdn.net/magictong/archive/2008/10/14/3075478.aspx貌似原文的网页服务器有问题，总是load不全，所以备个份：Python调用windows下DLL详解在python中某些时候需要C做效率上的补充，在实际应用中，需要做部分数据的交互。使用python中的ctypes模块可以很方便的调用windows的dll（也包括linux下
Hadoop综合项目——二手房统计分析（可视化篇） WHYBIGDATA 大数据项目 hadoop 大数据
Hadoop综合项目——二手房统计分析（可视化篇）文章目录Hadoop综合项目——二手房统计分析（可视化篇）0、写在前面1、数据可视化1.1二手房四大一线城市总价Top51.2统计各个楼龄段的二手房比例1.3统计各个城市二手房标签的各类比例1.4统计各个城市各个楼层的平均价格1.5统计各个城市二手房优势的各类比例1.6统计各个城市二手房数量和关注人数的关系1.7统计各个城市二手房规格的各类比例1.
大数据之-hdfs+hive+hbase+kudu+presto集群(6节点) 管哥的运维私房菜大数据 hdfs hive kudu presto hbase
几个主要软件的下载地址：prestohttps://prestosql.io/docs/current/index.htmlkudurpm包地址https://github.com/MartinWeindel/kudu-rpm/releaseshivehttp://mirror.bit.edu.cn/apache/hive/hdfshttp://archive.apache.org/dist/ha
高可用（HA）架构 weixin_34344403 运维系统架构 java
http://aokunsang.iteye.com/blog/2053719浅谈web应用的负载均衡、集群、高可用(HA)解决方案http://zhuanlan.51cto.com/art/201612/524201.htm互联网架构“高可用”http://www.blogjava.net/ivanwan/archive/2013/12/25/408014.htmlLVS/Nginx/HAPro
go hive skynet_MMORPG游戏服务器技术选型参考-Go语言中文社区 weixin_39908948 go hive skynet
游戏服务器一般追求稳定和效率，所以偏向于保守，使用的技术手段也是以已经过验证、开发人员最熟悉、能HOLD为主要前提。1、典型按场景分服设计开发语言：c++数据库：mysql架构：多个网关：维持与玩家间的SOCKET连接，可处理广播、断线重连等逻辑。一个或多个账号登陆验证服务器：处理登陆、排队等逻辑。多个场景服务器：处理在本地图上能解决的逻辑，如：打怪、玩家间战斗、接任务、完成任务等各种不需要跨地图
Linux安装Anaconda、Miniconda 让我安静会配置与安装 linux 运维服务器
Anaconda下载：https://repo.anaconda.com/archive/MinicondaDocument：https://docs.conda.io/projects/miniconda/en/latest/index.html进入Linux系统，到/data/file/文件夹下，直接将anaconda下载到该文件夹中：wgethttps://repo.anaconda.com
spark任务运行冰火同学 Spark spark 大数据分布式
运行环境在这里插入代码片[root@hadoop000conf]#java-versionjavaversion"1.8.0_144"Java(TM)SERuntimeEnvironment(build1.8.0_144-b01)[root@hadoop000conf]#echo$JAVA_HOME/home/hadoop/app/jdk1.8.0_144[root@hadoop000conf]#
Hadoop 的分布式缓存机制是如何实现的？如何在大规模集群中优化缓存性能？晚夜微雨问海棠呀分布式 hadoop 缓存
Hadoop的分布式缓存机制是一种用于在MapReduce任务中高效分发和访问文件的机制。通过分布式缓存，用户可以将小文件（如配置文件、字典文件等）分发到各个计算节点，从而提高任务的执行效率。分布式缓存的工作原理文件上传：用户将需要缓存的文件上传到HDFS（HadoopDistributedFileSystem）。文件路径可以在作业配置中指定。作业提交：在提交MapReduce作业时，用户可以通过
集群与分片：深入理解及应用实践一休哥助手架构系统架构
目录引言什么是集群？集群的定义集群的类型什么是分片？分片的定义分片的类型集群与分片的关系集群的应用场景负载均衡高可用性分片的应用场景大数据处理数据库分片集群与分片的架构设计系统架构设计数据存储设计案例分析Hadoop集群Elasticsearch分片性能优化策略集群性能优化分片性能优化挑战和解决方案总结参考资料引言在现代计算系统中，处理大规模数据和提高系统的可靠性已经成为了基础需求。集群和分片是两
hive spark读取hive hbase外表报错分析和解决 spring208208 hive hive spark hbase
问题现象使用Sparkshell操作hive关联Hbase的外表导致报错；hive使用tez引擎操作关联Hbase的外表时报错。问题1：使用tez或spark引擎，在hive查询时只要关联hbase的hive表就会有问题其他表正常。“org.apache.hadoop.hbase.client.RetriesExhaustedException:Can’tgetthelocations”问题2：s
【Python】解决PyTorch报错：PytorchStreamReader failed reading zip archive: failed finding central的解决方案 I'mAlex python pytorch 开发语言
在使用PyTorch时，遇到“PytorchStreamReaderfailedreadingziparchive:failedfindingcentral”错误通常是由于损坏的模型文件或不兼容的文件版本导致的。这种问题在加载模型或数据时比较常见。以下是一些排查和解决该问题的步骤。博主简介：现任阿里巴巴嵌入式技术专家，15年工作经验，深耕嵌入式+人工智能领域，精通嵌入式领域开发、技术管理、简历招聘
解释归档和非归档模式之间的不同和他们的各自的优缺点？思维导图代码示例（java 架构) 用心去追梦 java 架构 oracle
归档模式（ArchiveMode）和非归档模式（NoArchiveMode）是数据库管理系统中两种不同的日志记录方式，主要用于控制如何处理重做日志文件。这两种模式对数据库的恢复能力、性能以及备份策略有着重要影响。归档模式vs非归档模式归档模式（ArchiveMode）定义：当启用归档模式时，数据库会将填满的在线重做日志文件复制到一个或多个归档位置。作用：支持完整的数据库恢复，包括介质故障后的恢复。
Ubuntu下配置安装Hadoop 2.2 weixin_30501857 大数据 java 运维
---恢复内容开始---这两天玩Hadoop，之前在我的Mac上配置了好长时间都没成功的Hadoop环境，今天想在win7虚拟机下的Ubuntu12.0464位机下配置，然后再建一个组群看一看。参考资料：1.InstallingsinglenodeHadoop2.2.0onUbuntu：http://bigdatahandler.com/hadoop-hdfs/installing-single-
windows 安装nvidaia驱动和cuda njl_0114 配置环境 windows
安装nvidaia驱动和cuda官网搜索下载驱动https://www.nvidia.cn/drivers/lookup/这里查出来的都是最高支持什么版本的cuda安装时候都默认精简就行官网下载所需版本的cuda包https://developer.nvidia.com/cuda-toolkit-archive安装成功但是nvcc-V失败，除了安装时候默认的加入的环境变量外。添加环境变量C:\Pr
2014 6月，比较老了金金2019
AwesomeBigDataAcuratedlistofawesomebigdataframeworks,resourcesandotherawesomeness.Inspiredbyawesome-php,awesome-python,awesome-ruby,hadoopecosystemtable&big-data.Yourcontributionsarealwayswelcome!Awes
记一次hivemetastore启动报错不吃饭的猪 hive
1，启动hivemetastore后报错日志2，排查lib下的mysql的驱动也在，这里和mysql的驱动大小一样3，把hive-site.xml中无关的配置都删掉，重启metastore还是报错4，最后排查，这个节点rpm部署了hive,现在只是copy了一个hive的目录过来，导致/usr/bin/hive这个里面和现在部署的安装包不是同一个
Hive服务启动之 metastore配置和 hiveserver2 龍浮影 hive
Hive服务启动之metastore服务配置和hiveserver2 配置hive的时候都需要配置hive-site.xml，配置过程中可以选择hive直连或者使用metastore服务间接连接，那么他们之间有什么区别呢？首先贴直连配置代码：javax.jdo.option.ConnectionURLjdbc:mysql://hadoop102:3306/metastore?useSSL=fal
maven插件学习(maven-shade-plugin和maven-antrun-plugin插件) catcher92 java maven maven 学习大数据
整合spark3.3.x和hive2.1.1-cdh6.3.2碰到个问题，就是spark官方支持的hive是2.3.x，但是cdh中的hive确是2.1.x的，项目中又计划用spark-thrift-server，导致编译过程中有部分报错。其中OperationLog这个类在hive2.3中新增加了几个方法，导致编译报错。这个时候有两种解决办法：修改spark源码，注释掉调用OperationLo
hive的metastore和hiveserver2服务的启动要开心吖ZSH hive hive hadoop 大数据
1、描述nohup:放在命令开头，表示不挂起，也就是关闭终端进程也继续保持运行状态/dev/null：是Linux文件系统中的一个文件，被称为黑洞，所有写入改文件的内容都会被自动丢弃2>&1:表示将错误输出重定向到标准输出上第一个2表示错误输出，另外0表示标准输入，1表示标准输出&:放在命令结尾,表示后台运行一般会组合使用:nohup[xxx命令操作]>file2>&1&，表示将xxx命令运行的结
centos7 安装单机 ClickHouse 小码农叔叔大数据 clickhouse安装 clickhouse单机安装 clickhouse单节点安装安装单机clickhouse
前言ClickHouse是俄罗斯的Yandex于2016年开源的列式存储数据库（DBMS），使用C++语言编写，主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告本篇首先介绍下如何基于centos7环境安装单机版的clickhouse官网：https://clickhouse.com/环境准备centos7环境（虚拟机或者云服务器）clickhouse基础安装包安装前置步
CentOS7 部署安装ClickHouse zhua.er ClickHouse 数据库 ClickHouse
一、什么是ClickHouseClickHouse是俄罗斯的Yandex于2016年开源的列式存储数据库（DBMS），使用C++语言编写，主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。OLAP场景需要在大型数据集上对具有以下特征的复杂分析查询进行实时响应：数据集可以是巨大的——数十亿或数万亿行数据组织在包含多列的表中只选择少数几列来回答任何特定的查询必须以毫秒或秒为
5. clickhouse 单节点多实例部署 Toroidals 大数据组件安装部署教程 clickhouse 单节点多实例伪分布安装部署
环境说明：主机名：cmc01为例操作系统：centos7安装部署软件版本部署方式centos7zookeeperzookeeper-3.4.10伪分布式hadoophadoop-3.1.3伪分布式hivehive-3.1.3-bin伪分布式clickhouse21.11.10.1-2单节点多实例dolphinscheduler3.0.0单节点kettlepdi-ce-9.3.0.0单节点sqoop
时序数据库技术体系 – 初识InfluxDB（原理） weixin_30622181 数据库大数据系统架构
原贴地址：http://hbasefly.com/2017/12/08/influxdb-1/?qytefg=c4ft23在上篇文章《时序数据库体系技术–时序数据存储模型设计》中笔者分别介绍了多种时序数据库在存储模型设计上的一些考虑，其中OpenTSDB基于HBase对维度值进行了全局字典编码优化，Druid采用列式存储并实现了Bitmap索引以及局部字典编码优化，InfluxDB和Beringe
蓝易云 - HBase基础知识蓝易云 hbase 数据库大数据 php python 人工智能
HBase是一个分布式、可伸缩、列式存储的NoSQL数据库，它建立在Hadoop的HDFS之上，提供高可靠性、高性能的数据存储和访问。以下是HBase的基础知识：数据模型：HBase以表的形式存储数据，每个表由行和列组成，可以动态添加列族。每行由唯一的行键标识，列族和列限定符（Qualifier）用于唯一标识列。架构：HBase采用分布式架构，数据被分散存储在多个RegionServer上，每个R
Hive空字符串‘‘与NULL值对比 Lens5935 Hive sql hive 大数据
Hive里null值和空字符串是两个不同的东西。NULL值【\N】，较为常见，就是所谓的空值，字段没有值。空字符串【''】，通常多为人为指定。数据类型对于空值的存储规则：int与string类型，null默认存储为\N，int类型插入“”时，结果还是\Nstring类型的数据如果为“”，存储则是“”空值的查询规则：int类型，用isnull来判断空值；string类型，用isnull判断\N的数据
java获取hive表所有字段,Hive Sql从表中动态获取空列计数拾亿年 java获取hive表所有字段
我正在使用datastaxspark集成和sparkSQLthrift服务器,它为我提供了一个HiveSQL接口来查询Cassandra中的表.我的数据库中的表是动态创建的,我想要做的是仅根据表名在表的每列中获取空值的计数.我可以使用describedatabase.table获取列名,但在hiveSQL中,如何在另一个为所有列计数null的select查询中使用其输出.更新1：使用Dudu的解决
hivemetastore 连接过多导致sql查询慢 sunxunyong sql 数据库
MetaStore(DB)修改对应的处理连接数maxConnectionsPerPartition建议设置成100(不能超过最大值300)，重启Hive服务。建议值100是根据与工行规模相当集群的设置作参考，尽量大满足连接数请求的同时考虑connection占用资源(如果connection太多会占用太多的内存资源)的角度做出的一个综合评估值。原因分析metastore采用了线程池，若使用连接数达
解锁Archive of Our Own的无限可能 sgsdhd sqlite oracle json sql database redis
项目介绍AO3API是一个非官方的Python库，旨在通过编程方式访问ArchiveofOurOwn（AO3）网站的数据。AO3是一个广受欢迎的同人作品存档网站，拥有大量的同人小说、评论和用户数据。通过AO3API，开发者可以轻松地获取、处理和分析这些数据，从而为同人社区带来更多创新的应用和服务。项目技术分析AO3API的核心功能被划分为九个模块：works、chapters、users、seri
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他