错误集锦
tomcat
- tomcat无法启动:注释远程调试
tomcat/bin/catalina.sh
中的 #CATALINA_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,address=19000,server=y,suspend=n"
mysql
- 连接服务器
mysql -uusername -p1234556 -hdb.org --port=5003
visualbox 配置
- 配置Ubuntu server 固定ip
- 为了配置访问外部网路以及和宿主机互联,在vb
管理->主机网络管理器->手动配置网卡
->配置仅主机网络属性:ip和网络掩码 - 具体虚拟机(如ubuntu),
设置->网络->网卡1
选择网络地址转换(NAT)
,混杂模式(全部允许)
,网卡2
:选择仅主机网络 - 启动虚拟主机,配置ip:
sudo vim /etc/network/interfaces
,配置如下
# This file describes the network interfaces available on your system
# and how to activate them. For more information, see interfaces(5).
# The loopback network interface
auto lo
iface lo inet loopback
# The primary network interface
auto eth0
iface eth0 inet dhcp
auto eth1
iface eth1 inet static
address 192.168.1.101
netmask 255.255.255.0
复制代码
- 配置域名解析DNS
sudo vim /etc/resolvconf/resolv.conf.d/base
# 根据个人电脑设置
# ipconfig /all windows查看
nameserver 8.8.8.8
复制代码
sudo reboot
重启即可
windows
指令
- 端口查看:
netstat -aon | findstr 16661
- 任务kill:
taskkill /F /PID 14560
linux
指令
- 获取日期:
date +%Y%m%d -d '+1 day/min'
,转换成时间戳date -d '2013-2-22 22:14' +%s
, 时间戳转换成日期date -d @1512088011 +'%Y%m%d'
- 查看端口:
netstat -aon
lsof -p
(list open file):查看进程使用的文件,-p指定pid
q&s
awk -F"\t" '{if($2 == "1"){print $1}}' | less
,无法匹配出数据
grep 后面 跟less/more不会对查询结果标红
fe
-
修改css后页面没有刷新
缓存问题,可以在css加载语句的后面添加?v=1.0.0让浏览器重新加载资源。
-
js find 过滤器
var rs = extObj.find("tr[role!='head'][role!='foot']");
实现多重条件选择
idea
-
Jetty 热部署
- pom 文件
org.mortbay.jetty jetty-maven-plugin 1 9977 foo 0 "org.eclipse.jetty.server.nio.SelectChannelConnector"> 8080 60000 / ctrl+shift+f9
重新build当前文件ctrl+f9
重新build整个目录- project structure -> Modules paths 设置build的class文件目录(注意放到web项目的目录下面,如target\nss\WEB-INF\classes)
java
q&s
问题:
2017-10-25 21:52:17,528 FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: Direct buffer memory
复制代码
解决: reduce 阶段,申请使用操作系统的内存,没有控制好,出现了内存泄露,导致的内存溢出。申请内存超过8192MB和不能被1024MB整除的资源请求
jvm
-Xmx
Java Heap最大值,默认值为物理内存的1/4,最佳设值应该视物理内存大小及计算机内其他内存开销而定;-Xms
Java Heap初始值,Server端JVM最好将-Xms和-Xmx设为相同值,开发测试机JVM可以保留默认值;-Xmn
Java Heap Young区大小,不熟悉最好保留默认值;-Xss
每个线程的Stack大小,不熟悉最好保留默认值;
hadoop
notice
-
Map和Reduce阶段不能对集合进行写操作。即使写了在reduce阶段也读不出来。
map和reduce会在不同的服务器上操作,全局变量无法生效。 1、通过Configuration保存String变量; 2、在reduce或者map阶段读取小文件存入内存,进行操作。
-
reduce阶段,==Iterable的迭代只能遍历一次==,第二次遍历后没有数据,所以会造成结果匹配错误。所以应该先将数据保存,再遍历。
-
set class 要在set configuration之后这样才会保存配置
-
如果reduce的Value不输出值得话,返回类型用NullWritable.get(),这样可以保证文件中在key的后面不会出现tab
-
Mapper Reducer类的子类要是static,否则会报初始化错误
-
==对于MR的return要谨慎使用,防止跳出,部分结果无法输出==
hdfs 操作指令
- hadoop fs -stat [option] hdfsfilepath
%b:打印文件大小(目录为0)
%n:打印文件名
%o:打印block size (我们要的值)
%r:打印备份数
%y:打印UTC日期 yyyy-MM-dd HH:mm:ss
%Y:打印自1970年1月1日以来的UTC微秒数
%F:目录打印directory, 文件打印regular file
复制代码
-
hadoop job -status jobid job_1509011180094_5418072
结果说明:
Uber job : false-----uber模式:false,Uber模式简单地可以理解成JVM重用。
以Uber模式运行MR作业,所有的Map Tasks和Reduce Tasks将会在ApplicationMaster所在的容器(container)中运行,
也就是说整个MR作业运行的过程只会启动AM container,因为不需要启动
mapper 和reducercontainers,所以AM不需要和远程containers通信,整个过程简单了。
Number of maps: 13702 -----map总数:
Number of reduces: 500 -----reduces总数
map() completion: 1.0
reduce() completion: 1.0
Job state: SUCCEEDED -----job状态
retired: false
reason for failure: -----failure原因
Counters: 58 -----counter总数
File System Counters -----这个group表示job与文件系统交互的读写统计
FILE: Number of bytes read=0 -----job读取本地文件系统的文件字节数。假定我们当前map的输入数
据都来自于HDFS,那么在map阶段,这个数据应该是0。但reduce在在执
行前,它的输入数据是经过Shuffle的merge后存储在reduce端本地磁盘
中,所以这个数据就是所有reduce的总输入字节数。
FILE: Number of bytes written=5654852533 -----map的中间结果都会spill到本地磁盘中,在map执行完后,形成
最终的spill文件。所以map端这里的数据就表示MapTask往本地磁盘
中共写了多少字节。与Map端相对应的是,reduce端在Shuffle时,会
不断拉取Map端的中间结果,然后做merge并不断spill到自己的本地
磁盘中。最终形成一个单独文件,这个文件就是reduce的输入文件。
FILE: Number of read operations=0 -----
FILE: Number of large read operations=0
FILE: Number of write operations=0
HDFS: Number of bytes read=3560544443952 -----job执行过程中,累计写入HDFS的数据大小,整个job执行过程中
,只有map端运行时,才会从HDFS读取数据,这些数据不限于源文件
内容,还包括所有map的split元数据。所以这个值应该比
FileInputFormatCounter.BYTES_READ要略大些。
HDFS: Number of bytes written=317076139 -----Reduce的最终结果都会写入HDFS,就是一个Job执行结果的总量。
HDFS: Number of read operations=70010
HDFS: Number of large read operations=0
HDFS: Number of write operations=4491
VIEWFS: Number of bytes read=0
VIEWFS: Number of bytes written=0
VIEWFS: Number of read operations=0
VIEWFS: Number of large read operations=0
VIEWFS: Number of write operations=0
Job Counters -----这个group描述与job调度相关的统计
Killed map tasks=4
Launched map tasks=13706 -----此job启动了多少个map task
Launched reduce tasks=500 -----此job启动了多少个reduce task
Data-local map tasks=13043 -----Job在被调度时,如果启动了一个data-local(源文件的副本在执行map task的TaskTracker本地)
Rack-local map tasks=663 ----- 处理的文件不在map task节点上
Total time spent by all maps in occupied slots (ms)=437335720 -----所有map task占用slot的总时间,包含执行时间和创建/销毁子JVM的时间
Total time spent by all reduces in occupied slots (ms)=83963148 -----
Total time spent by all map tasks (ms)=218667860
Total time spent by all reduce tasks (ms)=27987716
Total vcore-seconds taken by all map tasks=218667860
Total vcore-seconds taken by all reduce tasks=27987716
Total megabyte-seconds taken by all map tasks=557165707280
Total megabyte-seconds taken by all reduce tasks=128631542736
Map-Reduce Framework -----这个Countergroup包含了相当多的job执行细节数据。
这里需要有个概念认识是:一般情况下,record就表示一行数据,
而相对的byte表示这行数据的大小是多少,这里的group
表示经过reduce merge后像这样的输入形式{
"aaa",[5,2,8,...]}
"Map input records=4486906030" -----所有MapTask从HDFS读取的文件总行数
Map output records=93940285 -----MapTask的直接输出record是多少,就是在map方法中调用
context.write的次数,也就是未经过Combine时的原生输出条数。
Map output bytes=5011599765 -----Map的输出结果key/value都会被序列化到内存缓冲区中,
所以这里的bytes指序列化后的最终字节之和。
Map output materialized bytes=3532812262 -----map 输出物化到磁盘的数据量,
也就是reduce shuffle的数据量
Input split bytes=2839207
"Combine input records=93940285" -----Combiner是为了尽量减少需要拉取和移动的数据
"Combine output records=79274144" -----经过Combiner后,相同key的数据经过压缩,
在map端自己解决了很多重复数据,表示最终在map端中间
文件中的所有条目数
Reduce input groups=13757989 -----Reduce总共读取了多少个这样的groups,
等于reduce处理的key个数
"Reduce shuffle bytes=3532812262" -----Reduce端的copy线程总共从map端抓去了多少的中间数据
,表示各个MapTask最终的中间文件总和。
"Reduce input records=79274144" -----如果有Combiner的话,那么这里的数值就会等于Map端
Combiner运算后的最后条数,如果没有,那么就会等于Map的输出条数
Reduce output records=0 -----所有reduce执行后输出的总条目数
"Spilled Records=79274144" -----spill过程在map和reduce端都会发生,
这里统计的是总共从内存往磁盘中spill了多少条数据。
Shuffled Maps =6851000 -----每个reduce几乎都得从所有Map端拉取数据,
每个copy线程拉取成功一个map的数据,那么增1,
所以它的总数基本等于reduce number*(map number - fiald)
Failed Shuffles=0 -----copy线程在抓取map端中间数据时,
如果因为网络连接异常或是IO异常,所引起的Shuffle错误次数。
"Merged Map outputs=6851000" -----记录着Shuffle过程中总共经历了多少次merge动作
"GC time elapsed (ms)=2890881"
CPU time spent (ms)=299372980 -----job运行使用的cpu时间,是衡量任务的计算量
总结:任务运行使用的CPU时间=counter:
"Map-Reduce Framework:CPU time spent (ms)"
Physical memory (bytes) snapshot=12848748335104 -----进程的当前物理内存使用大小
Virtual memory (bytes) snapshot=45156357689344 -----进程的当前虚拟内存使用大小
Total committed heap usage (bytes)=31420302491648 -----获取jvm的当前堆大小
SHUFFLECOUNTER
SHUFFLE_IDLE_TIME=21427585
SHUFFLE_TOTAL_TIME=25507722
HIVE
CREATED_FILES=1
Shuffle Errors -----这组内描述Shuffle过程中的各种错误情况发生次数,
基本定位于Shuffle阶段copy线程抓取map端中间数据时的各种错误。
BAD_ID=0 -----每个map都有一个ID,
如attempt_201109020150_0254_m_000000_0,
如果reduce的copy线程抓取过来的元数据中的这个ID不是标准格式,
那么此Counter会增加。
CONNECTION=0 -----表示copy线程建立到map端的连接有误。
IO_ERROR=0 -----Reduce的copy线程如果在抓取map端数据时出现IOException,
那么这个值会相应增加。
WRONG_LENGTH=0 -----map端的那个中间结果是有压缩好的有格式数据,
它有两个length信息:元数据大小和压缩后数据大小。
如果这两个length信息传输的有误,那么此Counter会增加。
WRONG_MAP=0 -----每个copy线程当然是有目的的:为某个reduce抓取
某些map的中间结果,如果当前抓取的map数据不是copy
线程之前定义好的map,那么就表示把数据拉错了。
WRONG_REDUCE=0 -----与上述描述一致,如果抓取的数据表示它不是
为此reduce而准备的,那还是拉错数据了。
DESERIALIZE_ERRORS=0
File Input Format Counters
Bytes Read=0
File Output Format Counters
Bytes Written=0
复制代码
hadoop优化
mr job 流程
map
shuffle
-
io.sort.mb:100m
- 存储map中间数据的缓存默认大小,当map任务产生了非常大的中间数据时可以适当调大该参数,使缓存能容纳更多的map中间数据,而不至于大频率的IO磁盘,当系统性能的瓶颈在磁盘IO的速度上,可以适当的调大此参数来减少频繁的IO带来的性能障碍。
- 查看日志,spill次数多说明设置太低。(根据map的输出量进行设置)
-
io.sort.spill.percent:80%
达到一定百分比,从后台进程对buffer进行排序,然后spill到磁盘。如果map的输出基本有序可以适当提高这个阈值。
-
io.sort.factor:10
- 最多能有多少并行的stream向merge文件中写入
- 当一个map task执行完之后,本地磁盘上(mapred.local.dir)有若干个spill文件,map task最后做的一件事就是执行merge sort,把这些spill文件合成一个文件(partition),有时候我们会自定义partition函数,就是在这个时候被调用的。
- merge sort会生成两个文件,一个是数据文件,一个是index:记录每个不同的key在数据文件中的偏移量(这就是partition)
-
min.num.spill.for.combine:3
当job中设定了combiner,并且spill数最少有3个的时候, 那么combiner函数就会在merge产生结果文件之前运行。减少写入到磁盘文件的数据数量,同样是为了减少对磁盘的读写频率,有可能达到优化作业的目的。
-
mapred.compress.map.output:false
那么map在写中间结果时,就会将数据压缩后再写入磁盘,读结果时也会采用先解压后读取数据。cpu换IO
-
mapred.map.output.compression.codec:org.apache.hadoop.io.compress.De faultCodec(GzipCodec,LzoCodec,BZip2Codec,LzmaCodec)
当采用map中间结果压缩的情况下,用户还可以选择压缩时采用哪种压缩格式进行压缩
reduce
优化场景
-
Map逻辑处理后数据被展开,写磁盘次数剧增,可以观察日志中的spill次数,调整各个参数
-
中间结果能不展开就不展开,尽量缩小Mapper和reducer之间的数据传递
-
处理速度很慢时候首先要怀疑Mapper和Reducer之间传输数据量过大
-
观察GC的情况,有时候是因为内存占用量高,频繁GC,严重影响处理速
-
适当控制mapper的数量,特别是有distribute cache的场景
-
distribute cache
- 加载的数据能不用hashmap就尽量不要用,hashmap会使得内存占用量是原数据的5-10倍。
- 加载的数据要尽可能简单,如果有复杂的处理逻辑可以单独开辟Mapper Reducer进行一轮处理
- 避免每次mapper都要处理一遍,尽可能减少distribute cache的数据量
hadoop配置说明
tasktracker.http.threads:
决定作为server端的map用于提供数据传输服务的线程数
复制代码
mapred.reduce.parallel.copies:
决定作为client端的reduce同时从map端拉取数据的并行度(一次同时从多少个map拉数据)
复制代码
hive
notice
-
hive 查询,字段无法进行单引号比较,如p8='2',无法查到数据
当某一字段数据全是纯数字字符串的时候,它会自动转成数字去做比较。
-
10位的时间戳值,即1970-1-1至今的秒,可以用
from_unixtime()
转为时间,而13位的所谓毫秒的是不可以的;from_unixtime(cast(substring(t3.time ,1,10)as BIGINT), 'yyyyMMdd HH:mm:ss')
-
insert overwrite/into table 只会有mapjob,没有reducejob
-
增加reduce数目
- set hive.exec.reducers.bytes.per.reducer=500000000;
- set mapred.reduce.tasks = 15;
-
设置reduce的文件大小
set hive.merge.size.per.task = 10000000; set hive.merge.mapfiles=false; set hive.groupby.skewindata=true;
hql
-
desc tablename;
-
show partitions tablename;
-
修改表名
alter table oldname rename to newname;
-
增加列
alter table tablename add columns (c1 type, c3 type);
-
hive增加分区映射到文件
alter table tablename drop if exists partition(dt='20171130');
alter table tablename add if not exists partition(dt='20171130') location 'path'; -
修改表的分割字符
alter table tablename set SERDEPROPERTIES('field.delim'='\t');
-
修改字段顺序
alter table tablename change column cololdname colnewname coltype after colname2;
hive 和hadoop 配置说明
hive 配置说明
hadoop 配置说明
mapred.compress.map.output ##指定map的输出是否压缩。有助于减小数据量,减小io压力,但压缩和解压有cpu成本,需要慎重选择压缩算法。
mapred.map.output.compression.codec ##map输出的压缩算法
mapred.output.compress ##reduce输出是否压缩
mapred.output.compression.codec ##控制mapred的输出的压缩的方式
hive.exec.compress.intermediate=true; ##hive中间数据压缩
set hive.exec.compress.intermediate=true;
set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec set mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;
set hive.exec.compress.output=false;
hive reduce最终数据不压缩
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
set hive.merge.smallfiles.avgsize=256000000; ###设置输出文件的平均值
hive Job 细节优化
- map
set mapred.min.split.size=1;
set mapred.max.split.size=256000000;
- reduce
set mapred.reduce.tasks=100;--直接指定Reduce个数
set mapred.exec.reducers.bytes.per.reducer=1G;
- map 与reduce过程中
set io.sort.mb;--增大Mapper输出buffer的大小,避免Spill的发生
set io.sort.factor;--一次性能够合并更多的数据
set sort mapred.reduce.slowstart.completed.maps=0.05;--Reduce端copy的进度
set mapred.reduce.parallel.copies;--可以决定作为client端的Reduce同时从Map端拉取数据的并行度
- 文件格式
set hive.default.fileformat = SequenceFile;
set hive.exec.compress.output = true;
对于sequencefile,有record和block两种压缩方式可选,block压缩比更高
set mapred.output.compression.type = BLOCK;
set hive.hadoop.supports.splittable.combineinputformat=true;--小文件合并
- Job 整体优化
- job 执行模式
set hive.exec.mode.local.auto;--自动开启local mr模式
set hive.exec.mode.local.auto.tasks.max;--文件数量
set hive.exec.mode.local.auto.inputbytes.max;--数据量大小
- jvm重用
set mapred.job.reuse.jvm.num.tasks=5;--一个jvm运行多次任务之后再退出
- 索引
- join
set hive.auto.convert.join = true;
Hive会自动判断当前的join操作是否合适做Map join
- 数据倾斜
set hive.map.aggr=true;
set hive.groupby.skewindata;
Reduce操作的时候,拿到的key并不是所有相同值给同一个Reduce,而是随机分发,然后Reduce做聚合,做完之后再做一轮MR,拿前面聚合过的数据再算结果
- sql 整体优化
-
job 并行
set hive.exec.parallel = true; set hive.exec.parallel.thread.number; -
减少Job数
group by 代替 join
-