咸鱼翻身记

搭建Spark所遇过的坑

一.经验

1.Spark Streaming包含三种计算模式：nonstate .stateful .window

2.kafka可通过配置文件使用自带的zookeeper集群

3.Spark一切操作归根结底是对RDD的操作

4.部署Spark任务，不用拷贝整个架包，只需拷贝被修改的文件，然后在目标服务器上编译打包。

5.kafka的log.dirs不要设置成/tmp下的目录，貌似tmp目录有文件数和磁盘容量限制

6.ES的分片类似kafka的partition

7spark Graph根据边集合构建图，顶点集合只是指定图中哪些顶点有效

8.presto集群没必要采用on yarn模式，因为hadoop依赖HDFS，如果部分机器磁盘很小，hadoop会很尴尬，而presto是纯内存计算，不依赖磁盘，独立安装可以跨越多个集群，可以说有内存的地方就可以有presto

9.presto进程一旦启动，JVM server会一直占用内存

10.如果maven下载很慢，很可能是被天朝的GFW墙了，可以在maven安装目录的setting.conf配置文件mirrors标签下加入国内镜像抵制**党的网络封锁，例如：

<mirror>
  <id>nexus-aliyunid>
  <mirrorOf>*mirrorOf>
  <name>Nexus aliyunname>
  <url>http://maven.aliyun.com/nexus/content/groups/publicurl>
mirror>

11.编译spark，hive on spark就不要加-Phive参数，若需sparkSQL支持hive语法则要加-Phive参数

12.通过hive源文件pom.xml查看适配的spark版本，只要打版本保持一致就行，例如spark1.6.0和1.6.2都能匹配

13.打开Hive命令行客户端，观察输出日志是否有打印“SLF4J: Found binding in [jar:file:/work/poa/hive-2.1.0-bin/lib/spark-assembly-1.6.2-hadoop2.6.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]”来判断hive有没有绑定spark

14.kafka的comsumer groupID对于spark direct streaming无效

15.shuffle write就是在一个stage结束计算之后，为了下一个stage可以执行shuffle类的算子，而将每个task处理的数据按key进行分类，将相同key都写入同一个磁盘文件中，而每一个磁盘文件都只属于下游stage的一个task，在将数据写入磁盘之前，会先将数据写入内存缓存中，下一个stage的task有多少个，当前stage的每个task就要创建多少份磁盘文件。

16.单个spark任务的excutor核数不宜设置过高，否则会导致其他JOB延迟

17.数据倾斜只发生在shuffle过程，可能触发shuffle操作的算子有：distinct, groupByKey, reduceByKey, aggregateByKey, join, cogroup, repartition等

18.运行时删除hadoop数据目录会导致依赖HDFS的JOB失效

19.sparkSQL UDAF中update函数的第二个参数 input: Row 对应的并非DataFrame的行，而是被inputSchema投影了的行

20.Spark的Driver只有在Action时才会收到结果

21.Spark需要全局聚合变量时应当使用累加器（Accumulator）

22.Kafka以topic与consumer group划分关系，一个topic的消息会被订阅它的消费者组全部消费，如果希望某个consumer使用topic的全部消息，可将该组只设一个消费者，每个组的消费者数目不能大于topic的partition总数，否则多出的consumer将无消可费

23.所有自定义类要实现serializable接口，否则在集群中无法生效

24.resources资源文件读取要在Spark Driver端进行，以局部变量方式传给闭包函数

25.DStream流转化只产生临时流对象，如果要继续使用，需要一个引用指向该临时流对象

26.提交到yarn cluster的作业不能直接print到控制台，要用log4j输出到日志文件中

27.HDFS文件路径写法为：hdfs://master:9000/文件路径，这里的master是namenode的hostname,9000是hdfs端口号。

28.不要随意格式化HDFS，这会带来数据版本不一致等诸多问题，格式化前要清空数据文件夹

29.搭建集群时要首先配置好主机名，并重启机器让配置的主机名生效

30.linux批量多机互信, 将pub秘钥配成一个

31小于128M的小文件都会占据一个128M的BLOCK，合并或者删除小文件节省磁盘空间

32.Non DFS Used指的是非HDFS的所有文件

33.spark两个分区方法coalesce和repartition，前者窄依赖，分区后数据不均匀，后者宽依赖，引发shuffle操作，分区后数据均匀

34.spark中数据写入ElasticSearch的操作必须在action中以RDD为单位执行

35.可以通过hive-site.xml修改spark.executor.instances, spark.executor.cores, spark.executor.memory等配置来优化hive on spark执行性能，不过最好配成动态资源分配。

二.基本功能

0.常见问题:

1如果运行程序出现错误：Exception in thread "main" java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory，这是因为项目缺少slf4j-api.jar和slf4j-log4j12.jar这两个jar包导致的错误。
2如果运行程序出现错误：java.lang.NoClassDefFoundError: org/apache/log4j/LogManager，这是因为项目缺少log4j.jar这个jar包
3错误：Exception in thread "main" java.lang.NoSuchMethodError: org.slf4j.MDC.getCopyOfContextMap()Ljava/util/Map，这是因为jar包版本冲突造成的。

1.配置spark-submit (CDH版本)

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream
        at org.apache.spark.deploy.SparkSubmitArguments.handleUnknown(SparkSubmitArguments.scala:451)
        at org.apache.spark.launcher.SparkSubmitOptionParser.parse(SparkSubmitOptionParser.java:178)
        at org.apache.spark.deploy.SparkSubmitArguments.(SparkSubmitArguments.scala:97)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:113)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStream
        at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
        at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
        at java.security.AccessController.doPrivileged(Native Method)
        at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
        at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
        ... 5 more

解决方案:

在spark-env.sh文件中添加:

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

2.启动spark-shell时,报错

INFO cluster.YarnClientSchedulerBackend: Registered executor: Actor[akka.tcp://sparkExecutor@services07:34965/user/Executor#1736210263] with ID 1
INFO util.RackResolver: Resolved services07 to /default-rack
INFO storage.BlockManagerMasterActor: Registering block manager services07:51154 with 534.5 MB RAM

解决方案:

在spark的spark-env配置文件中配置下列配置项:

将export SPARK_WORKER_MEMORY, export SPARK_DRIVER_MEMORY, export SPARK_YARN_AM_MEMORY的值设置成小于534.5 MB

3.启动spark SQL时,报错:

  Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver ("com.mysql.jdbc.Driver ") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver.

解决方案:

在$SPARK_HOME/conf/spark-env.sh文件中配置:

export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-5.1.6-bin.jar

4.启动spark SQL时,报错:

  java.sql.SQLException: Access denied for user 'services02 '@'services02' (using password: YES)

解决方案:

检查hive-site.xml的配置项, 有以下这个配置项

<property>
    <name>javax.jdo.option.ConnectionPasswordname>
    <value>123456value>
    <description>password to use against metastore databasedescription>
property>

看该密码与与MySQL的登录密码是否一致

5.启动计算任务时报错:

报错信息为:

  org.apache.spark.rpc.RpcTimeoutException: Futures timed out after [120 seconds]. This timeout is controlled by spark.rpc.askTimeout

解决方案:

  分配的core不够, 多分配几核的CPU

6.启动计算任务时报错:

不断重复出现

  status.SparkJobMonitor: 2017-01-04 11:53:51,564    Stage-0_0: 0(+1)/1     
  status.SparkJobMonitor: 2017-01-04 11:53:54,564    Stage-0_0: 0(+1)/1     
  status.SparkJobMonitor: 2017-01-04 11:53:55,564    Stage-0_0: 0(+1)/1     
  status.SparkJobMonitor: 2017-01-04 11:53:56,564    Stage-0_0: 0(+1)/1

解决方案:

    资源不够, 分配大点内存, 默认值为512MB.

7.启动Spark作为计算引擎时报错:

报错信息为:

java.io.IOException: Failed on local exception: java.nio.channels.ClosedByInterruptException; Host Details : local host is: "m1/192.168.179.201"; destination host is: "m1":9000; 
    at org.apache.hadoop.net.NetUtils.wrapException(NetUtils.java:772)
    at org.apache.hadoop.ipc.Client.call(Client.java:1474)
Caused by: java.nio.channels.ClosedByInterruptException
    at java.nio.channels.spi.AbstractInterruptibleChannel.end(AbstractInterruptibleChannel.java:202)
    at sun.nio.ch.SocketChannelImpl.connect(SocketChannelImpl.java:681)
17/01/06 11:01:43 INFO retry.RetryInvocationHandler: Exception while invoking getFileInfo of class ClientNamenodeProtocolTranslatorPB over m2/192.168.179.202:9000 after 9 fail over attempts. Trying to fail over immediately.

解决方案:

出现该问题的原因有多种, 我所遇到的是使用Hive On Spark时报了此错误,解决方案是:
在hive-site.xml文件下正确配置该项

<property>
    <name>spark.yarn.jarname>
    <value>hdfs://ns1/Jar/spark-assembly-1.6.0-hadoop2.6.0.jarvalue>
property>

8.启动spark集群时报错,启动命令为:start-mastersh

报错信息:

Exception in thread "main" java.lang.NoClassDefFoundError: org/slf4j/Logger
        at java.lang.Class.getDeclaredMethods0(Native Method)
        at java.lang.Class.privateGetDeclaredMethods(Class.java:2701)
        at java.lang.Class.privateGetMethodRecursive(Class.java:3048)
        at java.lang.Class.getMethod0(Class.java:3018)
        at java.lang.Class.getMethod(Class.java:1784)
        at sun.launcher.LauncherHelper.validateMainClass(LauncherHelper.java:544)
        at sun.launcher.LauncherHelper.checkAndLoadMain(LauncherHelper.java:526)
Caused by: java.lang.ClassNotFoundException: org.slf4j.Logger
        at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
        ... 7 more

解决方案:

将/home/centos/soft/hadoop/share/hadoop/common/lib目录下的slf4j-api-1.7.5.jar文件,slf4j-log4j12-1.7.5.jar文件和commons-logging-1.1.3.jar文件拷贝到/home/centos/soft/spark/lib目录下

9.启动spark集群时报错,启动命令为:start-mastersh

报错信息:

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration
        at java.lang.Class.getDeclaredMethods0(Native Method)
        at java.lang.Class.privateGetDeclaredMethods(Class.java:2570)
        at java.lang.Class.getMethod0(Class.java:2813)
        at java.lang.Class.getMethod(Class.java:1663)
        at sun.launcher.LauncherHelper.getMainMethod(LauncherHelper.java:494)
        at sun.launcher.LauncherHelper.checkAndLoadMain(LauncherHelper.java:486)
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.conf.Configuration
        at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
        at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
        at java.security.AccessController.doPrivileged(Native Method)
        at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
        at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
        ... 6 more

解决方案:

官网资料:
    https://spark.apache.org/docs/latest/hadoop-provided.html#apache-hadoop

编辑/home/centos/soft/spark/conf/spark-env.sh文件,配置下列配置项:

export SPARK_DIST_CLASSPATH=$(/home/centos/soft/hadoop/bin/hadoop classpath)

10.启动HPL/SQL存储过程时报错:

报错信息:

2017-01-10T15:20:18,491 ERROR [HiveServer2-Background-Pool: Thread-97] exec.TaskRunner: Error in executeTask
java.lang.OutOfMemoryError: PermGen space
        at java.lang.ClassLoader.defineClass1(Native Method)
        at java.lang.ClassLoader.defineClass(ClassLoader.java:800)
2017-01-10T15:20:18,491 ERROR [HiveServer2-Background-Pool: Thread-97] ql.Driver: FAILED: Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. PermGen space
2017-01-10T15:20:18,491  INFO [HiveServer2-Background-Pool: Thread-97] ql.Driver: Completed executing command(queryId=centos_20170110152016_240c1b5e-3153-4179-80af-9688fa7674dd); Time taken: 2.113 seconds
2017-01-10T15:20:18,500 ERROR [HiveServer2-Background-Pool: Thread-97] operation.Operation: Error running hive query: 
org.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. PermGen space
        at org.apache.hive.service.cli.operation.Operation.toSQLException(Operation.java:388)
        at org.apache.hive.service.cli.operation.SQLOperation.runQuery(SQLOperation.java:244)
        at org.apache.hive.service.cli.operation.SQLOperation.access$800(SQLOperation.java:91)
Caused by: java.lang.OutOfMemoryError: PermGen space
        at java.lang.ClassLoader.defineClass1(Native Method)
        at java.lang.ClassLoader.defineClass(ClassLoader.java:800)

解决方案:

参考资料:
    http://blog.csdn.net/xiao_jun_0820/article/details/45038205

出现该问题是因为Spark默认使用全部资源, 而此时主机的内存已用, 应在Spark配置文件中限制内存的大小.
在hive-site.xml文件下配置该项:

<property>
    <name>spark.driver.extraJavaOptionsname>
    <value>-XX:PermSize=128M -XX:MaxPermSize=512Mvalue>
property>

或在spark-default.conf文件下配置:

spark.driver.extraJavaOptions             -XX:PermSize=128M -XX:MaxPermSize=256M

三.Spark常见问题汇总

1.报错信息:

Operation category READ is not supported in state standbyorg.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): 
Operation category READ is not supported in state standby

解决方案:

查看执行Spark计算的是否处于standby状态, 用浏览器访问该主机:http://m1:50070, 如果处于standby状态, 则不可在处于StandBy机器运行spark计算，应切执行Spark计算的主机从Standby状态切换到Active状态

2.报错信息:

Spakr集群的所有运行数据在Master重启是都会丢失

解决方案:

配置spark.deploy.recoveryMode选项为ZOOKEEPER

3.报错信息:

由于Spark在计算的时候会将中间结果存储到/tmp目录，而目前linux又都支持tmpfs，其实就是将/tmp目录挂载到内存当中, 那么这里就存在一个问题，中间结果过多导致/tmp目录写满而出现如下错误

No Space Left on the device（Shuffle临时文件过多）

解决办法:

修改配置文件spark-env.sh,把临时文件引入到一个自定义的目录中去, 即:

export SPARK_LOCAL_DIRS=/home/utoken/datadir/spark/tmp

4.报错信息:

java.lang.OutOfMemory, unable to create new native thread
Caused by: java.lang.OutOfMemoryError: unable to create new native thread
        at java.lang.Thread.start0(Native Method)
        at java.lang.Thread.start(Thread.java:640)

解决方案:

上面这段错误提示的本质是Linux操作系统无法创建更多进程，导致出错，并不是系统的内存不足。因此要解决这个问题需要修改Linux允许创建更多的进程，就需要修改Linux最大进程数。
(1)修改Linux最大进程数

ulimit -a

(2)临时修改允许打开的最大进程数

ulimit -u 65535

(3)临时修改允许打开的文件句柄

ulimit -n 65535

(4)永久修改Linux最大进程数量

sudo vi /etc/security/limits.d/90-nproc.conf

*          soft    nproc     60000
root       soft    nproc     unlimited

永久修改用户打开文件的最大句柄数，该值默认1024，一般都会不够，常见错误就是not open file
解决办法:

sudo vi /etc/security/limits.conf

bdata  soft    nofile  65536
bdata  hard    nofile  65536

5.问题出现情景:

Worker节点中的work目录占用许多磁盘空间, 这些是Driver上传到worker的文件, 会占用许多磁盘空间.

解决方案:

需要定时做手工清理. 目录地址：/home/centos/soft/spark/work

6.问题出现情景:

spark-shell提交Spark Application如何解决依赖库

解决方案:

利用--driver-class-path选项来指定所依赖的jar文件，注意的是--driver-class-path后如果需要跟着多个jar文件的话，jar文件之间使用冒号:来分割。

7.Spark在发布应用的时候，出现连接不上master

报错信息如下:

INFO AppClient$ClientEndpoint: Connecting to master spark://s1:7077...
WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkMaster@s1:7077] has failed, address is now gated for [5000] ms. Reason: [Disassociated]

解决方案:

检查所有机器时间是否一致.hosts是否都配置了映射.客户端和服务器端的Scala版本是否一致.Scala版本是否和Spark兼容

8.开发spark应用程序（和Flume-NG结合时）发布应用时可能会报错

报错信息如下:

ERROR ReceiverSupervisorImpl: Stopped receiver with error: org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800
ERROR Executor: Exception in task 0.0 in stage 2.0 (TID 70)
                org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800
                at org.jboss.netty.bootstrap.ServerBootstrap.bind(ServerBootstrap.java:272)
Caused by: java.net.BindException: Cannot assign requested address

解决方案:

参考资料:
  http://www.tuicool.com/articles/Yfi2eyR

由于spark通过Master发布的时候，会自动选取发送到某一台的worker节点上，所以这里绑定端口的时候，需要选择相应的worker服务器，但是由于我们无法事先了解到，spark发布到哪一台服务器的，所以这里启动报错，是因为在192.168.10.156:18800的机器上面没有启动Driver程序，而是发布到了其他服务器去启动了，所以无法监听到该机器出现问题，所以我们需要设置spark分发包时，发布到所有worker节点机器，或者发布后，我们去寻找发布到了哪一台机器，重新修改绑定IP，重新发布，有一定几率发布成功。

9.使用Hive on Spark时报错:

ERROR XSDB6: Another instance of Derby may have already booted the database /home/bdata/data/metastore_db.

解决方案:

在使用Hive on Spark模式操作hive里面的数据时，报以上错误，原因是因为HIVE采用了derby这个内嵌数据库作为数据库，它不支持多用户同时访问,解决办法就是把derby数据库换成mysql数据库即可

10.找不到hdfs集群名字dfscluster

报错信息:

  java.lang.IllegalArgumentException: java.net.UnknownHostException: dfscluster

解决办法：

将$HADOOP_HOME/etc/hadoop/hdfs-site.xml文件拷贝到Spark集群的所有主机的$SPARK_HOME/conf目录下，然后重启Spark集群

cd /home/centos/soft/spark/conf/

for i in {201,202,203}; 
do scp hdfs-site.xml 192.168.179.$i:/home/centos/soft/spark/conf/; 
done

11.在执行yarn集群或者客户端时，报错:

执行指令:

sh $SPARK_HOME/bin/spark-sql --master yarn-client

报如下错误:

Exception in thread "main" java.lang.Exception: When running with master 'yarn-client' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

解决办法:

根据提示，配置HADOOP_CONF_DIR or YARN_CONF_DIR的环境变量即可, 在spark-env.sh文件中配置以下几项:

export HADOOP_HOME=/u01/hadoop-2.6.1
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
PATH=$PATH:$HIVE_HOME/bin:$HADOOP_HOME/bin

12.提交spark计算任务时,报错:

报错信息如下:

Job aborted due to stage failure: Task 3 in stage 0.0 failed 4 times, most recent failure: Lost task 3.3 in
[org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 0 on 192.168.10.38: remote Rpc client disassociated
[org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 1 on 192.168.10.38: remote Rpc client disassociated
[org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 2 on 192.168.10.38: remote Rpc client disassociated
[org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 3 on 192.168.10.38: remote Rpc client disassociated
[org.apache.spark.scheduler.TaskSetManager]-[ERROR] Task 3 in stage 0.0 failed 4 times; aborting job
Exception in thread "main" org.apache.spark.SparkException : Job aborted due to stage failure: Task 3 in stage 0.0 failed 4 times, most recent failure: Lost task 3.3 in stage 0.0 (TID 14, 192.168.10.38): ExecutorLostFailure (executor 3 lost)
Driver stacktrace:
at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1283)

解决方案:

这里遇到的问题主要是因为数据源数据量过大，而机器的内存无法满足需求，导致长时间执行超时断开的情况，数据无法有效进行交互计算，因此有必要增加内存

13.启动Spark计算任务:

长时间等待无反应，并且看到服务器上面的web界面有内存和核心数，但是没有分配，报错信息如下:

status.SparkJobMonitor: 2017-01-04 11:53:51,564    Stage-0_0: 0(+1)/1
status.SparkJobMonitor: 2017-01-04 11:53:51,564    Stage-0_0: 0(+1)/1
status.SparkJobMonitor: 2017-01-04 11:53:51,564    Stage-0_0: 0(+1)/1
status.SparkJobMonitor: 2017-01-04 11:53:51,564    Stage-0_0: 0(+1)/1
status.SparkJobMonitor: 2017-01-04 11:53:51,564    Stage-0_0: 0(+1)/1
status.SparkJobMonitor: 2017-01-04 11:53:51,564    Stage-0_0: 0(+1)/1

日志信息显示：

WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

解决方案:

出现上面的问题主要原因是因为我们通过参数spark.executor.memory设置的内存过大，已经超过了实际机器拥有的内存，故无法执行，需要等待机器拥有足够的内存后，才能执行任务，可以减少任务执行内存，设置小一些即可

14.内存不足或数据倾斜导致Executor Lost（spark-submit提交）

报错信息如下:

TaskSetManager: Lost task 1.0 in stage 6.0 (TID 100, 192.168.10.37): java.lang.OutOfMemoryError: Java heap space
INFO BlockManagerInfo: Added broadcast_8_piece0 in memory on 192.168.10.37:57139 (size: 42.0 KB, free: 24.2 MB)
INFO BlockManagerInfo: Added broadcast_8_piece0 in memory on 192.168.10.38:53816 (size: 42.0 KB, free: 24.2 MB)
INFO TaskSetManager: Starting task 3.0 in stage 6.0 (TID 102, 192.168.10.37, ANY, 2152 bytes)
WARN TaskSetManager: Lost task 1.0 in stage 6.0 (TID 100, 192.168.10.37): java.lang.OutOfMemoryError: Java heap space
            at java.io.BufferedOutputStream.(BufferedOutputStream.java:76)
            at java.io.BufferedOutputStream.(BufferedOutputStream.java:59)
            at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$2.(UnsafeRowSerializer.scala:55)
ERROR TaskSchedulerImpl: Lost executor 6 on 192.168.10.37: remote Rpc client disassociated
INFO TaskSetManager: Re-queueing tasks for 6 from TaskSet 6.0
WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkExecutor@192.168.10.37:42250] has failed, address is now gated for [5000] ms. Reason: [Disassociated]
WARN TaskSetManager: Lost task 3.0 in stage 6.0 (TID 102, 192.168.10.37): ExecutorLostFailure (executor 6 lost)
INFO DAGScheduler: Executor lost: 6 (epoch 8)
INFO BlockManagerMasterEndpoint: Trying to remove executor 6 from BlockManagerMaster.
INFO BlockManagerMasterEndpoint: Removing block manager BlockManagerId(6, 192.168.10.37, 57139)
INFO BlockManagerMaster: Removed 6 successfully in removeExecutor
INFO AppClient$ClientEndpoint: Executor updated: app-20160115142128-0001/6 is now EXITED (Command exited with code 52)
INFO SparkDeploySchedulerBackend: Executor app-20160115142128-0001/6 removed: Command exited with code 52
INFO SparkDeploySchedulerBackend: Asked to remove non-existent executor 6
          org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 6.0 failed 4 times, most recent failure: Lost task 0.3 in stage 6.0 (TID 142, 192.168.10.36): ExecutorLostFailure (executor 4 lost)
WARN TaskSetManager: Lost task 4.1 in stage 6.0 (TID 137, 192.168.10.38): java.lang.OutOfMemoryError: GC overhead limit exceeded

解决办法：

由于我们在执行Spark任务是，读取所需要的原数据，数据量太大，导致在Worker上面分配的任务执行数据时所需要的内存不够，直接导致内存溢出了，所以我们有必要增加Worker上面的内存来满足程序运行需要。
在Spark Streaming或者其他spark任务中，会遇到在Spark中常见的问题，典型如Executor Lost相关的问题(shuffle fetch失败，Task失败重试等)。这就意味着发生了内存不足或者数据倾斜的问题。这个目前需要考虑如下几个点以获得解决方案：

A.相同资源下，增加partition数可以减少内存问题。原因如下：通过增加partition数，每个task要处理的数据少了，同一时间内，所有正在运行的task要处理的数量少了很多，所有Executor占用的内存也变小了。这可以缓解数据倾斜以及内存不足的压力。
B.关注shuffle read阶段的并行数。例如reduce, group 之类的函数，其实他们都有第二个参数，并行度(partition数)，只是大家一般都不设置。不过出了问题再设置一下，也不错。
C.给一个Executor核数设置的太多，也就意味着同一时刻，在该Executor的内存压力会更大，GC也会更频繁。我一般会控制在3个左右。然后通过提高Executor数量来保持资源的总量不变。

16. Spark Streaming 和kafka整合

报错信息如下：

  OffsetOutOfRangeException

解决方案：

如果和kafka消息中间件结合使用，请检查消息体是否大于默认设置1m，如果大于，则需要设置fetch.message.max.bytes=1m, 这里需要把值设置大些

17.报错信息:

java.io.IOException : Could not locate executable null\bin\winutils.exe in the Hadoop binaries.（spark sql on hive 任务引发HiveContext NullPointerException）

解决办法:

在开发hive和Spark整合的时候，如果是Windows系统，并且没有配置HADOOP_HOME的环境变量，那么可能找不到winutils.exe这个工具，由于使用hive时，对该命令有依赖，所以不要忽视该错误，否则将无法创建HiveContext，一直报Exception in thread "main" java.lang.RuntimeException: java.lang.NullPointerException
因此，解决该办法有两个方式

方案A:

把任务打包成jar，上传到服务器上面，服务器是配置过HADOOP_HOME环境变量的，并且不需要依赖winutils,所以只需要通过spark-submit方式提交即可，如：

  spark-submit --class com.pride.hive.HiveOnSparkTest --master spark://bdata4:7077 spark-simple-1.0.jar

方案B:

解决winutils.exe命令不可用问题，配置Windows上面HADOOP_HOME的环境变量，或者在程序最开始的地方设置HADOOP_HOME的属性配置,这里需要注意，由于最新版本已经没有winutils这些exe命令了，我们需要在其他地方下载该命令放入HADOOP的bin目录下，当然也可以直接配置下载项目的环境变量，变量名一定要是HADOOP_HOME才行

下载地址: (记得哦)
    https://github.com/srccodes/hadoop-common-2.2.0-bin/archive/master.zip

任何项目都生效，需要配置Windows的环境变量，如果只在程序中生效可在程序中配置即可，如:

//用于解决Windows下找不到winutils.exe命令
System. setProperty("hadoop.home.dir", "E:\\Software\\hadoop-common-2.2.0-bin" );

19.报错信息:

Exception in thread "main" org.apache.hadoop.security.AccessControlException : Permission denied: user=Administrator, access=WRITE, inode="/data":bdata:supergroup:drwxr-xr-x

解决办法

1.在系统的环境变量或JVM变量里面添加HADOOP_USER_NAME，如程序中添加:
System.setProperty("HADOOP_USER_NAME", "bdata");, 这里的值就是以后会运行HADOOP上的Linux的用户名，如果是eclipse，则修改完重启eclipse，不然可能不生效
2.修改有问题的目录权限

hadoop fs -chmod 755 /tmp

并hive-site.xml文件中增加以下配置

<property>
    <name>hive.scratch.dir.permissionname>
    <value>755value>
property>

20.运行Spark-SQL报错：

  org.apache.spark.sql.AnalysisException: unresolved operator 'Project

解决办法：

在Spark-sql和hive结合时或者单独Spark-sql，运行某些sql语句时，偶尔出现上面错误，那么我们可以检查一下sql的问题，这里遇到的问题是嵌套语句太多，导致spark无法解析，所以需要修改sql或者改用其他方式处理；特别注意该语句可能在hive里面没有错误，spark才会出现的一种错误。

21.报错信息如下:

org.apache.spark.SparkException: Only one SparkContext may be running in this JVM (see SPARK-2243). To ignore this error, set spark.driver.allowMultipleContexts = true.

解决方案：

使用Use this constructor JavaStreamingContext(sparkContext: JavaSparkContext, batchDuration: Duration) 替代 new JavaStreamingContext(sparkConf, Durations.seconds(5))

22.报错信息如下:

java.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothing to execute

解决方案：

tranformation最后一步产生的那个RDD必须有相应Action操作，例如massages.print()等

23.报错信息如下:

ERROR ApplicationMaster: SparkContext did not initialize after waiting for 100000 ms. Please check earlier log output for errors. Failing the application

解决方案：

资源不能分配过大,或者没有把.setMaster("local[*]")去掉

24.报错信息如下:

java.util.regex.PatternSyntaxException: Dangling meta character '?' near index 0

解决方案：

元字符记得转义

25.报错信息如下:

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream

解决方案：

编译spark用了hadoop-provided参数，导致缺少hadoop相关包

26.报错信息如下:

org.apache.spark.SparkException: Task failed while writing rows Caused by: org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest: null

解决方案：

ES负载过高，修复ES

27.报错信息如下:

org.apache.spark.SparkException: Task failed while writing rows scala.MatchError: Buffer(10.113.80.29, None) (of class scala.collection.convert.Wrappers$JListWrapper)

解决方案：

ES数据在sparksql类型转化时不兼容，可通过EsSpark.esJsonRDD以字符串形式取ES数据，再把rdd转换成dataframe

28.报错信息如下:

SparkListenerBus has already stopped! Dropping event SparkListenerStageCompleted

解决方案：

集群资源不够，确保真实剩余内存大于spark job申请的内存

29.报错信息如下:

ExecutorLostFailure (executor 3 exited caused by one of the running tasks) Reason: Container killed by YARN for exceeding memory limits. 61.0 GB of 61 GB physical memory used

解决方案：

配置项spark.storage.memoryFraction默认值为0.6, 应加大spark.storage.memoryFraction的系数

30.问题如下:

如何定位spark的数据倾斜

解决方案：

在Spark Web UI看一下当前stage各个task分配的数据量以及执行时间，根据stage划分原理定位代码中shuffle类算子

31.报错信息如下:

如何解决spark数据倾斜

解决方案：

过滤少数导致倾斜的key（仅限于抛弃的Key对作业影响很小）
提高shuffle操作并行度（提升效果有限）
两阶段聚合（局部聚合+全局聚合），先对相同的key加前缀变成多个key，局部shuffle后再去掉前缀，再次进行全局shuffle（仅适用于聚合类的shuffle操作，效果明显，对于join类的shuffle操作无效），
将reduce join转为map join，将小表进行广播，对大表map操作，遍历小表数据（仅适用于大小表或RDD情况）
使用随机前缀和扩容RDD进行join，对其中一个RDD每条数据打上n以内的随机前缀，用flatMap算子对另一个RDD进行n倍扩容并扩容后的每条数据依次打上0~n的前缀，最后将两个改造key后的RDD进行join（能大幅缓解join类型数据倾斜，需要消耗巨额内存）

32.报错信息如下:

org.apache.spark.SparkException: Failed to get broadcast_790_piece0 of broadcast_790

解决方案：

删除spark-defaults.conf文件中spark.cleaner.ttl的配置

33.报错信息如下:

  MapperParsingException[Malformed content, must start with an object

解决方案：

采用接口JavaEsSpark.saveJsonToEs，因为saveToEs只能处理对象不能处理字符串

34.报错信息如下:

  java.util.concurrent.TimeoutException: Cannot receive any reply in 120 seconds

解决方案：

确保所有节点之间能够免密码登录
确保所在的主机满足spark-env.sh中分配的CPU个数,若spark-env.sh中分配的CPU个数为一个,而master和worker在同一部主机上,则该主机需最少分配2个CPU

35.报错信息如下:

Exception in thread "main" org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master.

解决方案：

出现此类问题有很多种, 当时遇到这问题的因为是在spark未改动的情况下, 更换了Hive的版本导致版本不对出现了此问题, 解决此问题的方法是:
1. 再次运行spark计算, 查看日志中Hive的版本, 检查当前Hive是否与Spark日志中的Hive版本一致
2. 若Hive版本不一致, 则删除现有的Hive, 并删除MySQL中Hive的元数据(若使用MySQL元数据库), HDFS上hive, tmp, user目录下的数据
3. 安装与Spark日志中版本匹配的Hive

你可能感兴趣的:(技术博客)

关于Redis集群同步/持久化/淘汰机制的详解尾巴尖上的阳光大数据 redis 数据库
Redis是非常常用的KV数据库,使用内存以及HashMap进行存储的特点带来了高效的查询.本文将围绕Redis的常见开发使用场景,阐述在Redis集群中各个节点是如何进行数据同步,每个节点如何进行持久化以及在长期使用中如何对数据进行更新和淘汰.如果对Redis有更多的兴趣,可以查看我的技术博客:https://dingyuqi.com下面是Redis在开发过程中常用的几种使用场景.集群Redis
动态生成的html元素绑定click事件 .NET跨平台 Jquery及其组件 html jquery
第一篇博客，开启技术博客的生涯，欢迎大家批评指教（坚信妹子也可以做好程序猿）今天想说帮公司做项目的时候遇到的一个小问题，动态添加html元素以后再去事件监听出问题。在实际开发中会遇到要给动态生成的html元素绑定触发事件的情况。就是上面的一张表格要动态实现添加行，然后序列号还要随着增加，当删除的时候序列号依旧是按顺序排列。刚开始使用jQuery的on方法来解决，但是发现一个问题会出现事件绑定很多次
博客园好还是csdn 耄先森吖
两者都是中国的博客平台，根据个人喜好和需求选择即可。如果您对技术博客更感兴趣，那么CSDN可能更适合您；如果您更喜欢个人博客风格，那么博客园可能更适合您。
oracle 扩容undo,【案例】Oracle RAC数据库undo使用率较高的解决思路办法南门居士-杜锦刚 oracle 扩容undo
天萃荷净Oracle研究中心案例分析：运维DBA反映Oracle数据库undo使用较大，结合案例分析undo使用问题。本站文章除注明转载外，均为本站原创：转载自lovewife&lovelife—Roger的Oracle技术博客本文链接地址:aboutUndoTablespaceusedHigh今天有朋友在问关于undo使用很高的问题,这个问题其实很常见了,上次也正好处理过一起,客户的3节点rac
Metasploit技术博客：全面指南 Hello.Reader 渗透测试安全测试安全性测试安全架构 web安全安全安全威胁分析
一、概述Metasploit是一款功能强大的渗透测试框架，在网络安全领域中扮演着关键角色。无论你是初学者还是经验丰富的渗透测试专家，Metasploit都提供了一整套工具，用于发现、利用和验证系统中的安全漏洞。本文将详细探讨Metasploit的基础知识、常用模块、实战案例、高级功能、最佳实践以及未来发展趋势，为您提供全面的技术指南。二、什么是Metasploit？Metasploit由Rapid
我的创作纪念日喵喵的柠檬汁笔记其他经验分享
机缘怎么说呢，我的第一篇博客是《HTML5的web工作线程》，当时看完《HeadFirstHTML5Programming》就在想，要是我当时在社团学习的时候碰到这本书，那不是嘎嘎乱杀，登上老大宝座，不得不说，我被这本书代入式的情景教学和幽默风趣的语言风格所深深吸引了，这里也要感谢幕后的翻译工作者。当时的这篇博客更像是一篇简单学习笔记，根本谈不上是技术博客，但那时动手实践和发第一篇博客的激动，却为
毕业一年感想~微思顾轻展望雪糕0-0 毕业感想
懒懒的我，早在四五月份就萌生了回顾这毕业一年感想的小念头了，但终究是被我拖延到几个月。究其原因的话，对于我来说，写感想这种东西确实是看心情的吧，或许正如道上所说的那样：感性而走心。另外一点就是，为何把这样的毕业感想首发到CSDN个人博客，而不是某讯的QQ空间呢？还是考虑了一下，毕竟是毕业一年也工作一年多了，想以此小小的感想作为技术博客的开篇，坚定一下后面多写写技术学习上的点点滴滴吧。（其实也不得不
dex加密汤米粥 dex加密
dex放在assets目录下还是被jadx读出来,看来dex还需要加密啊https://juejin.cn/post/7255483407559442491androidaabdex加密_mob649e8158a948的技术博客_51CTO博客
【技术博客】生成式对抗网络模型综述 MomodelAI
34-生成式对抗网络模型综述作者：张真源GANGAN简介生成式对抗网络(Generativeadversarialnetworks,GANs)的核心思想源自于零和博弈，包括生成器和判别器两个部分。生成器接收随机变量并生成“假”样本，判别器则用于判断输入的样本是真实的还是合成的。两者通过相互对抗来获得彼此性能的提升。判别器所作的其实就是一个二分类任务，我们可以计算他的损失并进行反向传播求出梯度，从而
JavaScript数组的常用算法小五丶_
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。欢迎大家去我的个人技术博客看看，点赞收藏注册的都是好人哦~https://xiaowu.xyz一、数组的常见算法由于算法的性能要从时间复杂度和空间复杂度两个方面考虑，所以这里不做性能的研究，仅仅为了理解1、冒泡排序：假设有数组[54,68,46,75,36,20,65,11,79,45]varlist=
使用Java通过身份证号码匹配省市县名称的技术博客 web安全工具库 java 开发语言
每日自动更新各类学习教程及工具下载合集https://pan.quark.cn/s/874c74e8040e在中国，身份证号码包含了持有人的出生地信息。通过解析身份证号码的前六位，我们可以获取对应的省、市、县（区）信息。在这篇博客中，我们将探讨如何使用Java代码来实现这一功能，并展示详细的代码示例和运行结果。身份证号码结构中国居民身份证号码是18位数字编码，其中前六位表示行政区划代码。具体格式如
鸟枪换炮，利用python3对球员做大数据降维(因子分析得分)，为C罗找到合格僚机刘悦的技术博客
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_176众所周知，尤文图斯需要一座欧冠奖杯，C罗也还想再拿一座欧冠奖杯，为自己的荣誉簙上锦上添花。意甲霸主在意甲虽然风生水起，予取予求，但是在今年欧冠1/8决赛赛场上，被法甲球队里昂所淘汰，痛定思痛，球队解雇了主教练萨里，签约名宿皮尔洛，但是要想在欧冠赛场上夺冠，这还不够，球队还需要什么？没错，需要一名强力中锋，在正印中锋伊瓜因难堪
注意力机制在Transformer模型中的原理与应用 AGI通用人工智能之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
很高兴能为您撰写这篇关于"注意力机制在Transformer模型中的原理与应用"的技术博客文章。作为一位世界级的人工智能专家和计算机领域大师,我将以专业、深入、实用的角度来全面探讨这个重要的技术主题。1.背景介绍近年来,注意力机制在自然语言处理、计算机视觉等领域掀起了一股热潮,尤其是在Transformer模型中的广泛应用更是引起了广泛关注。注意力机制通过学习输入序列中各个元素的相对重要性,赋予它
搞编程学习时是如何查找资料的？ Dream_Bri 学习
刚开始学编程时，我通常用百度、360这样的搜索引擎去找资料。但后来我发现，根据想找的东西不同，用的搜索地方也得变。比如说，找编程学习的东西，我就不太用浏览器了，因为那儿广告太多，信息乱七八糟的，还不容易找到需要的内容。随后发现有的答案可以在CSDN这样的技术博客中找到前人的经验帖子。再后来又有了更多的搜索经验，可以归结于下面几种：学习教程：我会写过的经验贴、知识星球、B站、教程课堂、CSDN、知乎
苹果手机怎么学python_我是如何在 Python 内使用深度学习实现 iPhone X 的 FaceID 的... weixin_39693437 苹果手机怎么学python
雷锋网按：本文为AI研习社编译的技术博客，原标题HowIimplementediPhoneX'sFaceIDusingDeepLearninginPython，作者为SHIVAMBANSAL。翻译|陶玉龙余杭校对|Lamaric整理|MY在最近推出的iPhoneX中，它被讨论最多的特点之一是它采用了新的解锁方法，即TouchID：FaceID。在研发出无边框手机后，苹果公司想开发一种新的方法来快捷
《VitePress 简易速速上手小册》第6章性能优化与 SEO（2024 最新版）江帅帅《VitePress 简易速速上手小册》性能优化 python 语音处理文本转语音语音识别人工智能
文章目录6.1页面加载速度优化6.1.1基础知识点解析6.1.2重点案例：个人博客优化6.1.3拓展案例1：电商平台6.1.4拓展案例2：在线教育网站6.2SEO最佳实践6.2.1基础知识点解析6.2.2重点案例：技术博客6.2.3拓展案例1：在线教育平台6.2.4拓展案例2：电子商务网站6.3使用Analytics追踪访问
HarmonyOS 4.0 开发入门（一） Jerry Lau HarmonyOS ArkTs harmonyos devops
HarmonyOS开发入门（一）日常逼逼叨因为本人之前做过一些Android相关的程序开发，对移动端的开发兴趣比较浓厚，近期也了解到了一些关于华为HarmonyOS4.0的事件热点，结合黑马相关教学视频以及一些相关的技术博客，对HarmonyOS开发做一个知识总结，有任何说的不合理的地方，希望各位看官老爷批评指正一、开发语言（ArkTS）ArkTS简介ArkTS是HarmonyOS优选的主力应用开
程序员最常用的技术博客 wang_peng 其他
1.博客园博客园可以自定义页面，兼容多款编辑器，写作上是最方便的，技术氛围比较纯粹https://www.cnblogs.com/2.51博客51CTO博客是国内领先的IT原创文章分享及交流平台，百度收录非常可以，编辑器是他们自己开发的，有什么问题反馈就可以改改改，这点还是比较好https://blog.51cto.com/3.思否SegmentFault的页面yyds，不愧是搞前端的，前端开发可
Vim 编辑器｜批量注释与批量取消注释 yongxinz
添加注释ctrl+v进入块选泽模式。上下键选中需要注释的行。按大写I进入插入模式，输入注释符。按两次ESC退出，即完成添加注释。取消注释ctrl+v进入块选泽模式。上下键选中需要注释的行。按小写x删除注释符。按ESC退出，即完成取消注释。热情推荐：技术博客：硬核后端技术干货，内容包括Python、Django、Docker、Go、Redis、ElasticSearch、Kafka、Linux等。G
linux cp拷贝一个文件到另一个目录,cp命令复制文件夹到另一个文件夹的注意事项 - 翟码农技术博客... 軒舞 linux cp拷贝一个文件到另一个目录
最近发现之前写好的shell脚本里cp命令拷贝文件夹，丢失了一层文件夹。才发现cp命令里还有一层这么容易让人混淆的用法，为避免继续踩坑，特此记载。现在假定文件存在的目录如下面所示：--from--from/fone--from/fone/hello.txt--to现要将from文件夹之下的所有目录拷贝到to文件夹之下，使用时就会遇到极易混淆的如下4条命令：cp-rffrom/tocp-rffrom
【虚幻UE5-C++】 ––– UE5-C++中常见的父类 Anshn 虚幻引擎C++虚幻 ue5 游戏引擎
在虚幻引擎中，存在众多常见的父类，它们为游戏开发者提供了丰富的功能和强大的扩展性。本篇技术博客将重点介绍几个常见的父类，并通过案例演示它们的用法。一、概述虚幻引擎中有许多常用的父类，它们提供了各种功能，用于创建游戏对象、处理输入、管理游戏状态等。以下是一些常用的虚幻引擎父类：AActor（Actor类）：表示在虚拟场景中的一个对象。所有在游戏中出现的物体都是Actor的子类，包括玩家角色、道具、敌
HTTP与HTTPS：网络安全之门户 web安全工具库网络爬虫 http https web安全
源码分享https://docs.qq.com/sheet/DUHNQdlRUVUp5Vll2?tab=BB08J2在进行网页爬取和数据收集时，我们经常会与HTTP（超文本传输协议）和HTTPS（安全的超文本传输协议）打交道。这两种协议都用于互联网上的数据传输，但它们在安全性方面有所不同。在这篇技术博客中，我们将讨论HTTP和HTTPS的区别，并展示如何在Python中使用这两种协议。HTTPHT
基于微软企业库5.0连接oracle数据库进行企业级开发管理大亨技术 oracle 数据库微软 sql server express null
基于微软企业库5.0连接oracle数据库进行企业级开发很多人都习惯与用微软企业库5.0连接SqlServer进行企业级开发。下面讲述微软企业库5.0连接oracle数据库的网上资料比较少，里面有很多细节点需要注意。因此写一篇这样的技术博客共享给大家，目的希望大家少走弯路，希望能够减少程序员加班熬夜的数量。技术架构：UI层（aspx）+BLL层+DAL层（微软企业库5.0）+数据库（oracle）
Elementui el-input 实现自定义 v-model asing1elife
Vue本身支持自定义组件实现v-model，但el-input作为Elementui的自定义组件也已经实现v-model，那么如果在自定义组件中使用el-input，但自定义组件也想实现v-model，应该怎么做？更多精彩更多技术博客，请移步IT人才终生实训与职业进阶平台-实训在线错误的方式Vue中让自定义组件实现v-model可参考Vue自定义v-model但如果按照这种方式想要让以下代码实现v
怎么做？这么做。慢了半拍i 生活笔记经验分享微信
一、每天输入每天读2——3篇文章，可以是行业趋势、技术推文(与自己的工作有关的方向)，每天坚持一年就会是1000篇。推荐：大厂的技术博客：纯技术类，美团技术团队、阿里技术团队；科技资讯类：量子位、差评、新智元、无敌信息差；经验分享、编程趋势、技术干货的up二、持续学习新技术每天抽不到1小时，看2——3集教程，坚持一个月，看完一套课程。三、复盘总结每天记录自己完成的工作，贴个文档啥的都可以；每月开始
oneinstack申请免费的R3 域名证书 VE视频引擎
OneinStack是知名Linux技术博客LinuxEye推出的一个可以一键安装LNMP（Linux+NGINX+MySQL+PHP）、LAMP（Linux+Apache+MySQL+PHP）、LNMPA（Linux+NGINX+MySQL+PHP+Apache）等建站环境的一键安装包。主要是提供了一个可视化页面，可以直接在页面上选择自己想要的配置，然后自动生成安装命令，然后就等待自动安装完成就
手机上的python怎么运行,python在手机上怎么运行 www55597 pygame python 人工智能
大家好，小编来为大家解答以下问题，python程序如何在手机端运行，python程序如何在手机上运行，今天让我们一起来看看吧！Sourcecodedownload:本文相关源码大家好，小编为大家解答手机python编程软件怎么运行的问题。很多人还不知道在手机上如何运行python，现在让我们一起来看看吧！广告关闭2017年12月，云+社区对外发布，从最开始的技术博客到现在拥有多个社区产品pytho
深入理解WebSocket协议：实现实时通信的利器 web安全工具库网络爬虫 websocket 网络协议网络
源码分享https://docs.qq.com/sheet/DUHNQdlRUVUp5Vll2?tab=BB08J2WebSocket是一种在单个TCP连接上进行全双工通信的协议。它允许服务器实时地向客户端推送信息，是构建聊天应用、实时游戏、股票行情应用等需要快速、实时通信的web应用的理想选择。在这篇技术博客中，我们将探讨WebSocket协议的基础知识和如何在Python中使用它。WebSoc
sklearn中一些简单机器学习算法的使用橘柚jvyou 机器学习 sklearn 算法
目录前言KNN算法决策树算法朴素贝叶斯算法岭回归算法线性优化算法前言本篇文章会介绍一些sklearn库中简单的机器学习算法如何使用，一些注释已经写在代码中，帮助一些小伙伴入门sklearn库的使用。注意：本篇文章只涉及到如何使用，并不会讲解原理，如果想了解原理的小伙伴请自行搜索其他技术博客或者查看官方文档。KNN算法fromsklearn.datasetsimportload_iris#导入莺尾花
Linux CentOS7 安装 MySQL asing1elife
介绍如何在LinuxCentOS7中在线安装MySQL8.x更多精彩更多技术博客，请移步IT人才终生实训与职业进阶平台-实训在线相关网址MySQL::DownloadMySQLYumRepositoryMySQL::AQuickGuidetoUsingtheMySQLYumRepositoryCentOS7下安装MySQL5.7安装与配置（YUM）-先定一个小目标-博客园安装步骤下载8.x的安装包
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio