做一个徘徊在牛a与牛c之间

spark-2.4.5编译支持Hadoop-3.3.1和Hive-3.1.2

文章目录

SPARK源码编译
版本要求
- 前提准备---Maven安装
- 前提准备---Scala安装
spark源码编译
编译问题
- 问题一
- 问题二
Spark 单机模式启动并测试
Spark集群配置
- 一、spark的安装路径：
- 二、现有系统环境变量：
- 三、查看并关闭防火墙
- 四、系统hosts设置
- 五、spark文件修改
- 六、集群启动：
- 七、集群测试
Spark整合hive
- 1. 拷贝hive中的配置文件到spark中的conf目录下
- 2. 拷贝hive中的mysql驱动jar包到spark中的jars目录下
- 3. 启动服务
- 4. 整合测试
- 5. ThirftServer和beeline的使用测试
- 6.问题集锦
- - Hadoop错误：
  - Spark错误：
问题集锦
- Hadoop错误：
- Spark错误：
WEB UI 界面

SPARK源码编译

版本要求

Spark版本：Spark-2.4.5（15M的那个，只有spark源码）
Maven版本：Maven-3.5.4
Scala版本： Scala-2.11.12
Hadoop版本：Hadoop-3.3.1
Hive 版本：Hive-3.1.2

前提准备—Maven安装

根据Spark官网中Spark源码编译文档可知，最低版本需要Maven 3.5.4以及Java 8 ，最好按照官方得版本进行编译！

Maven环境配置

将路径/root/package/目录下的apache-maven-3.5.4-bin.tar.gz安装包移动到/opt/目录下

mv /root/package/apache-maven-3.5.4-bin.tar.gz /opt/

在/root/opt/目录下解压该文件并更改目录名称为maven-3.5.4

cd /opt/

tar -zxvf apache-maven-3.5.4-bin.tar.gz

mv apache-maven-3.5.4-bin maven-3.5.4

在maven目录下得conf文件夹下配置阿里云镜像

<mirror>
    <id>alimavenid>
    <name>aliyun mavenname>
    <url>http://maven.aliyun.com/nexus/content/groups/public/url>
    <mirrorOf>centralmirrorOf>
mirror>

配置maven环境变量

vi /etc/profile

使环境变量生效

source /etc/profile

检查是否配置成功

mvn -v

前提准备—Scala安装

在spark官网查看Spark2.4.5开发文档查看spark需要得Scala版本

解压Scala-2.11.12安装包到/opt/目录下并配置系统环境变量

使得环境变量生效

source /etc/profile

[root@dc6-80-209 ~]# mvn -v
Apache Maven 3.5.4 (1edded0938998edf8bf061f1ceb3cfdeccf443fe; 2018-06-18T02:33:14+08:00)
Maven home: /opt/maven-3.5.4
Java version: 1.8.0_342, vendor: Red Hat, Inc., runtime: /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.342.b07-1.el7_9.aarch64/jre
Default locale: en_US, platform encoding: UTF-8
OS name: "linux", version: "4.14.0-115.el7a.0.1.aarch64", arch: "aarch64", family: "unix"
[root@dc6-80-209 ~]# java -version
openjdk version "1.8.0_342"
OpenJDK Runtime Environment (build 1.8.0_342-b07)
OpenJDK 64-Bit Server VM (build 25.342-b07, mixed mode)
[root@dc6-80-209 ~]# scala -version
cat: /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.342.b07-1.el7_9.aarch64/release: No such file or directory
Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
[root@dc6-80-209 ~]#

spark源码编译

修改make-distribution.sh以跳过检查

vi dev/make-distribution.sh

注释掉一下内容，并在文件末尾添加如下配置：

#VERSION=$("$MVN" help:evaluate -Dexpression=project.version $@ 2>/dev/null | grep -v "INFO" | tail -n 1)
#SCALA_VERSION=$("$MVN" help:evaluate -Dexpression=scala.binary.version $@ 2>/dev/null\
#    | grep -v "INFO"\
#    | tail -n 1)
#SPARK_HADOOP_VERSION=$("$MVN" help:evaluate -Dexpression=hadoop.version $@ 2>/dev/null\
#    | grep -v "INFO"\
#    | tail -n 1)
#SPARK_HIVE=$("$MVN" help:evaluate -Dexpression=project.activeProfiles -pl sql/hive $@ 2>/dev/null\
#    | grep -v "INFO"\
#    | fgrep --count "hive";\
#    # Reset exit status to 0, otherwise the script stops here if the last grep finds nothing\
#    # because we use "set -o pipefail"
#    echo -n)


# 设置版本信息
VERSION=2.4.5
SCALA_VERSION=2.11.12
SPARK_HADOOP_VERSION=3.3.1
SPARK_HIVE=3.1.2

在根目录执行如下命令：

 ./dev/make-distribution.sh --name build --tgz -Phadoop-3.3 -Dhadoop.version=3.3.1 -DskipTests -Pyarn -Phive -Phive-thriftserver

命令解释：

--name --tgz ：是最后生成的包名，以及采用上面格式打包，比如，编译的是spark-2.4.5，那么最后编译成功后就会在 spark-2.4.5这个目录下生成 spark--bin-build.tgz
-Pyarn： 表示支持yarn
--Phadoop-3.3 ：指定hadoop的主版本号
-Dhadoop.version： 指定hadoop的子版本号
-Phive -Phive-thriftserver：开启HDBC和Hive功能。

还可以加上：
　　-Dscala-2.11 ：指定scala版本。
　　-DskipTests ：忽略测试过程。
　　clean package：clean和package是编译目标。clean执行清理工作，比如清除旧打包痕迹，package用于编译和打包。

编译结果

编译spark-2.4.5编译支持Hadoop-3.3.1和Hive-3.1.2的tgz文件

spark–bin-build.tgz

编译问题

问题一

BUG

[WARNING] The requested profile "hadoop-3.3" could not be activated because it does not exist.
/opt/spark/build/zinc-0.3.15/bin/nailgun: line 50: /opt/spark/build/zinc-0.3.15/bin/ng/linux32/ng: cannot execute binary file

解决方法

在spark根目录下的pom.xml文件中修改Hadoop的版本配置

<properties>
    <project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
    <project.reporting.outputEncoding>UTF-8project.reporting.outputEncoding>
    <java.version>1.8java.version>
    <maven.compiler.source>${java.version}maven.compiler.source>
    <maven.compiler.target>${java.version}maven.compiler.target>
    <maven.version>3.5.4maven.version>
    <sbt.project.name>sparksbt.project.name>
    <slf4j.version>1.7.16slf4j.version>
    <log4j.version>1.2.17log4j.version>

	<hadoop.version>3.3.1hadoop.version>
    <protobuf.version>2.5.0protobuf.version>
    <yarn.version>${hadoop.version}yarn.version>
    <flume.version>1.6.0flume.version>
    <zookeeper.version>3.4.6zookeeper.version>
    <curator.version>2.6.0curator.version>
    <hive.group>org.spark-project.hivehive.group>
    
    <hive.version>1.2.1.spark2hive.version>
    
    <hive.version.short>1.2.1hive.version.short>
    <derby.version>10.12.1.1derby.version>
    ……
properties>

编译成功

问题二

BUG

在sparkbin目录下启动spark-shell出现如下bug，不能够识别Hadoop的版本

解决办法

查看hive3.1.2源码，根据问题所在：

在路径 org.apache.hadoop.hive.shims 下找到 ShimLoader抽象类中的getMajorVersion方法

/**
   * Return the "major" version of Hadoop currently on the classpath.
   * Releases in the 1.x and 2.x series are mapped to the appropriate
   * 0.x release series, e.g. 1.x is mapped to "0.20S" and 2.x
   * is mapped to "0.23".
   */
  public static String getMajorVersion() {
    String vers = VersionInfo.getVersion();

    String[] parts = vers.split("\\.");
    if (parts.length < 2) {
      throw new RuntimeException("Illegal Hadoop Version: " + vers +
          " (expected A.B.* format)");
    }

    switch (Integer.parseInt(parts[0])) {
    case 2:
    case 3:
      return HADOOP23VERSIONNAME;
    default:
      throw new IllegalArgumentException("Unrecognized Hadoop major version number: " + vers);
    }
  }

在包org.apache.hadoop.util下找到VersionInfo类如下：

public class VersionInfo {
    private static final Logger LOG = LoggerFactory.getLogger(VersionInfo.class);
    private Properties info = new Properties();
    private static VersionInfo COMMON_VERSION_INFO = new VersionInfo("common");

    protected VersionInfo(String component) {
        String versionInfoFile = component + "-version-info.properties";
        InputStream is = null;

        try {
            is = ThreadUtil.getResourceAsStream(VersionInfo.class.getClassLoader(), versionInfoFile);
            this.info.load(is);
        } catch (IOException var8) {
            LoggerFactory.getLogger(this.getClass()).warn("Could not read '" + versionInfoFile + "', " + var8.toString(), var8);
        } finally {
            IOUtils.closeStream(is);
        }

    }
    
    ………………
    
}

发现Hadoop的版本信息是从一个名为 “common-version-info.properties"这个文件中读取的，所以根据网上的说法，在spark的配置文件夹conf下自己添加一个该文件，命令如下：

touch common-version-info.properties
vi common-version-info.properties


#在该文件中设置如下
version=2.7.6 #版本信息设置成2和3都可以，因为源码中的case 2和case 3 都 return HADOOP23VERSIONNAME

Spark 单机模式启动并测试

在$SPARK_HOME/bin下启动spark-shell

在$SPARK_HOME/bin下启动spark-sql

Spark集群配置

一、spark的安装路径：

/opt/spark

二、现有系统环境变量：

vi /etc/profile

# java
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.342.b07-1.el7_9.aarch64
export JRE_HOME=$JAVA_HOME/jre
export PATH=$PATH:$JAVA_HOME/bin
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
# spark
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin
export SPARK_DIST_CLASSPATH=$(/opt/hadoop/hadoop/bin/hadoop classpath)

vi ~/.bashrc

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export HADOOP_HOME=/opt/hadoop/hadoop

三、查看并关闭防火墙

systemctl status firewalld 查看防火墙状态

systemctl stop firewalld 关闭防火墙

四、系统hosts设置

vi /etc/hosts

Hadoop1对应的主机为 172.36.65.14
Hadoop2对应的主机为 172.36.65.16
Hadoop3对应的主机为 172.36.65.15

主节点为Hadoop1 ，从节点分别为Hadoop2、Hadoop3

五、spark文件修改

spark-env.sh 文件

先切换到$SPARK_HOME/conf目录下，执行如下命令

cp  spark-env.sh.template   spark-env.sh

cp  slaves.template  slaves

vi /opt/spark/conf/spark-env.sh

在spark-env.sh文件中添加如下内容：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.342.b07-1.el7_9.aarch64
export SPARK_MASTER_IP=hadoop1
export SPARK_MASTER_POST=7077
export SPARK_WORKER_MEMORY=1G

slaves文件

在slaves文件中添加如下内容：

# 将原先文件中的localhost注释掉

hadoop2
hadoop3

将spark文件分发到其他从结点上

cd $SPARK_HOME
cd ../
scp -r spark root@hadoop2:/opt/
scp -r spark root@hadoop3:/opt/

分别在hadoop2和hadoop3两台主机上配置spark的系统环境变量

六、集群启动：

在主机Hadoop1上的$SPARK_HOME/sbin目录下执行

start-all.sh

分别在各个主从结点上使用jps命令查看是否启动成功

# 主节点 Hadoop 1 中
[root@dc6-80-235 sbin]# jps
15713 Master
15826 Jps

#从节点 Hadoop 2 中
[root@dc6-80-209 sbin]# jps
8384 Worker
8455 Jps


#从节点 Hadoop 3 中
[root@dc6-80-210 sbin]# jps
1756 Worker
1838 Jps

在spark的ui界面中查看（需关闭master主机的防火墙） url为 “ master结点IP：8080 ”

集群可以启动，通过jps查看都正确，但是通过ui界面却只能显示master结点

【解决办法】：

$SPARK_HOME/conf/路径下的spark-env.sh 文件中设置如下：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.342.b07-1.el7_9.aarch64
export SPARK_MASTER_HOST=hadoop1
export SPARK_MASTER_POST=7077
export SPARK_WORKER_MEMORY=1G

七、集群测试

Spark整合hive

1. 拷贝hive中的配置文件到spark中的conf目录下

查看hive-site.xml文件中的mysql数据库配置信息



<configuration>
<property>
    <name>hive.server2.thrift.client.username>
    <value>rootvalue>
    <description>Username to use against thrift clientdescription>
  property>
  <property>
    <name>hive.server2.thrift.client.passwordname>
    <value>123456value>
    <description>Password to use against thrift clientdescription>
 property>`
 <property>
    <name>javax.jdo.option.ConnectionURLname>
    <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=truevalue>
    <description>JDBC connect string for a JDBC metastoredescription>
  property>
  <property>
    <name>javax.jdo.option.ConnectionDriverNamename>
    <value>com.mysql.cj.jdbc.Drivervalue>
    <description>Driver class name for a JDBC metastoredescription>
  property>
  <property>
    <name>javax.jdo.option.ConnectionUserNamename>
    <value>hivevalue>
    <description>username to use against metastore databasedescription>
  property>
  # 添加metastore的url配置（对应hive安装节点，我的为hadoop1节点）
  <property>
    <name>hive.metastore.urisname>
    <value>thrift://hadoop1:9083value>
  property>

整合需要spark能够读取找到Hive的元数据以及数据存放位置。将hive-site.xml文件拷贝到Spark的conf目录下，同时添加metastore的url配置（对应hive安装节点，我的为hadoop1节点）。

【提醒】

 hive.metastore.uris启动metastore服务的端口必须设置为9083,否则将会出错!!!

<property>
    <name>hive.metastore.schema.verificationname>
    <value>falsevalue>
property>
<property>
    <name>hive.server2.authenticationname>
    <value>NOSASLvalue>
property>
<property>
  <name>hive.metastore.localname>
  <value>falsevalue>
property>
# 添加metastore的url配置（对应hive安装节点，我的为hadoop1节点）
<property>
  <name>hive.metastore.urisname>
  <value>thrift://hadoop1:9083value>
property>

修改后分发给其他结点

cd $HIVE_HOME/conf
scp -r hive-site.xml root@hadoop2:/opt/spark/conf/
scp -r hive-site.xml root@hadoop3:/opt/spark/conf/

2. 拷贝hive中的mysql驱动jar包到spark中的jars目录下

cd $HIVE_HOME/lib
scp -r mysql-connector-java-8.0.29 /opt/spark/jars/  #复制到本地主机为hadoop1
scp -r mysql-connector-java-8.0.29 root@hadoop2:/opt/spark/jars/  #复制到hadoop2
scp -r mysql-connector-java-8.0.29 root@hadoop3:/opt/spark/jars/  #复制到hadoop2

3. 启动服务

启动hadoop集群

使用start-all.sh命令启动集群，（系统环境变量中已经存在 $HADOOP_HOME/sbin的环境）

[root@dc6-80-235 jars]# start-all.sh
Starting namenodes on [localhost]
Last login: Sat Aug 27 15:54:02 CST 2022 on pts/10
localhost: namenode is running as process 24466.  Stop it first and ensure /tmp/hadoop-root-namenode.pid file is empty before retry.
Starting datanodes
Last login: Sat Aug 27 16:00:00 CST 2022 on pts/10
localhost: datanode is running as process 24647.  Stop it first and ensure /tmp/hadoop-root-datanode.pid file is empty before retry.
Starting secondary namenodes [dc6-80-235.novalocal]
Last login: Sat Aug 27 16:00:01 CST 2022 on pts/10
dc6-80-235.novalocal: secondarynamenode is running as process 24920.  Stop it first and ensure /tmp/hadoop-root-secondarynamenode.pid file is empty before retry.
2022-08-27 16:00:20,039 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Starting resourcemanager
Last login: Sat Aug 27 16:00:07 CST 2022 on pts/10
resourcemanager is running as process 25263.  Stop it first and ensure /tmp/hadoop-root-resourcemanager.pid file is empty before retry.
Starting nodemanagers
Last login: Sat Aug 27 16:00:20 CST 2022 on pts/10
localhost: nodemanager is running as process 25442.  Stop it first and ensure /tmp/hadoop-root-nodemanager.pid file is empty before retry.

jps检测是否启动成功

[root@dc6-80-235 ~]# jps
1697 NameNode
1882 DataNode
2220 SecondaryNameNode
2573 ResourceManager
3150 Jps
2751 NodeManager

在各个结点中查看并启动Mysql服务

#查看mysql的状态
systemctl status mysqld
#启动mysql
systemctl start mysqld

启动hive metastore服务

#切换到hive中的bin目录下
cd $HIVE_HOME/bin 
#启动metastore服务
hive --service metastore

启动成功的结果如下:

# 使用jps查看
[root@dc6-80-235 ~]# jps
992 RunJar   # metastore 进程
1697 NameNode
1882 DataNode
2220 SecondaryNameNode
2573 ResourceManager
3150 Jps
2751 NodeManager

启动hive

# 在一个新终端上启动hive
cd $HIVE_HOME/bin
hive

启动结果如下

启动spark集群服务

# 切换到spark根目录中
cd $SPARK_HOME/sbin

#启动集群服务
[root@dc6-80-235 sbin]# ./start-all.sh
starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-dc6-80-235.novalocal.out
hadoop2: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-dc6-80-209.novalocal.out
hadoop3: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-dc6-80-210.novalocal.out

在$SPARK_HOME/bin目录下启动spark-shell

[root@dc6-80-235 ~]# cd $SPARK_HOME/bin
[root@dc6-80-235 bin]# spark-shell
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/spark/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/hadoop/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.30.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
22/08/27 17:53:04 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://hadoop1:4040
Spark context available as 'sc' (master = local[*], app id = local-1661593991736).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.5
      /_/

Using Scala version 2.11.12 (OpenJDK 64-Bit Server VM, Java 1.8.0_342)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

在$SPARK_HOME/bin目录下启动spark-sql

[root@dc6-80-235 ~]# cd /opt/spark/bin/      # cd 到 $SPARK_HOME目录下
[root@dc6-80-235 bin]# spark-sql
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/spark/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/hadoop/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.30.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
22/08/28 17:21:47 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
22/08/28 17:21:48 INFO metastore: Trying to connect to metastore with URI thrift://hadoop1:9083
22/08/28 17:21:48 INFO metastore: Connected to metastore.
22/08/28 17:21:49 INFO SessionState: Created local directory: /tmp/ad7756f8-ca79-4693-aa49-fe401bf49adf_resources
22/08/28 17:21:49 INFO SessionState: Created HDFS directory: /tmp/hive/root/ad7756f8-ca79-4693-aa49-fe401bf49adf
22/08/28 17:21:49 INFO SessionState: Created local directory: /tmp/root/ad7756f8-ca79-4693-aa49-fe401bf49adf
22/08/28 17:21:49 INFO SessionState: Created HDFS directory: /tmp/hive/root/ad7756f8-ca79-4693-aa49-fe401bf49adf/_tmp_space.db
22/08/28 17:21:49 INFO SparkContext: Running Spark version 2.4.5
22/08/28 17:21:49 INFO SparkContext: Submitted application: SparkSQL::10.208.140.27
22/08/28 17:21:49 INFO SecurityManager: Changing view acls to: root
22/08/28 17:21:49 INFO SecurityManager: Changing modify acls to: root
22/08/28 17:21:49 INFO SecurityManager: Changing view acls groups to:
22/08/28 17:21:49 INFO SecurityManager: Changing modify acls groups to:
22/08/28 17:21:49 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users  with view permissions: Set(root); groups with view permissions: Set(); users  with modify permissions: Set(root); groups with modify permissions: Set()
22/08/28 17:21:49 INFO Utils: Successfully started service 'sparkDriver' on port 34795.
22/08/28 17:21:49 INFO SparkEnv: Registering MapOutputTracker
22/08/28 17:21:49 INFO SparkEnv: Registering BlockManagerMaster
22/08/28 17:21:49 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information
22/08/28 17:21:49 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up
22/08/28 17:21:49 INFO DiskBlockManager: Created local directory at /tmp/blockmgr-757d950e-8d54-4ac1-a17d-b7d9f0019ce6
22/08/28 17:21:49 INFO MemoryStore: MemoryStore started with capacity 366.3 MB
22/08/28 17:21:49 INFO SparkEnv: Registering OutputCommitCoordinator
22/08/28 17:21:49 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
22/08/28 17:21:49 INFO Utils: Successfully started service 'SparkUI' on port 4041.
22/08/28 17:21:49 INFO SparkUI: Bound SparkUI to 0.0.0.0, and started at http://hadoop1:4041
22/08/28 17:21:49 INFO Executor: Starting executor ID driver on host localhost
22/08/28 17:21:49 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 37823.
22/08/28 17:21:49 INFO NettyBlockTransferService: Server created on hadoop1:37823
22/08/28 17:21:49 INFO BlockManager: Using org.apache.spark.storage.RandomBlockReplicationPolicy for block replication policy
22/08/28 17:21:50 INFO BlockManagerMaster: Registering BlockManager BlockManagerId(driver, hadoop1, 37823, None)
22/08/28 17:21:50 INFO BlockManagerMasterEndpoint: Registering block manager hadoop1:37823 with 366.3 MB RAM, BlockManagerId(driver, hadoop1, 37823, None)
22/08/28 17:21:50 INFO BlockManagerMaster: Registered BlockManager BlockManagerId(driver, hadoop1, 37823, None)
22/08/28 17:21:50 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, hadoop1, 37823, None)
22/08/28 17:21:50 INFO SharedState: loading hive config file: file:/opt/spark/conf/hive-site.xml
22/08/28 17:21:50 INFO SharedState: Setting hive.metastore.warehouse.dir ('null') to the value of spark.sql.warehouse.dir ('file:/opt/spark/bin/spark-warehouse').
22/08/28 17:21:50 INFO SharedState: Warehouse path is 'file:/opt/spark/bin/spark-warehouse'.
22/08/28 17:21:50 INFO StateStoreCoordinatorRef: Registered StateStoreCoordinator endpoint
22/08/28 17:21:50 INFO HiveUtils: Initializing HiveMetastoreConnection version 1.2.1 using Spark classes.
22/08/28 17:21:50 INFO HiveClientImpl: Warehouse location for Hive client (version 1.2.2) is file:/opt/spark/bin/spark-warehouse
22/08/28 17:21:50 INFO metastore: Mestastore configuration hive.metastore.warehouse.dir changed from /user/hive/warehouse to file:/opt/spark/bin/spark-warehouse
22/08/28 17:21:50 INFO metastore: Trying to connect to metastore with URI thrift://hadoop1:9083
22/08/28 17:21:50 INFO metastore: Connected to metastore.
Spark master: local[*], Application Id: local-1661678509887
22/08/28 17:21:51 INFO SparkSQLCLIDriver: Spark master: local[*], Application Id: local-1661678509887
spark-sql> show databases;
22/08/28 17:22:01 INFO CodeGenerator: Code generated in 180.56121 ms
default
Time taken: 2.216 seconds, Fetched 1 row(s)
22/08/28 17:22:01 INFO SparkSQLCLIDriver: Time taken: 2.216 seconds, Fetched 1 row(s)

4. 整合测试

测试数据准备

# 在Linux主机上的/opt/路径下创建测试数据
[root@dc6-80-235 ~]# cd /opt/
[root@dc6-80-235 opt]# touch test.txt
[root@dc6-80-235 opt]# ls
cloudinit  hadoop  rh  software  spark  test.txt  zookeeper
[root@dc6-80-235 opt]# vi test.txt

# 在test.txt文件中编写测试数据如下
    0001 hadoop
    0002 yarn
    0003 hbase
    0004 hive
    0005 spark
    0006 mysql
    0007 flume

在打开的hive服务的终端窗口中创建数据库test以及表test并导入数据(数据源为test.txt文件)

# 创建数据库 test
hive> create database test;
OK
Time taken: 11.584 seconds
# 查看是否创建成功
hive> show databases;
OK
default
test
Time taken: 10.237 seconds, Fetched: 2 row(s)
# 选择test数据库
hive> use test;
OK
Time taken: 10.077 seconds
# 创建表test
hive> create table if not exists test(userid string,username string) row format delimited fields terminated by ' ' stored as textfile;
OK
Time taken: 5.674 seconds
# 查看是否创建成功
hive> show tables;
OK
test
Time taken: 10.089 seconds, Fetched: 1 row(s)
# 从本地文件中导入数据到test表中
hive> load data local inpath "/opt/test.txt" into table test;
Loading data to table test.test
OK
Time taken: 6.653 seconds
hive>

在spark-shell服务的终端窗口中查看数据


scala> spark.sql("show databases").collect();
res1: Array[org.apache.spark.sql.Row] = Array([default])

scala> spark.sql("select * from test.test").show()
+------+--------+
|userid|username|
+------+--------+
|  0001|  hadoop|
|  0002|    yarn|
|  0003|   hbase|
|  0004|    hive|
|  0005|   spark|
|  0006|   mysql|
|  0007|   flume|
|      |    null|
+------+--------+

在spark-sql服务的终端窗口中查看数据

spark-sql> show databases;
default
test
Time taken: 0.028 seconds, Fetched 2 row(s)
22/08/28 17:38:34 INFO SparkSQLCLIDriver: Time taken: 0.028 seconds, Fetched 2 row(s)
spark-sql> use test;
Time taken: 0.046 seconds
22/08/28 17:38:44 INFO SparkSQLCLIDriver: Time taken: 0.046 seconds
spark-sql> select * from test;
22/08/28 17:38:59 INFO MemoryStore: Block broadcast_0 stored as values in memory (estimated size 479.1 KB, free 365.8 MB)
22/08/28 17:38:59 INFO MemoryStore: Block broadcast_0_piece0 stored as bytes in memory (estimated size 52.3 KB, free 365.8 MB)
22/08/28 17:38:59 INFO BlockManagerInfo: Added broadcast_0_piece0 in memory on hadoop1:37823 (size: 52.3 KB, free: 366.2 MB)
22/08/28 17:38:59 INFO SparkContext: Created broadcast 0 from
22/08/28 17:38:59 INFO FileInputFormat: Total input files to process : 1
22/08/28 17:38:59 INFO SparkContext: Starting job: processCmd at CliDriver.java:376
22/08/28 17:38:59 INFO DAGScheduler: Got job 0 (processCmd at CliDriver.java:376) with 1 output partitions
22/08/28 17:38:59 INFO DAGScheduler: Final stage: ResultStage 0 (processCmd at CliDriver.java:376)
22/08/28 17:38:59 INFO DAGScheduler: Parents of final stage: List()
22/08/28 17:38:59 INFO DAGScheduler: Missing parents: List()
22/08/28 17:38:59 INFO DAGScheduler: Submitting ResultStage 0 (MapPartitionsRDD[4] at processCmd at CliDriver.java:376), which has no missing parents
22/08/28 17:38:59 INFO MemoryStore: Block broadcast_1 stored as values in memory (estimated size 8.1 KB, free 365.8 MB)
22/08/28 17:38:59 INFO MemoryStore: Block broadcast_1_piece0 stored as bytes in memory (estimated size 4.4 KB, free 365.8 MB)
22/08/28 17:38:59 INFO BlockManagerInfo: Added broadcast_1_piece0 in memory on hadoop1:37823 (size: 4.4 KB, free: 366.2 MB)
22/08/28 17:38:59 INFO SparkContext: Created broadcast 1 from broadcast at DAGScheduler.scala:1163
22/08/28 17:38:59 INFO DAGScheduler: Submitting 1 missing tasks from ResultStage 0 (MapPartitionsRDD[4] at processCmd at CliDriver.java:376) (first 15 tasks are for partitions Vector(0))
22/08/28 17:38:59 INFO TaskSchedulerImpl: Adding task set 0.0 with 1 tasks
22/08/28 17:38:59 INFO TaskSetManager: Starting task 0.0 in stage 0.0 (TID 0, localhost, executor driver, partition 0, ANY, 7923 bytes)
22/08/28 17:38:59 INFO Executor: Running task 0.0 in stage 0.0 (TID 0)
22/08/28 17:38:59 INFO HadoopRDD: Input split: hdfs://localhost:9000/user/hive/warehouse/test.db/test/test.txt:0+77
22/08/28 17:39:00 INFO ContextCleaner: Cleaned accumulator 2
22/08/28 17:39:00 INFO ContextCleaner: Cleaned accumulator 0
22/08/28 17:39:00 INFO ContextCleaner: Cleaned accumulator 1
22/08/28 17:39:00 INFO ContextCleaner: Cleaned accumulator 3
22/08/28 17:39:00 INFO CodeGenerator: Code generated in 24.82466 ms
22/08/28 17:39:00 INFO LazyStruct: Missing fields! Expected 2 fields but only got 1! Ignoring similar problems.
22/08/28 17:39:00 INFO Executor: Finished task 0.0 in stage 0.0 (TID 0). 1519 bytes result sent to driver
22/08/28 17:39:00 INFO TaskSetManager: Finished task 0.0 in stage 0.0 (TID 0) in 276 ms on localhost (executor driver) (1/1)
22/08/28 17:39:00 INFO TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool
22/08/28 17:39:00 INFO DAGScheduler: ResultStage 0 (processCmd at CliDriver.java:376) finished in 0.349 s
22/08/28 17:39:00 INFO DAGScheduler: Job 0 finished: processCmd at CliDriver.java:376, took 0.415864 s
0001    hadoop
0002    yarn
0003    hbase
0004    hive
0005    spark
0006    mysql
0007    flume
        NULL
Time taken: 1.392 seconds, Fetched 8 row(s)
22/08/28 17:39:00 INFO SparkSQLCLIDriver: Time taken: 1.392 seconds, Fetched 8 row(s)
spark-sql> 22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 26
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 23
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 19
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 17
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 18
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 21
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 8
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 29
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 6
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 12
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 22
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 27
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 14
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 11
22/08/28 17:51:50 INFO BlockManagerInfo: Removed broadcast_1_piece0 on hadoop1:37823 in memory (size: 4.4 KB, free: 366.2 MB)
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 5
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 13
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 28
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 9
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 4
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 7
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 10
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 25
22/08/28 17:51:50 INFO BlockManagerInfo: Removed broadcast_0_piece0 on hadoop1:37823 in memory (size: 52.3 KB, free: 366.3 MB)
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 24
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 20
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 15
22/08/28 17:51:50 INFO ContextCleaner: Cleaned accumulator 16

5. ThirftServer和beeline的使用测试

启动metastore服务

# $HIVE_HOME/bin 路径下
[root@dc6-80-235 bin]# hive --service metastore &
[1] 26437
[root@dc6-80-235 bin]# 2022-08-28 18:14:29: Starting Hive Metastore Server
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/usr/local/hive/lib/log4j-slf4j-impl-2.10.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/hadoop/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.30.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]


# 查看是否启动成功
[root@dc6-80-235 ~]# jps
22736 SparkSubmit
21106 ResourceManager
21285 NodeManager
26437 RunJar     # metastore 服务
20726 SecondaryNameNode
22438 SparkSubmit
20359 DataNode
21932 Master
20189 NameNode
26590 Jps

启动thriftserver服务

# $SPARK_HOME/bin 目录下
[root@dc6-80-235 sbin]# ./start-thriftserver.sh
starting org.apache.spark.sql.hive.thriftserver.HiveThriftServer2, logging to /opt/spark/logs/spark-root-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2-1-dc6-80-235.novalocal.out
# 查看是否启动成功
[root@dc6-80-235 sbin]# jps
22736 SparkSubmit 
21106 ResourceManager
21285 NodeManager
26437 RunJar
20726 SecondaryNameNode
22438 SparkSubmit
20359 DataNode
26904 Jps
21932 Master
20189 NameNode
26765 SparkSubmit # 所启动的thriftserver服务的进程号
[root@dc6-80-235 sbin]#

通过beeline链接

# 在$SPARK_HOME/bin 路径下
# !connect jdbc:hive2://主机名:端口号
beeline> !connect jdbc:hive2://hadoop1:10000
Connecting to jdbc:hive2://hadoop1:10000
Enter username for jdbc:hive2://hadoop1:10000: hive
Enter password for jdbc:hive2://hadoop1:10000: ******
22/08/28 18:29:27 INFO Utils: Supplied authorities: hadoop1:10000
22/08/28 18:29:27 INFO Utils: Resolved authority: hadoop1:10000
22/08/28 18:29:27 INFO HiveConnection: Will try to open client transport with JDBC Uri: jdbc:hive2://hadoop1:10000
Connected to: Spark SQL (version 2.4.5)
Driver: Hive JDBC (version 1.2.1.spark2)
Transaction isolation: TRANSACTION_REPEATABLE_READ
0: jdbc:hive2://hadoop1:10000>

使用sql命令访问hive中的数据

0: jdbc:hive2://hadoop1:10000> show databases;
+---------------+--+
| databaseName  |
+---------------+--+
| default       |
| test          |
+---------------+--+
2 rows selected (0.754 seconds)
0: jdbc:hive2://hadoop1:10000> use test;
+---------+--+
| Result  |
+---------+--+
+---------+--+
No rows selected (0.044 seconds)
0: jdbc:hive2://hadoop1:10000> select * from test.test;
+---------+-----------+--+
| userid  | username  |
+---------+-----------+--+
| 0001    | hadoop    |
| 0002    | yarn      |
| 0003    | hbase     |
| 0004    | hive      |
| 0005    | spark     |
| 0006    | mysql     |
| 0007    | flume     |
|         | NULL      |
+---------+-----------+--+
8 rows selected (1.663 seconds)

6.问题集锦

Hadoop错误：

Warning 1：

Failed to load native-hadoop with error: java.lang.UnsatisfiedLinkError: no hadoop in java.library.path

在/HADOOP_HOME/etc/hadoop/中的hadoop_env.sh头部添加了如下信息：

export HADOOP_COMMON_LIB_NATIVE_DIR="/usr/local/hadoop/lib/native/"
export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=/usr/local/hadoop/lib/native/"

Warning 2：

【解决方案】

使用命令：hdfs dfsadmin -safemode leave 关闭 Hadoop 的安全模式

Warning 3：

hdfs 页面没有/tmp权限

【解决方案】

hdfs dfs -chmod -R 755 /tmp

Spark错误：

Warning 1：

Master主机正常，从从节点Worker机器中的$SPARK_HOME/logs目录下发现如下错误，从节点无法与主节点建立连接

Caused by: java.net.NoRouteToHostException: No route to host

【解决方案】

检查并关闭Master结点的防火墙

问题集锦

Hadoop错误：

Warning 1：

Failed to load native-hadoop with error: java.lang.UnsatisfiedLinkError: no hadoop in java.library.path

在/HADOOP_HOME/etc/hadoop/中的hadoop_env.sh头部添加了如下信息：

export HADOOP_COMMON_LIB_NATIVE_DIR="/usr/local/hadoop/lib/native/"
export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=/usr/local/hadoop/lib/native/"

Warning 2：

[外链图片转存中…(img-17TInDVf-1661694827124)]

【解决方案】

使用命令：hdfs dfsadmin -safemode leave 关闭 Hadoop 的安全模式

Warning 3：

hdfs 页面没有/tmp权限

【解决方案】

hdfs dfs -chmod -R 755 /tmp

Spark错误：

Warning 1：

Master主机正常，从从节点Worker机器中的$SPARK_HOME/logs目录下发现如下错误，从节点无法与主节点建立连接

Caused by: java.net.NoRouteToHostException: No route to host

【解决方案】

检查并关闭Master结点的防火墙

WEB UI 界面

Spark中Master的UI管理界面： http://172.36.65.14:8080/
Spark中Spark-shell的UI管理界面： http://172.36.65.14:4040/
Hadoop的UI管理界面: http://172.36.65.14:9870/dfshealth.html#tab-overview

(其中172.36.65.14为Master主机IP地址)

【问题反馈】

你可能感兴趣的:(大数据组件,spark,hive,hadoop)

C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
精益敏捷之道（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0b2addbef6e2afb0ce49d44d7300959a译者：飞龙协议：CCBY-NC-SA4.0前言“精益敏捷之道：通过价值流管理释放企业潜力”一书源于首席作者塞西尔·‘加里’·鲁普与尊敬的同事理查德·克纳斯特、史蒂夫·佩雷拉和艾尔·沙洛韦的合作努力。他们的目标是为IT专家、商业专业人士以及各行业和组织的领域专家提供一本关于现代精益敏捷和
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
Python 取证学习指南第二版（三）
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0第七章：模糊哈希哈希是DFIR中最常见的处理过程之一。这个过程允许我们总结文件内容，并分配一个代表文件内容的独特且可重复的签名。我们通常使用MD5、SHA1和SHA256等算法对文件和内容进行哈希。这些哈希算法非常有价值，因为我们可以用它们进行
低版本hive(1.2.1)UDF实现清除历史分区数据 ༺水墨石༻ hive hive UDF hive hadoop 数据仓库
目标：通过UDF实现对表历史数据清除入参：表名、保留天数N一、pom文件4.0.0com.examplehive-udf-example1.0-SNAPSHOTjarhive-udf-exampleHiveUDFfordeletingpartitionsbydateUTF-81.81.8org.apache.hivehive-exec1.2.1org.apache.hivehive-metasto
shell脚本实现Hive库表迁移 docsz hive Linux shell
1、获取hive所有库的建表语句#获取hive所有库的建表语句#!/bin/bashmkdir-p~/hive/tables/tablesDDL#获取库名hive-e"showdatabases;">~/hive/databases.txtsed-i'1,3d'~/hive/databases.txtsed-i'$d'~/hive/databases.txtcat~/hive/databases.
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
debian 安装 mysql5.7 你会忘记吃饭吗 debian 运维
cd/usr/local/src:wgethttps://downloads.mysql.com/archives/get/p/23/file/mysql-server_5.7.29-1debian10_amd64.deb-bundle.tartar-xvfxx.tarcdxx:执行dpkg-imysql-community-client_5.7.29-1debian10_amd64.deb返回S
HTB academy -- Linux Privilege Escalation --Service-based Privilege Escalation 网络安全小吗喽 linux 服务器网络安全测试工具
VulnerableServices#!/bin/bash#screenroot.sh#setuidscreenv4.5.0localrootexploit#abusesld.so.preloadoverwritingtogetroot.#bug:https://lists.gnu.org/archive/html/screen-devel/2017-01/msg00025.html#HACKTH
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
Python 强化学习算法实用指南（二）
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法。这些算法通过学习一个价值函数来找到一个好的策略。尽管它们表现良好，但它们的应用受限于一些内在的限制。在本章中，我们将介绍一类新的算法——策略梯度方法，它们通过
ftp文件服务器有连接数限制,查看ftp服务器连接数命令赵承铭 ftp文件服务器有连接数限制
查看ftp服务器连接数命令内容精选换一换本章节适用于MRS3.x之前版本。Loader支持以下多种连接，每种连接的配置介绍可根据本章节内容了解。obs-connectorgeneric-jdbc-connectorftp-connector或sftp-connectorhbase-connector、hdfs-connector或hive-connectorOBS连接是Loa“数据导入”章节适用于
android nodejs cike110120
本文参照了http://www.blogjava.net/jelver/articles/143082.html，http://www.blogjava.net/athrunwang/archive/2011/09/28/359680.html，《androidSDK开发范例大全(第2版)》上次做了一个demo，试验如何用node.js响应getpost请求，http请求使用的浏览器。我现在正在学
CYW43: 无线网络开发套件指南阮曦薇Joe
CYW43:无线网络开发套件指南cyw43ARCHIVED--movedintothemainEmbassyrepoathttps://github.com/embassy-rs/embassy项目地址:https://gitcode.com/gh_mirrors/cy/cyw43项目介绍CYW43是一个基于Rust的开源项目，专门用于驱动CypressCYW43xx系列WiFi和蓝牙芯片。它提供
spring-data-jpa+spring+hibernate+druid配置
参考链接：http://doc.okbase.net/liuyitian/archive/109276.htmlhttp://my.oschina.net/u/1859292/blog/312188最新公司的web项目需要用到spring-data-jpa作为JPA的实现框架，同时使用阿里巴巴的开源数据库连接池druid。关于这两种框架的介绍我在这里就不多赘述。直接进入配置页面：spring的配置
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
Hive适用语法 `whyYa hive hadoop 数据仓库
一、日期处理函数总结1.trunc()–取日期中当月第一天trunc(‘2022-12-05’,‘MM’)--取当月第一天2022-12-01trunc(‘2022-12-05’,‘Q’)--季度中的第一天2022-10-01trunc(‘2022-12-03’,‘YEAR’)–取当年第一天20222.last_day()–取当月最后一天last_day(‘2022-12-03’)3.month(
debian安装docker Sahas1019 debian docker eureka
debian安装docker/dev/null对于Debian11(bullseye)或更新版本：echo\"deb[arch=$(dpkg--print-architecture)signed-by=/usr/share/keyrings/docker-archive-keyring.gpg]https://download.docker.com/linux/debian\$(lsb_relea
Ubuntu22.04安装cudnn详细步骤大鹏的NLP博客深度学习 cudnn
下载指定版本的cudnnhttps://developer.nvidia.com/rdp/cudnn-archive#a-collapse804-111安装sudodpkg-icudnn-local-repo-ubuntu2204-8.9.7.29_1.0-1_amd64.deb根据上步提示：sudocp/var/cudnn-local-repo-ubuntu2204-8.9.7.29/cudnn
Docker安装部署MySQL+Canal+Kafka+Camus+HIVE数据实时同步是小南啊_- Java java centos docker kafka hadoop
因为公司业务需求要将mysql的数据实时同步到hive中，在网上找到一套可用的方案，即MySQL+Canal+Kafka+Camus+HIVE的数据流通方式，因为是首次搭建，所以暂时使用伪分布式的搭建方案。一、安装docker安装docker的教程网上一搜一大把,请参考：centos下docker安装教程二、docker安装MySQL安装教程网上也有很多，请参考:docker安装MySQL1.开启
assembly : maven assembly打包报错：maven to create assembly : unable to obtain archiver for extension 九师兄工具-maven
原因是没有添加org.apache.maven.plugins<artifactId
使用Java实现MP3音乐播放器
原文链接：http://www.cnblogs.com/haoxia/archive/2009/06/03/1495419.html使用Java实现MP3音乐播放器JavaSound是一个小巧的低层API，支持数字音频和MIDI数据的记录/回放。在JDK1.3.0之前，JavaSound是一个标准的Java扩展API，但从Java2的1.3.0版开始，JavaSound就被包含到JDK之中。由于J
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(