Lfx_come on

hadoop集群搭建、spark集群搭建、pyspark搭建（linux+window）

1、前言

本文记录学习过程中Hadoop、zookeeper、spark集群搭建，主要为pyspark库服务（具体为window上pyspark环境和pyspark库，linux上spark框架、pyspark应用程序、pyspark环境和pyspark库）。pyspark环境是用anaconda3搭建的环境。pyspark应用程序，是安装spark集群里面自带的，提供一个python解释器环境来执行spark任务。pyspark库，是python里面的库，可以import导入，里面配置了完全的sparkapi，可以编写spark程序在window或linux上运行。

本文的集群搭建主要以linux为主，对于pyspark库部分，将涉及window，用来在window下使用pyspark库写程序运行以及上传到linux上运行。如果只关注pyspark库在window上运行，直接到2.11部分进行配置。

本文使用文件：

jdk：jdk-8u361-linux-x64.tar，jdk-8u361-windows-x86.exe

hadoop：hadoop-3.3.4.tar.gz

zookeeper：apache-zookeeper-3.5.9-bin.tar.gz

spark：spark-3.2.0-bin-hadoop3.2.tgz

anaconda3：Anaconda3-2021.05-Linux-x86_64.sh，anaconda3-2021.05-windows-x86_64.exe

hive：apache-hive-3.1.3-bin.tar.gz

mysql驱动包：mysql-connector-java-5.1.34.jar，linux内部安装的5.7版本。mysql-connector-java-8.0.13

本文内容中涉及路径的，根据自己设定进行修改。

2、搭建过程

2.1虚拟机设置

本文使vmware搭建linux虚拟机。

打开vmware虚拟网络编辑器，更改设置-vmnet8-子网为192.168.88.0，子网掩码为255.255.255.0-nat设置-网关为192.168.88.2-确定。

使用centos7操作系统。下载好安装并创建用户。右击该用户-管理-克隆-其中选择完整克隆-名字为node1，选择存储文件位置-确定。进行三次，分别创建node1、node2、node3。设置node1内存为4gb，node2和node3为2gb。

打开三台虚拟机。

主机名设置：在node1下，切换管理员用户，hostnamectl set-hostname node1，重启终端。另外两台同样配置。

修改ip地址：在node1下，vim /etc/sysconfig/network-scripts/ifcfg-ens33，BOOTPROTO='static'，在最下面增加IPADDR="192.168.88.101",NETMASK="255.255.255.0",GATEWAY="192.168.88.2",DNS1="192.168.88.2"。wq保存。systemctl restart network。另外两台同样配置，只是IPADDR分别为102、103。

配置主机映射：windows中，c/windows/system/drivers/etc/hosts，打开，增加并保存，保存的时候需要管理员权限，点击是：

192.168.88.101 node1

192.168.88.102 node2

192.168.88.103 node3

在linux中，使用finalshell远程连接，root用户。vim /etc/hosts，增加并保存：

192.168.88.101 node1

192.168.88.102 node2

192.168.88.103 node3

配置ssh免密登录：在每台上执行：ssh-keygen -t rsa -b 4096，一路回车到底。在每台上执行：ssh-copy-id node1，过程中输入密码。

ssh-copy-id node2

ssh-copy-id node3

完成后，在node1上执行ssh node3，成功即可。

创建hadoop用户：用来启动大数据相关程序。每台上执行：useradd hadoop。passwd hadoop，输入密码。su - hadoop，进行hadoop用户，配置免密登录，流程参上。

jdk环境部署：root下node1，mkdir -p /export/server。rz，选择jdk压缩包上传。解压：tar -zxvf 压缩包名字 -C /export/server/ 。配置软连接：ln -s /export/server/解压后的名字 jdk。配置环境变量：vim etc/profile，export JAVA_HOME=/export/server/jdk，export PATH=$PAYH:$JAVA_HOME/bin，保存退出。生效环境变量：source /etc/profile。配置java执行程序的软连接：rm -f /usr/bin/java，ln -s /export/server/jdk/bin/java /usr/bin/java。验证java -version，javac -version。server文件夹下分发：scp -r 解压后jdk的名字 node2:`pwd`/,scp -r 解压后jdk的名字 node3:`pwd`/。在node2和node3，root下，配置软连接，环境变量，验证。

防火墙设置：root，每台机器执行：systemctl stop firewalld，systemctl disable firewalld，vim /etc/sysconfig/selinux，第七行SELINUX=disabled，保存退出。init 6 重启。

时区和网络同步：root，每台机器执行：可以先执行date，看一下时间是否如当前所示。安装ntp，yum install -y ntp，更新时区：rm -f /etc/localtime，ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime，再执行date查看，最后应为CST。校准：ntpdate -u ntp.aliyun.com。启动和自启：systemctl start ntpd，systemctl enable ntpd

配置不易，快照保存！！！

2.2部署HDFS集群

node1，root，上传hadoop压缩包。解压：tar -zxvf hadoop-3.3.4.tar.gz -C /export/server/。进入server文件夹cd /export/server，构建软连接：ln -s /export/server/hadoop-3.3.4 hadoop。

修改配置文件：cd /export/server/hadoop/etc/hadoop。第一：vim workers，添加保存：

node1

node2

node3

第二：vim hadoop-env.sh，添加：

export JAVA_HOME=/export/server/jdk

export HADOOP_HOME=/export/server/hadoop

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export HADOOP_LOG_DIR=$HADOOP_HOME/logs

第三：vim core-site.sh，添加：


  
    fs.defaultFS
    hdfs://node1:8020
  

  
    io.file.buffer.size
    131072

第四：vim hdfs-site.xml，添加：


  
    dfs.datanode.data.dir.perm
    700
  
  
    dfs.namenode.name.dir
    /data/nn
  
  
    dfs.namenode.hosts
    node1,node2,node3
  
  
    dfs.blocksize
    268435456
  
  
    dfs.namenode.handler.count
    100
  
  
    dfs.datanode.data.dir
    /data/dn

创建文件夹：mkdir -p /data/nn，mkdir /data/dn。node2和node3中：mkdir -p /data/dn

分发：cd /export/server，scp -r hadoop-3.3.4 node2:`pwd`/，scp -r hadoop-3.3.4 node3:`pwd`/，

node2和node3中：ln -s /export/server/hadoop-3.3.4 hadoop

配置环境变量：node1，node2，node3：vim /etc/profile，添加：

export HADOOP_HOME=/export/server/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存退出，执行source /etc/profile，重启环境变量。

授权hadoop用户：root，node1，node2，node3中：chown -R hadoop:hadoop /data，chown -R hadoop:hadoop /export 。

格式化：node1：su - hadoop，hadoop namenode -format

启动验证：每台机器上hadoop用户下，start-dfs.sh。输入jps，出现角色。

配置不易，快照保存！！！

2.3mapreduce配置和yarn部署

mapreduce：node1，hadoop。cd /export/server/hadoop/etc/hadoop，vim mapred-env.sh，

添加：

export JAVA_HOME=/export/server/jdk

export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000

export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA

vim mapred.site.xml，添加：


  
    mapreduce.framework.name
    yarn
    
  

  
    mapreduce.jobhistory.address
    node1:10020
    
  


  
    mapreduce.jobhistory.webapp.address
    node1:19888
    
  


  
    mapreduce.jobhistory.intermediate-done-dir
    /data/mr-history/tmp
    
  


  
    mapreduce.jobhistory.done-dir
    /data/mr-history/done
    
  

  yarn.app.mapreduce.am.env
  HADOOP_MAPRED_HOME=$HADOOP_HOME


  mapreduce.map.env
  HADOOP_MAPRED_HOME=$HADOOP_HOME


  mapreduce.reduce.env
  HADOOP_MAPRED_HOME=$HADOOP_HOME

yarn：node1，hadoop。cd /export/server/hadoop/etc/hadoop，vim yarn-env.sh，添加：

export JAVA_HOME=/export/server/jdk

export HADOOP_HOME=/export/server/hadoop

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export HADOOP_LOG_DIR=$HADOOP_HOME/logs

vim yarn-site.xml，添加：





    yarn.log.server.url
    http://node1:19888/jobhistory/logs
    


  
    yarn.web-proxy.address
    node1:8089
    proxy server hostname and port
  


  
    yarn.log-aggregation-enable
    true
    Configuration to enable or disable log aggregation
  

  
    yarn.nodemanager.remote-app-log-dir
    /tmp/logs
    Configuration to enable or disable log aggregation
  



  
    yarn.resourcemanager.hostname
    node1
    
  

  
    yarn.resourcemanager.scheduler.class
    org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler
    
  

  
    yarn.nodemanager.local-dirs
    /data/nm-local
    Comma-separated list of paths on the local filesystem where intermediate data is written.
  


  
    yarn.nodemanager.log-dirs
    /data/nm-log
    Comma-separated list of paths on the local filesystem where logs are written.
  


  
    yarn.nodemanager.log.retain-seconds
    10800
    Default time (in seconds) to retain log files on the NodeManager Only applicable if log-aggregation is disabled.
  



  
    yarn.nodemanager.aux-services
    mapreduce_shuffle
    Shuffle service that needs to be set for Map Reduce applications.

分发：scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml node2:`pwd`/，scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml node3:`pwd`/

启动：hadoop用户下，start-yarn.sh，mapred --daemon start historyserver，jps。

配置不易，快照保存！！！

2.4部署hive集群

安装mysql数据库：node1上使用yum安装mysql5.7。更新密钥：rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022。安装mysql：rpm -Uvh https://repo.mysql.com//mysql57-community-release-el7-7.noarch.rpm，yum -y install mysql-community-server。启动mysql并设置开机自启：systemctl start mysqld，systemctl enable mysqld。查看密码：grep 'temporary password' /var/log/mysqld.log。登录：mysql -uroot -p，输入查找的密码。设置简单密码：set global validate_password_policy=LOW;，set global validate_password_length=4;，ALTER USER 'root'@'localhost' IDENTIFIED BY '要设置的密码';，设置远程连接：grant all privileges on *.* to root@"%" identified by '设置的密码' with grant option;，flush privileges;。

配置hadoop：node1，root用户。cd /export/server/hadoop/etc/hadoop，vim core-site.xml，添加：

将hive压缩包和mysql驱动包上传linux，移动驱动包：mv mysql-connector-java-5.1.34.jar /export/server/hive/lib/，解压：tar zxvf apache-hive-3.1.3-bin.tar.gz -C /export/server/，软连接：ln -s /export/server/apache-hive-3.1.3-bin /export/sever/hive。配置环境变量：cd /export/server/hive/conf，mv hive.env.sh.template hive.env.sh，vim hive.env.sh，添加：

export HADOOP_HOME=/export/server/hadoop

export HIVE_CONF_DIR=/export/server/hive/conf

export HIVE_AUX_JARS_PATH=/export/server/hive/lib

vim hive-site.xml，添加：

初始化元数据库：在mysql中新建数据库，create database hive charset utf-8;。格式化：cd /export/server/hive，bin/schematool -initSchema -dbType mysql -verbos。

修改权限：chown hadoop:hadoop apache-hive-3.1.3-bin hive。进入hadoop用户，mkdir /export/server/hive/logs

启动元数据服务，后台启动：node1,hadoop用户，cd /export/server/hive，nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &。

启动客户端：cd /export/server/hive，bin/hive，quit退出。启动前打开hdfs集群和yarn集群。

dbeaver连接hive：node1，hadoop用户，cd/export/server/hive，先启动元数据服务，nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &。然后启动hiveserver2，nohup bin/hive --service hiveserver2 >> logs/hiveserver2.log 2>&1 &。开启这两个后，jps会出现两个RunJar。打开dbeaver（自行下载），连接apache hive，填写信息（node1，hadoop），在驱动配置中更改库的配置，删除原有的两个，配置hive-jdbc-3.1.2-standalone.jar，测试连接，完成。该模式hive内部表的计算是基于mapreduce。

配置不易，快照保存！！！

2.5部署zookeeper

node1，root。下载：wget http://archive.apache.org/dist/zookeeper/zookeeper-3.5.9/apache-zookeeper-3.5.9-bin.tar.gz。解压：tar -zxvf apache-zookeeper-3.5.9-bin.tar.gz -C/export/server。软连接：ln -s /export/server/apache-zookeeper-3.5.9-bin /export/server/zookeeper。修改配置文件：vim /export/server/zookeeper/conf/zoo.cfg，修改并添加：

tickTime=2000

dataDir=/export/server/zookeeper/data

clientPort=2181

initLimit=5

syncLimit=2

server.1=node1:2888:3888

server.2=node2:2888:3888

server.3=node3:2888:3888

创建文件夹：mkdir /export/server/zookeeper/data。创建文件：vim /export/server/zookeeper/data/myid，添加：1。

分发：scp -r apache-zookeeper-3.5.9-bin node2:`pwd`/，scp -r apache-zookeeper-3.5.9-bin node3:`pwd`/。在node2和node3设置软连接：ln -s /export/server/apache-zookeeper-3.5.9-bin /export/server/zookeeper。将node2和node3中的myid文件内容改为2和3。

修改权限：chown hadoop:hadoop apache-zookeeper-3.5.9 zookeeper。

启动：每台机器，hadoop用户下，/export/server/zookeeper/bin/zkServer.sh start，jps，查看进程，出现QuorumPeerMain。/export/server/zookeeper/bin/zkServer.sh stop，关闭。

配置不易，快照保存！！！

2.6部署anaconda3

三台机器上都执行：

root用户，上传anaconda3压缩包，解压：sh anaconda3-2021.05-Linux-x86_64.sh，回车继续，出现more按空格，后面选择yes，安装路径填写：/export/server/anaconda3，。。。到完成。关闭finalshell重新连接，在最开始出现（base）即为成功。（如果不想每次打开都带base，想和之前一样。做法为，root目录下，vim .bashrc，最后添加：conda deactivate。重启就行了）

设置国内源：root目录下，vim .condarc，添加：

channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

构建pyspark环境：conda create -n pyspark python=3.8

conda activate pyspark，python，进入即为成功。

2.7部署spark local模式

在node1，root用户。上传spark压缩包，解压到/export/server/，并设置软连接spark。

修改环境变量：vim /etc/profile，添加：

export SPARK_HOME=/export/server/spark
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python3.8
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

vim .bashrc，添加：

export PATH=/export/server/anaconda3/bin:$PATH
export JAVA_HOME=/export/server/jdk
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python3.8

测试：cd /export/server/spark/bin，执行./pyspark，运行成功即可。

2.8部署stand alone模式

这里要说明一件事情：该模式属于spark集群，需要多台服务器进行运算。但考虑到实际情况服务器不能满足需求，便出现了一种新的spark运算模式，即spark on yarn。该模式在装有hadoop集群（内有yarn集群）下，不需要spark搭建集群环境，只需要一台机器充当spark的客户端，提交任务到yarn运行。所以stand alone可以不装，直接安装spark on yarn模式。

node2和node3中，root用户。修改/etc/profile和.bashrc，内容和2.7一致。

node1，root用户。修改权限：chown -R hadoop:hadoop spark*，切换hadoop用户。

开启hdfs、yarn、历史服务器。

start-dfs.sh
start-yarn.sh
mapred --daemon start historyserver

cd /export/server/spark/conf/，mv workers.template workers，vim workers，添加：

node1

node2

node3

mv spark-env.sh.template spark-env.sh，vim spark-env.sh，添加：

#设置java安装目录
JAVA_HOME=/export/server/jdk
#hadoop文件配置目录，读取hdfs文件和运行yarn
HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop/
YARN_CONF_DIR=/export/server/hadoop/etc/hadoop/
#告知spark的master运行在那台机器
export SPARK_MASTER_HOST=node1
#spark的master的通讯端口
export SPARK_MASTER_PORT=7077
#spark的master的webui端口
SPARK_MASTER_WEBUI_PORT=8080
#worker cpu可用内核数
SPARK_WORKER_CORES=1
#worker可用内存
SPARK_WORKER_MEMORY=1g
#worker工作的通讯地址
SPARK_WORKER_PORT=7078
#worker的webui端口
SPARK_WORKER_WEBUI_PORT=8081
#设置历史服务器，将spark的运行日志保存在hdfs的/sparklog文件夹
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

创建保存日志的文件夹：hadoop fs -mkdir /sparklog，hadoop fs -chmod 777 /sparklog

mv spark-defaults.conf.template spark-defaults.conf，vim spark-defaults.conf，添加：

spark.eventLog.enabled  true
spark.eventLog.dir      hdfs://node1:8020/sparklog/
spark.eventLog.compress true

mv log4j.properties.template log4j.properties，vim log4j.properties，修改：

log4j.rootCategory=WARN,console

分发：cd /export/server/，scp -r spark-3.2.0-bin-hadoop3.2 node2:`pwd`/，scp -r spark-3.2.0-bin-hadoop3.2 node2:`pwd`/。到node2和node3中，切换hadoop用户，cd /export/server/，ln -s spark-3.2.0-bin-hadoop3.2 spark。

运行测试：node1，hadoop用户。cd /export/server/spark/，启动历史服务器：sbin/start-history-server.sh，jps出现Historyserver即为成功。启动角色：sbin/start-all.sh，jps出现master和worker即为成功。在node2和node3，hadoop用户下，jps出现worker。

webui测试：网页输入node1:8080，出现内容。

2.9部署stand alone HA模式

node1，hadoop用户，cd /export/server/spark/conf，vim spark-env.sh，进行以下修改：

#注释或删除下行
export SPARK_MASTER_HOST=node1
#在最后添加以下内容
SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node1:2181,node2:2181,node3:2181 -Dspark.deploy.zookeeper.dir=/spark-ha"

将该文件分发：scp -r spark-env.sh node2:`pwd`/，scp-r spark-env.sh node3:`pwd`/。

使用过程：启动hadoop，zookeeper，spark。在node2上启动spark的master，sbin/start-master.sh。这样就有两个master，可以查看进程，node1:8080，node2:8082。

2.10部署spark on yarn模式

该模式部署简单，只需要确保spark-env.sh文件中指明HADOOP_CONF_DIR和
YARN_CONF_DIR。

运行：cd /export/server/spark/bin/pyspark --master yarn，运行成功即可。运行此模式前需要打开hdfs、yarn、mphistoryserver、sparkhistoryserver。

2.11pyspark库安装和远程连接

linux上，node1、node2、node3，root用户。conda activate pyspark，pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple。验证，python，import pyspark。

配置不易，快照保存！！！

window配置pyspark库：需要安装jdk、hadoop（不是必须）、python（anaconda）。

jdk部分：这里使用的版本和linux上的一致。安装过程省略，网上搜索即可。需要注意，环境变量中系统变量添加JAVA_HOME，path指向bin，要不后续运行pyspark库报错。

hadoop部分：将hadoop-3.3.0文件夹中bin文件夹的hadoop.dll复制到C:\windows\System32里面。在环境变量配置中，系统变量新建：HADOOP_HOME，指向hadoop3.3.0文件夹的位置，在path添加：%HADOOP_HOME%\bin，这里主要使用到文件夹内的winutils文件。这个过程是打补丁，避免hadoop在window上运行有报错。

{关于hadoop-3.3.0文件夹，需要安装hadoop才会有，安装那个版本就会有那个版本的文件夹。不过同3.x下的应该也可以。另外还有一种方法不需要安装hadoop，即：找地方下载winutils文件（网上有，搜索即可），建立hadoop\bin文件夹目录，将winutils放进去，配置环境变量：HADOOP_HOME，指向hadoop文件夹位置，path添加：%HADOOP_HOME%\bin。}

window上安装python：这里使用anaconda3安装，内部配置的python3.8版本。流程省略，网上搜索即可。在自己的用户名目录下添加.condarc文本文件，内容如下：

channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

主要为了使用conda安装能快点。如果创建了这个文件速度还是不行，在终端输入以下代码创建也可以：

#一条一条输入
conda config -add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
conda config -add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
conda config -add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2

终端输入conda create -n pyspark python=3.8，conda activate pyspark，pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple。验证，python，import pyspark。

打开环境变量设置，在系统变量下添加PYSPARK_PYTHON，指向anaconda中pyspark环境中python.exe的位置。

关于python的开发环境，这里选择vscode。打开vscode，配置python解释器，一般自动就配上了，如果没有，手动配置，选在pyspark环境下的python。创建文件就可以编写代码了，pyspark也可以使用了。输入以下代码验证：

#这是个词频统计实例
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setMaster("local[*]").setAppName("WordCountHelloWorld")
    
    sc = SparkContext(conf=conf)
   #words.txt自己创建，路径自选，里面写了多个相同的单词，以空格隔开。
    filed_rdd = sc.textFile("d:/code/PYthon/data/words.txt")

    words_rdd = filed_rdd.flatMap(lambda line: line.split(" "))

    words_with_one_rdd = words_rdd.map(lambda x: (x, 1))

    results_rdd = words_with_one_rdd.reduceByKey(lambda a, b: a+b)

    print(results_rdd.collect())

对于远程连接，还是vscode。打开node1，打开vscode，下载remote-ssh。完成后左边出现小电脑的标志，点击它，在SSH右边有个+，点击，页面上方输入用户名@IP地址，例如：[email protected]（这里使用的root用户，ip地址选择node1的地址，具体可以登录node1终端，ifconfig，ens33里面的就是IP地址）。端口号不用指定，使用默认22端口即可。输入完成按enter键，选择第一个.ssh\config。右下角弹出，选择open config，主要看一下config内容。关闭重新打开vscode，左边点击小电脑，出现远程连接的电脑，点击右边的箭头，页面上方依次选择linux、continue、输入登录密码。左边点击小店脑，连接的电脑出现小对号，左下方出现IP地址即为成功。

2.12使用JDBC协议来接mysql

window上，将mysql的jar包（我使用的mysql8）放在ananconda3目录下，envs\pyspark\Lib\site-packages\pyspark\jars。

linux上，将mysql的jar包（我使用的mysql8）放/export/server/ananconda3/envs/pyspark/lib/python3.8/site-packages/pyspark/jars。

这样就可以在vscode上将数据写到MySQL中，以及从MySQL中读取数据。

2.1.3部署hive和spark集成

node1，hadoop用户，cd /export/server/spark/conf，vim hive-site.xml，添加：


  
    hive.metastore.warehouse.dir
    /user/hive/warehouse
    
  

  
    hive.metastore.uris
    thrift://node1:9083

配置mysql驱动jar包：将mysql8的jar包上传到/export/server/spark/jars下。、

启动：如果运行yarn模式，先打开hdfs、yarn、mphistoryserver、matestore、sparkhistoryserver。

cd /export/server/spark，sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=1000 --hiveconf hive.server2.thrift.bind.host=node1 --master local[*] #可以选择local或者yarn。打开dbeaver，连接apache spark，填写相关信息（node1，hadoop），测试连接，完成。该模式hive内部关于表的计算是基于sparkrdd的，这就配置了hive on spark模式。

对于spark on hive，就是在spark的代码中，连接hive，并从hive中读取数据进行建模分析。

后续pyspark相关配置的使用，如有心得，会继续记录。

上述是本人一步一步学习搭建并记录得来，具有可行性。

如果感兴趣，可以尝试进行搭建。如有错误，请指出。

感谢您的关注。

你可能感兴趣的:(hadoop,linux,spark,python)

【数学建模】灰色关联分析模型详解与应用烟锁池塘柳0 数学建模数学建模算法
灰色关联分析模型详解与应用文章目录灰色关联分析模型详解与应用引言灰色系统理论简介灰色关联分析基本原理灰色关联分析计算步骤1.确定分析序列2.数据无量纲化处理3.计算关联系数4.计算关联度灰色关联分析应用实例实例：某企业生产效率影响因素分析灰色关联分析在各领域的应用灰色关联分析的Python实现灰色关联分析的局限性结论引言在数据分析领域，我们经常面临样本量少、信息不完全、数据不确定性高的情况。传统的
查看 Linux 系统中安装的 CUDA 版本烟锁池塘柳0 Linux CUDA linux ubuntu
查看Linux系统中安装的CUDA版本的常见方法：文章目录1查看/usr/local/cuda目录2使用nvcc命令3检查libcublas版本注意：nvidia-smi1查看/usr/local/cuda目录通常，CUDA被安装在/usr/local/cuda目录下，所以可以使用ls命令来查看这个目录是否存在，以及查看其中的内容。ls/usr/local/cuda如果这个目录存在，通常它会是一个
数据分析_python进行数据筛选1_行筛选 Monkey*王 python 数据分析 pandas
以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据importpandasaspdimportnumpyasnpdf=pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df=df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g']筛选单行1.利用df[行索
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
Python的那些事第四十六篇：基于属性的测试库hypothesis研究暮雨哀尘 Python的那些事 python 开发语言属性测试库 hypothesis 执行流程构建
一、引言（一）研究背景随着软件系统复杂性的不断增加，软件测试在确保软件质量方面的重要性愈发凸显。传统测试方法在面对大规模、复杂软件系统时，往往存在测试用例设计不全面、测试执行效率低下等问题。基于属性的测试作为一种新兴的测试方法，通过定义软件系统的属性来指导测试用例的设计与执行，为解决上述问题提供了新的思路。（二）研究意义本研究旨在深入探讨基于属性的测试库的构建与应用，以提高软件测试的效率和质量，降
3月20日复盘四万二千正式复盘 python 前端机器学习
挑战全栈第八天！今天更新Python中的迭代器和生成器，以及函数式编程的内容。8.3super().init()super().__init__()是Python中用于调用父类（基类）构造函数的一种方式。它通常用于子类的构造函数中，以确保父类的构造函数被正确调用和初始化。这在继承（inheritance）中尤为重要，因为父类的初始化代码可能包含设置实例变量或执行其他重要的初始化任务。classPa
Python + Qt Designer构建多界面GUI应用程序：Python如何调用多个界面文件懒大王爱吃狼 python python qt 命令模式 mysql 数据库 Python基础开发语言
引言QtDesigner是一个用户友好的图形用户界面设计工具，它可以帮助开发人员通过拖放的方式快速创建界面。在实际开发中，往往需要设计多个界面文件，并在Python代码中进行统一管理和使用。本文将介绍如何在Python中使用QtDesigner设计好的多个界面文件的常用方法。方法一：单独加载并显示如果界面文件相对独立，并且没有复杂的依赖关系，可以考虑单独加载并显示每个界面文件。fromPyQt5i
linuxcentos6笔记 lnes， linux centos vim
目录Linux笔记11目录结构51.1基本指令51.2Ls指令：51.3Pwd指令：61.4Cd指令：71.5mkdir指令：71.6touch指令：71.7cp指令：71.8mv指令：81.9rm指令：81.10vim指令：91.11输出重定向：91.12cat指令：102进阶指令102.1Df指令：102.2free指令：102.3head指令：112.4tail指令：112.5less指令：
常用的pdf技术有哪些？--笔记我不是彭于晏灬 pdf 笔记
常用的pdf技术有哪些？1.iTextPDF：iText是著名的开放项目，是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF或rtf的文档，而且可以将XML、Html文件转化为PDF文件。Openoffice：openoffice是开源软件且能在windows和linux平台下运行，可以灵活的将word或者Excel转化为PDF文档。JasperReport：是一个强大、灵活
【科大讯飞笔试题汇总】2024-04-21-科大讯飞春招笔试题-三语言题解(CPP/Python/Java) 春秋招笔试突围最新互联网春秋招试题合集 python java 开发语言春招笔试互联网大厂笔试题
大家好这里是KK爱Coding，一枚热爱算法的程序员✨本系列打算持续跟新科大讯飞近期的春秋招笔试题汇总～ACM银牌|多次AK大厂笔试｜编程一对一辅导感谢大家的订阅➕和喜欢KK这边最近正在收集近一年互联网各厂的笔试题汇总，如果有需要的小伙伴可以关注后私信一下KK领取，会在飞书进行同步的跟新，5月1日之前限时免费领取哦，后续会由ACM银牌团队持续维护~。文章目录01.硬币最少组合问题问题描述输入格式输
Pycharm python解释器 unsupported python 3.1 解决大表哥在曾母暗沙 Python PyCharm python pycharm ide 解释器模式
Pycharm环境unsupportedpython3.1解决1.问题重现2.原因分析3.解决方法1.问题重现之前使用Pycharm2024.1.1的时候，环境配置的Python3.11.9，现在改成使用Pycharm2020.2.2，结果Python解释器显示“unsupportedpython3.1”，如下图：2.原因分析因为Pycharm2020.2.2支持的Python最高版本就是Pyth
linux 安装jdk1.8 李逍遙️ linux 运维服务器
通过终端，使用wget命令下载JDK：wgethttps://download.java.net/openjdk/jdk8u41/ri/openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz解压下载的文件。你可以使用tar命令解压：tar-xzfopenjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz将解压后的JDK移动到/op
dig 命令深入学习服务器linuxdns解析
一、dig命令有什么用dig命令（DomainInformationGroper）是一个用于查询DNS(域名系统）记录的强大工具，它提供了详细的DNS信息，主要用于帮助用户诊断、调试和验证与域名解析相关的问题。除了dig命令，还有一种跟dig功能是差不多的命令nslookup二、dig命令安装如果您的Linux系统默认没有安装dig，可能会提示dig:commandnotfound。请使用以下命令
申请 Let's Encrypt 的免费 TLS 证书实现网站的 https 访问 python
因为这个使用apt安装的python第三方包的版本为什么这么滞后？原因，所以我不是用sudo把证书弄到系统路径，而是选择到普通用户路径下面╭─pon@aliyun2core2GB~/certbot╰─➤tree.├──config│ ├──accounts│ │ └──acme-v02.api.letsencrypt.org│ │ └──directory│ │ └──9401598
python面试题详解 __wishing__ python
十道经典面试题（python）1.一行代码实现累加1-100之和print(sum(range(1,101)))输出结果：5050分析：利用sum函数进行累加。range控制序列。2.一行代码实现列表去重#声明需要去重的列表list1=[1,1,2,2,3,3,4,4]list1=list(set(list1))</
LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人南七小僧人工智能网站开发 AI技术产品经理服务器数据库 windows
前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。它提供了一个灵活的框架，使得开发者可以构建具有上下文感知能力和推理能力的应用程序，这些应用程序可以利用公司的数据和APIs。这个框架由几个部分组成。LangChain库：Python和JavaScript库。包含了各种组件的接口和集成，一个基本的运行时，用于将这些组件组合
pygmsh 项目常见问题解决方案葛雨禹
pygmsh项目常见问题解决方案pygmsh:spider_web:GmshforPython项目地址:https://gitcode.com/gh_mirrors/py/pygmsh1.项目基础介绍和主要编程语言项目名称:pygmsh项目简介:pygmsh是一个结合了Gmsh和Python的开源项目。它通过提供Gmsh的Python接口，简化了复杂几何体的创建过程。pygmsh提供了许多有用的抽
浏览器开发者工具深度调试指南：从入门到高阶技巧 109702008 编程网络人工智能网络
浏览器开发者工具（DevTools）是现代前端工程师的"瑞士军刀"，本文将系统解析其核心功能与实战技巧，助您掌握高效调试的终极奥义。一、基础操作与核心功能1.1工具启动方式快捷键：F12（Win/Linux）|Cmd+Opt+I（Mac）右键菜单：网页任意位置右键→检查（Inspect）移动端调试：启用设备模式（Ctrl+Shift+M）1.2核心面板全景图面板名称核心功能快捷键切换Element
python之gmsh划分网格老歌老听老掉牙 python有限元分析 python 开发语言 gmsh 划分网格
Gmsh（GeometryModelingandMeshingSuite）是一个开源的三维有限元网格生成器，它集成了内置的CAD引擎和后处理器。Gmsh的设计目标是提供一个快速、轻量级且用户友好的网格工具，同时具备参数化输入和高级可视化能力。Gmsh围绕几何（geometry）、网格（mesh）、求解器（solver）和后处理（post-processing）四个模块构建，用户可以通过图形用户界面
已解决：python多线程使用TensorRT输出为零？附tensorrt推理代码李卓璐算法实战 python 开发语言
我是多个不同类型的模型多线程调用报错。设备：cuda12.1,cudnn8.9.2,tensorrt8.6.11.问题tensorrt的推理没输出？？？有输入：想要的输出：原因：多进程时,每进程应单独调用importpycuda.driverascuda和cuda.init()，完成初始化CUDA驱动，并需要使用self.cfx.push()和self.cfx.pop()管理CUDA上下文，以保证
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
输入某年某月某日，判断这一天是这一年的第几天python 发现文化fu python python
题目：输入某年某月某日，判断这一天是这一年的第几天python输入某年某月某日，判断这一天是这一年的第几天python思路：*判断闰年能被4整除但不能被100整除，年份能被400整除#方法1sum=0if(year%4==0andyear%100!=0)oryear%400==0:feb=29else:feb=28month_day=[0,31,feb,31,30,31,30,31,31,30,3
qt-5.15.2 源码编译 Linux weixin_40857106 服务器运维
QT官方源码下载地址：https://download.qt.io/archive/qt/5.15/5.15.12/single/qt-everywhere-opensource-src-5.15.12.tar.xz安装Qt所需的依赖：sudoaptinstallbuild-essentiallibgl1-mesa-devlibxkbcommon-devlibnss3-devlibdbus-1-d
python练习3：输入某年某月某日，判断这一天是这一年的第几天？柯.姐姐 python
#输入某年某月某日，判断这一天是这一年的第几天？list=[0,31,59,90,120,151,181,212,243,273,304,334]year=int(input('请输入年份：'))month=int(input('请输入月份：'))day=int(input('请输入天：'))ifmonth>0andmonth2:result=result+1print("这是第%d天"%resu
初学python100例-案例4 计算一年第几天多种不同解法少儿编程案例讲解小兔子编程初学python100例 python学习 python100例 python计算天数 python算法 python案例
题目输入某年某月某日，判断这一天是这一年的第几天？解法1程序分析1、以5月2日为例，应该先把前四个月的加起来，2、然后再加上2天即本年的第几天，3、特殊情况，闰年且输入月份大于2时需考虑多加一天：4、闰年1、年份能被4整除；2、年份若是100的整数倍的话需被400整除，否则是平年。程序源代码：year=int(input('year:\n'))month=int(input('month:\n')
Python 的类中，self 是一个特殊的参数可可乐不加冰知识学习专栏 python 开发语言
在Python的类中，self是一个特殊的参数，它代表类的实例本身。self是方法的第一个参数，用于访问实例的属性和方法。下面我将从多个角度解释self的含义、作用以及如何使用它。1.self表示类的实例本身在Python中，当你创建一个类的实例时，实际上是在内存中创建了一个对象。self参数代表的就是这个对象本身。通过self，你可以在类的方法中访问和修改实例的属性。2.为什么需要self？se
Trae AI 上新 SSHremote：服务器 Python 接口日志排查实战指南芯作者 DD：日记人工智能深度学习机器学习
在当今的软件开发中，服务器端的稳定性和可靠性至关重要。然而，生产环境中的问题往往难以预测，尤其是接口返回502错误却无日志记录的情况，更是让开发者头疼不已。幸运的是，字节跳动推出的AI原生IDE——Trae，近期上线的SSHremote功能，为远程服务器日志排查提供了全新的解决方案。本文将结合实战案例，深入探讨如何利用TraeAI的SSHremote功能高效排查Python接口日志问题，并分享创新
Python入门程序练习004：输入某年某月某日，判断这一天是这一年的第几天？若北辰 Python实战练习
【程序4】题目：输入某年某月某日，判断这一天是这一年的第几天？1.程序分析：其实这一题的难度不在于编程，而在于对闰年有没有一些基本的认识，相信很多人都知道闰年，但是又不太清楚具体怎么判断闰年。在下面两个条件中只要满足一个即是闰年：1、能被4整除但是不能被一百整除2、能被四百整除。为了方便记忆，总结为：四年一闰,百年不闰,四百年再闰那么判断出闰年和平年（除了闰年其他都是平年）之后呢，其实只要记住：闰
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等） DoYangTan python 学习分布式
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等）前言随着业务规模的不断扩大以及对系统性能、可扩展性的更高要求，后端应用往往会朝着分布式系统的方向发展。然而，分布式系统带来诸多优势的同时，也面临着如数据一致性等复杂的挑战。本期我们就聚焦于分布式系统中的关键问题——数据一致性，深入探讨分布式锁、分布式事务等相关知识以及保障数据一致性的策略与实践，让我们一起深入学习
python进阶，类的继承，封装，多态，super 胡萝卜糊了 python 开发语言
#单继承#子类只继承一个父类classPerson:defsay(self,value):print('say:',value)defwalk(self,value):print('walk:',value,'km')#Student类继承PersonclassStudent(Person):defstudy(self,value):print('study:',value)#Teacher类继承
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。