NO PAIN_NO GAIN

分布式大数据集群搭建

一、大数据相关组件及概念

flume: 高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。

kafka：消息队列

Redis：内存数据库

zookeeper：大数据集群管理

hadoop：hdfs(分布式存储) mapreduce(分布式离线计算) yarn(资源调度管理)

存储模型：
    HDFS是一个主从(master/slaves)架构
	由一个NameNode和一些DataNode组成
	面向文件包含：文件数据(data)和文件元数据(metadata)
	NameNode负责存储和管理文件元数据，并维护一个层次型的文件目录树
	DataNode负责存储文件数据(block块)，并提供block的读写
	DataNode与NameNode维持心跳，并汇报自己持有的block信息
	Client和NameNode交互文件元数据，和DataNode交互文件block数据
角色功能：
	NameNode:
		完全基于内存存储文件元数据、目录结构、文件block的映射
		需要持久化方案保证数据的可靠性
		提供副本放置策略
	DataNode:
		基于本地磁盘存储block(文件形式)
		并保存block的校验和数据保证block的可靠性
		与NameNone保持心跳，汇报block列表状态
基本语法命令：上传的文件存储在从节点DataNode存储路径下，主节点不会存储
    hadoop fs -mkdir /input # 创建文件夹
    hadoop fs -put 1.txt /input # 上传文件到文件系统
    hadoop fs -put /root/bak/hadoopbak/profile.db/user_action/ usr/hive/warehouse/profile.db/
    hadoop fs -rm -f /test # 删除文件
    hadoop fs -rm -r /testdir # 删除文件夹
    hadoop fs -ls / # 查看
    hadoop fs -get test /usr/local/hadoop # 将hadoop上test文件夹下载到本地/usr/local/hadoop
    hadoop fs -cat /input/word.txt # 查看文件内容

hive：SQL方式进行MapReduce计算(hive的存储引擎是hdfs;计算引擎是MapReduce)，数据仓库(无法实时读写)

mysql：业务数据库，或存储hive元数据

hbase：数据库(实时&分布式&高维数据库，面向列的数据存储，实时读取)，big data

sqoop：数据同步工具

spark：大数据计算引擎(spark core;spark streaming;spark sql;spark mllib)

spark 由4类角色组成整个spark的运行时的环境：
    资源管理层面：
        .管理者：Master(管理整个集群的资源；类比于YARN的ResouceManager)
        .工作中：Worker(管理单个服务器的资源；类比于YARN的NodeManager)
    任务执行层：
        .某任务管理者：Driver(管理单个spark任务在运行的时候的工作；类比于YARN的ApplicationMaster)
        .某任务执行者：Executor(单个任务运行的时候的一堆工作者，干活的，类比于YARN的容器内运行的TASK)
        注：正常情况下Executor是干活的角色，不过在特殊的场景下(Local模式)Driver可以即管理又干活
    
    spark 运行：
        bin目录下的可执行文件：
            交互式解释器执行环境：
                ./pyspark --master local[*] # python方式启动本地模式
                ./spark-shell # scala方式启动
            代码提交运行模式：
                ./spark-submit --master local[*] /usr/softwaretmp/bigdata/spark/spark/spark-2.4.0-bin-hadoop2.7/examples/src/main/python/pi.py 10 # 提交运行已编写好的代码文件
            一个spark程序会被分成多个子任务(job)运行，每个job会分成多个阶段(state)来运行，每个state内会分出多个task(线程)来执行具体任务
    
    spark 算子：
        RDD算子：
            Transformation:转换算子
                map: rdd.map(func) 功能：map算子是将rdd数据一条条处理，返回新的rdd
                flatMap：rdd.flatMap(func) 功能：对rdd执行map操作，然后进行解除嵌套操作
                reduceByKey：rdd.reduceByKey(func) 功能：针对KV型RDD，自动按照key分组，然后根据提供的聚合逻辑，完成组内数据(value)的聚合操作
                mapValues：rdd.reduceByKey(func) 功能：针对二元元祖rdd，对其内部二元元祖的value执行map操作
                groupBy：rdd.groupBy(func) 功能：将rdd数据进行分组
                filter：rdd.filter(func) 功能：过滤想要的数据进行保留
                distinct：rdd.filter() 功能：对rdd数据进行去重，返回新rdd
                union：rdd.union(other_rdd) 功能：2个rdd合并成1个rdd返回
                join/leftOuterJoin/rightOuterJoin：rdd.join(other_rdd) 功能：对两个KV型rdd执行join/leftOuterJoin/rightOuterJoin操作
                intersection：rdd.intersection(other_rdd) 功能：求2个rdd的交集，返回一个新的rdd
                glom：rdd.glom() 功能：将rdd的数据按照分区加上嵌套
                groupByKey：rdd.groupByKey() 功能：针对KV型rdd，自动按照key分组
                sortBy：rdd.sortBy(func,ascending=False,numPartitions=1) 功能：对rdd数据基于指定的排序依据进行分区内排序(若全局有序，numPartitions设为1)
                sortByKey：rdd.sortByKey(ascending=False,numPartitions=1,keyfunc) 功能：针对KV型RDD，按照key进行排序(若全局有序，，numPartitions设为1)
                分区操作算子：
                    mapPartitions：rdd.map(func) 功能：和map类似，但是mapPartitions一次被传递的是一整个分区数据
                    partitionBy：rdd.partitionBy(参数1：重新分区后有几个分区,参数2：自定义分区规则，函数传入) 功能：对rdd进行自定义分区操作
                    repartition：rdd.repartition(N) 功能：对rdd的分区执行重新分区(仅数量)
            Action：动作(行动)算子
                countByKey：rdd.countByKey() 功能：统计key出现的次数(一般适用于KV型rdd)
                collect：rdd.collect() 功能：将rdd各个分区内的数据，统一收集到Driver中，形成一个List对象
                fold：rdd.fold(10,func) 功能：和reduce一样，接受传入逻辑进行聚合，聚合是带有初始值的。分区内聚合；分区间聚合
                first：rdd.first() 功能：取出rdd的第一个元素
                takeSample：rdd.takeSample(参数1：True/False,参数2：采样数,参数3：随机数种子) 功能：随机抽样(有放回/不放回)rdd的数据
                takeOrdered：rdd.takeOrdered(参数1：要几个数据,参数2：排序时数据更改) 功能：对rdd进行排序取前N个
                foreach：rdd.foreach(func) 功能：对rdd的每个元素执行所提供的逻辑操作(和map一个意思)，但是这个没有返回值
                saveAsTextFile：rdd.saveAsTextFile("/./.") 功能：将rdd数据写入文本文件中
                分区操作算子：
                    foreachPartition：rdd.foreachPartition(func) 功能：和普通foreach一致，一次处理的是一整个分区数据

flink：实时计算引擎(stateful stream processing;Datastream/Dataset API;Table API;Flink SQL)

flink 集群角色：
    JobManager(JVM进程) master 
    TaskManager(JVM进程) slave

anaconda：python变成环境

supervisor：python开发的进程管理工具

二、大数据安装及下载链接：

apache-hive-2.1.1-bin.tar.gz ： 
    http://archive.apache.org/dist/hive/
hadoop-2.7.3.tar.gz : 
    http://archive.apache.org/dist/hadoop/common/
hbase-1.2.4-bin.tar.gz ：
    http://archive.apache.org/dist/hbase/
jdk-8u171-linux-x64.tar.gz ： 
    https://www.oracle.com/java/technologies/downloads/
mysql-connector-java-5.1.47-bin.jar ： 
    https://dev.mysql.com/downloads/
scala-2.11.12.tgz ： 
    https://www.scala-lang.org/download/2.11.12.html
spark-2.4.0-bin-hadoop2.7.tgz ：
    http://archive.apache.org/dist/spark/
sqoop-1.4.7.bin.tar.gz ： 
    http://archive.apache.org/dist/sqoop/
zookeeper-3.4.10.tar.gz : 
    https://archive.apache.org/dist/zookeeper/
apache-flume-1.8.0-bin.tar.gz ：
    http://archive.apache.org/dist/flume/
redis : 
    https://redis.io/download/
Anaconda3-2021.05-Linux-x86_64.sh ：
    https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=D

三、部分相关说明

3.1、账号 & 密码说明：

虚拟机：
    node01 主节点:
        用户名：root  密码：root
        用户名：itcast  密码：!QAZ@WSX3edc
    node02 从节点:
        用户名：root  密码：root
        用户名：itcast  密码：!QAZ@WSX3edc
    node03 从节点:
        用户名：root  密码：root
        用户名：itcast  密码：!QAZ@WSX3edc
mysql数据库：
    用户名：root   密码：123456

3.2、Web端口说明

hdfs远程连接namenode端口：9000  hdfs://node01:9000/input/word.txt
namenode的webUI端口：50070
yarn的web端口：http://192.168.52.66:18088
yarn集群子任务端口：http://192.168.52.66:4040
spark集群的web端口：8080
spark-job监控端口：4040

四、分布式集群安装

4.1、虚拟机安装

虚拟机安装位置：

D:\bigdata\Virtual Machines\node01

创建虚拟机：

创建新的虚拟机->自定义(高级)->下一步->稍后安装操作系统->Linux CentOS64->修改名称和位置->处理器配置->内存配置->网络连接(NAT)->下一步->下一步->创建新虚拟磁盘->最大磁盘大小->下一步->完成

安装操作系统：

安装centOS 7步骤：

CD/DVD(IDE)->导入镜像->开启此虚拟机->Install CentOS 7->选择语言(中文)->安装位置(直接点确定)/软件选择(带GUI的服务器)/网络和主机名(设置主机名,打开网络)->开始安装->ROOT密码(root)->重启->接受许可证->选择语言(前进)->选择时区(上海)->跳过->设置用户和密码->开始使用

配置虚拟机网络服务:

cd /etc/sysconfig/network-scripts/

vim ifcfg-ens33
'''
    DEVICE=ens33
    TYPE=Ethernet
    ONBOOT=yes
    NM_CONTROLLED=yes
    BOOTPROTO=static
    IPADDR=192.168.52.66
    NETMASK=255.255.255.0
    GATEWAY=192.168.52.2
    DNS1=144.144.144.144
    DNS2=192.168.52.2
'''

service network restart # 重启网卡服务
ping www.baidu.com # ping外网测试

基于虚拟机快照克隆多台虚拟机：(克隆两台从节点node02、node03)

右击节点(node01)->快照->快照管理器->拍摄快照->起名(base)->拍摄快照

右击节点(node01)->管理->克隆->下一步->现有快照(base)->创建链接克隆->修改虚拟机名称(node02)和路径->完成->关闭

开机，修改配置信息：

cd /etc/sysconfig/network-scripts/

vim ifcfg-ens33
'''
    DEVICE=ens33
    TYPE=Ethernet
    ONBOOT=yes
    NM_CONTROLLED=yes
    BOOTPROTO=static
    IPADDR=192.168.52.67
    NETMASK=255.255.255.0
    GATEWAY=192.168.52.2
    DNS1=144.144.144.144
    DNS2=192.168.52.2
'''

vim /etc/hostname # 修改主机名称
'''
    node02
'''

cat /etc/udev/rules.d/70-persistent-ipoib.rules

rm -f /etc/udev/rules.d/70-persistent-net.rules # 删除原网络物理地址生成文件

reboot # 重启 

ifconfig # 查看ip

ping www.baidu.com # ping外网测试

配置修改yum源(国内源)：

修改配置文件：

cd /etc/yum.repos.d/

ls

mkdir back

mv CentOS-Base.repo back/

wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo # 阿里云官网

ls

yum clean all # 清空本地依赖缓存

yum makecache # 将依赖缓存下载到本地：

4.2、服务器基础环境配置

服务器说明：三台服务器，一台主节点(node01)，两台从节点(node02,node03)；

防火墙关闭（三个节点）：

systemctl stop firewalld.service # 防火墙暂时停止

systemctl disable firewalld.service # 防火墙永久关闭

systemctl status firewalld # 查看防火墙状态

主机host映射(三个节点)：

vim /etc/hosts # 编辑/etc/hosts文件，插入下面内容
'''
    192.168.52.66 node01
    192.168.52.67 node02
    192.168.52.68 node03
'''

ssh配置免密登录(三个节点)：

节点各自免密等：(三个节点)

ssh-keygen # 生成认证秘钥

cd /root/.ssh/

ls

cat id_rsa.pub >> authorized_keys # 内容重定向到授权文件里

chmod 600 authorized_keys # 设置权限600

ssh localhost # 测试是否设置成功

exit # 退出

主节点 -> 从节点免密设置：

从节点：node02,node03

scp node01:/root/.ssh/id_rsa.pub /root # 把主节点秘钥拷贝到从节点下

ls /root/ # 查看 

cat /root/id_rsa.pub >> authorized_keys # 重定向到授权文件里

主节点测试：在主节点下输入

ssh node02 # 免密登录node02

ssh node03

exit # 退出

从节点 -> 主节点免密设置：

主节点：node01

scp node02:/root/.ssh/id_rsa.pub /root

cat /root/id_rsa.pub >> authorized_keys

scp node03:/root/.ssh/id_rsa.pub /root

cat /root/id_rsa.pub >> authorized_keys

从节点测试：在从节点上输入

ssh node01 # 免密登录主节点

exit # 退出

时间同步协议和定时任务:

设置时区：三个节点

tzselect

5 # 亚洲

9 # 中国

1 # 北京

1 # 确定

安装ntp服务：三个节点

yum install ntp

rpm -qa | grep ntp # 检验是否安装成功

service ntpd status # 查看状态，不要让他自动启动

service ntpd stop # 服务停止

systemctl enable ntpd.service #设置开机自启

设置配置文件，使主节点同步其自身：主节点

vim /etc/ntp.conf # 修改配置文件，添加下面内容
'''
    server 127.127.1.0 # local clock
    fudge 127.127.1.0 stratum 10

    # 注释文件中server开头的行内容
'''

/bin/systemctl restart ntpd.service # 重启ntp服务

service ntpd status # 查看状态

date & ssh node02 "date" & ssh node03 "date" # 查看各个节点时间

手动将从节点时区与主节点同步：在从节点输入(两个)

ntpdate node01

# 编写定时任务：
crontab -e
'''
    */1 * * * * /usr/sbin/ntpdate node01
'''

4.3、JDK环境配置:

# yum install java # 直接下载安装java，环境变量也配置好，不建议这么安装

主节点上提前上传下载好的解压缩包，放到对应目录

cd usr/softwaretmp/bigdata/

mkdir java # 创建安装目录

mv jdk-8u171-linux-x64.tar.gz ../java/ # 移动压缩包到对应安装目录下

cd ../java/

tar -zxvf jdk-8u171-linux-x64.tar.gz # 解压缩安装包

scp -r jdk1.8.0_171/ node02:/usr/softwaretmp/bigdata/java  # 把主节点安装好的java文件夹拷贝到从节点相应目录下

scp -r jdk1.8.0_171/ node03:/usr/softwaretmp/bigdata/java

# tar -zcvf jdk1.8.0_171.tar.gz jdk1.8.0_171 # 把jdk1.8.0_171文件夹下的内容压缩成jdk1.8.0_171.tar.gz压缩包

主从节点修改环境变量配置

vim /etc/profile # 修改环境变量
'''
    # set java environment
    export JAVA_HOME=/usr/softwaretmp/bigdata/java/jdk1.8.0_171
    export CLASSPATH=$JAVA_HOME/lib/
    export PATH=$PATH:$JAVA_HOME/bin
    export PATH JAVA_HOME CLASSPATH
'''

source /etc/profile # 使环境变量生效

主从节点验证

java -version

4.4、zookeeper集群搭建：

主节点安装、配置zookeeper：主节点

cd usr/softwaretmp/bigdata/

mv zookeeper-3.4.10.tar.gz ../zookeeper/

cd ../zookeeper/

tar -zxvf zookeeper-3.4.10.tar.gz

新建数据和日志文件

cd /usr/softwaretmp/bigdata/zookeeper/zookeeper-3.4.10

mkdir zkdata

mkdir zkdatalog

配置文件zoo.cfg : 主节点配置

cd /usr/softwaretmp/bigdata/zookeeper/zookeeper-3.4.10/conf/ # 进入配置文件夹

mv zoo_sample.cfg zoo.cfg # 拷贝配置文件，zookeeper启动时会找到这个文件作为默认配置文件

vim zoo.cfg
'''
    tickTime=2000
    initLimit=10
    syncLimit=5
    dataDir=/usr/softwaretmp/bigdata/zookeeper/zookeeper-3.4.10/zkdata
    clientPort=2181
    dataLogDir=/usr/softwaretmp/bigdata/zookeeper/zookeeper-3.4.10/zkdatalog
    server.1=node01:2888:3888
    server.2=node02:2888:3888
    server.3=node03:2888:3888
'''

创建并配置文件myid：主从节点(集群中配置node01为1号服务器，node02为2号服务器，node03为3号服务器)

cd /usr/softwaretmp/bigdata/zookeeper/zookeeper-3.4.10/zkdata

vim myid
'''
    1 # 主节点,对应zoo.cfg文件里的server.x的x
'''

主节点远程复制分发安装文件到从节点：

scp -r /usr/softwaretmp/bigdata/zookeeper/zookeeper-3.4.10 root@node02:/usr/softwaretmp/bigdata/zookeeper/

scp -r /usr/softwaretmp/bigdata/zookeeper/zookeeper-3.4.10 root@node03:/usr/softwaretmp/bigdata/zookeeper/

从节点修改相关配置：从节点

cd /usr/softwaretmp/bigdata/zookeeper/zookeeper-3.4.10/zkdata

vim myid
'''
    2 # node02对应的myid
    # 3 # node03对应的myid
'''

修改配置文件，配置zookeeper环境变量：主从节点(三台)

vim /etc/profile
'''
    # set zookeeper environment
    export ZOOKEEPER_HOME=/usr/softwaretmp/bigdata/zookeeper/zookeeper-3.4.10
    PATH=$PATH:$ZOOKEEPER_HOME/bin
'''

source /etc/profile # 是环境变量生效

zookeeper目录下启动zookeeper集群：主从节点(三台)

cd ..

bin/zkServer.sh start

bin/zkServer.sh status # 查看状态

4.5、Hadoop集群搭建

主节点安装配置hadoop：主节点

创建安装目录，并解压文件

cd /usr/softwaretmp/bigdata/

mkdir hadoop

mv hadoop-2.7.3.tar.gz ../hadoop/

cd ../hadoop/

tar -zxvf hadoop-2.7.3.tar.gz

配置hadoop各组件

1、进入hadoop配置目录，编辑hadoop-env.sh环境配置文件

cd $HADOOP_HOME/etc/hadoop

echo $JAVA_HOME # 可查看java目录

vim hadoop-env.sh 
'''
    export JAVA_HOME=/usr/softwaretmp/bigdata/java/jdk1.8.0_171 # 修改java环境变量
'''

2、编辑core-site.xml文件

vim core-site.xml
'''
	
		
			fs.default.name
			hdfs://node01:9000
		
		
			hadoop.tmp.dir
			/usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3/hdfs/tmp
			A base for other temporary directories.
		
		
			io.file.buffer.size
			131072
		
		
			fs.checkpoint.period
			60
		
		
			fs.checkpoint.size
			67108864
		
	
	
'''

3、创建、编辑mapred-site.xml文件

cp mapred-site.xml.template mapred-site.xml

vim mapred-site.xml
'''
	
		
			
			mapreduce.framework.name
			yarn
		
	
'''

4、修改yarn-site.xml

vim yarn-site.xml
'''
	
		
		
			yarn.resourcemanager.address
			node01:18040
		
		
			yarn.resourcemanager.scheduler.address
			node01:18030
		
		
			yarn.resourcemanager.webapp.address
			node01:18088
		
		
			yarn.resourcemanager.resource-tracker.address
			node01:18025
		
		
			yarn.resourcemanager.admin.address
			node01:18141
		
		
		
			yarn.nodemanager.aux-services
			mapreduce_shuffle
		
		
			yarn.nodemanager.auxservices.mapreduce.shuffle.class
			org.apache.hadoop.mapred.ShuffleHandler
		
		
		
			yarn.nodemanager.vmem-check-enabled
			false
			Whether virtual memory limits will be enforced for containers.
		
		
	
'''

5、编辑hdfs-site.xml配置文件:

vim hdfs-site.xml
'''
	
		
			
			dfs.replication
			2
		
		
			
			dfs.namenode.name.dir
			file:/usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3/hdfs/name
			true
		
		
			
			dfs.datanode.data.dir
			file:/usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3/hdfs/data
			true
		
		
			dfs.namenode.http-address
			node01:50070
		
		
			dfs.namenode.secondary.http-address
			node01:9001
		
		
			dfs.webhdfs.enabled
			true
		
		
			dfs.permissions
			false
		
	
'''

6、编写slaves文件，添加子节点slave1和slave2;编写master文件，添加主节点master

vim slaves
'''
    node02
    node03
'''

vim master
'''
    node01
'''

主节点分发hadoop文件到node02、node02两个子节点：

scp -r /usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3 root@node02:/usr/softwaretmp/bigdata/hadoop/

scp -r /usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3 root@node03:/usr/softwaretmp/bigdata/hadoop/

添加环境变量：主从节点(三台机器)

vim /etc/profile
'''
    # set HADOOP environment
    export HADOOP_HOME=/usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3
    export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib
    export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
'''

source /etc/profile

在master中格式化hadoop，开启hadoop：主节点(仅在node01中操作)

hadoop namenode -format # 格式化namenode

主节点开启hadoop集群：主节点(仅在node01主机上开启操作命令，它会带起从节点启动)

cd /usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3 # 回到hadoop目录

sbin/start-all.sh # 主节点开启服务

jps # 查看进程

打开网址查看 ：http://192.168.52.66:50070

4.6、Hbase集群搭建：

主节点安装配置Hbase：主节点

创建安装目录，并解压文件

cd /usr/softwaretmp/bigdata/

mkdir /hbase/

tar -zxvf hbase-1.2.4-bin.tar.gz

rm -rf /usr/hbase/hbase-1.2.4-bin.tar.gz # 删除压缩包

进入hbase配置目录conf，修改配置文件hbase-env.sh，添加配置变量：

cd /usr/softwaretmp/bigdata/hbase/hbase-1.2.4/conf

vim hbase-env.sh
'''
	export HBASE_MANAGES_ZK=false # 关闭自带的zookeeper集群
	export JAVA_HOME=/usr/softwaretmp/bigdata/java/jdk1.8.0_171
	export HBASE_CLASSPATH=/usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3/etc/hadoop
'''

配置conf/hbase-site.xml

vim hbase-site.xml
'''
	
		
			hbase.rootdir
			hdfs://node01:9000/hbase
		
		
			hbase.cluster.distributed
			true
		
		
			hbase.master
			hdfs://node01:6000
		
		
			hbase.zookeeper.quorum
			node01,node02,node03
		
		
			hbase.zookeeper.property.dataDir
			/usr/softwaretmp/bigdata/zookeeper/zookeeper-3.4.10
		
	
'''

配置 conf/regionservers

vim regionservers
'''
    node02
    node03
'''

hadoop配置文件拷入hbase的目录下

cd /usr/softwaretmp/bigdata/hbase/hbase-1.2.4/conf

cp /usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3/etc/hadoop/hdfs-site.xml .

cp /usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3/etc/hadoop/core-site.xml .

分发主节点hbase到子节点

scp -r /usr/softwaretmp/bigdata/hbase/hbase-1.2.4 root@node02:/usr/softwaretmp/bigdata/hbase/

scp -r /usr/softwaretmp/bigdata/hbase/hbase-1.2.4 root@node03:/usr/softwaretmp/bigdata/hbase/

配置环境变量：主从节点(三台)

vim /etc/profile
'''
    # set hbase environment
    export HBASE_HOME=/usr/softwaretmp/bigdata/hbase/hbase-1.2.4
    export PATH=$PATH:$HBASE_HOME/bin
'''

source /etc/profile

运行和测试：在主节点node01上执行(保证hadoop和zookeeper已开启)

bin/start-hbase.sh

jps

网页输入：ip:16010

4.7、HIVE数据仓库搭建

在子节点node03上安装mysql：

1、配置本地源，安装mysql server

cd /usr/local/src/

wget http://repo.mysql.com/mysql57-community-release-el7-8.noarch.rpm

yum -y localinstall mysql57-community-release-el7-8.noarch.rpm

yum -y install mysql-community-server

yum -y install mysql-server

如果报秘钥错误的解决办法：
	vim /etc/yum.repos.d/mysql-community.repo
	# 修改对应安装版本的gpgcheck=0即可,默认值为1
	'''
		[mysql57-community]
		name=MySQL 5.7 Community Server
		baseurl=http://repo.mysql.com/yum/mysql-5.7-community/el/7/$basearch/
		enabled=1
		gpgcheck=0
		gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-mysql
	'''

2、启动服务

systemctl daemon-reload # 重载所有修改过的配置文件

systemctl start mysqld # 开启服务

systemctl enable mysqld # 开机自启

3、获取安装后自动生成的随机密码，用于登录MySQL数据库

grep "temporary password" /var/log/mysqld.log # 获取初始密码

mysql -u root -p # 登录mysql

4、mysql密码安全策略设置

set global validate_password_policy=0; # 设置密码强度为低级

set global validate_password_length=4; # 设置密码长度

alter user 'root'@'localhost' identified by '123456'; # 修改本地密码

\q # 退出

5、设置远程登录

mysql -u root -p 123456 # 以新密码登录mysql

create user 'root'@'%' identified by '123456'; # 创建用户

grant all privileges on *.* to 'root'@'%' with grant option; # 允许远程连接

flush privileges; # 刷新权限

chkconfig mysqld on # 将mysql的服务注册为开机启动

6、创建数据库test

create database test;

show databases;

主节点(node01)中创建工作路径，解压安装包：node01作为客户端，node02作为服务器端，因为node01和node02节点都需要hive

cd /usr/softwaretmp/bigdata/

mkdir /hive/

tar -zxvf apache-hive-2.1.1-bin.tar.gz

scp -r /usr/softwaretmp/bigdata/hive/apache-hive-2.1.1-bin root@node02:/usr/softwaretmp/bigdata/hive/ # node01中将hive远程复制到node02中

修改配置文件，添加hive环境变量:主从节点(node01和node02节点)

vim /etc/profile
'''
    # set hive environment
    export HIVE_HOME=/usr/softwaretmp/bigdata/hive/apache-hive-2.1.1-bin
    export PATH=$PATH:$HIVE_HOME/bin
'''

source /etc/profile

解决版本冲突和jar包依赖问题

客户端需要和hadoop通信，所以从hive的lib包中拷贝较高版本jline jar包到hadoop中lib位置：node01中执行

cp /usr/softwaretmp/bigdata/hive/apache-hive-2.1.1-bin/lib/jline-2.12.jar /usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3/share/hadoop/yarn/lib/

服务器需要和mysql通信，所以服务器需要将mysql的依赖包放到hive的lib目录下：node02中进行

cd /usr/softwaretmp/bigdata/hive/apache-hive-2.1.1-bin/lib
# 已下载，直接远程复制进去
# wget http://10.10.88.2:8000/bigdata/bigdata_tar/mysql-connection-java-5.1.47-bin.jar

node02作为服务器端配置hive: node02节点

cd $HIVE_HOME/conf

cp hive-env.sh.template hive-env.sh

vim hive-env.sh
'''
	HADOOP_HOME=/usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3
	export HIVE_CONF_DIR=/usr/softwaretmp/bigdata/hive/apache-hive-2.1.1-bin/conf
'''

vim hive-site.xml
'''
	
		
		
			hive.metastore.warehouse.dir
			/usr/softwaretmp/bigdata/hive_remote/warehouse
		
		
		
			javax.jdo.option.ConnectionURL
			jdbc:mysql://node03:3306/hive?createDatabaseIfNotExist=true&useSSL=false
		
		
		
			javax.jdo.option.ConnectionDriverName
			com.mysql.jdbc.Driver
		
		
		
			javax.jdo.option.ConnectionUserName
			root
		
		
		
			javax.jdo.option.ConnectionPassword
			123456
		
		
			hive.metastore.schema.verification
			false
		
		
			datanucleus.schema.autoCreateAll
			true
		
	
'''

node01作为客户端配置hive：主节点node01

cd /usr/softwaretmp/bigdata/hive/apache-hive-2.1.1-bin/conf/
vim hive-site.xml
'''
	
		
		
			hive.metastore.warehouse.dir
			/usr/softwaretmp/bigdata/hive_remote/warehouse
		
		
		
			hive.metastore.local
			false
		
		
		
			hive.metastore.uris
			thrift://node02:9083
		
	
'''
cp hive-env.sh.template hive-env.sh
vim hive-env.sh
'''
	HADOOP_HOME=/usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3
	export HIVE_CONF_DIR=/usr/softwaretmp/bigdata/hive/apache-hive-2.1.1-bin/conf

启动hive

cd /usr/softwaretmp/bigdata/hive/apache-hive-2.1.1-bin

1、启动hive server服务：node02节点

bin/hive --service metastore

2、启动hive client：node01节点

bin/hive

3、测试hive是否启动成功

show databases;

create database hive_db;

exit; # 退出

4、查看master进程

jps

4.8、sqoop安装:只需在master节点安装

cd /usr/softwaretmp/bigdata/sqoop

tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

配置环境变量：

vim /etc/profile
'''
    # set sqoop environment
    export SQOOP_HOME=/usr/softwaretmp/bigdata/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/
    export PATH=$SQOOP_HOME/bin:$PATH
'''

source /etc/profile

修改配置文件：

cd /usr/softwaretmp/bigdata/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/conf

cp sqoop-env-template.sh sqoop-env.sh

vim sqoop-env.sh
'''
	export HADOOP_COMMON_HOME=/usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3/
	export HADOOP_MAPRED_HOME=/usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3/
	export HBASE_HOME=/usr/softwaretmp/bigdata/hbase/hbase-1.2.4/
	export HIVE_HOME=/usr/softwaretmp/bigdata/hive/apache-hive-2.1.1-bin/
	export ZOOCFGDIR=/usr/softwaretmp/bigdata/zookeeper/zookeeper-3.4.10/conf
'''

mysql的jar放到sqoop的lib目录下（mysql-connector-java-5.1.35-bin.jar）

把mysql-connector-java-5.1.47-bin.jar拖到/usr/softwaretmp/bigdata/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/lib/

验证配置是否成功：

bin/sqoop help

bin/sqoop list-databases --connect jdbc:mysql://node03:3306/ --username root --password 123456

数据同步实例代码

# mysql -> hive 全量同步数据
bin/sqoop import --connect jdbc:mysql://node03:3306/toutiao --username root --password 123456 
					--table user_profile --m 5 --hive-home /root/bigdata/hive --hive-import 
					--create-hive-table --hive-drop-import-delims --warehouse-dir /usr/hive/warehouse/toutiao.db 
					--hive-table toutiao.user_profile

# mysql -> hive 增量导入
bin/sqoop import --connect jdbc:mysql://node03:3306/toutiao --username root --password 123456 
					--table user_profile --m 5 --target-dir /usr/hive/warehouse/toutiao.db/user_profile
					--incremental lastmodified --check-column update_time 
					--merge-key user_id --last-value 'date +"%Y-%m-%d" -d "-1day"'

bin/sqoop import --connect jdbc:mysql://node03:3306/toutiao --username root --password 123456
					--table user_profile --m 5
					--query 'select article_id, user_id, channel_id, REPLACE(REPLACE(REPLACE(title, CHAR(13),""),CHAR((10),""),","," ") title,status,update_time from news_article_basic where $CONDITIONS'
					--split-by user_id
					--target-dir /usr/hive/warehouse/toutiao.db/user_profile
					--incremental lastmodified --check-column update_time
					--merge-key user_id --last-value 'date +"%Y-%m-%d" -d "-1day"'

4.9、flume安装：node01

cd /usr/softwaretmp/bigdata/flume

tar -zxvf apache-flume-1.8.0-bin.tar.gz

配置环境变量：

vim /etc/profile
'''
	# set flume environment
	export FLUME_HOME=/usr/softwaretmp/bigdata/flume/apache-flume-1.8.0-bin
	export FLUME_CONF_DIR=$FLUME_HOME/conf
	export PATH=$FLUME_HOME/bin:$PATH
'''

source /etc/profile

修改配置文件flume-env.sh：

cd flume/apache-flume-1.8.0-bin/conf

cp flume-env.sh.template flume-env.sh

vim flume-env.sh
'''
	export JAVA_HOME=/usr/softwaretmp/bigdata/java/jdk1.8.0_171
'''

创建配置文件slave.conf：

touch slave.conf

vim slave.conf
'''
	a1.sources = r1
	a1.sinks = k1
	a1.channels = c1

	#具体定义source
	a1.sources.r1.type = spooldir
	# 创建此目录，保证里面空的
	a1.sources.r1.spoolDir = /usr/softwaretmp/bigdata/flume/logs

	#对于sink的配置描述 使用avro（输出到agent）日志做数据的消费
	a1.sinks.k1.type = avro
	# hostname是最终传给master节点的位置
	a1.sinks.k1.hostname = node01
	a1.sinks.k1.port = 44444#端口号

	#对于channel的配置描述 使用文件做数据的临时缓存 创建一个检查点的位置用于临时缓存提高安全性
	a1.channels.c1.type = file
	a1.channels.c1.checkpointDir = /usr/softwaretmp/bigdata/flume/checkpoint
	a1.channels.c1.dataDirs = /usr/softwaretmp/bigdata/flume/data

	#通过channel c1将source r1和sink k1关联起来
	a1.sources.r1.channels = c1
	a1.sinks.k1.channel = c1
'''

创建文件目录：

cd /usr/softwaretmp/bigdata/flume

mkdir logs # 创建监听的日志文件目录

mkdir checkpoint # 创建缓存目录checkpoint

mkdir data # 创建缓存目录

配置用户属性环境变量：

vi ~/.bash_profile
'''
	#flume
	export FLUME_HOME=/usr/softwaretmp/bigdata/flume/apache-flume-1.8.0-bin
	export PATH=$PATH:$FLUME_HOME/bin
'''

source ~/.bash_profile

查看是否配置成功：

flume-ng version

# 若出现 错误: 找不到或无法加载主类 org.apache.flume.tools.GetJavaProperty
解决方法：找到下面这段，在最后添加 2>/dev/null | grep hbase 即可
	vim bin/flume-ng
	'''
		local HBASE_CLASSPATH=""
		......
		java.library.path 2>/dev/null | grep hbase)
	'''

配置好的flume分发到从节点（node02，node03）：

scp -r /usr/softwaretmp/bigdata/flume/apache-flume-1.8.0-bin/ root@node02:/usr/softwaretmp/bigdata/flume/

scp -r /usr/softwaretmp/bigdata/flume/apache-flume-1.8.0-bin/ root@node03:/usr/softwaretmp/bigdata/flume/

创建文件目录：node02,node03

cd /usr/softwaretmp/bigdata/flume

mkdir logs # 创建监听的日志文件目录

mkdir checkpoint # 创建缓存目录checkpoint

mkdir data # 创建缓存目录

master节点创建master.conf文件：node01

cd /usr/softwaretmp/bigdata/flume/apache-flume-1.8.0-bin/conf

touch master.conf

vim master.conf # 从节点上的数据，聚合起来，传到hdfs上面
'''
	a1.sources = r1
	a1.sinks = k1
	a1.channels = c1

	# 对于source的配置描述 监听avro
	a1.sources.r1.type = avro
	# 传入的主机名和端口号
	a1.sources.r1.bind = node01
	a1.sources.r1.port = 44444

	#定义拦截器，为消息添加时间戳
	a1.sources.r1.interceptors = i1
	a1.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder

	#对于sink的配置描述 传递到hdfs上面
	a1.sinks.k1.type = hdfs
	#设置master的hdfs路径地址
	a1.sinks.k1.hdfs.path = hdfs://node01:9000/flume/%Y%m%d
	a1.sinks.k1.hdfs.filePrefix = events-
	a1.sinks.k1.hdfs.fileType = DataStream
	#不按照条数生成文件
	a1.sinks.k1.hdfs.rollCount = 0
	#HDFS上的文件达到128M时生成一个文件
	a1.sinks.k1.hdfs.rollSize = 134217728
	#HDFS上的文件达到60秒生成一个文件
	a1.sinks.k1.hdfs.rollInterval = 60

	#对于channel的配置描述 使用内存缓冲区域做数据的临时缓存
	a1.channels.c1.type = memory
	a1.channels.c1.capacity = 1000
	a1.channels.c1.transactionCapacity = 100
	#通过channel c1将source r1和sink k1关联起来
	a1.sources.r1.channels = c1
	a1.sinks.k1.channel = c1
'''

上面的配置文件中 agent1.sinks.sink1.hdfs.path=hdfs://node01:9000/flume下，即将监听到的文件自动上传到hdfs的/flume下，所以要手动创建hdfs下的目录

hdfs dfs -mkdir /flume

先看下hdfs的logs目录下，目前什么都没有

hdfs dfs -ls -R /flume

运行测试：

启动服务:主节点(node01)启动

flume-ng agent -n a1 -c conf -f /usr/softwaretmp/bigdata/flume/apache-flume-1.8.0-bin/conf/master.conf -Dflume.root.logger=INFO,console

从节点启动：node02，node03

bin/flume-ng agent -n a1 -c conf -f /usr/softwaretmp/bigdata/flume/apache-flume-1.8.0-bin/conf/slave.conf -Dflume.root.logger=INFO,console

从节点创建日志数据文件:node02,node03

cd /usr/softwaretmp/bigdata/flume/logs

vim flume_test.txt
'''
    {"actionTime":"2019-04-10 18:15:35","readTime":"","channelId":0,"param":{"action":"exposure","userId":"2","articleId":"[18577,14299]","algorithmCombine":"C2"}}
    {"actionTime":"2019-04-10 18:12:11","readTime":"2886","channelId":18,"param":{"action":"read","userId":"2","articleId":"18005","algorithmCombine":"C2"}}
    {"actionTime":"2019-04-10 18:15:32","readTime":"","channelId":18,"param":{"action":"click","userId":"2","articleId":"18005","algorithmCombine":"C2"}}
'''

往flume_test.txt文件插入数据：

echo {"actionTime":"2019-04-10 18:15:32","readTime":"","channelId":18,"param":{"action":"click","userId":"2","articleId":"18005","algorithmCombine":"C2"}} >> flume_test.txt

tail -f collect.log # 查看正在改变的log文件

然后发现hdfs的flume下自动上传了刚刚创建的文件

hdfs dfs -ls -R /flume

hdfs dfs -cat /flume/20220418/events-.1650292569824

客户端查看

http://node01:50070/explorer.html#

查看开启的flume进程

ps aux | grep flume

4.10、spark集群搭建：

安装scala环境:

主节点安装配置scala：node01

cd /usr/softwaretmp/bigdata/

mkdir scala

tar -zxvf scala-2.11.12.tgz

rm -rf /usr/softwaretmp/bigdata/scala/scala-2.11.12.tgz

配置scala环境变量并生效：主从节点(node01,node02,node03)

vim /etc/profile
'''
    # set scala environment
    export SCALA_HOME=/usr/softwaretmp/bigdata/scala/scala-2.11.12
    export PATH=$SCALA_HOME/bin:$PATH
'''

source /etc/profile

查看是否安装成功：主节点(node01)

scala -version

复制到子节点：主节点(node01)

scp -r /usr/softwaretmp/bigdata/scala/scala-2.11.12 root@node02:/usr/softwaretmp/bigdata/scala/

scp -r /usr/softwaretmp/bigdata/scala/scala-2.11.12 root@node03:/usr/softwaretmp/bigdata/scala/

安装spark

主节点安装配置scala：主节点(node01)

cd /usr/softwaretmp/bigdata/

mkdir spark

tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz

rm -rf /usr/softwaretmp/bigdata/spark/spark-2.4.0-bin-hadoop2.7.tgz

修改配置文件spark-env.sh:主节点(node01)

cd /usr/softwaretmp/bigdata/spark/spark-2.4.0-bin-hadoop2.7/conf/

cp spark-env.sh.template spark-env.sh #复制conf下spark-env.sh文件

vim spark-env.sh
'''
	# export SPARK_MASTER_IP=node01 # 告知spark的master运行在哪个机器上，standalone模式配置，standalone Ha模式和yarn模式不需要
	export SCALA_HOME=/usr/softwaretmp/bigdata/scala/scala-2.11.12
	export SPARK_WORKER_MEMORY=1g
	export JAVA_HOME=/usr/softwaretmp/bigdata/java/jdk1.8.0_171 # 设置java安装目录
	export HADOOP_HOME=/usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3
	export HADOOP_CONF_DIR=/usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3/etc/hadoop # 读取HDFS上文件
	export YARN_CONF_DIR=/usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3/etc/hadoop # 运行yarn集群
	# YARN模式下只要配置HADOOP_CONF_DIR和YARN_CONF_DIR
'''

配置spark从节点，修改slaves文件：主节点(node01,slaves文件只包含节点信息，其他注释不需要)

cp slaves.template slaves
vim slaves
'''
    node02
    node03
'''

向所有子节点发送spark配置好的文件包：主节点(node01)

scp -r /usr/softwaretmp/bigdata/spark/spark-2.4.0-bin-hadoop2.7 root@node02:/usr/softwaretmp/bigdata/spark/

scp -r /usr/softwaretmp/bigdata/spark/spark-2.4.0-bin-hadoop2.7 root@node03:/usr/softwaretmp/bigdata/spark/

配置spark环境变量：所有节点(node01,node02,node03)

vim /etc/profile
'''
    # set spark environment
    export SPARK_HOME=/usr/softwaretmp/bigdata/spark/spark-2.4.0-bin-hadoop2.7
    export PATH=$SPARK_HOME/bin:$PATH
'''

source /etc/profile

开启spark环境:主节点(node01)，注意是standalone模式还是yarn模式

standalone模式测试

/usr/softwaretmp/bigdata/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh
# 浏览器打开验证：ip:8080

yarn模式测试

bin/pyspark --master local[*] # 本地模式，所以资源启动

bin/pyspark --master spark://node01:7077 # 集群模式启动

bin/pyspark --master yarn # yarn模式启动

bin/pyspark --master yarn --deploy-mode client|cluster

# --deploy-mode 选项是指定部署模式，默认是客户端模式;client就是客户端模式，cluster就是集群模式；--deploy-mode仅可以用在yarn模式下
# Cluster模式即:Driver运行在YARN容器内部，和ApplicationMaster在同一个容器
# Client模式即：Driver运行在客户端进程中，比如Driver运行在spark-submit程序的进程中
# 举例：
	Client模式：
		bin/spark-submit --master yarn --deploy-mode client --driver-memory 512m --executor-memory 512m --num-executor 2 --total-executor-cores 3 /usr/softwaretmp/bigdata/spark/spark-2.4.0-bin-hadoop2.7/example/src/main/python/pi.py 100
	Cluster模式:
		bin/spark-submit --master yarn --deploy-mode cluster --driver-memory 512m --executor-memory 512m --num-executor 2 --total-executor-cores 3 /usr/softwaretmp/bigdata/spark/spark-2.4.0-bin-hadoop2.7/example/src/main/python/pi.py 100

spark on hive配置：根据原理，就是spark能够连上hive的Metastore就可以了，配置如下：

1、Metastore需要存在并开机

cd /usr/softwaretmp/bigdata/spark/spark-2.4.0-bin-hadoop2.7/conf

vim hive-site.xml
'''
	
		
		
			hive.metastore.warehouse.dir
			/usr/softwaretmp/bigdata/hive_remote/warehouse
		
		
		
			hive.metastore.local
			false
		
		
		
			hive.metastore.uris
			thrift://node02:9083
		
	
'''

2、spark知道Metastore在哪里（IP端口号）

步骤2：将mysql的驱动jar包放入spark的jars目录

上传已下载好的mysql-connection-java-5.1.47-bin.jar 到 /usr/softwaretmp/bigdata/spark/spark-2.4.0-bin-hadoop2.7/jars

步骤3：确保hive配置了Metastore相关服务，检查hive的配置文件目录：hive-site.xml

4.11、分布式anaconda安装

anaconda3搭建：三个节点(node01,node02,node03)

cd /usr/softwaretmp/bigdata
scp -r /usr/softwaretmp/bigdata/anaconda/Anaconda3-2019.03-Linux-x86_64.sh root@node02:/usr/softwaretmp/bigdata/anaconda/
scp -r /usr/softwaretmp/bigdata/anaconda/Anaconda3-2019.03-Linux-x86_64.sh root@node03:/usr/softwaretmp/bigdata/anaconda/

sh ./Anaconda3-2020.07-Linux-x86_64.sh
'''
	回车 -> enter -> enter -> yes -> /usr/softwaretmp/bigdata/anaconda/anaconda3 -> yes -> exit
	重新登入
'''

vim /root/.condarc  # 更改国内源
'''
	channels:
		- defaults
	show_channel_urls: true
	default_channels:
		- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
		- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
		- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
	custom_channels:
		conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
		msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
		bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
		menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
		pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
		simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
'''

conda create -n pyspark python=3.6 # 创建虚拟环境
conda activate pyspark # 切换虚拟环境

vim /etc/profile # 配置环境变量，是pyspark调用anaconda虚拟环境的python解释器
'''
	export JAVA_HOME=/usr/softwaretmp/bigdata/java/jdk1.8.0_171
	export HADOOP_HOME=/usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3
	export SPARK_HOME=/usr/softwaretmp/bigdata/spark/spark-2.4.0-bin-hadoop2.7
	export PYSPARK_PYTHON=/usr/softwaretmp/bigdata/anaconda/anaconda3/envs/pyspark/bin/python3.6 # 新增的
	export HADOOP_CONF_DIR=/usr/softwaretmp/bigdata/hadoop/hadoop-2.7.3/etc/hadoop  # 新增的
'''
source /etc/profile

vim /root/.bashrc # 修改用户的个性化设置文件，添加环境变量
'''
	export JAVA_HOME=/usr/softwaretmp/bigdata/java/jdk1.8.0_171
	export PYSPARK_PYTHON=/usr/softwaretmp/bigdata/anaconda/anaconda3/envs/pyspark/bin/python3.6
'''

虚拟环境中创建pyspark包：

conda activate pyspark # 切换虚拟环境
# pyspark是spark官方提供的一个python类库，内置了完全的spark API，可用来编写spark应用程序，并将其提交到spark集群中运行

pip install pyspark==2.4 -i https://pypi.tuna.tsinghua.edu.cn/simple # 国内清华源
pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

测试：

python
'''
    from pyspark import SparkContext,SparkConf

    conf = SparkConf().setMaster("local[*]").setAppName("wordCountHelloWorld")
    sc = SparkContext(conf=conf)
    print(sc.parallelize([1,2,3,4,5]).map(lambda x: x + 1).collect())
'''

exit()

虚拟环境安装jupyter notebook：node01

pip install Jupyter # 安装Jupyter notebook

jupyter notebook --generate-config # 生成Jupyter notebook 配置文件

jupyter notebook password # 配置Jupyter notebook密码 root

vim ~/.jupyter/jupyter_notebook_config.py # 修改配置文件
'''
	c.NotebookApp.allow_remote_access = True
	c.NotebookApp.open_browser = False # 不想在服务器上直接打开Jupyter Notebook，所以设置成False
	c.NotebookApp.ip = '*' # 所有绑定服务器的IP都能访问，若想只在特定ip访问，输入ip地址即可
	c.NotebookApp.allow_root = True # 为了安全，Jupyter默认不允许以root权限启动jupyter
	c.NotebookApp.notebook_dir = '/root/works' # 设置Jupyter的根目录
	c.NotebookApp.port = 8888 #端口可以更改
'''

Jupyter notebook 更换kernel：

conda activate 环境名

conda install nb_conda_kernels

python -m ipykernel install --user --name 环境名称 --display-name "显示的名称"

远程连接测试：

jupyter notebook/jupyter notebook --ip 0.0.0.0 -> 本地浏览器输入链接 -> 新建.notebook文件

若出现：500 : Internal Server Error -> AttributeError: module 'nbconvert.exporters' has no attribute 'WebPDFExporter'

解决办法：conda install nbconvert notebook

4.12、配置本地pycharm professional(专业版)：本地windows

创建项目：

打开 -> create new project -> Existing interpreter -> ... -> 添加远程环境(SSH Interpreter) ->
输入(链接、用户、密码) -> 输入远程服务器上python地址

新建文件进行测试：

新建test.py -> 右键run

# coding:utf8
from pyspark import SparkContext,SparkConf

if __name__ == '__main__':
	# conf = SparkConf().setMaster("local[*]").setAppName("wordCountHelloWorld") # 本地模式
	conf = SparkConf().setAppName("wordCountHelloWorld") # 集群模式
	# 如果提交集群运行，除了主代码外，还依赖其他代码文件，需要设置参数:spark.submit.pyFiles，参数值可以是单个.py文件，也可以是.zip压缩包(有多个依赖文件时可以用zip压缩后上传)
	conf.set("spark.submit.pyFiles","other_py.py")
	sc = SparkContext(conf=conf)

	# file_rdd = sc.textFile("data/word")
	file_rdd = sc.textFile("hdfs://node01:9000/input/word.txt")

	word_rdd = file_rdd.flatMap(lambda line: line.split(" "))
	word_with_one_rdd = word_rdd.map(lambda x: (x, 1))
	result_rdd = word_with_one_rdd.reduceByKey(lambda a, b: a + b)
	# result_rdd = file_rdd.flatMap((lambda line: line.split(" "))).map(lambda x: (x, 1)).reduceByKey(lambda a, b: a + b)

	print(result_rdd.collect())

在服务器上提交运行：node01

/usr/softwaretmp/bigdata/spark/spark-2.4.0-bin-hadoop2.7/bin/spark-submit --master local[*] /root/work/halloworld.py

/usr/softwaretmp/bigdata/spark/spark-2.4.0-bin-hadoop2.7/bin/spark-submit --master yarn /root/work/halloworld.py

/usr/softwaretmp/bigdata/spark/spark-2.4.0-bin-hadoop2.7/bin/spark-submit --master yarn --py_files ./defs.py /root/work/halloworld.py

# 榨干集群性能提交

cat /proc/cpuinfo | grep processor | wc -l # 查看CPU有几核

free -wh # 查看内存有多大

# 简单规划：1、吃掉6核CPU；2、吃掉12G内存；规划后：希望使用6个executor来干活，每个executor吃掉1核CPU 2G内存
bin/spark-submit --master yarn --py-files /root/work/defs.py --executor-memory 2g --executor-cores 1 --num-executors 6 /root/work/halloworld.py

你可能感兴趣的:(环境配置,人工智能,服务器)

【八股文】从浏览器输入一个url到服务器的流程白衣神棍八股文 web
1.url解析与DNS解析浏览器解析用户输入的URL，提取协议（HTTP\HTTPS）、域名、端口及路径等信息浏览器首先检查本地DNS缓存和系统DNS缓存，若未命中，查询本地hosts文件最后递归查询向本地DNS服务器发起请求，获取域名对应的IP地址这里我想插入一段，讲讲本地DNS缓存、系统DNS缓存、Hosts文件、DNS服务器几者之间的关系首先，不要觉得很复杂，其实本质就是为了根据域名拿IP地
vscode连接远程服务器docker里的容器--使用remote ssh 欢仔要学习 python 学习 ubuntu
背景介绍：因为工作的原因，图像相关，模型训练，需要在服务器上面搞，同时，服务器上面的环境配置，全部使用的是docker创建容器的方式。但是呢，之前没有配置好服务器与本机的交互环境，每次更改代码，要上传，下载，很不方便，同时图片也没办法可视化。很不友好。于是就想要使用vscode来连接远程服务器docker；因为docker创建的那个容器相当于是一台ubuntu主机，配置好端口，然后我们从外面去连接
eNSP-DHCP服务 2022级计算机网络一班何宏超网络服务器 linux
DHCP：动态主机配置协议DHCP（DynamicHostConfigurationProtocol，动态主机配置协议）DHCP用途：用来分配IP地址等网络参数一、基于全局地址池的DHCP服务器1、在R1上配置G0/0/1的IP地址[R1]intg0/0/1[R1-GigabitEthernet0/0/1]ipadd192.168.100.254242、创建全局地址池[R1]ippoolpool1
MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注数据集
2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据模态的融合，多模态3D感知因其与物理世界的连接而受到越来越多的关注，并取得了快速进展。然而，现有的数据集
从数据中心机房来看云服务器的可用性与性能！数据中心云服务器
数据中心机房是云服务器的物理承载基础，机房的硬件设施、运行环境和管理水平直接影响云服务器的可用性和性能表现。了解数据中心机房，明白哪些因素可能导致云服务器出现故障或性能下降，就能够依据数据中心机房的实际情况做出更明智的决策，保障自身业务的稳定运行。数据中心机房的硬件设施是保障云服务器可用性的基础。网络设备作为数据传输的桥梁，高性能的路由器、交换机等确保了数据的快速、准确传输。电力供应则是云服务器运
【AI大模型】RAG如何让生成AI更智能？最新方法与优劣深度解析健忘的派大星人工智能语言模型 ai AI大模型 agi RAG 程序员
前言近年来，人工智能技术突飞猛进，尤其是生成式AI，简直像是开了挂一样，各种惊艳的表现让人直呼“未来已来”。根据IDC的研究，生成式AI的市场规模在2022年已经达到了107亿美元，而到2026年，这个数字预计会飙升至326亿美元！不过，尽管生成式AI很强大，但它也并非完美无缺——比如生成内容的质量、准确性和可靠性，依然有提升的空间。这时候，检索增强生成（RAG）技术登场了！RAG的核心思路很简单
HTTP 408 Request Timeout 请求超时，远程 GitHub 服务器断开了连接 linff911 http github 服务器
你的gitpush遇到了HTTP408RequestTimeout错误，说明请求超时，远程GitHub服务器断开了连接。解决方法：检查你的网络(1)测试GitHub是否正常pinggithub.com如果返回：Requesttimedout.说明你的网络连接GitHub有问题，建议：尝试换个网络（如手机热点）使用VPN连接GitHub稍后再试如果网络没有问题，修改Git连接方式(1)使用SSH代替
Websoft9 开源软件实操平台：快速积累企业级软件技能，深入理解真实业务场景开源创业
引言：打破“纸上谈兵”的实训困境当前高校技术教育普遍面临一个矛盾：学生对开源工具的理论知识掌握充分，但在真实业务场景中常因环境配置复杂、工具链割裂而难以落地。例如，部署一套完整的电商系统需协调数据库、服务器、安全策略等多环节，传统虚拟机环境难以模拟企业级复杂度。Websoft9作为开源软件自动化部署工具，通过预集成200+企业级应用模板（如GitLab、Odoo、Jenkins）和全流程管理能力，
企业数据存储的几种方式对比存储
在当今信息化时代，企业常见的数据存储方式包括本地存储、云存储、网络附加存储（NAS）、对象存储等，它们在安全性、扩展性与成本方面各有优势。其中，云存储凭借高弹性、低维护成本等特点备受青睐。它利用网络将数据托管于远程服务器，企业无需自建机房，也能快速扩容并进行全球化部署，极大降低了初期投入成本。这种方式实现了随用随付、自动备份，为众多中小型企业提供了便捷且经济的选择。一、本地存储本地存储是指企业将数
华为OD E卷 #28 API集群负载统计时光回响华为OD机试E卷华为od
题目某个产品的RESTfulAPI集合部署在服务器集群的多个节点上，近期对客户端访问日志进行了采集，需要统计各个API的访问频次，根据热点信息在服务器节点之间做负载均衡，现在需要实现热点信息统计查询功能。RESTfulAPI是由多个层级构成，层级之间使用/连接，如/A/B/C/D这个地址，A属于第一级，B属于第二级，C属于第三级，D属于第四级。现在负载均衡模块需要知道给定层级上某个名字出现的频次，
web端 -- RPC - 通用方案扁舟·TF 爬虫爬虫
背景当一个目标站加密字段特别多，而且我们对其并不需要大规模爬取时，考虑到时间成本，我们就可以使用RPC来获取加密数据。原理：搭建一个后端服务器，然后在浏览器中hook加密函数，注册到web.js端中，最后通过client端来回调加密函数，实现rpc远程调用以上就是整个RPC获取加密数据的流程。自己封装了一个通用框架，使用时只需修改一个点就行：自定义client端的type自定义web端typecl
A Survey of Large Language Models大模型综述论文章节总结 WhyteHighmore 论文语言模型人工智能自然语言处理论文笔记
ASurveyofLLM人大译ASurveyofLargeLanguageModels这篇论文全面回顾了大型语言模型(LLM)的最新进展，重点关注其发展背景、关键发现和主流技术。文章主要围绕LLM的四个主要方面展开：1引言自从1950年图灵测试被提出以来，人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统，这使得开发能够理解和掌握语言的强大人工智能(AI
汇川EASY系列之以太网通讯（MODBUS_TCP做从站） Amos_ FAT 汇川EASY 网络服务器经验分享
汇川easy系列PLC做MODBUS_TCP从站，不需要任何操作，但是有一些需要知道的东西。具体如下：1、汇川easy系列PLC做MODBUS_TCP从站，，ModbusTCP服务器默认开启，无需设置通信协议（即不需要配置），端口号为“502”。ModbusTCP从站最多支持31个ModbusTCP客户端（ModbusTCP主站）同时连接。2、做为串口通讯的衍生，功能码是应知应会的。具体如下：关于
微软2012服务器qgis,12.2. 使用qgis-server 和 qgis 发布地图 12669821881 微软2012服务器qgis
12.2.2.建立wms图层¶打开qgis客户端点击图层>添加图层>添加矢量图层(图12.4)图12.4添加矢量图层¶“项目”菜单下的“项目属性”，转到“OWS服务器”选项卡(图12.5)快捷键:shiftctrlp(图12.6)图12.5建立ows服务(1)¶图12.6建立ows服务(2)¶继续向服务器添加QGIS项目，现在我们在项目中添加WMS层以将其连接到服务器，因此请转到“图层>添加图层>
AI：对比ChatGPT这类聊天机器人，人形机器人对人类有哪些不一样的影响？ InnoLink_1024 AGI 人工智能机器学习 chatgpt 人工智能机器人
人形机器人与像ChatGPT这样的聊天机器人相比，虽然都属于人工智能技术的应用，但由于其具备的物理形态和与环境的互动能力，它们对人类的影响会有很大的不同。下面从多个角度进行对比，阐述它们各自对人类的不同影响：1.物理交互与虚拟交互人形机器人：具有物理形态，能够在物理世界中与人类进行直接交互。例如，搬运物品、进行日常家务、提供身体上的帮助（如扶持老人、帮助走路等），以及进行非语言的沟通（如手势、面部
linux Redhat9.5采用DNS主从实现跨网段解析梨涡~陌然 linux 运维服务器
文章目录主从服务器DNS实现跨网段解析一、服务器规划二、主服务器配置1、安装`bind`2、修改主配置文件3、配置区域配置文件4、配置正向解析文件5、配置反向解析文件6、检查并启动服务三、从服务器配置1、安装`bind`2、配置主配置文件3、修改区域配置文件4、检查并启动服务四、路由器配置五、客户端验证主从服务器DNS实现跨网段解析一、服务器规划服务器IP地址网关DNS-Master192.168
基于BClinux8部署Ceph 19.2(squid)集群磐基Stack专业服务团队 ceph
#作者：闫乾苓文章目录1.版本选择Ceph版本发布历史目前官方在维护的版本2.部署方法3.服务器规划4.前置配置4.1系统更新4.2配置hostscat>>/etc/hosts>/etc/hosts/etc/chrony.conf/etc/chrony.conf/etc/os-release<
基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
create-react-app创建的项目中设置webpack配置沃野_juededa react.js webpack 前端
create-react-app创建的项目默认使用的是react-scripts（存在于node_modules文件夹中）来处理开发服务器和构建，它内置了一些webpack相关配置。一般不会暴露出来给开发者，但是在有些情况下我们需要修改下webpack默认配置，如修改outputPath、sourcemap方案等，但由于eject是不可逆的，所以craco插件应运而生，为我们提供了更好的解决方案。
http 从请求到响应的过程中发生了什么沃野_juededa http 网络协议网络
‌DNS域名解析‌：当用户在浏览器地址栏输入网址时，浏览器首先会尝试从自身的DNS缓存中查找域名的IP地址。如果缓存中没有找到，浏览器会向系统DNS缓存、hosts文件以及本地DNS服务器发起查询请求，最终获取到域名的IP地址‌。‌TCP三次握手‌：浏览器与服务器建立TCP连接，这个过程称为三次握手。服务器监听端口，客户端发送SYN包请求连接，服务器响应SYN+ACK包，客户端再次发送ACK包确认
Ubuntu连接到SSH（live server和desktop版本同样适用）适用于20-24各个版本郑梓妍 Linux系统运维 ubuntu ssh linux
SSH（SecureShell）是一种网络协议，用于在客户端和服务器之间建立加密连接。在Ubuntu系统中，通过SSH远程连接可以方便地执行管理任务，如文件传输和系统维护。以下是在Ubuntu中设置SSH远程连接的步骤。安装和启动SSH服务首先，需要在Ubuntu系统上安装openssh-server包。可以通过以下命令进行安装：sudoaptupdatesudoaptinstallopenssh
B/S架构（Browser/Server）与C/S架构（Client/Server）张太行_ 服务器运维
基本概念B/S架构（Browser/Server）：即浏览器/服务器架构。在这种架构中，用户通过浏览器（如Chrome、Firefox、Safari等）访问服务器上的应用程序。服务器端负责处理业务逻辑、存储数据等核心功能，浏览器主要用于向用户展示数据和接收用户输入。例如，一个在线邮箱系统，用户在浏览器中输入邮箱网址，登录后就可以收发邮件。服务器会处理邮件的发送、接收、存储等操作，而浏览器则将邮件的
阿里云ECS服务器挂载数据盘教程（Linux） A5云服务商服务器阿里云 linux 云计算运维运维开发
阿里云ECS服务器挂载数据盘教程（Linux）在阿里云上挂载磁盘的过程可以分为几个步骤。以下是一个详细的教程，帮助你在阿里云的云服务器（ECS）上挂载磁盘。如需要阿里云的代理商可以联系我，主页有信息，阿里云可返20个点。步骤1：创建并挂载云盘登录阿里云控制台访问阿里云控制台并使用你的账号登录。创建云盘在控制台左侧菜单中，选择“云服务器ECS”。找到并选择你要挂载磁盘的实例。在实例详情页面，点击“云
计算机毕业设计PHP保利和院物业服务管理系统小程序（源码+程序+uni+lw+部署）计算机专业毕设程序课程设计 php 小程序
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
告别繁琐！5分钟搞定Linux上MySQL 8安装，小白也能轻松上手！ IT_狂奔者 Databases linux mysql 运维
概述MySQL是一个广泛使用的开源关系型数据库管理系统，适用于各种规模的应用程序。MySQL8引入了许多新特性和性能改进，因此在Linux服务器上安装MySQL8是一个常见的需求。本文将指导大家如何在Linux系统上安装MySQL8，并假设已经完成了安装过程。我们将重点放在安装后的配置和使用上。目录概述一、安装MySQL8.x及配置1.1安装1.2使用方法1.2.1赋予执行权限1.2.2运行脚本1
DeepSeek从入门到精通「清华团队」 YuKeeHgg DeepSeek 人工智能 ai
由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开，帮助用户从入门到精通DeepSeek的使用。「文末附下载方式」第一部分：DeepSeek基础概念1.1DeepSeek简介定义：专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。核心产品：开源
人工智能的未来：从基础到前沿的探索与展望小二爱编程· 人工智能 ai AI编程 AI写作 AI作画
1.人工智能简介内容概述：人工智能（AI）是指模拟和执行人类智能任务的技术。随着计算能力和数据量的增加，AI在各个领域取得了显著进展，从自动化的基本任务到解决复杂的实际问题，人工智能正渗透到我们生活的各个方面。2.人工智能的种类与发展内容概述：AI的种类可以按智能的复杂度分为三大类：弱人工智能（NarrowAI）：目前大多数应用都属于弱AI，如语音助手、自动驾驶等。它们专注于特定任务，并且无法扩展
HoRain云--无需修改BIOS！Linux系统迁移根目录到新磁盘终极指南 HoRain 云小助手 linux 运维服务器
HoRain云小助手：个人主页⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。目录⛳️推荐一、原理简析二、操作步骤（以Ubuntu为例）1.准备工作2.临时挂载新磁盘3.修改GRUB配置4.更新引导配置5.验证配置（重要！）三、故障排查（附解决方案）四、永久生效设置五、注意事项一、原理简析通过GRUB
HoRain云--URI vs URL vs URN：彻底搞懂三者的区别与联系 HoRain 云小助手 java 前端开发语言
HoRain云小助手：个人主页⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。目录⛳️推荐URIvsURLvsURN：彻底搞懂三者的区别与联系一、核心概念解析1.URI（统一资源标识符）2.URL（统一资源定位符）3.URN（统一资源名称）二、三者关系图解三、关键区别对比表四、日常应用场景五、技术冷知
HTTPS通信（握手）过程 IT运维成长心得 https 网络协议
HTTPS通信（即超文本传输安全协议）的握手过程是确保通信双方安全交换数据的关键步骤。以下是HTTPS握手过程的详细步骤：客户端发起请求：客户端（通常是浏览器）向服务器发起HTTPS请求。服务器响应：服务器收到请求后，会回应一个数字证书。这个证书是由一个受信任的第三方（证书颁发机构，CA）签发的，包含了服务器的公钥、服务器信息以及CA的签名。客户端验证证书：客户端使用内置的CA证书库来验证服务器的
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情