南山二毛

大数据hadoop与spark研究——1 spark环境搭建

第一章介绍

一、 spark组件

Spark是一个用于集群计算的通用计算框架
Spark可将如何Hadoop分布式文件系统（HDFS）上的文件读取为分布式数据集（RDD）
Spark是用Scala写的，运行在Java虚拟机（JVM）上。
Spark Core

任务调度，内存管理，错误恢复，与存储系统交互，对RDD的api定义

RDD表示分布在多个计算节点上可以并行操作的元素集合
Spark SQL

spark用来操作结构化数据的程序包

支持将SQL和传统的RDD编程的数据操作方式相结合
Spark Streaming

对实时数据进行流式计算的组件
MLlib

提供常见的机器学习功能的程序库
GraphX

用来操作图的程序库，可以进行并行的图计算
集群管理器（cluster manager）

支持在集群管理器上运行，包括Hadoop YARN，Apache Mesos

Spark自带一个简易调度器：独立调度器

二、Hadoop计算存储框架

Hadoop 是一个开源的分布式计算和存储框架，由 Apache 基金会开发和维护。
Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集，并且支持在单台计算机到几千台计算机之间进行扩展。
Hadoop 使用 Java 开发，所以可以在多种不同硬件平台的计算机上部署和使用。其核心部件包括分布式文件系统 (Hadoop DFS，HDFS) 和 MapReduce。

整体设计

Hadoop 框架是用于计算机集群大数据处理的框架，所以它必须是一个可以部署在多台计算机上的软件。部署了 Hadoop 软件的主机之间通过套接字 (网络) 进行通讯。
Hadoop 主要包含 HDFS 和 MapReduce 两大组件，HDFS 负责分布储存数据，MapReduce 负责对数据进行映射、规约处理，并汇总处理结果。
Hadoop 框架最根本的原理就是利用大量的计算机同时运算来加快大量数据的处理速度。例如，一个搜索引擎公司要从上万亿条没有进行规约的数据中筛选和归纳热门词汇就需要组织大量的计算机组成集群来处理这些信息。如果使用传统数据库来处理这些信息的话，那将会花费很长的时间和很大的处理空间来处理数据，这个量级对于任何单计算机来说都变得难以实现，主要难度在于组织大量的硬件并高速地集成为一个计算机，即使成功实现也会产生昂贵的维护成本。

第二章搭建centos7集群环境

一、安装centos7虚拟机

1.配置虚拟机的NAT网络模式
https://www.cnblogs.com/yychnbt/p/5175273.html
https://www.cnblogs.com/zejin2008/p/5935934.html

二、克隆虚拟机

1.使用vmware自带的“克隆”功能

2.克隆后更改网络配置
–参考链接：https://blog.csdn.net/seven_zhao/article/details/43429571

–修改网络：
–1.删除网卡
–2.添加新的网卡 -->HWADDR（mac地址）将自动更新
添加新网卡，选择NAT模式，点击“高级”–>MAC地址：点击“生成” ，并复制此时生成的MAC地址（大小写敏感） 00:50:56:3C:65:3D

–3.修改IP地址
开机，登录为root用户，切换目录至网卡配置文件
cd /etc/sysconfig/network-scripts
打开配置文件： vi ifcfg-ens33
HWADDR=00:50:56:2A:D9:D6 #MAC地址，与刚生成的新MAC地址一致
IPADDR=192.168.80.10 #静态IP
GATEWAY=192.168.80.2 #默认网关
NETMASK=255.255.255.0 #子网掩码
DNS1=192.168.80.2 #DNS配置
DNS2=222.246.129.80 #DNS配置
DNS3=221.228.225.1 #DNS配置
–4.刷新网卡或重启电脑，验证是否成功连上外网：
刷新网卡：service network restart
重启电脑：reboot
验证是否联网：ping www.baidu.com 或者 curl www.baidu.com

三、安装Java

–参考链接：https://www.cnblogs.com/wangmo/p/7880521.html

–1.下载安装包，并复制到安装目录（例如，将java安装到这个目录： /home/hadoop/app）
–2.配置环境变量:4个
1）使用vim命令打开系统的环境变量配置文件：
vim /etc/profile
2)添加4个环境变量
JAVA_HOME PATH JRE_HOME CLASSPATH
例如：
export JAVA_HOME=/home/hadoop/app/jdk1.8 #jdk的绝度路径
export PATH= $P A T H :$ JAVA_HOME/bin
export JRE_HOME= $JAVA_HOME/jre export CLASS_PATH=.:$ JAVA_HOME/lib/dt.jar: $JAVA_HOME/lib/tools.jar:$ JRE_HOME/lib
3)使修改生效：source /etc/profile

–3.验证是否安装成功
回到根目录： cd /
验证命令：java 和 javac ,java -version

第三章搭建Hadoop集群

一、搭建集群

安装及克隆虚拟机，上述第一章已完成该步骤。

本集群包含三个节点，主机名及IP如下：

master 192.168.80.10
slave1 192.168.80.11
slave2 192.168.80.12

所选Hadoop版本：hadoop2.8.4

二、更改网络配置

1.右键点击虚拟机->设置：删除网卡，重新添加新网卡，并记录新生成的MAC地址
2.修改ip地址，并更新为新生成的MAC地址
3.修改hosts文件：
3台机器分别执行相同操作
1)在文件添加ip与主机名的映射关系：
打开hosts文件：vim /etc/hosts
三台机都添加如下三行
192.168.80.10 master
192.168.80.11 slave1
192.168.80.12 slave2
2）修改主机名：vim /etc/hostname
删除localhost.localdomain
三台机器分别修改为：master，slave1，slave2
3）重启虚拟机，验证
输入验证命令：hostname

三、建立三台机器间免密登录


	1.关闭防火墙（centos7和centos6的操作不一样）
		1）查看防火墙状态：firewall-cmd --state   (关闭状态：not running)
		2）关闭防火墙
			第一步，临时关闭：systemctl stop firewalld.service
			第二步，禁止开机启动：systemctl disable firewalld.service
			第三步，重启计算机，验证防火墙的状态是否为not running
	2.关闭selinux
		1)查看selinux状态：
			(1)getenforce：disabled
			(2)/usr/sbin/sestatus -v :disabled
		2）临时关闭：setenforce 0
		3）永久关闭：修改配置文件（root权限）
			vi /etc/selinux/config
			将SELINUX=enforcing改为SELINUX=disabled 
		4）重启计算机，让修改生效。

	3.修改sshd的配置（root权限）
		1)vim /etc/ssh/sshd_config
			找到以下内容，并去掉注释符“#”
			　　RSAAuthentication yes
			　　PubkeyAuthentication yes
			　　AuthorizedKeysFile      .ssh/authorized_keys
		2)重启sshd服务（root权限）
			/sbin/service sshd restart
		3）验证：查看sshd服务是否开启
			service sshd status  （开启状态：active(running))
			
	4.本机生成公钥/私钥对
		到这一步时，也可以通过ssh slave1命令+slave1的密码登录到slave1。
			也就是说，目前可以远程登录，只是不能免密登录。
		进一步配置免密登录如下
			参考链接：
				（1）RSA公钥，私钥和数字签名这样最好理解
				https://blog.csdn.net/cut001/article/details/53189645
				（2）Hadoop系列之（一）CentOS7安装配置及SSH无密码验证配置
				https://blog.csdn.net/triumphao/article/details/53264190
				（3）《ssh免密码登陆及其原理 by 代码如诗》
				https://www.cnblogs.com/kex1n/p/6017963.html?utm_source=itdadao&utm_medium=referral#top
		1）本机生成公钥/私钥对
			(1)从root切换回要免密码登录的用户hadoop
		 		su hadoop 
			(2)执行生成公钥/私钥对的命令
				ssh-keygen -t rsa -P ''
				默认在当前用户的家目录（~/.ssh/）生成两个文件：
				id_rsa: 私钥
				id_rsa.pub:公钥
				
		2）将公钥复制到本机和其他机器，并修改文件权限为600
			（1）复制master的公钥到本机，并修改文件权限
		 		cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
		 		chmod 600 ~/.ssh/authorized_keys

		 	（2）复制公钥到其他机器，并修改文件权限
		 		第一步，复制master01的公钥
			 		scp ~/.ssh/id_rsa.pub hadoop@slave1:~/.ssh/authorized_keys
			 		scp ~/.ssh/id_rsa.pub hadoop@slave2:~/.ssh/authorized_keys
		 		第二步，修改文件权限  --> 完成这步之后，master01已经能够免密登录到slave1和slave2 
			 		分别切换到slave1和slave2，修改文件权限
			 		chmod 600 ~/.ssh/authorized_keys
				第三步，将slave1和slave2的公钥分别复制到master01，并修改master01的文件权限
					在slave1上执行：
						scp ~/.ssh/id_rsa.pub hadoop@master01:~/id_rsa.pub1 #先复制到master01，后追加到master01的authorized_keys中
					在slave2上执行：
						scp ~/.ssh/id_rsa.pub hadoop@master01:~/id_rsa.pub2
					在master01上执行：
		 				cat ~/id_rsa.pub1 >> ~/.ssh/authorized_keys
		 				cat ~/id_rsa.pub2 >> ~/.ssh/authorized_keys
		 			修改master01的文件权限：
		 				chmod 600 ~/.ssh/authorized_keys

		3)验证免密登录
			在master01上执行：ssh slave1   #退出远程登录：exit
			在master01上执行：ssh slave2
			在slav1上执行：ssh master
			在slav2上执行：ssh master
			查看master01的authorized_keys：cat ~/.ssh/authorized_keys  #公钥的末尾：@slave1、@slave2

四、安装hadoop

	1.下载安装包并解压
		#master01节点（注意：slave节点的暂时不安装，后续复制配置好的文件即可）
		cd ~/app
		wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.8.4/hadoop-2.8.4.tar.gz
		tar -zxvf hadoop-2.8.4.tar.gz

		解压之后，确认版本是32位还是64位
			cd hadoop-2.8.4/lib/native
		使用file命令：
			file libhadoop.so.1.0.0
		得到验证结果
			 ELF 64-bit LSB shared object, x86-64, version 1 (SYSV) -->64位

	2.修改Hadoop配置文件
		#Master
		cd hadoop-2.8.4/etc/hadoop
		1)修改hadoop-env.sh
			vim hadoop-env.sh 
			export JAVA_HOME=/home/hadoop/app/jdk1.8

		2)修改yarn-env.sh
			vim yarn-env.sh
			export JAVA_HOME=/home/hadoop/app/jdk1.8

		3）修改slaves
			vim slaves
			删除原内容，添加如下内容：
				slave01
				slave02

		4)创建临时目录和文件目录
			mkdir /home/hadoop/app/hadoop-2.8.4/tmp
			mkdir -p /home/hadoop/app/hadoop-2.8.4/dfs/name
			mkdir -p /home/hadoop/app/hadoop-2.8.4/dfs/data

		5)修改core-site.xml
			vim core-site.xml
			添加如下内容：
			
				
				
					fs.defaultFS
					hdfs://master01:9000
				
				
				
					hadoop.tmp.dir
					/home/hadoop/app/hadoop-2.8.4/tmp
				
			

		6）修改hdfs-site.xml
			vim hdfs-site.xml
				
					
					
						dfs.namenode.secondary.http-address
						master01:9001
					
					
					
						dfs.namenode.name.dir
						file:/home/hadoop/app/hadoop-2.8.4/dfs/name
					
					
					
						dfs.datanode.data.dir
						file:/home/hadoop/app/hadoop-2.8.4/dfs/data
					
					
					
						dfs.repliction
						2
					
				

		7）修改mapred-site.xml
			vim mapred-site.xml
				
				
					
						mapreduce.framework.name
						yarn
					
				

		8）修改yarn-site.xml
			vim yarn-site.xml
				
					
						yarn.nodemanager.aux-services
						mapreduce_shuffle
					
					
						yarn.nodemanager.aux-services.mapreduce.shuffle.class
						org.apache.hadoop.mapred.ShuffleHandler
					
					
						yarn.resourcemanager.address
						master01:8032
					
					
						yarn.resourcemanager.scheduler.address
						master01:8030
					
					
						yarn.resourcemanager.resource-tracker.address
						master01:8035
					
					
						yarn.resourcemanager.admin.address
						master01:8033
					
					
						yarn.resourcemanager.webapp.address
						master01:8088
					
				


	3. 配置环境变量
	#Master、Slave1、Slave2
	vim ~/.bashrc
		HADOOP_HOME=/home/hadoop/app/hadoop-2.8.4
		export PATH=$PATH:$HADOOP_HOME/bin
	#刷新环境变量
		source ~/.bashrc

	4. 拷贝安装包
	#Master
		scp -r /home/hadoop/app/hadoop-2.8.4 hadoop@slave01:/home/hadoop/app/hadoop-2.8.4
		scp -r /home/hadoop/app/hadoop-2.8.4 hadoop@slave02:/home/hadoop/app/hadoop-2.8.4

	5. 启动集群
	#Master
	#初始化Namenode
		hadoop namenode -format
	#启动集群
		cd /home/hadoop/app/hadoop-2.8.4/sbin
		./start-all.sh

	6. 集群状态
	jps
	#Master
	#Slave1,Slave2

	7.监控网页（上述yarn-site.xml文件中配置的RM网页地址）
	http://192.168.80.10:8088

	8. 操作命令
		启动集群后，输入hadoop fs即显示常用命令的用法
		参考链接：
			CSDN:https://www.cnblogs.com/zhaosk/p/4391294.html#top
			官网：http://hadoop.apache.org/docs/r2.8.4/hadoop-project-dist/hadoop-common/FileSystemShell.html
		hadoop fs 和 hadoop dfs的区别：
			hadoop fs：适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统；
			hadoop dfs：只能适用于HDFS文件系统；
			hdfs dfs：跟hadoop dfs命令的作用一样，也只能适用于HDFS文件系统。
			参考链接：林子雨老师 http://dblab.xmu.edu.cn/blog/1625-2/
			
		1)打印文件列表（ls）
			（1）完整写法
			#和Hadoop1.0操作命令是一样的
			./hadoop fs -ls hdfs:/  #明确说明是hdfs系统路径

			（2）简写
			./hadoop fs -ls  /      #默认是hdfs系统路径

			（3）打印指定目录
			./hadoop fs -ls /pycode #hdfs系统下某个目录

			（4）选项-R：连同子目录的文件一起列出
			
		2）创建/删除文件夹（mkdir、rmdir)
			（1）创建文件夹
			hadoop fs -mkdir -p /mycode/pycode
				#mkdir的选项-p:如果上层目录不存在，递归建立所需目录

			（2）删除空文件夹
			hadoop fs -rmdir /某个空文件夹  
				#该命令不能删除非空文件夹

		3）上传文件或目录（put,copyFromLocal)
			（1）put的用法
				A.上传文件夹
				hdfs fs -put 文件夹路径 /
					举例：上传centos的本地文件到hdfs：
						hadoop fs -put file:/home/hadoop/pycode hdfs:/mycode
			（2）copyFromLocal的用法

		#./hadoop fs -text /passwd


	9. 关闭集群
	./sbin/hadoop stop-all.sh

第四章搭建spark集群

一、预备知识

1.参考文章

1）看了之后不再迷糊-Spark多种运行模式：https://www.jianshu.com/p/65a3476757a5
2）从源码上看spark yarn-lient和yarn-cluster模式的本质区别 http://bigdata.51cto.com/art/201709/552622.htm#topx
首先区分下AppMaster和Driver，任何一个yarn上运行的任务都必须有一个AppMaster，而任何一个Spark任务都会有一个Driver。
所以Driver和AppMaster是两个完全不同的东西，Driver是控制Spark计算和任务资源的，而AppMaster是控制yarn app运行和任务资源的，只不过在Spark on Yarn上，这两者就出现了交叉。
而在standalone模式下，资源则由Driver管理。在Spark on Yarn上，Driver会和AppMaster通信，资源的申请由AppMaster来完成，而任务的调度和执行则由Driver完成，Driver会通过与AppMaster通信来让Executor的执行具体的任务。

2.spark的三种运行模式

1）本地模式
本质：非集群模式，该模式被称为Local[N]模式，是用单机的多个线程来模拟Spark分布式计算。
通常用来验证应用程序的逻辑是否有问题。其中N代表可以使用N个线程，每个线程拥有一个core。
如果不指定N，则默认是1个线程（该线程有1个core）。
验证： ./bin/run-example SparkPi 10 --master local[2]

2）集群模式：spark standalone
本质：集群模式，集群仅供spark使用，不依赖hadoop

3）集群模式：spark on yarn
本质：集群模式，使用yarn作为资源管理器
spark on yarn分为两种模式：client和cluster模式，二者的区别如下。
(1)应用场景不同
yarn cluster用于生产环境，yarn client用于交互与调试

(2)driver运行的位置不同
cluster模式中，driver运行在集群的AM中（或者：运行driver的container就是AM），负责向yarn的RM申请资源，并监督作业运行状况。
client模式中，driver在任务提交的机器上运行，AM仅向RM申请executor需要的资源，client通过和请求资源的container通信来调度任务。

(3)client运行持续时间不同
cluster模式中，用户提交作业后client就会关闭，作业会继续在yarn中运行；client模式中，client会和请求集群资源的container通信来调度任务，即client不会关闭。

(4)基于yarn时，spark-shell和pyspark必须要使用yarn-client模式

二、安装spark

1.安装yarn
	参考hadoop2.8.4的安装文档安装完hadoop后，相关yarn的配置也已经完成，可以使用yarn了。
2.安装Scala
	1）版本匹配问题
		请参考spark的官方文档，其中对hadoop、Scala的版本有指定。
		链接：http://spark.apache.org/downloads.html

	2)安装Scala
		# 先在master节点上执行如下安装步骤，后续会将配置好的安装文件复制到各slave节点。
		第一步，下载安装包，复制到~/app目录，解压
			解压命令：tar -zxvf 

		第二步，配置环境变量
			(1)打开配置文件，命令：sudo vim ~/.bashrc
				参考链接：bashrc和profile的区别 https://www.cnblogs.com/sddai/p/6534630.html
					bashrc和profile的差异在于：
					1. bashrc是在系统启动后就会自动运行。
					2. profile是在用户登录后才会运行。
					3. 进行设置后，可运用source bashrc命令更新bashrc，也可运用source profile命令更新profile。
					PS：通常我们修改bashrc,有些linux的发行版本不一定有profile这个文件
					4. /etc/profile中设定的变量(全局)的可以作用于任何用户，而~/.bashrc等中设定的变量(局部)只能继承/etc/profile中的变量，他们是"父子"关系。
			(2)配置SCALA_HOME，修改PATH，命令如下
			    SCALA_HOME=/home/hadoop/app/scala-2.11.12
				export PATH=$PATH:$SCALA_HOME/bin

			(3)使环境变量生效：source ~/.bashrc
			(4)验证：scala -version  
					如果出现如下信息，表示scala已经安装成功：
					Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
3.安装spark
	第一步，下载安装包，复制到~/app目录，解压
		下载链接：http://spark.apache.org/downloads.html
		解压命令：tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz

	第二步，修改文件名称
		命令： mv spark-2.3.1-bin-hadoop2.7 spark-2.3.1



	第三步，修改spark的配置文件
		（1）进入配置文件目录
			cd ~/app/spark-2.3.1/conf

		（2）配置spark-env.sh
			复制：cp spark-env.sh.template spark-env.sh
			打开：vim spark-env.sh

		    增加配置信息
			export JAVA_HOME=/home/hadoop/app/jdk1.8
			export SCALA_HOME=/home/hadoop/app/scala-2.11.12
			export HADOOP_HOME=/home/hadoop/app/hadoop-2.8.4
			export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
			#指定spark master的IP及端口
			#SPARK_MASTER_IP=master
			SPARK_MASTER_HOST=master01 
			SPARK_MASTER_PORT=7077

			#job history conf
			#注意：
			#1、因为hadoop的core-site.xml中配置的hdfs的默认端口为9000,所以spark.history.fs.logDirectory中hdfs的访问端口也是9000。
			#2、否则，会报错，如下：failed to launch: nice -n 0 /usr/local/bigdata/spark-2.3.1/bin/spark-class org.apache.spark.deploy.history.HistoryServer
			#3、参考链接：https://blog.csdn.net/kancy110/article/details/80374631

			export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=5 -Dspark.history.fs.logDirectory=hdfs://master01:9000/spark/historyLog"


		（3）配置spark-default.conf
			#添加配置：保存应用运行的日志
			复制：cp spark-default.conf.template  spark-default.conf
			打开：vim spark-default.conf

			增加配置信息
				 spark.master                     spark://master01:7077
				 spark.eventLog.enabled           true
				 				 #注意：
				 #1、hdfs的访问端口应该与hadoop中core-site.xml中配置的一致，即9000
				 #2、日志存放的位置，应该与spark-env.sh中spark.history.fs.logDirectory的目录相同。
				 #3、日志存放的位置可以是本地（file://xxx)或hdfs，且该目录必须提前创建好。
				 #4、其他配置信息，见官网： http://spark.apache.org/docs/latest/monitoring.html

				 spark.eventLog.dir               hdfs://master01:9000/spark/historyLog  
				 spark.eventLog.compress 		  true
				 
		（4）配置从节点信息
			复制配置文件： cp slaves.template slaves
			打开文件： vim slaves
			增加从节点信息：
				首先，删除原有信息 localhost
				然后，添加从节点：
					slave01
					slave02
				最后，保存修改并退出：wq

第四步，复制安装文件到从节点
(1)复制spark文件
scp -r ~/app/spark-2.3.1 hadoop@slave01:~/app
scp -r ~/app/spark-2.3.1 hadoop@slave02:~/app

			(2)复制scala文件
			scp -r ~/app/scala-2.11.12 hadoop@slave01:~/app
			scp -r ~/app/scala-2.11.12 hadoop@slave02:~/app

			(3)备注：此处无需在从节点上配置scala和spark的环境变量

	第五步，启动集群
		(1)进入master节点的spark目录
			cd ~/app/spark-2.3.1

		(2)	启动集群
			./sbin/start-all.sh

		(3)验证：查看相关进程是否启动
			在每个节点上执行jps命令，如果在主从节点上分别看到Master、Worker进程则集群启动成功。

	第六步，查看监控网页
		master01:8080

		备注：如果windows系统上没有修改hosts文件，则无法显示。
		修改windows上hosts文件的方法：
			(1)进入如下目录
				C:\Windows\System32\drivers\etc
			(2)右键单击hosts文件，依次点击
				右键-->属性-->安全-->选择当前账户-->编辑-->勾选需要所有权限-->确定
			(3)打开hsots文件，添加master节点的IP
				192.168.80.10 master01

	第七步，运行spark自带的示例程序
		参考链接：
			官方文档：http://spark.apache.org/docs/latest/quick-start.html
			spark submit参数及调优：https://www.cnblogs.com/haoyy/p/6893943.html
			【帮助命令】./bin/spark-submit --help

		(0)切换到spark安装目录
			cd ~/app/spark-2.3.1  #在该目录下执行以下验证命令
			
		(1)本地模式
			./bin/run-example SparkPi 10 --master local[2]

		(2)集群模式--standalone
			./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 lib/spark-examples-1.6.3-hadoop2.6.0.jar 100

		(3)集群模式--yarn-cluster
			./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --name Pi /home/hadoop/app/spark-2.3.1/examples/jars/spark-examples_2.11-2.3.1.jar 100

4.修改spark打印日志的级别，减少屏幕上打印的日志量，便于阅读
	修改spark的conf目录下的log4j.properties
	命令：
		cp log4j.properties.template log4j.properties
		vim log4j.properties
		修改第19行的配置项为WARN：
			# Set everything to be logged to the console
			log4j.rootCategory=WARN, console

	将修改后的文件发送到slave01和slave02节点：
		scp log4j.properties hadoop@slave01:/home/hadoop/app/spark-3.0.1/conf
		scp log4j.properties hadoop@slave02:/home/hadoop/app/spark-3.0.1/conf

九、HDFS（hadoop分布式文件系统）
一、HDFS的特点
1.优点
1）可存储超大文件
（1）普通文件系统
每个磁盘都有默认的数据块大小，这是磁盘在对数据进行读和写时要求的最小单位。
文件系统是要构建于磁盘上的，文件系统的也有块的逻辑概念，通常是磁盘块的整数倍，通常文件系统为几千个字节，而磁盘块一般为 512 个字节。
（2）HDFS
HDFS是一种文件系统，自身也有块（block）的概念，其文件块要比普通单一磁盘上文件系统大的多，默认是 64MB。
（3）设计思想：最小化寻址开销
HDFS上的块之所以设计的如此之大，其目的是为了最小化寻址开销。
HDFS 文件的大小可以大于网络中任意一个磁盘的容量，文件的所有块并不需要存储在一个磁盘上，因此可以利用集群上任意一个磁盘进行存储，由于具备这种分布式存储的逻辑，所以可以存储超大的文件，通常 G、T、P 级别。
2）一次写入、多次读取
一个文件经过创建、写入、关闭之后就无需改变，这种假设简化了数据一致性问题，同时提高了数据访问的吞吐量。
3）可运行在普通廉价机器上
hadoop的设计对硬件要求低，无需昂贵的高可用机器。

	2.HDFS不适用的场景
		1）数据量并不太大
			hadoop适用于PB/TP级别数据量，如果数据量只有几十GB，不建议使用hadoop，因为没有任何好处。

		2）大量小文件
			对于Hadoop系统，小文件通常定义为远小于HDFS的blocksize（默认64MB）的文件。由于每个文件都会产生各自的元数据，Hadoop 通过Namenode来存储这些信息，若小文件过多，容易导致Namenode存储出现瓶颈。
			且小文件过多，对数据寻址的时间开销可能会大于读取数据的时间，因而效率很低。

		3）低延时
			不适用于实时查询这种低延迟的场景，如股票实盘。但其他组件，如Hbase具有随机读、低延迟的特点。

		4）结构化数据
			HDFS适用于半结构、非结构化数据。结构化数据可以考虑用Hbase。

		5）多用户更新
			为了保证并发性，HDFS需要一次写入多次读取，目前不支持多用户写入。如需修改，也是通过追加的方式添加到文件的末尾处。出现太多文件需要更新的情况，Hadoop是不支持的。针对有多人写入数据的场景，可以考虑采用Hbase。


二、HDFS体系架构
	1.主从架构
		HDFS 是一个主/从（Master/Slave）体系架构，由于分布式存储的性质，集群拥有两类节点 NameNode 和 DataNode。

	2.Namenode(名称节点))
		系统中通常只有一个namenode，中心服务器的角色，管理存储和检索多个DataNode的实际数据所需的所有元数据。

	3.DataNode（数据节点）
		系统中通常有多个datanode，是文件系统中真正存储数据的地方，在NameNode统一调度下进行数据块的创建、删除和复制。

	4.Client(客户端)
	 	Client是HDFS的客户端，应用程序可通过该模块与NameNode和DataNode进行交互，进行文件的读写操作。

三、HDFS数据块复制
	参考链接：深刻理解HDFS工作机制
	https://www.cnblogs.com/wxisme/p/6270860.html
	
	1.多副本机制
		为了数据容错，文件系统会对所有数据块复制多份副本，默认3个副本。

	2.副本管理策略
		1）客户端节点上：默认放一个复本（若客户端运行在集群之外，会随机选择一个节点）。
		2）第二个复本：会放在与第一个不同且随机另外选择的机架中节点上，
		3）第三个复本：与第二个复本放在相同机架，切随机选择另一个节点。
		4）其他副本：所存在其他复本，则放在集群中随机选择的节点上，不过系统会尽量避免在相同机架上放太多复本。
		5）心跳和块报告：所有有关块复制的决策统一由 NameNode 负责，NameNode会周期性地接受集群中数据节点DataNode的心跳和块报告。一个心跳的到达表示这个数据节点是正常的。一个块报告包括该数据节点上所有块的列表。


四、HDFS读取和写入流程
	参考《hadoop大数据入门与实战--电子书》p18~19
	1.读文件

	2.写文件


五、操作HDFS的命令
	参考《hadoop大数据入门与实战--电子书》p20~21

minio免费文件管理器（windows版本），若依RuoYi-Vue-Plus框架使用，有需要的可以下载，因为官网下载特别慢程序员WANG 工具 windows vue.js 容器
MinIO是一款开源的对象存储系统，它提供类似AmazonS3的云存储服务，适用于各种规模的企业。MinIO设计为高性能、安全且易于使用，适合存储大量的非结构化数据，如图片、文档、视频以及大数据分析中的日志文件等。在本案例中，我们关注的是Windows版本的MinIO，它被集成到了若依RuoYi-Vue-Plus框架中，以实现文件管理功能。若依RuoYi-Vue-Plus是一个基于Vue.js的现
分布式系统理论基础二-CAP 王知无(import_bigdata)
GitHub：https://github.com/wangzhiwubigdata/God-Of-BigData关注公众号,内推,面试,资源下载,关注更多大数据技术~大数据成神之路~预计更新500+篇文章，已经更新50+篇~引言CAP是分布式系统、特别是分布式存储领域中被讨论最多的理论，“什么是CAP定理？”在Quora分布式系统分类下排名FAQ的No.1。CAP在程序员中也有较广的普及，它不仅
大数据湖仓一体架构未来思考王知无(import_bigdata) 架构
湖仓一体架构是最近1-2年时间开始频繁出现在数据开发领域的新名词。也是各大公司竞相投入的对象。网络上关于湖仓一体架构的实践文章很多，看得也很眼花缭乱。我们今天站在一个「接地气」的角度，来说一说湖仓一体架构中未来需要关注的核心框架有哪些。文章内容也没有经过仔细的斟酌，完全是一点不成熟的想法，而且站的角度不是高屋建瓴的而是从下往上的。一个基本判断是湖仓一体架构在形式上不止一种大家可以从网上看到很多关于
大数据是什么？用浅显的语言揭开神秘面纱 Echo_Wish 大数据大数据单例模式
大数据是什么？用浅显的语言揭开神秘面纱在我们生活的时代，“大数据”已经从一个技术术语，成为了街头巷尾时常听到的词汇。然而，究竟什么是大数据？它离我们有多远？我们该如何理解这个复杂又常用的概念？作为一名深耕大数据领域的创作者，我希望用通俗易懂的语言，结合生活实例和代码，为大家揭开大数据的神秘面纱。一、大数据的定义：比“大”更重要的是“复杂性”从广义上讲，大数据指的是无法通过传统手段高效处理的数据集合
在 Python 中使用 Ollama API 一路追寻大模型 Python Ollama LLM linux python
在Python中使用OllamaAPI在本文中，我们将简单介绍如何在Python中使用OllamaAPI。无论你是想进行简单的聊天对话、使用流式响应处理大数据、还是希望在本地进行模型的创建、复制、删除等操作，本文都可以为你提供指导。此外，我们还展示了如何使用自定义客户端和异步编程来优化你的应用程序性能，环境准备在开始使用Python与OllamaAPI交互之前，请确保您的开发环境满足以下条件：Py
AI与API的融合：构建智能互联技术世界的基石 IT数据V+I7809804594 人工智能数据分析 python 爬虫大数据
在当今科技飞速发展的时代，人工智能（AI）与应用程序接口（API）的融合正在开启智能应用的新纪元。AI以其强大的数据处理和分析能力，正在改变各行各业的工作方式，而API则作为连接技术与应用的桥梁，为AI技术的普及和应用提供了无限可能。本文将深入探讨AI与API的融合如何推动智能应用的创新和发展，以及其在各个领域的应用和前景。一、AI与API融合的背景随着大数据、云计算、物联网等技术的快速发展，人工
Hadoop 和 Spark 的内存管理机制分析王子良. 经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
2025最新大数据毕业设计选题汇总：创新课题推荐 HaiLang_IT 毕业设计选题大数据毕业设计 python
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇总
PL/SQL语言的文件操作云端架构师包罗万象 golang 开发语言后端
PL/SQL语言的文件操作引言PL/SQL（ProceduralLanguage/SQL）是Oracle数据库提供的一种过程化编程语言，它结合了SQL的强大数据处理能力和过程性编程的灵活性。PL/SQL不仅可以用于数据库的操作和处理用户输入的数据，还可以进行丰富的文件操作。随着数据量的增加和信息处理需求的提高，掌握PL/SQL中的文件操作技术，对于数据库管理员和开发人员而言，显得尤为重要。本文将对
大数据学习（五）：如何使用 Livy提交spark批量任务--转载 zuoseve01 livy
Livy是一个开源的REST接口，用于与Spark进行交互，它同时支持提交执行代码段和完整的程序。Livy封装了spark-submit并支持远端执行。启动服务器执行以下命令，启动livy服务器。./bin/livy-server这里假设spark使用yarn模式，所以所有文件路径都默认位于HDFS中。如果是本地开发模式的话，直接使用本地文件即可（注意必须配置livy.conf文件，设置livy.
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
大数据学习（四）：Livy的安装配置及pyspark的会话执行猪笨是念来过倒大数据 pyspark
一个基于Spark的开源REST服务，它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能：提交Scala、Python或是R代码片段到远端的Spark集群上执行；提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行；提交批处理应用在集群中运行。从Livy所提供的基本功能可以看到Livy涵盖了原生Spar
网络爬虫——分布式爬虫架构好看资源分享网络爬虫 Python 爬虫分布式架构
分布式爬虫在现代大数据采集中是不可或缺的一部分。随着互联网信息量的爆炸性增长，单机爬虫在性能、效率和稳定性上都面临巨大的挑战。分布式爬虫通过任务分发、多节点协作以及结果整合，成为解决大规模数据抓取任务的核心手段。本节将从Scrapy框架的基本使用、Scrapy-Redis的分布式实现、分布式爬虫的优化策略等多个方面展开，结合实际案例，帮助开发者掌握分布式爬虫的设计与实现。1.Scrapy框架的核心
Python-玩转数据-数据分析之分析思维人猿宇宙数据分析 python big data
一、说明当下时代的社会生产发展，人们都开始习惯于用数据来说明某个观点和反映事物的内在规律或享用自动化和人工智能带来的便利。但这些轻松快捷的方便背后，都是相关工作者的专业流程作为源源不断的支撑。二、大数据思维自从几年前大数据开始兴起，大数据思维已经逐渐被更动的人接受，随着其进一步发展，产生了巨大的生产效果。三、数据驱动的生产力作为一个数据工程师，仅仅知道跑数据是不够的，还需要通过数据发现生产环节出现
火星数据电竞数据，世界杯数据接口api，足球数据资料库 Tina0898 数据分析
电竞数据包含的内容有很多，比如说基础数据（实时比分，关键事件，赛后数据等等），统计数据（阵容分析，选手分析，地图分析等），还有资料库数据（赛事战队，赛程赛果，赛况榜单等等），众多的数据组合而成形成如今的电竞大数据。在当今电竞世界中，电子竞技的大数据可以用在多个方面，从自身来说：可以用来分析自己的强势点，可以分析对手的弱点，从而运用更好的策略来战胜对手。通过电竞大数据也可以更好地了解游戏，了解当下游
构建高效GPU算力平台：挑战、策略与未来展望 Mr' 郑 gpu算力
引言随着深度学习、高性能计算和大数据分析等领域的快速发展，GPU（图形处理器）因其强大的并行计算能力和浮点运算速度而成为首选的计算平台。然而，随着模型规模的增长和技术的进步，构建高效稳定的GPU算力平台面临着新的挑战。本文旨在探讨这些挑战、应对策略以及对未来发展的展望。当前挑战算力分配与资源优化在多用户共享GPU集群的环境下，合理分配计算资源并确保每个任务能够高效运行是一项挑战。这不仅涉及到硬件资
Databricks:打造数据国度的“金砖四国” weixin_33832340 大数据
Databricks，一个并不算熟悉的名字，是大数据国度的后起之星。成立不够一年，但却阵容强大，创始人都是开源圈子里面的重要级人物，值得关注。从公司名Databricks似乎就能看出一些深意——data(数据)+bricks（金砖四国）。不知道，在数据国度里Databricks是否具有“金砖四国”的发展前景呢？可以先从公司的创始背景谈起，打开Databricks官网，“We'reworkingto
一文详解大厂数据中台架构 isNotNullX 架构大数据性能优化
在大数据发展的黄金期，几乎所有的高科技企业都在思考一个问题：海量数据作为大多数企业发展不可避免的一个趋势之后，企业该怎么去应用这部分数据资产，会对其商业产生什么影响，如何使数据对企业产生正面的推动而不是成为企业的负担。作为国内的主要大数据玩家，阿里在2015年提出了“大中台、小前台”的战略，奠定了其内部发展数据中台的基础。2018年因为“腾讯数据中台论”，中台再度成为了人们谈论的焦点。至此，关于“
大数据公司 Databricks 详解 Bj陈默大数据
Databricks是一家在大数据和人工智能领域具有重要影响力的美国企业软件公司，以下是关于它的详细技术解析：1.起源与背景：Databricks成立于2013年，由来自加州大学伯克利分校AMP实验室的Spark大数据处理系统的多位创始人联合创立，包括AliGhodsi、AndyKonwinski、IonStoica、PatrickWendell、ReynoldXin、MateiZaharia、A
hive小文件合并机制_hive小文件的问题弊端以及合并做生活的创作者 hive小文件合并机制
小文件的弊端1、HDFS中每个文件的元数据信息，包括位置大小分块信息等，都保存在NN内存中，在小文件数较多的情况下，会造成占用大量内存空间，导致NN性能下降；2、在读取小文件多的目录时，MR会产生更多map数，造成GC频繁，浪费集群资源；3、现在大数据平台文件总数超过30亿，单个NS文件数超过4亿的时候，读写性能会急剧下降，影响到所有读写该NS的任务性能；4、如果队列限制最大map数是20000，
数仓建模（五）选择数仓技术栈：Hive & ClickHouse & 其它昊昊该干饭了数仓建模大数据 hive clickhouse hadoop
在大数据技术的飞速发展下，数据仓库（DataWarehouse，简称数仓）成为企业处理和分析海量数据的核心工具。市场上主流数仓技术栈丰富，如Hive、ClickHouse、Druid、Greenplum等，对于初学者而言，选择合适的技术栈是一项挑战。本文将详细解析Hive、ClickHouse及其他数仓技术，帮助读者根据场景需求选择最佳工具。目录一、数据仓库的基础概念和技术选型原则1.1什么是数据
Hive 数据类型全解析：大数据开发者的实用指南大鳥 sql hive 数据仓库
在大数据处理领域，Hive作为一款基于Hadoop的数据仓库工具，被广泛应用于数据的存储、查询和分析。而理解Hive的数据类型是有效使用Hive的基础，本文将深入探讨Hive的数据类型，帮助大家更好地掌握Hive的使用。Hive数据类型概述Hive支持多种数据类型，主要可分为数值类型、日期/时间类型、字符类型、Misc类型以及复杂类型。这些数据类型为存储和处理各种不同格式的数据提供了有力的支持。以
2024年网络安全最全CTF —— 网络安全大赛_ctf网络安全大赛网安墨雨 web安全安全
前言随着大数据、人工智能的发展，人们步入了新的时代，逐渐走上科技的巅峰。\⚔科技是一把双刃剑，网络安全不容忽视，人们的隐私在大数据面前暴露无遗，账户被盗、资金损失、网络诈骗、隐私泄露，种种迹象表明，随着互联网的发展，网络安全需要引起人们的重视。\互联网安全从其本质上来讲就是互联网上的信息安全。从广义来说，凡是涉及到互联网上信息的保密性、完整性、可用性、真实性和可控性的相关技术和理论都是网络安全的研
基于Python大数据的王者荣耀战队数据分析及可视化系统计算机学姐大数据精选实战项目源码 Python精选实战项目源码 Vue源码 1024程序员节 python 大数据数据分析数据挖掘 django vue.js
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于大数据+大屏可视化+Python+D
Apache Hive--排序函数解析大鳥 apache hive hadoop
在大数据处理与分析中，ApacheHive是一个至关重要的数据仓库工具。其丰富的函数库为数据处理提供了诸多便利，排序函数便是其中一类非常实用的工具。通过排序函数，我们能够在查询结果集中为每一行数据分配一个排名值，这对于数据分析、报表生成等工作具有重要意义。本文将深入探讨ApacheHive中的排序函数，通过具体的HQL代码和数据实例进行说明，并阐述它们之间的区别。0.排序函数：ORDER、SORT
基于微信小程序的健身房预约管理系统计算机学姐微信小程序源码微信小程序小程序 spring boot vue.js java mysql 后端
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示基于微信小程序+Java+SpringBoot+Vue+
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话（十）青云交大数据新视界 Java 大视界大数据文本分析自然语言处理文本挖掘机器翻译智能对话智能客服 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大视界 -- Java 大数据物联网应用：数据处理与设备管理（八）青云交大数据新视界 Java 大视界大数据物联网数据处理设备管理车联网智能家居预测性维护 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大视界 -- Java 大数据分布式缓存：提升数据访问性能（五）青云交大数据新视界 Java 大视界大数据分布式缓存数据访问性能 Redis Memcached 缓存一致性缓存击穿 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Java 大视界 -- Java 微服务架构在大数据应用中的实践：服务拆分与数据交互（一）青云交大数据新视界 Java 大视界 Java 微服务架构大数据应用服务拆分数据交互性能优化安全考量分布式事务处理 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要