飛翔的大雁

hive on spark

hive on Spark

一. 配置

1. hive 回顾

1.1 hive简介
1.2 yum 设置 & 命令（Centos7）
1.3 hive 安装
1.5 注意问题
1.6 hive测试
1.7 spark配置
1.8 读取hive数据

二. hive三种模式

1、内嵌Derby方式
2.Local方式
3.Remote方式 (远程模式)

三. spark sql 远程连接（thriftserver -- beeline）

2 .spark-sql
3.scala操作spark-SQL

四 .spark on hive(HiveServer 2)

1. HiveServer 2
2. beline
3. Spark Thrift Server

五. Spark Thrift Server配置 & 运行

1、$SPARK_HOME/conf/hive-site.xml（与前面的配置相同）（node2）
2、启动hive metastore服务（node3 或 node1）
3、启动Spark ThriftServer（node2）/home/xdl/spark-2.3.3-bin-hadoop2.7/conf start-thriftserver.sh
4、检查日志（node2）在node2中查看日志如下所示：
5、检查进程（node2）
6、检查端口（缺省端口号是10000，可配置）
beeline连接hiveserver2报错。
SparkSQL通过jdbc访问hive

六.UDF

1.注册版
2.非注册版
3. 案例

七. UDAF

案例

八. 从MySQL读取数据

一. 配置

1. hive 回顾

1.1 hive简介

Hive是一个构建于Hadoop顶层的数据仓库工具
支持大规模数据存储、分析，具有良好的可扩展性
某种程度上可以看作是用户编程接口，本身不存储和处理数据
依赖分布式文件系统HDFS存储数据
依赖分布式并行计算模型MapReduce处理数据
定义了简单的类似SQL 的查询语言——HiveQL
用户可以通过编写的HiveQL语句运行MapReduce任务
可以很容易把原来构建在关系数据库上的数据仓库应用程序移植到Hadoop平台上
是一个可以提供有效、合理、直观组织和使用数据的分析工具



Hive是基于Hadoop的数据仓库工具，将SQL语句转化为MapReduce任务运行

1.2 yum 设置 & 命令（Centos7）

1、/etc/yum.repos.d 有一堆配置文件：
CentOS-Media 使用光盘挂载后调用的文件
CentOS-Base 网后基础的源，一般都用这个
CentOS-Vault 最近新版本的加入的老版本的yum源配置
CentOS-Debuginfo debug包尤其和内核相关的更新和软件安装
在该路径下建一个backup目录，将这些文件移进去，作为备份（仅保留CentOS-Base）

备注：文件中enabled是开启选项，1是开启，0是不开启

2、下载aliyun yum源repo文件
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo

3、相关命令
yum clean all // 清除缓存
yum makecache // 把yum源缓存到本地，加快软件的搜索好安装速度
yum list
yum repolist all // 显示所有仓库包

4、各种源之间还可以设置优先级

1.3 hive 安装

安装之前系统先做镜像！！！

使用mysql作为元数据管理工具。

我的配置：
Node1：hdfs(master/slave) + Spark(Master/slave) + Hive
Node2：hdfs(slave) + Spark(slave) + Hive
Node3：hdfs(slave) + Spark(slave) + MySQL + Hive

MySQL、Hive的安装使用Hadoop课程的软件及方法

1、虚拟机备份（做快照）
2、安装MySQL，创建Hive的用户并授权
3、安装Hive
	修改环境变量
	修改hive-site.xml
		
		
		
		  
		    javax.jdo.option.ConnectionURL
		    jdbc:mysql://node3:3306/hive?createDatabaseIfNotExist=true
		    JDBC connect string for a JDBC metastore
		  
		  
		    javax.jdo.option.ConnectionDriverName
		    com.mysql.jdbc.Driver
		    Driver class name for a JDBC metastore
		  
		  
		    javax.jdo.option.ConnectionUserName
		    hive
		    username to use against metastore database
		  
		  
		    javax.jdo.option.ConnectionPassword
		    hive
		    password to use against metastore database
		  
		
	拷贝jdbc驱动
	修改hive文件（可执行文件）
	Hive测试
	
4、配置Spark
	将jdbc驱动拷贝到$SPARK_HOME/jars
	将hive-site.xml拷贝到$SPARK_HOME/conf
	测试spark-shell（正常启动，并能访问Hive）
5、配置IDEA（经常被遗忘，经常搞不定）
	配置jdbc（Maven引入依赖；导入jars）
	在IDEA中指定hive-site.xml文件的位置。
	File->Project Structure->Modules->Dependencies->Add(最右侧)->Jars or Directories
	运行测试程序

1.5 注意问题

jdbc的驱动程序要拷贝到$HIVE_HOME/lib下
（备注：先启动hdfs）
启动hive

Hive启动会遇到一个错误，错误中有类似下面的信息：
ls: cannot access /opt/modules/spark-2.2.0-bin-hadoop2.7/lib/spark-assembly-*.jar: No such file or directory

修改$HIVE_HOME/bin/hive文件，找到包含有spark-assembly-*.jar的行（116行），改为：
sparkAssemblyPath=`ls ${SPARK_HOME}/jars/*.jar`  vim hive   :set nu 显示行号

说明：低版本spark jar打成了一个包，名字类似于spark-assembly-*.jar，在lib目录中。高版本spark的包在$SPARK_HOME/jars下

1.6 hive测试

在hive中创建数据库和表
// 创建数据库sparktest。如果需要删除数据库，删除之前需要先删除其中的表
create database if not exists sparktest;
 
// 显示一下是否创建出了sparktest数据库
hive> show databases;
 
// 在sparktest中创建表useraction，并加载数据。最后检查hdfs中是否有对应的文件。
CREATE EXTERNAL TABLE 
userinfo(userid string, itemid string, behavior_type string, user_geohash string, item_category string, time string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
load data local inpath '/home/spark/small_user.csv' into table userinfo;
load data inpath 'data/userinfo.csv' into table userinfo;

如果上述语句执行的很慢，而且有类似错误：
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:For direct MetaStore DB connections, we don't support retries at the client level.)
请在mysql中执行：alter database hive character set latin1;

1.7 spark配置

Spark的配置：
1、将jdbc的驱动程序拷贝到$SPARK_HOME/jars目录下（所有节点）
2、将hive-site.xml程序拷贝到$SPARK_HOME/conf 目录下（至少安装hive的节点或程序运行的节点，建议所有节点）

启动Spark-shell，启动过程无报错。运行以下测试：
spark.sql("use sparktest")
spark.sql("select count(*) from userinfo").show
result:300001

保证每个节点都有hive,spark
Metadata即元数据：元数据包含用Hive创建的database、table等的元信息。元数据存储在关系型数据库中。如Derby、MySQL等。

Metastore的作用是：客户端连接metastore服务，metastore再去连接MySQL数据库来存取元数据。
有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接 metastore 服务即可。
hive中对metastore的配置包含3部分：

metastore database
metastore server
metastore client

1.8 读取hive数据

import org.apache.spark.sql.SparkSession

object HiveDemo {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("Spark Hive Demo")
      .master("spark://node1:7077")
      .enableHiveSupport()	// 支持hive，这个是关键，没有不行！
      .getOrCreate()

    spark.sparkContext.setLogLevel("WARN")
    spark.sparkContext.addJar("/home/spark/IdeaProjects/MyLastTest/out/artifacts/MyLastTest_jar/MyLastTest.jar")

    spark.sql("use sparktest")
    spark.sql("select * from userinfo").show(false)

    spark.stop()
  }
}

二. hive三种模式

1、内嵌Derby方式

这个是Hive默认的启动模式，一般用于单元测试，这种存储方式有一个缺点：在同一时间只能有一个进程连接使用数据库。
当 hive-site.xml没有配置第三方库时自动使用derby库
执行初始化命令：schematool -dbType derby -initSchema
查看初始化后的信息： schematool -dbType derby -info
配置完成后就可在shell中以CLI的方式访问hive 进行操作验证。

2.Local方式

以本地Mysql数据库为例：创建好用户：hive；database：hive。
配置文件 hive-site.xml 中jdbc URL、驱动、用户名、密码等属性值配置如下：


  javax.jdo.option.ConnectionURL
  jdbc:mysql://localhost/hive?createDatabaseIfNotExist=true
  JDBC connect string for a JDBC metastore

 

  javax.jdo.option.ConnectionDriverName
  com.mysql.jdbc.Driver
  Driver class name for a JDBC metastore

 

  javax.jdo.option.ConnectionUserName
  hive
  username to use against metastore database

 

  javax.jdo.option.ConnectionPassword
  hive
  password to use against metastore database

 

  hive.metastore.warehouse.dir
  
  /user/hive/warehouse
  location of default database for the warehouse


注意: 需要把mysql的驱动包copy到目录 /lib 中
如果是第一次需要执行初始化命令：
schematool -dbType mysql -initSchema

3.Remote方式 (远程模式)

仅连接远程的mysql并不能称之为“远程模式”，是否远程指的是 metastore 和 hive 服务是否在同一进程内；
以Mysql数据库为例：创建好用户：hive；database：hive_meta。Remote方式需要分别配置服务端和客户端的配置文件：
服务端的 hive-site.xml 中jdbc URL、驱动、用户名、密码等属性值配置和上面相同：

客户端的 hive-site.xml 中jdbc URL、驱动、用户名、密码等属性值配置和上面相同 ,
再加上thrift配置找服务端



  hive.metastore.uris
  thrift://master:9083,thrift://slaver1:9083
  Thrift uri for the remote metastore. Used by metastore client to connect to remote metastore.

hive metastore 服务端启动命令：

服务端口可以不写会找配置文件的默认9083
1) hive --service metastore -p 
2)hive --service metastore &

注意客户端中的端口配置需要和启动监听的端口一致。
客户端启动

输入hive
如果不加端口默认启动：hive --service metastore，则默认监听端口是：9083 ，注意客户端中的端口配置需要和启动监听的端口一致。服务端启动正常后，客户端就可以执行hive操作了。

注意:
客户端中配置hive.metastore.uris，如 thrift://master:9083。如果有多个metastore服务器，将URL之间用逗号分隔(不能有空格)
写多个是为了当前面的宕机了会自动配置后面的uris
优先第一个当第一个没有宕机其他的客户端都连接第一个

确认metastore服务启动：
netstat -an | grep 9083
lsof –i:9083

小结：
hive metastore可以配置多个实例，防止单点故障；（推荐）
配置了metastore，启动hive的时候，本地client端就无需实例化hive的metastore，启动速度会加快；

三. spark sql 远程连接（thriftserver – beeline）

ThriftServer是一个JDBC/ODBC接口，用户可以通过JDBC/ODBC连接ThriftServer来访问SparkSQL的数据。ThriftServer在启动的时候，会启动了一个sparkSQL的应用程序，而通过JDBC/ODBC连接进来的客户端共同分享这个sparkSQL应用程序的资源，也就是说不同的用户之间可以共享数据；ThriftServer启动时还开启一个侦听器，等待JDBC客户端的连接和提交查询。所以，在配置ThriftServer的时候，至少要配置ThriftServer的主机名和端口，如果要使用hive数据的话，还要提供hive metastore的uris。

注意: 集群模式必须保证每个节点都有metastore_db
metastore_db:在哪启动就在那生成 和 sparkwarehouse
/start-thriftserver.sh --master 类型 
         --hiveconf hive.server2.thrift.port=11000//端口号可改
--conf "hive.metastore.warehouse.dir=
hdfs://master:9000/user/hive/warehouse"

启动后启动beeline
bin/beeline   --hiveconf hive.server2.thrift.port=11000 
--conf  hive.metastore.warehouse.dir=
hdfs://master:9000/user/hive/warehouse"

beeline启动后连接thriftserver 注意:别忘把驱动包复制到spark/lib下
!connect jdbc:hive2://localhost:11000

!quit //退出
!help //获取帮助
thriftserver和普通的spark-shell/spark-sql的区别?
spark-shell,spark-sql都是一个spark application
thriftserver,不管你启动多少个客户端(beeline/code),永远都是一个spark application
解决了一个数据共享的问题,多个客户端可以共享数据;
beeline : 使用它可以实现一个节点多个打开spark-sql

web UI 4040查看job

在spark shell 中操作hdfs 上的数据是很方便的，但是操作也未免过于繁琐，幸好spark 还想用户提供另外两种操作 spark sql 的方式

2 .spark-sql

启动方式比较简单但一个节点只能启动一个

/start-thriftserver.sh --master 类型          
--conf "hive.metastore.warehouse.dir=
hdfs://master:9000/user/hive/warehouse"

3.scala操作spark-SQL

spark.sql(“SQL语句”)

四 .spark on hive(HiveServer 2)

1. HiveServer 2

HiveServer2（HS2）是一个服务端接口，使远程客户端可以执行对Hive的查询并返回结果。目前基于Thrift RPC的实现是 HiveServer 的改进版本，并支持多客户端并发和身份验证；

HiveServer、HiveServer2都是基于Thrift的。由于HiveServer不能处理多于一个客户端的并发请求，因此在Hive-0.11.0版本中重写了HiveServer代码得到了HiveServer2。

HiveServer2支持多客户端的并发和认证，为开放API客户端如JDBC、ODBC提供了更好的支持。

正常的hive仅允许使用HiveQL执行查询、更新等操作，并且该方式比较笨拙单一。Hive提供了轻客户端的实现，通过HiveServer或者HiveServer2，客户端可以在不启动CLI的情况下对Hive中的数据进行操作，两者都允许远程客户端使用多种编程语言如Java、Python向Hive提交请求，取回结果；
可以实现远程访问；
可以通过命令链接多个hive；

生产环境中使用Hive，建议使用HiveServer2来提供服务，好处很多：

在应用端不用部署Hadoop和Hive客户端；
相比hive-cli方式，HiveServer2不用直接将HDFS和Metastore暴露给用户；
有安全认证机制，并且支持自定义权限校验；
有HA机制，解决应用端的并发和负载均衡问题；
JDBC方式，可以使用任何语言，方便与应用进行数据交互；
从2.0开始，HiveServer2提供了WEB UI。

2. beline

beeline是从 Hive 0.11版本引入的，是Hive新的命令行客户端工具；Hive客户端工具后续将使用beeline 替代HiveCLI ，并且后续版本将也会废弃HiveCLI 客户端工具；
beeline方式相当于瘦客户端模式，采用JDBC方式借助于Hive Thrift服务访问Hive数据仓库；
从Hive 0.14版本开始，Beeline使用HiveServer2工作时，它会从HiveServer2输出日志信息到STDERR；

Beeline 要与 HiveServer2 配合使用；需要启动 HiverServer2 (在node3)；
hive --service hiveserver2 &
Hiveserver2 &

使用Beeline：
启动beeline；
!connect jdbc:hive2://node3:10000
jdbc:hive2://:/
默认用户名(spark)、密码不验证（hive.server2.authentication缺省值为NONE）
执行SQL命令

检查端口：lsof –i:10000
备注：启动 hiveserver2 后立即检查，看不见任何信息；Beeline连接后检查才能看见。

退出beeline命令行则是!quit, 很多命令都是前面需要加一个感叹号，但对于登录了后的DDL,DML，则直接运行SQL语句即可，语句后带上一个分号，然后回车执行；

Beeline和其他工具有一些不同，执行查询都是正常的SQL输入，但是如果是一些管理的命令，比如进行连接，中断，退出，执行Beeline命令需要带上“！”，不需要终止符。如：
1、!connect url –连接不同的Hive2服务器
2、!exit –退出shell
3、!help –显示全部命令列表

备注：
beeline在我的机器上可能有两个：$ HIVE_HOME/bin、$SPARK_HOME/bin

3. Spark Thrift Server

Thrift JDBC/ODBC Server (简称 Spark Thrift Server 或者 STS)是Spark SQL的Apache Hive HiveServer2的端口，通过这个端口可以允许用户使用JDBC/ODBC端口协议来执行SQL查询；

通过使用STS，用户可以用使用其他的BI工具，比如Tableau来连接Spark进行基于大数据量的报表制作；

Thrift Server在启动的时候，启动了一个SparkSQL的应用程序，而通过JDBC/ODBC连接进来的客户端共同分享SparkSQL应用程序的资源；

Thrift Server启动时还开启一个侦听器，等待JDBC客户端的连接和提交查询；

在配置Thrift Server的时候，通常要配置Thrift Server的主机名和端口，如果要使用hive数据的话，还要提供hive metastore的uris；

五. Spark Thrift Server配置 & 运行

1、$SPARK_HOME/conf/hive-site.xml（与前面的配置相同）（node2）




  
    hive.metastore.uris
    thrift://node3:9083,thrift://node1:9083
  
  
    hive.metastore.warehouse.dir
    /user/hive/warehouse
   

备注：仅配置了hive.metastore.uris的信息，其他均采用默认配置

2、启动hive metastore服务（node3 或 node1）

hive --service metastore&

3、启动Spark ThriftServer（node2）/home/xdl/spark-2.3.3-bin-hadoop2.7/conf start-thriftserver.sh

4、检查日志（node2）在node2中查看日志如下所示：

5、检查进程（node2）

9678:启动了SparkSubmit
9741:根据当前配置，在node1、node2、node3上均启动了executor

6、检查端口（缺省端口号是10000，可配置）

beeline连接hiveserver2报错。

错误：Error: Could not open client transport with JDBC Uri: jdbc:hive2://s1:10000/hive: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: xxx is not allowed to impersonate anonymous (state=08S01,code=0)

解决方案
在hadoop的配置文件core-site.xml增加如下配置，重启hdfs，其中“xxx”是连接beeline的用户，将“xxx”替换成自己的用户名即可

表示可通过超级代理“xxx”操作hadoop的用户、用户组和主机

hadoop.proxyuser.xxx.hosts
*

hadoop.proxyuser.xxx.groups * 参考: https://blog.csdn.net/jiangyonggang1/article/details/87261092

Spark Thrift Server配置 & 运行

Beeline执行连接到RDBMS：
!connect jdbc:mysql://master:3306/metastore hive hive
show databases;

SparkSQL通过jdbc访问hive

import java.sql.DriverManager

object SparkSQLThriftServer {
  def main(args: Array[String]): Unit = {
    // 添加驱动
    val driver =  "org.apache.hive.jdbc.HiveDriver"
    Class.forName(driver)

    // 获取connection
    val (url, username, password) = ("jdbc:hive2://master:10000", "lyb", "lyb")
    val connection=  DriverManager.getConnection(url, username, password)

    val sql =  "SELECT count(*) as mycount FROM test1.test"
    // 获取statement
    val statement= connection.prepareStatement(sql)

    // 获取结果
    val res = statement.executeQuery()
    while(res.next()){
      println(s"${res.getString("mycount")}")
    }

    // 关闭资源
    res.close()
    statement.close()
    connection.close()
  }
}

六.UDF

UDF: 自定义函数。函数的输入、输出都是一条数据记录，类似于Spark SQL中普通的数学或字符串函数，从实现上看就是普通的Scala函数；
为了解决一些复杂的计算,并在SQL函数与Scala函数之间左右逢源
UDF的参数视为数据表的某个列;
书写规范:

1.注册版

import spark.implicits._
def funName(参数:类型)={函数体} //自定义函数
spark.udf.register(“fun1”, funName _ )
fun1 :是sql中要用的函数
funName _ :自定义的函数名+空格+下划线
// 注册函数
4)val x=spark.sql(“select id, fun1(colname) from tbName ”)

2.非注册版

import org.apache.spark.sql.functions._
import spark.implicits._
val fun2=udf((参数:类型,length:Int)=>参数.length>length)
val getData=DataFrame类型数据.filter(fun2($ ”参数”,lit(10)))
$ : 可以接收的数据会当成Column对象($符号来包裹一个字符串表示一个Column)
当不用注册时要有udf包住自定义函数—>udf函数

3. 案例

import org.apache.spark.sql.{Row, SparkSession}

object UDFDemo {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("UDFDemo")
      .master("local[*]")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")

    val data = List(("scala", "author1"), ("spark", "author2"), ("hadoop", "author3"), ("hive", "author4"), ("strom", "author5"), ("kafka", "author6"))
    val df = spark.createDataFrame(data).toDF("title", "author")
    df.createTempView("books")

    // 定义函数并注册
    def len1(bookTitle: String):Int = bookTitle.length
    spark.udf.register("len1", len1 _)
    // UDF可以在select语句、where语句等多处使用
    spark.sql("select title, author, len1(title) from books").show
    spark.sql("select title, author from books where len1(title)>5").show

    // UDF可以在DataFrame、Dataset的API中使用
    import spark.implicits._
    df.filter("len1(title)>5").show
    // 不能通过编译
    //df.filter(len1($"title")>5).show
    // 能通过编译，但不能执行
    //df.select("len1(title)").show
    // 不能通过编译
    //df.select(len1($"title")).show

    // 如果要在DSL语法中使用$符号包裹字符串表示一个Column，需要用udf方法来接收函数。这种函数无需注册
    import org.apache.spark.sql.functions._
    val len2 = udf((bookTitle: String) => bookTitle.length)
    df.filter(len2($"title")>5).show
    df.select(len2($"title")).show

    // 不使用UDF
    df.map{case Row(title: String, author: String) => (title, author, title.length)}.show

    spark.stop()
  }
}

七. UDAF

UDAF :用户自定义聚合函数。函数本身作用于数据集合，能够在聚合操作的基础上进行自定义操作（多条数据输入，一条数据输出）；类似于在group by之后使用的sum、avg等函数

abstract class UserDefinedAggregateFunction extends Serializable{
def inputSchema : StructType
//inputSchema用于定义与DataFrame列有关的输入样式

def bufferSchema : StructType
//bufferSchema用于定义存储聚合运算时产生的中间数据结果的Schema；

def dataType : DataFrame
//dataType标明了UDAF函数的返回值类型；

def deterministic : Boolean
//deterministic是一个布尔值，用以标记针对给定的一组输入,UDAF是否总是生成相同的结果；

def initialize ( buffer : MutableAggregationBuffer) : Unit
//initialize对聚合运算中间结果的初始化；

def update ( buffer : MutableAggregationBuffer , input :Row) :Unit
//update函数的第一个参数为bufferSchema中两个Field的索引，默认以0开始；
UDAF的核心计算都发生在update函数中；
update函数的第二个参数input: Row对应的并非DataFrame的行，
而是被inputSchema投影了的行;

def merge (buffer1 : MutableAggregationBuffer , buffer2 : Row):Unit
//merge函数负责合并两个聚合运算的buffer，再将其存储到MutableAggregationBuffer中;

def evluate ( buffer :Row ): Any                       
//evaluate函数完成对聚合Buffer值的运算，得到最终的结果
 }

普通的UDF不支持数据的聚合运算。如当要对销售数据执行年度同比计算，就需要对当年和上一年的销量分别求和，然后再利用同比公式进行计算。
书写UDAF 先继承UserDefinedAggregateFunction接口
在重写他的方法
def update ( buffer : MutableAggregationBuffer , input :Row) :Unit
// UDAF的核心计算都发生在update函数中。
// 扫描每行数据，都会调用一次update，输入buffer（缓存中间结果）、input（这一行的输入值）
// update函数的第一个参数为bufferSchema中两个Field的索引，默认以0开始
// update函数的第二个参数input: Row对应的是被inputSchema投影了的行。
// 本例中每一个input就应该只有两个Field的值，input(0)代表销量，input(1)代表销售日期

案例

class YearOnYearBasis extends UserDefinedAggregateFunction {
  // UDAF与DataFrame列有关的输入样式
  override def inputSchema: StructType 
  				= new StructType()
				  .add("sales", DoubleType)
				  .add("saledate", StringType)

  // UDAF函数的返回值类型
  override def dataType: DataType = DoubleType

  // 缓存中间结果
  override def bufferSchema: StructType 
  					= new StructType()
  					.add("year2014", DoubleType)
  					.add("year2015", DoubleType)

  // 布尔值，用以标记针对给定的一组输入，UDAF是否总是生成相同的结果。通常用true
  override def deterministic: Boolean = true

  // initialize就是对聚合运算中间结果的初始化
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer(0) = 0.0
    buffer(1) = 0.0
  }

  // UDAF的核心计算都发生在update函数中。
  // 扫描每行数据，都会调用一次update，输入buffer（缓存中间结果）、input（这一行的输入值）
  // update函数的第一个参数为bufferSchema中两个Field的索引，默认以0开始
  // update函数的第二个参数input: Row对应的是被inputSchema投影了的行。
  // 本例中每一个input就应该只有两个Field的值，input(0)代表销量，input(1)代表销售日期
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {	  
    val salenumber = input.getAs[Double](0)
    input.getString(1).take(4) match {
      case "2014" => buffer(0) = buffer.getAs[Double](0) + salenumber
      case "2015" => buffer(1) = buffer.getAs[Double](1) + salenumber
      case _ => println("ERROR!")
    }
  }

  // 合并两个分区的buffer1、buffer2，将最终结果保存在buffer1中
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1(0) = buffer1.getDouble(0) + buffer2.getDouble(0)
    buffer1(1) = buffer1.getDouble(1) + buffer2.getDouble(1)
  }

  // 取出buffer（缓存的值）进行运算，得到最终结果
  override def evaluate(buffer: Row): Double = {
    println(s"evaluate : ${buffer.getDouble(0)}, ${buffer.getDouble(1)}")
    if (buffer.getDouble(0) == 0.0) 0.0
    else (buffer.getDouble(1) - buffer.getDouble(0)) / buffer.getDouble(0)
  }
}

object UDAFDemo {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
    val spark = SparkSession.builder()
      .appName(s"${this.getClass.getCanonicalName}")
      .master("local[*]")
      .getOrCreate()

    val sales = Seq(
      (1, "Widget Co",        1000.00, 0.00,    "AZ", "2014-01-02"),
      (2, "Acme Widgets",     2000.00, 500.00,  "CA", "2014-02-01"),
      (3, "Widgetry",         1000.00, 200.00,  "CA", "2015-01-11"),
      (4, "Widgets R Us",     2000.00, 0.0,     "CA", "2015-02-19"),
      (5, "Ye Olde Widgete",  3000.00, 0.0,     "MA", "2015-02-28") )

    val salesDF = spark.createDataFrame(sales).toDF("id", "name", "sales", "discount", "state", "saleDate")
    salesDF.createTempView("sales")

    val yearOnYear = new YearOnYearBasis
    spark.udf.register("yearOnYear", yearOnYear)
    spark.sql("select yearOnYear(sales, saleDate) as yearOnYear from sales").show()

    spark.stop()
  }
}

八. 从MySQL读取数据

// 读取数据库中的数据
val jdbcDF = spark.read.format("jdbc").
				option("url", "jdbc:mysql://localhost:3306/spark").
				option("driver","com.mysql.jdbc.Driver").
				option("dbtable", "student").
				option("user", "hive").
				option("password", "hive").load()
jdbcDF.show
jdbcDF.printSchema

备注：
1、将jdbc驱动拷贝到$SPARK_HOME/jars目录下，是最简单的做法；
2、明白每一个参数的意思，一个参数不对整个结果出不来；
3、从数据库从读大量的数据进行分析，不推荐；读取少量的数据是可以接受的，也是常见的做法。

你可能感兴趣的:(BigData)

揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
Big Data (H/M) Assessed Exercise 后端
BigData(H/M)AssessedExerciseTaskSheet2024/25–Individual–v107/02/25SummaryThegoalofthisexerciseistofamiliarizeyourselveswiththedesign,implementationandperformancetestingofBigDataanalysistasksusingApach
2025年计算机工程与大数据应用国际会议（CEBDA 2025） Yangxshy EI 会议大数据
2025年计算机工程与大数据应用国际会议2025InternationalConferenceonComputerEngineeringandBigDataApplications大会信息会议名称：2025年计算机工程与大数据应用国际会议会议简称：CEBDA2025收录检索：提交EiCompendex,CPCI,CNKI,GoogleScholar等大会地点：中国·北京审稿通知：投稿后2-3日内通
大数据安全项目是小酒大数据 python pycharm sql mysql
1.项目详情用python写一个大数据安全项目（使用tk，页面布局使用盒子模型，页面中各个按钮，主题要美观，按扭间的距离不要太进），需要连接数据库连接名是root（数据库名为bigdata_security,数据库密码是123456。查询数据库中的student表（包括id，name,sex,school,height,weight这些字段））。包括管理员和学生两个功能。2.代码详
【软考高项】【英语知识】- 21 - 单词积累 oo寻梦in记软考高项（信息系统项目管理师）软考
目录一、常见计算机技术词汇二、项目管理词汇2.1十大知识域2.2五大过程组2.349个子过程2.4工具和技术汇总2.5输入和输出汇总一、常见计算机技术词汇序号中文英文1云计算Cloudcomputing2云存储Cloudstorage3云服务Cloudservice4软件即服务SaaS5平台即服务PaaS6基础设施即服务laaS7虚拟资源Virtualresources8大数据bigdata9大数
Ubuntu下配置安装Hadoop 2.2 weixin_30501857 大数据 java 运维
---恢复内容开始---这两天玩Hadoop，之前在我的Mac上配置了好长时间都没成功的Hadoop环境，今天想在win7虚拟机下的Ubuntu12.0464位机下配置，然后再建一个组群看一看。参考资料：1.InstallingsinglenodeHadoop2.2.0onUbuntu：http://bigdatahandler.com/hadoop-hdfs/installing-single-
[转载] awesome big data weixin_30343157 javascript java runtime ViewUI
原文:https://github.com/onurakpolat/awesome-bigdata#graph-data-model作者把分布式领域相关的大部分开源项目和论文分类整理了一遍,造福人类啊.AwesomeBigDataAcuratedlistofawesomebigdataframeworks,resourcesandotherawesomeness.Inspiredbyawesome
2014 6月，比较老了金金2019
AwesomeBigDataAcuratedlistofawesomebigdataframeworks,resourcesandotherawesomeness.Inspiredbyawesome-php,awesome-python,awesome-ruby,hadoopecosystemtable&big-data.Yourcontributionsarealwayswelcome!Awes
Centos7服务器运维服务系统安装过程中遇到的问题总结阿卜力米提40 服务器运维
Centos7服务器运维服务系统安装过程中遇到的问题总结centos服务器运维由于我们Sinesafe的客户要求网站的服务器要装Centos7版本所以给大家分享下安装的过程与经验,如果需要深入的服务器运维服务也可以找我们。机器域名机器别名xxx.xxx.xxx.xxxbigdata1xxx.xxx.xxx.xxxbigdata2xxx.xxx.xxx.xxxbigdata33台机器用户名和密码：用
【大数据治理】局外人_Jia 大数据安全人工智能
大数据治理（BigDataGovernance）是指通过一系列策略、流程和技术手段，确保大数据的质量、安全性、合规性和可用性，从而最大化数据的价值。以下是大数据治理的核心内容、挑战和最佳实践：1.大数据治理的核心内容1.1数据质量管理确保数据的准确性、完整性、一致性和及时性。数据清洗：处理缺失值、重复数据和错误数据。数据验证：定义数据规则，确保数据符合业务需求。数据监控：实时监控数据质量，及时发现
简记一段数据清洗项目经历 Jo乔戈里 sql database mysql python
声明：该项目是从github上下载的，原项目地址在:https://github.com/TurboWay/bigdata_analyse这个数据分析项目选自其中的"Amoy_job",即"10万条厦门招聘数据分析",但是没有严格沿用里面的代码，绝大部分都是自己思考所做的数据清洗。注意，此处仅是数据清洗，尚未进入到真正的数据分析和可视化，得出结论这些阶段！代码镇楼:fromcollectionsi
nginx+flume网络流量日志实时数据分析实战_日志数据分析(1) 2401_84182578 程序员 nginx flume 数据分析
得到visits模型hadoopjar/export/data/mapreduce/web_log.jarcn.itcast.bigdata.weblog.clickstream.ClickStreamVisit网络日志数据分析-数据加载对于日志数据的分析，Hive也分为三层：ods层、dw层、app层创建数据库createdatabaseifnotexistsweb_log_ods;create
探秘高效大数据处理：揭秘开源项目【BigData】温宝沫Morgan
探秘高效大数据处理：揭秘开源项目【BigData】databaseBlazegraphHighPerformanceGraphDatabase项目地址:https://gitcode.com/gh_mirrors/dat/database1、项目介绍在如今的数字化时代，数据已成为企业的重要资产。对于海量数据的处理和分析，我们常常需要依赖强大的工具来支撑。这就是我们要向您推荐的开源项目——BigDa
开源项目推荐：基于Lambda架构的大数据管道柳旖岭
开源项目推荐：基于Lambda架构的大数据管道big-data-pipeline-lambda-archAfullbigdatapipeline(LambdaArchitecture)withSpark,Kafka,HDFSandCassandra.项目地址:https://gitcode.com/gh_mirrors/bi/big-data-pipeline-lambda-arch1.项目基础介
Hadoop HDFS 安装详细步骤碟中碟山 hadoop hdfs 大数据
Hadoop安装详细步骤安装前分别在master、slave1、slave2三台机器的root用户下的主目录下创建目录bigdata，即执行下面的命令：mkdir~/bigdataHadoop安装包下载检查Hadopp和java版本是否对应，在官网中查hadoop-3.1.3JDK1.8hadoop-2.10.2JDK1.7or1.8hadoop-2.9.2JDK1.7or1.8hadoop-2.
大数据治理体系构建与关键技术实践一ge科研小菜鸡大数据大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着信息技术的快速发展和数据规模的爆炸式增长，大数据已经成为各行业的核心资产。然而，数据质量低、数据孤岛、数据安全风险等问题日益突出，影响了数据的有效利用和价值挖掘。因此，大数据治理（BigDataGovernance）成为企业和政府机构提升数据管理能力、优化决策支持的重要手段。本篇文章将深入探讨大数据治理的体系构建、核心技术及其在实际应
Hive 整合 Spark 全教程（Hive on Spark）字节全栈_rJF hive spark hadoop
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2）HDFS配置文件配置hdfs-site.xmldfs.namenode.http-addressBigdata00:9870dfs.namenode.secondary.http-addressBigdata00:9868dfs.replication13）YARN配
centos7搭建flink1.18并以 standalone模式启动咸鱼c君 flink 大数据大数据
版本组件版本scala2.12.20java1.8.0_181flink1.18.1关于scala和Java的安装参考：scala和java安装flink下载地址：flink下载链接集群规划bigdata01bigdata02bigdata03masterworkerworkerworker安装1.创建存放路径三个节点都需要操作用于存放安装包:mkdir/home/software/用于存放存放解
一文了解大数据概论程序员
一.大数据概论1.1大数据概念大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit
ranger-kms安装蘑菇丁 eclipse java ide
默认已安装ranger-admin和mysql服务。Ranger组件服务默认都在/opt/bigdata.test/core/ranger目录下安装。解压安装包[hadoop~]$cd/opt/ranger[hadoop@ranger]$tar-xzvfranger-2.1.0-kms.tar.gz[hadoop@xranger]$mvranger-2.1.0-kmsranger/ranger-k
把hive中的数据导出到mysql 樱浅沐冰笔记 hadoop hive mysql
注意事项！！！！1.hive中的表的字段和类型必须和mysql表中的字段和类型一样不如hive中的stnamevarchar（50），那么mysql中的字段和类型也必须为stnamestring2.sqoopexport--connectjdbc:mysql://localhost:3306/xiandian--usernameroot--passwordbigdata--tablem1--hca
Django常用ORM 程序猿_小天 Django django django orm
聚合分组Sum函数将None变为0xx=Coalesce(Sum('number'),0,output_field=CharField())跨表分组去重#B表中有一个外键表是A,即a=models.ForeignKey(A)a_queryset=BigData.objects.filter(pk=OuterRef("a")).annotate(Sum('number',distinct=True)
大数据治理：概念、框架与实践一ge科研小菜鸡大数据 Python 大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着数据量的爆炸性增长，大数据治理（BigDataGovernance）成为数据管理领域的重要议题。大数据治理旨在对海量数据进行有效管理，确保数据的质量、可用性、安全性和合规性，同时为企业决策提供有力支持。本文系统介绍大数据治理的概念、核心框架、实施步骤及典型应用案例，结合实际场景提供技术支持和代码示例。一、大数据治理的定义与重要性1.什么是
【Springer斯普林格出版，Ei稳定，往届快速见刊检索】第四届电子信息工程、大数据与计算机技术国际学术会议（ EIBDCT 2025）艾思科蓝 AiScholar 学术会议计算机科学电子信息科学与技术大数据信息可视化可信计算技术深度学习人工智能自然语言处理信息与通信
第四届电子信息工程、大数据与计算机技术国际学术会议（EIBDCT2025）20254thInternationalConferenceonElectronicInformationEngineering,BigDataandComputerTechnology中国-青岛|2025年2月21-23日|www.eibdct.net组织单位长春电子科技大学、加拿大魁北克大学、美国新泽西理工学院、美国欧道
分布式系统理论基础二-CAP 王知无(import_bigdata)
GitHub：https://github.com/wangzhiwubigdata/God-Of-BigData关注公众号,内推,面试,资源下载,关注更多大数据技术~大数据成神之路~预计更新500+篇文章，已经更新50+篇~引言CAP是分布式系统、特别是分布式存储领域中被讨论最多的理论，“什么是CAP定理？”在Quora分布式系统分类下排名FAQ的No.1。CAP在程序员中也有较广的普及，它不仅
使用java代码消费kafka数据二进制_博客大数据 java kafka
首先创建maven项目，导入jar包org.apache.kafkakafka-clients3.0.0org.slf4jslf4j-log4j121.7.25示例一：使用java代码消费kafka所有数据packagecom.bigdata.day03;importorg.apache.kafka.clients.consumer.ConsumerConfig;importorg.apache.
Hive 查看partition 以及msck 修复分区 dgsdaga3026010 大数据
#checktable的partitionhive>showpartitionstable_name;如果是外部表，不小心把表给删除了，可以适用下命令重新关联表和数据[MSCKREPAIRTABLE]全量修复分区hive>msckrepairtabletable_name;转载于:https://www.cnblogs.com/TendToBigData/p/10501178.html
2024年总结：大转向年度总结
本文于2025年1月2号首发于公众号“狗哥琐话”。2024年是个打工人苦命年，我看到几乎每个人都比以往辛苦。这让我想起了六字真言，钱难赚屎难吃。职业转向今年我在职业上尝试做了一个转向，具体的结果可能需要比较长的时间来检验我选择是否正确，所以转向的细节我就不全部展开了，可以确定是我依然会专注在Infra和BigData，比如今年我发布了SparkSQL和FlinkSQL的IDEA提效插件。那么我为什
官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake 阿里云大模型
2024年6月，国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室（MachineLearning,AI,BigDataSystemsLab）联合发布了以KVCache为中心的大模型推理架构Mooncake。通过使用以KVCache为中心的PD分离和以存换算架构，大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本，自发布以来受到业界广泛关注。近日，清华大学和研究组织9#
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu