Logan_Yang

数仓项目-DATA_Yiee学习笔记（非开源项目，使用内容请联系我）（上）

2019.8.24

技术选型：

数据的采集
- Flume：分布式日志数据汇聚
- Sqoop：离线批量抽取数据库
- cannel：实时数据库逐条监听
数据的存储
- hdfs
- redis
- hbase/elastic search
- kafka
- mysql
数据的运算
- hive
- MR
- Spark core/sql/streaming
- flink
算法
- 基本统计算法
- 图计算Spark Graphix
- 机器学习

数仓VS数据库

数据库通常是一个软件，负责业务数据的实时增删改查（OLTP），业务系统的数据库要求实时响应
数据仓库：OLTP的数据在闲时将每天的业务数据导出到另一个数据库（不做OLTP,不连web服务），做一些里显得数据分析（和存储）；
所以例如Oracle或者Mysql，既可以用来作业务系统数据库，也可以用来做数据仓库，但是用普通数据库做数仓的瓶颈：存储量小；
这里引入数仓需要满足的两个条件：

存储海量数据
支持数据分析

普通数据库在第一条上不是最优解，因此Hive更能够更好地充当数据仓库的角色

另一个区别：业务系统数据库的某条数据是不断变化的，而数仓中的数据是不变化的（通过保存历史记录来体现时间的变化）

数仓的特点：
面向主题的，整合的，相对稳定的，反映历史的

数仓也分两种：

离线数仓 -> Hive 这种需要大量时间计算的数仓
联机数据分析（OLAP） -> mysql这种可以事实查询分析的数仓

数仓分层：

数仓层	说明
ADS	应用服务层（对DW层的数据进一步进行计算，以得到应用层需要的数据）
DWS	数仓汇总层（对明细数据进行聚合汇总操作，有时也跟DWD层合成一个DW层）
DWD	数仓明细层（分主题，打标签->“是否周末”，补全字段->通过id将desc join进来）
ODS	操作数据层（结构与源数据一致），最底层，也叫贴源层

数据采集

流程：

Created with Raphaël 2.2.0 前端埋点(采集日志) 反向代理服务器日志Servers (多台日志Server) Flume Agent (二级Flume为了降低写入HDFS的并行度) HDFS

Git

基本概念：协作开发中的代码（版本）管理系统

中心存储（团队之间通过这个中心存储来同步代码）
有历史版本记录（便于随时回退）

Gitee

IDEA 安装插件
配置gitee账号
初始化提交： Share Project on Gitee
修改代码后Commit
Commit后push

2019.8.25

项目工程搭建

父子工程搭建：

父工程文件夹右键新建module
父工程pom文件里会自动生成子依赖模块
子工程pom文件默认生成父依赖模块（parent）
父工程pom文件中引入的依赖子工程可以默认使用

子工程间的相互依赖

子工程A需要使用同级子工程B中的类，则需要在A中引入B的依赖
工程B因为是自己新建的，在Maven仓库中没有，需要使用install命令，将B编译打包，安装到Maven仓库
子工程A的pom文件中，导入B的dependency（groupId，version取自父工程，artifactId取自子工程B）

项目技能提升

技能1：Self-Join

通过表自己多次join自己，达到顺藤摸瓜级联向上查找父id的目的

参考：自连接

技能2：GeoHash编码

引入GeoHash的maven依赖，之后传入经纬度和最后生成的GeoHash字符个数（也就是精度），然后再调用BASE32解码方式，就会得到GeoHashCode

原理：使用二分法将一个经纬度无限接近于精确，二分过程中会将生成的1 和0 （大于和小于某值）追加在原来的字节码后面，字节越多，就越精确，然后将这些1 和0 5个5个分成一组（这里用BASE32方式编码，所以是5个5个一组，如果用BASE64，则是6个6个一组），每组用一个字符表示，生成新的GeoHash码，调用方法时传入的精度，决定了截取多少个长度为5的字节，也就决定了精度。

技能3：UDF函数

//导入隐式转换
import org.apache.spark.sql.functions._
//创建一个输入经纬度，得到GeoCode的函数
val gps2geo = (lng:Double,lat:Double)=>
	{GeoHash.withCharacterPrecision(lat, lng, 5).toBase32}
//将函数注册道spark sql的引擎中去，并命名
spark.udf.register("gps2geo",gps2geo)
   //可以直接在spark sql中使用
   spark.sql(
      """
        |select
        |gps2geo(BD09_LNG,BD09_LAT) as geo,
        |from area
      """.stripMargin)

技能4：Spark 技能夯实

数据集	说明
RDD	是一个分布式数据集，处理非结构化数据，一次拿到一行（一般是String类型），再由操作者决定如何处理这一行数据；创建RDD时，本质上是将其他类型的集合映射成rdd集合
DataFrame	装了（Row）类型的RDD，Row这个类里面，封装了数据的schema，即字段名称和类型和位置

// 将一个带有表头的csv文件映射成dataframe
val df1 = spark.read.option("header","true").csv("PATH")
//将一个没有表头的csv文件映射成dataframe并在映射好之后更改字段名
val df2 = spark.read.csv("PATH")
val df3 = df2.toDF("id","name","score")
// 将一个没有表头的csv文件映射成dataframe
// 并按照我们的预定要求映射表结构（字段名、字段类型）
val schema = new StructType()
        .add("id",DataTypes.IntegerType)
        .add("name",DataTypes.StringType)
        .add("score",DataTypes.DoubleType)
val df4 = spark.read.schema(schema).csv("PATH")

项目经验总结

1. 环境问题

在创建自己的项目时，试图将老师的项目中的文件夹直接copy过来，发现依赖关系总会出现问题，于是删除项目，重新新建了项目并手动完成所有文件夹的创建，未发现问题；

2. 开发思路问题

将数据从mysql中读取出来后拿到了DF，但是不知道如何取出DF中的数据，这里是对Spark 的API 不熟练，其实可以用df.getAs用法得到相应名字或者角标字段的数据，还可以指定得到的数据类型，但这里数据类型使用的是泛型，并无代码层面的校验；

3. SQL运行缓慢

上述SQL自join的需求，在我的本机运行的时候，奇慢无比，以为是性能问题，但同学与我配置差不多的电脑上运行不缓慢，遂对比表设计，发现如下几点：

未指定主键：表中zip_code未设置为主键，那么该字段就不会自动创建索引，所以导致多次JOIN时每次都全表查询，速度特别慢，指定索引后，查询速度降到了1s以下；
将Double类型的字段改为String类型：之前经纬度信息使用double类型保存，精度和长度都使用的数据库默认值，改为String类型后，查询速度快了大约0.2s
将每个表join之前先进行level的过滤，及每次join的都是比较小的表，代码量增加，但查询时间快了大约0.2s

上述几点优化不知是否真是可行，还是只是巧合，有待研究；

一些零碎的知识点

spu：商品（iphone X）；sku：具体商品（iphone X 256G 白色）
sql语句使用spark运行时，不会用到mysql的引擎，所以不会占用mysql的资源（只是从mysql获取数据，但计算(或者说查询)是由spark完成的）

2019.8.27

项目数据预处理

整体流程：

读取之前生成好的GEO字典数据
将字典数据广播给出去
然后读取日志数据文件
将文件中的数据解析成JSON对象，再封装成case class
对数据集进行条件过滤
将结果数据集与GEO字典进行整合
将整合后的数据输出
同时将查询不到的字段去重后输出
请求高德地图解析字典中没有的数据，并将数据添加到GEO字典中

-项目技能提升

1. Json解析 - FastJson

使用Json.parseObject()方法解析Json而不指定封装类的话，就会得到一个类型为JsonObject的对象，这个对象本质上是一个map，可以灵活地通过getString(),getDouble()或者(如果value还是一个map的话)getObject() 等方法来获取需要的字段进行处理。

解析Json的这个方法，因为不涉及到业务逻辑，只是将输入的json文本转换成一个case class，所以可以封装到comms模块下，在当前代码逻辑里，只需要传入json字符串，返回一个样例类即可。因此，样例类和fastjson的jar包依赖，都不需要在data_ware模块中创建和引用，只需要在comms端创建和引用，dw模块只需import 这个样例类的包即可（因为之前data_ware模块导入了comms的依赖）。

2. StringUtils工具类 - isNotBlank方法

判断所有字段不同时为空的一个小技巧：使用org.apache.commons.lang3下的StringUtils类里的isNotBlank()方法,该方法在被判断的内容为null，空串，或者一个空格时，都会返回false，可以利用该方法的特点，将需要判断的字符依次拼接起来，判断拼接后的字符串是否不为空，如果返回true，则证明其中至少有一个字符串是非空的；
补充：使用StringBuilder拼接字符串时，如果有某个变量的引用为null，那么会将字符串"null"拼接上，因此需要将最终拼接的结果toString()后调用replace()方法将"null"替换成空串""来完成判断。

3. Scala与Java的Map相互转化

import scala.collection.JavaConverters._
//JAVA MAP
val javaMap: util.HashMap[String, AnyRef] = new util.HashMap[String, AnyRef]()
//Scala Map
//这里可以通过map方法将数据转为想要的数据类型，之后直接调用toMap方法将mutableMap转为immutableMap
val scalaMap: Map[String, String] = javaMap.asScala.map(x => (x._1, x._2.toString)).toMap

4. 广播变量的使用

//将areaMap作为广播变量广播出去
bc = spark.sparkContext.broadcast(areaMap)
rdd.map(x=>{
	//excutor端获取广播变量
	areaMap = bc.value
	})

5. 高德地图逆地理编码服务

//首先创建HTTP的链接，需要导入maven依赖
val client: CloseableHttpClient = HttpClientBuilder.create().build()
//然后生成一个GET请求（不同服务可能需要生成不同请求），根据需要传入参数
val get = new HttpGet("${uri}?key=${key}&location=${lng},${lat}")
//发送请求，得到响应
val response: CloseableHttpResponse = client.execute(get)
//解析这个响应，拿到响应体，就可以对响应体里的内容进行操作了
val content: InputStream = response.getEntity.getContent

-项目经验总结

1.关于Json解析

在思考如何解析json字符串的时候，试图将json按照原格式，一级一级封装到样例类里面，因此创建了许多样例类，作为上级样例类持有的属性的类型，在将数据压平时通过的获取成员变量的方式获取数据的值；对比涛哥的将数据解析成jsonObject之后通过调用JO的解析方法来获取数据，涛哥的方法无需创建大量的样例类。

2. RDD的Join操作

当RDD调用JOIN方法时，两个RDD执行时不会使用同一个taskSet中的task，而是各自有各自的taskSet，但是两者shuffle后的结果，都是同一个RDD在拉取。

3. 关于闭包

学习Spark RDD时接触到“闭包”这一概念，当时的案例会抛出Task not serializable的异常，所以以为“闭包”的概念是“对于函数内引用函数外变量的错误操作的总称”，其实不然，在拜读了官网对于闭包（Closure）的说明后，重新整理“闭包”的概念如下，首先祭出原文及案例：

int counter = 0;
JavaRDD<Integer> rdd = sc.parallelize(data);

// Wrong: Don't do this!!
rdd.foreach(x -> counter += x);

println("Counter value: " + counter);
Prior to execution, Spark computes the task’s closure. The closure is those variables and methods which must be visible for the executor to perform its computations on the RDD (in this case foreach()). This closure is serialized and sent to each executor.

官网指出，在执行任务之前，Spark会先计算这个任务的“闭包”。“闭包”是指为了进行RDD的计算，必须对executor可见的那些变量和方法。这个“闭包”会被序列化并发送给每个executor；

“闭包”这个概念有些明了了，首先，这是一个名词，其次，报错的原因是因为闭包内的变量或方法所在类没有实现序列化，而不是因为所谓执行了“闭包操作”（即函数内引用函数外的变量或方法这个操作本身）；所以，只要闭包内的变量和方法所在类实现了序列化接口，那么我们就可以放心大胆地在函数内引用函数外的方法和变量，只不过需要注意的点是，此时引用的，已经不是Driver端生成的那个对象A，而是序列化后传送到executor端的那个对象B，因此，对于对象B的改变，将不作用于对象A上，如官方给出的案例中， counter变量在executor端不断累加，但在Driver端打印的话，值依然为0；

4. 关于Dataset

Dataset中的类型可以是任意类型，而恰好是Row类型的Dataset也叫DataFrame；
当DS中的数据类型是一个样例类时，DS可以通过样例类反射出表结构，因此DS也可以用来做SQL查询；
若直接调用DS的map等算子，取出数据时，因为是直接调用成员属性，因此数据类型很明了；
DS调用select算子后，由于有可能对表结构（列数，数据类型）进行改变，因此无法保证类型和以前一致，会返回一个通用类型Row，也就是返回一个DataFrame；

5. Spark广播变量对应MR中的具体实现

首先对于广播变量，官方文档中是这样描述的：

Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it with tasks. Spark also attempts to distribute broadcast variables using efficient broadcast algorithms to reduce communication cost.

广播变量允许程序员在每台机器上缓存一个只读的变量，而不用随任务发送这个变量的副本（详见闭包）; Spark还尝试使用一个非常有效率的广播算法去分发广播变量以减少沟通消耗；

Broadcast variables are created from a variable v by calling SparkContext.broadcast(v). The broadcast variable is a wrapper around v, and its value can be accessed by calling the value method.

广播变量由调用SparkContext.broadcast(v)方法创建，广播变量是对于v变量的一个封装，可以通过调用.value方法来得到变量的值；

After the broadcast variable is created, it should be used instead of the value v in any functions run on the cluster so that v is not shipped to the nodes more than once. In addition, the object v should not be modified after it is broadcast in order to ensure that all nodes get the same value of the broadcast variable (e.g. if the variable is shipped to a new node later).

在广播变量被创建好后，任何在集群上执行的函数中都应该使用这个广播变量，而不直接使用变量v，以防止变量v被多次发送到节点上（使用v则v就会被添加到闭包中，随task被序列化并发送到executor）；另外，对象v在被广播后不应该被修改，以确保所有节点拿到的广播变量值相同（即使变量以后被发送到新的节点（因为自己已经拿到的chunk不会再去拿，详见下面广播变量的类BT实现））;

A BitTorrent-like implementation of Broadcast.
The mechanism is as follows:
The driver divides the serialized object into small chunks and stores those chunks in the BlockManager of the driver.
On each executor, the executor first attempts to fetch the object from its BlockManager. If it does not exist, it then uses remote fetches to fetch the small chunks from the driver and/or other executors if available. Once it gets the chunks, it puts the chunks in its own BlockManager, ready for other executors to fetch from.

根据官方文档，Spark是通过类似BT种子的方式进行广播的：Driver将广播的内容序列化后分成小块（chunk），存储在自己的BlockManager中，每个executor首先从他自己的BlockManager中抓取这个对象，如果不存在，就通过远程抓取，去driver或者其他executor中抓取这个对象的chunk，一旦拿到这个chunk，就将它放入自己的BlockManager中，便于其他executor来抓取；

相对于广播变量，MapReduce框架中有一个类DistributedCache（分布式缓存），官方给出的解释如下：

Applications specify the files to be cached via urls (hdfs://) in the JobConf. The DistributedCache assumes that the files specified via hdfs:// urls are already present on the FileSystem.

程序在JobConf中指定需要缓存的文件路径，分布式缓存默许这个路径是存在的

The framework will copy the necessary files to the slave node before any tasks for the job are executed on that node.

框架会在任务在slave节点上执行之前，将所需要的文件复制到节点上

分布式缓存和广播变量一样，都是只读的，分布式缓存将需要共享的文件放在hdfs里并通过DistributedCache.addCacheFile() 将路径通知给各个slave，各个slave自己运行job之前会去hdfs下载；而广播变量通过SparkContext.broadcast()将需要共享的内容放在自己的BlockManager中，等待executor来抓取；

-项目知识点补充

executor对应一个进程，task对应一个线程（task本质是一个实现Runnable的类，被一个线程执行）
coalesce(1)的作用：当测试时，数据量不大，写入文件并不需要太大的并行度（写入多个文件），而spark sql默认的shuffle操作并行度是200（spark.sql.shuffle.partitions=200）
会产生shuffle的算子：
- repartition类：如 repartition,coalesce
- 'ByKey类：如 groupByKey, reduceByKey
- join类：如 join,cogroup

2019.8.28

ODS层，DW层，ADS层数据加载

整体流程：

Hive ODS层表创建
ODS层加载数据
DWD层明细表建模
DWD层数据注入
DWS层聚合表创建
DWS层数据注入
ADS层表创建
ADS层表数据生成

-项目技能提升

1. DSL风格数据集API 夯实

SQL中的关键字，几乎都可以用dataframe中的DSL风格的API来实现：

Select：

  //参数可以是字符串，也可以是Column对象
  	df.select("id","name")
  	df.select(df("id"),df("name"))
  //如果导入了隐式转换，就可以用一些特殊的用法
  	import spark.implicits._
    df.select($"id", 'name)
  //或者用spark sql 的内置函数构建col对象
   	import org.apache.spark.sql.functions._
   	df.select(col("id"))
  //如果想对列进行操作，需要调用col的函数或使用selectexpr
  	df.select('id, upper('name))
  	df.selectExpr("id", "upper(name)")

上述代码中df("id")这个方法，其实是调用了df的apply方法，会查找名为id的列并返回他的Column对象；

Where:

  //SQL风格和DSL风格对比
  df.where("score > '80'")
  df.where('score <=> "80")

Group By:

  //聚合的三种方式
  //直接max
  df.groupBy("gender").max("score")
  //求最大和最小值
  df.groupBy("gender").agg("score" -> "max", "score" -> "min")
  df.groupBy("gender").agg('gender, min('score), max("score"))

上述方法中的参数"score" -> "max"是scala中的一个语法糖，这样写就相当于创建了一个元组(score,max)

窗口函数：

  //先创建一个window对象，指定partitionBy和orderBy
  //然后在select中调用函数row_number()的over方法，把window传入，并取别名
  val window = Window.partitionBy('gender).orderBy('score.desc)
  df.select('id,'name,'gender,'score,row_number().over(window).as("rn"))

Join:

  //df1和df2join，条件是两表id字段相同，结果中仅保留一列 id
  df1.join(df2,"id")
  //JoinWith ，是针对dataset的特定join，可以保留dataset中原有的数据类型
  //注意看返回值DataSet中的类型， 一行返回两个类，而不是多个字段
  val dsr: Dataset[(Person, Student)] = ds1.joinWith(ds2,ds1("id") === ds2("id"))

2. Coalesce的使用
coalesce(a,b,c)
返回a,b,c中，第一个不为空的值，这里只能判断是否为null，对于空串或者空格，需要自己额外判断

-项目经验总结

1. Hive建表

ODS层数据建模时：
因为是贴源层，字段应与来源字段保持一致，不做任何处理；
ODS层建表时：
因为是采用Hive建表，然后直接load parquet文件里面的数据的方式，所以选择建外部表，这样删除表后对外部的parquet文件没有影响；因为每天都有数据，所以建立分区表按照天分成不同的文件夹存储；
创建ODS层表：

drop table if exists yiee.ods_eventlogs;
create external table if not exists yiee.ods_eventlogs(
 --fields..
)
  partitioned by (dt string)
  stored as parquet
  location '/hivedata/eventlogs';

后面三句话的顺序不能错，否则创建失败；这里的路径，是说以后如果往这个表里insert数据的话，产生的parquet文件会生成在哪个目录（insert数据时，会根据目标表的定义，生成相应格式的文件）

2. 关于建模时的SQL

之前星哥教过一种方法，是把一个需求的每一步自己分析出来的SQL语句记录下来，方便后续需求变更或者维护的时候做修改和查询；今天亲自尝试了一下这种方法，效果非常明显，之前写好的SQL一定是可以运行的，只需要在原来的基础上做一些更改，则可以实现非常快速的实现表重建，数据重新插入，表字段变更等操作；

3. 关于scala中的隐式转换

之前在使用阿里巴巴的FastJson时，调用toJSONString()传入一个AnyRef的对象试图获得字符串时，报二义性错误，分析原因是该方法还有一个重载方法，传入两个参数，第一个参数是AnyRef类型，第二个参数是一个序列化器，sparkSession.implicits._中有该序列化器类型的变量存在，导致编译器不知道该绑定哪个方法；
因此想到了scala中是如何处理这种问题的，进行如下测试：

object Test1 {
  implicit val str: String = "参数2"
  def main(args: Array[String]): Unit = {
    //编译不通过
    //println(test1("参数1 "))
  }
  def test1(str: String)(implicit str2: String): String = {
    str + str2
  }
  def test1(str: String): String = {
    str
  }
}

对象中定义了两个重载的方法test1，main方法中只传入一个参数的话，编译器是不通过编译的，所以会提醒你cannot resolve overloaded method test1，此时可以选择1：将test1两个参数的方法列表的第二个列表中的implicit关键字去掉，骗过编译器，但执行时仍然会报二义性错误（跟之前json解析时的一样）2：将一个参数的方法注释掉，运行不会报错；

4. 关于hive 中的字段别名

在select表达式中想要对某些字段起别名，比如 date 但是date又是hive中的关键字，直接写 as date就会报错

Error: Error while compiling statement: FAILED: ParseException line 1:79 cannot recognize input near ‘as’ ‘date’ ‘from’ in selection target (state=42000,code=40000)

这时需要将表别名使用反单引号引起来 "``"（引号里面这两个键盘1左边）

-项目知识点补充

hive 的客户端命令行中可以直接输入hdfs的命令（如 dfs -ls）；
加载hive表数据时，load的方式会移动原数据文件到表定义的数据文件夹中，如果使用修改表定义add partition的方式，则相当于只是把这个表的这个partition的路径属性更改了，所以不会移动数据文件；
建hive表时在字段后紧跟 COMMENT ‘…’ 可以在查看表结构的时候看到这个注释；
Apache 有一个atlas元数据管理系统，用来记录目前有哪些表，表的模型信息，各个表之间的血统关系，但对于hadoop生态圈中各个组件的版本要求比较严格；

2019.8.30

需求2：日新日活流量统计

整体流程

日活表创建
日活表数据导入
历史用户数据表创建
日新表数据创建
日新表数据导入
历史用户数据表更新

项目技能提升

1. 临时表创建
插入数据时，有时想要对表进行简单的过滤之后再作为子表，但是不想写子查询，那么就可以先声明一个临时表和这个表的别名，下面sql中直接使用这个别名即可：

with dau as (select * from t1 where xxx)
insert into table t2
select 
* 
from dau;

2. OLAP多维数据分析（Hive高阶聚合函数）

背景：对于有多个维度的明细表，有时业务可能需要不同维度的组合来进行多维度的分析，那么如果将数据每个维度都新建一张表会建立大量的表，不利于维护，所以需要将这些不同维度的数据都插入到同一张表中；

原理：建立一张最细粒度的表，然后插入数据，当遇到更粗粒度的数据时，被忽略的维度给null值，即可实现所有数据都在同一张表汇总；

实现：现实中，表虽然有了，但是如果每种维度都需要手动去插入数据，那么效率还是极低，所以引入了hive高阶函数，（一键）生成想要的维度的数据：

with cube

select 
...
from t1 
group by c1,c2,c3
with cube;

上述代码相当于查询出了group by 后面的所有维度的所有组合 (一共8种，从000到111)；

grouping sets

select 
...
from t1 
group by c1,c2,c3
grouping sets((c1,c2),(c1,c3),(c2),());

grouping sets 不像with cube，会生成所有的维度的所有可能性的组合，而是可以手动地指定想要生成哪些维度的组合，没有指定的组合将不被生成；

with rollup

select 
...
from t1 
group by c1,c2,c3
with rollup;

有时数据是按照层级关系存储的，需要的就是下到上的越来越粗的粒度的数据，没有交叉维度的分析，那么就可以使用rollup，将维度从右到左卷起，上述代码相当于 grouping sets ((c1,c2,c3),(c1,c2),(c1),()) -> 粒度由细到粗

项目经验总结

1. sparkSession的Encoder问题

现象：使用sparkSession.createDataset()创建Dataset时，如果传入的Seq类型是Map类型，那么编译时会报错，提示没有对应的encoder
解释： reateDataset()是一个科里化方法，需要传入第二个参数Encoder，sparkSession的隐式转换类中有基本数据类型和case class 的encoder，但是没有Map的encoder，所以会报错，如果想正常运行，需要使用 Encoder.kryo(Classof[T]) 这个方法构建一个encoder 并传入

2. 关于Hive的窗口函数

结论：
当over()中指定了order by 字段，但未指定窗口规格时，默认的窗口规格是 range between unbounded preceeding and current rows
当over()中未指定order by 字段，也未指定窗口规格时，默认的窗口规格是 row between unbounded preceeding and unbounded following

关于range 和 row 区别的理解：
首先明确，窗口函数是逐行运算时，也能返回聚合的结果，那么窗口规格，则是决定了聚合时的数据范围；比如同样是1 preceeding and 1 following，如果前面是range，则是聚合时，将所有与该行数据数值差距正负不大于1 的所有行的数据聚合，而如果前面是row，则是聚合时，将该行和前一行和后一行的数聚合

项目知识点补充

hive建表时，如果不指定store as 的文件类型，则默认为textFile类型
设置Hive底层执行MR时的运行模式为本地模式（不提交到yarn上）： set hive.exec.mode.local.auto = true
插入数据时，insert into table 是数据追加，insert overwrite table 是数据覆盖

2019.9.1

项目需求

用户留存分析
用户新鲜度分析

项目技能提升

1 留存分析

背景：这是一个围绕某日新增用户的度量，想要计算的是某日新增的用户中，过了几天仍然活跃的有多少人，占哪一天新增用户的比例是多少

方案：数据取自hisu表，按照首登日分组，将每个首登日的人数（当天新增用户）计算出来，然后求出这个首登日据计算日的差值，则为这个首登日对应的留存时间，然后再求出该组中末登日为计算日的个数，这个值即为留存人数；每个首登日每天都要更新一次，更新的是最新的数据，采用插入而不是覆盖写的方式，让最新的数据和历史数据都保存，方便业务以时间作为维度进行分析；

实现：

insert into dws_user_retention_dtl
select 
first_login as dt, --首登日
count(1) as dnu_cnts, --首登日总新增人数
datediff('2019-06-16',first_login) as retention_days, --留存时间
count(if(last_login='2019-06-16',1,null)) as retention_cnts --是否计算日活跃（是否留存）
from dwd_hisu_dtl
where datediff('2019-06-16',first_login) between 1 and 30 --限制分析范围
group by first_login;

2.新鲜度分析

背景：这是一个围绕某日活跃用户的度量，想要计算的是某日活跃用户中，用户的新鲜度分层（新鲜度按照注册时间进行分层）

方案：数据同样取自hisu表，先过滤出末登日等于计算日的数据，这些数据是我们需要的“某日活跃用户”的数据；然后count求出总的活跃用户，再按照首登日进行分组，组内count得到每层新鲜度的人数

实现：

with tmp as (
select
uid,
first_login,
last_login,
datediff(last_login,first_login) as fresh
from demo_hisu_dtl
where last_login='2019-08-30' and datediff('2019-08-31',first_login) between 1 and 30
) --过滤出需要的数据

insert into table dws_active_fresh_dtl
select
b.dt,    -- 计算日期
a.dau_amt,   -- 活跃总数
b.fresh,     -- 新鲜度
b.fresh_cnts  -- 新鲜人数
from
(
select count(1) as dau_amt from tmp --当日总活跃用户
) a
join --a表只有一行数据，而且b表也只有一个日期，所以直接join无需加条件
(
select
'2019-08-30' as dt, -- 计算日期
fresh,  -- 新鲜度
count(1) as fresh_cnts -- 该新鲜度下的人数
from tmp
group by fresh
) b
;

3.关于成绩查询
一道思考题：现有表test_score数据如下：

张三语文 80
张三数学 60
张三地理 90
李四物理 50
李四化学 80
李四政治 0

需要将竖表转成横表，但学生未修的科目需要体现出来

思考过程：
原本的思考很简单，只需要select 多写几个表达式就好了，以科目作为sum的过滤条件，当不符合条件时给0；但是这个方法无法正确的区分真的得了0分还是未修该课程，因此进一步思考：区分不出来是因为当不符合条件时，给了0，这个0和真的得了0分时是同样的返回值，因此当不符合条件时，给别的返回值就可以了；这里可以给null，null跟任何数相加都等于任何数，全都是null相加，结果还是null，因此可以将未修课程和得0分的课程区分出来；

select 
name,
sum(if(subject = '语文',score,null)) as `语文` ,
sum(if(subject = '数学',score,null)) as `数学` ,
sum(if(subject = '地理',score,null)) as `地理` ,
sum(if(subject = '物理',score,null)) as `物理` ,
sum(if(subject = '化学',score,null)) as `化学` ,
sum(if(subject = '政治',score,null)) as `政治` ,
sum(if(subject = '历史',score,null)) as `历史` 
from test_score
group by name

4.hive实现map的聚合函数

对于set和list，hive中有聚合函数collect_set 和collect_list让数据聚合时被收集到一个集合里，针对于想让数据聚合时被收集到一个map里这种需求，可以借助如下方法：

思路：先将每一行的kv进行字符串拼接（拼接符“：”），然后进行聚合，将每一行的字符串收集到一个list中去，然后用函数将数组中的数据进行字符串拼接拼成一个大长串（拼接符“，”），然后用函数将字符串转化为map；

实现：

select
dt,
dnu_cnt,
str_to_map(concat_ws(',',collect_set(concat_ws(':',cast(retention_days as string),cast(retention_cnts as string)))),',',':') as info
from demo_retention_dtl
group by dt,dnu_cnt

//逐层分析
//L1 首先将每行的kv使用冒号拼接成一个字符串
concat_ws(':',cast(retention_days as string),cast(retention_cnts as string)) as L1
//L2 然后将数据聚合，收集到一个set中去
collect_set(L1) as L2
//L3 将数组使用逗号进行拼接（字符串拼接函数可以传入一个数组）
concat_ws(',',L2) as L3
//L4 最后，指定分隔符，将拼接好的字符串转成map
str_to_map(L3,',',':') as L4

项目经验总结

1. 关于数仓建模

数仓设计分为两大领域，一种是OLTP领域，这一领域，数据经常随机单条更新，所以要保证更改一条数据，其他需要改动的地方尽量少，因此数仓设计遵循三范式（多用雪花型模型设计），尽量减少数据的冗余；另一个领域是数据分析领域，这一领域，数据是稳定的，但是需要跨大量的数据进行计算，因此不讲究三范式，容许数据的冗余（多用星型设计模型），因为大量数据join非常的耗费性能。

2. hive 的优化

count(distinct id) 这种写法肥肠的耗费性能，因为他会将所有的id都发送给同一个reducer，reducer在将所有的id放入set中求这个set的size；相较之下，select count(*) from (select id from _ group by id) t 这种方法，会根据ID将id发给不同的reducer进行去重，然后将去重好的id再发给同一个reducer，性能上会好很多，不会造成数据倾斜
在join时，当某个表小于阈值时，hive会自动选择map端join
在join时，当两个表都很大时，如果两个表是按照相同的逻辑分桶并且分桶数一致时，hive会只join桶号相同的两个文件；
关于需要分多少桶，需要具体情况具体分析，原则上倾向于将每个任务切片的大小保持在100M左右，这样可以保证一个任务只从一台机器上拉取数据，而且任务会被发送到数据所在的机器，所以相当于从本地拉取数据，不会占用网络资源

5. 关于新鲜度的优化

技能提升中的求新鲜度的sql执行有些缓慢，因为创建了临时表，子查询还会join，尝试了不进行join的写法，使用了窗口函数，得到了相同的结果；但是其中某些用法比如sum(count(1))没有找到官方的解释，不知道是否只是恰巧可以这样用，只找到了一个国内的博客上面记录了相同的现象；这里我理解直接count(1) over()的话，count的是分组去重过后的数据，因此30号按照首登日去重后，只有15条数据，count(1) over()的话得到的数据是15，但是sum(count(1)) over()是将按照首登日去重后的count出的每个首登日的条数相加得到总和；
另外还发现，如果表达式中不在前面事先出现count(1) 这个表达式的话，sum(count(1)) over()这个表达式会报错，说没有count()这个udaf

select 
last_login, --首登日
concat(datediff(last_login,first_login),'天') as days, --新鲜度
concat(substr(count(1) * 100 / sum(count(1)) over(partition by last_login ),0,5 ),'%')as rate -- 某新鲜度人数/总活跃人数
from 
demo_hisu_dtl
group by  last_login,first_login;

6. 临时表创建

--临时表中不能有对其他临时表的引用
with tmp1 as () ,tmp2 as (), tmp3 as ()

7. sum(if())
select 表达式中，根据条件求和时要将条件写在sum()里面，否则的话，用于做来判断的列将暴露在聚合函数之外，会提示这个列需要group by

2019.9.2

项目进展

针对之前编写的SQL和spark程序编写sh调用脚本
使用Azkaban进行任务调度

项目技能提升

1. 编写shell 脚本

执行spark程序：

#!/bin/bash
#将日期预设成当前天减一天
dt=`date -d'-1 day' +'%Y-%m-%d'`
#判断用户执行脚本时是否传入了参数，若传入了参数，使用传入的参数作为日期
if [ $1 ]
then
dt=$1
fi
echo "正在计算${dt}数据"
#执行spark程序，并引用变量
spark-submit...... /data/eventlog/${dt}

执行sql语句：

#!/bin/bash
#一样的逻辑判断日期参数取值
dt=`date -d'-1 day' +'%Y-%m-%d'`
if [ $1 ]
then
dt=$1
fi
echo "准备生成dws层dws_traffic_agg_session表数据......"
#注意未切换库的情况下，要指明表属于哪个库
SQL="
insert into ...
select
...
from yiee.dwd_traffic_dtl 
where dt='${dt}'
"
#hive -e 后面的双引号要保留（注意配置hive_home环境变量）
$HIVE_HOME/bin/hive -e "${SQL}"

2.Azkaban任务调度

是一个任务调度工具，由元数据库建表语句，web界面，和executor三部分组成，可以按照顺一定的顺序执行job，每个job都可以是一个命令，命令通过参数配置在每个job的配置文件中，可以单纯打印一句话，也可以执行某个jar包中的类，也可以运行某个sh脚本，多个job组成一个project，这个project所依赖的所有job配置文件，和资源必须都被打进一个zip文件夹中，通过web页面上传到azkaban服务器，进行调度或者执行；

具体安装步骤，使用方法，经验总结今天略，明天仔细研究；

项目经验总结

1. 关于环境

建立的maven的父子工程，想要打包，于是在父模块上使用maven的install命令，试图全部打包，但是一直不成功，看日志像是一直无法获取一个阿里云上的scala-lang 的jar包，在父模块的pom文件中手动引入这个jar包后重新install还是报同样的错误；于是先尝试在子模块dw中使用install命令，不报错，然后在父模块中使用install命令，也不报错了；

2.关于spark程序

如果spark在运行时报"no such method"等错误，多半是版本不兼容
spark 提交到yarn上的任务，可以查看日志文件，日志的位置在hadoop_home的logs目录下的userlogs中，找到对应的appid和容器id
使用yarn 的logs 命令可以dump出日志，但需要配置history server
程序代码中想要使用hdfs的路径的话直接在path上加上前缀hdfs://host:port/....
spark on yarn需要配置hadoop_conf_dir变量

3.关于shell脚本

如果脚本里面使用hive -e写sql 的话，要注意本来有双引号单引号的地方，要保留双引号和单引号
sql中的表如果不是默认的库，注意加上库名
date -d'-1 day' +'%Y-%m-%d'获得当前日期减一天的日期；
date -d"-1 day $1" +'%Y-%m-%d'获得输入第一个参数的日期减一天（这里将单引号替换成双引号因为单引号会把$1解释成一个普通的字符串而不是第一个参数）

项目知识点补充

which + 命令可以查看这个命令所在的目录
vi一个文件后，gg到文首， dG删除一直到文末的内容（删除全部内容）；
IDEA可以直接连接HIVE，需要启动hiveserver，安装插件并重启idea，然后只需要hostname，端口号和用户名即可

2019.9.3

项目需求

使用Azkaban调度任务
计算活跃用户留存

项目技能提升

1. azkaban 调度器

安装部署步骤比较繁琐，建议按照文档一步一步进行
注意时区的配置，复制证书，修改配置文件，启动mysql数据库，导入mysql数据库的表到azkaban库中；
注意启动webserver时，会在启动路径下（编写命令的当前路径）寻找证书文件，所以要在根目录下执行启动命令；

2. 活跃用户留存

活跃用户留存概念：某日活跃的用户中，过了几天又活跃了的人占某日总活跃人数的比例，这里强行去join的话可以做，但是考虑到效率和性能问题，使用拉链表来完成这个需求；
拉链表记录用户，首登日，连续活跃期间起始日期，连续活跃期间结束日期
能够非常明确地求相应天数之前活跃的人中，在今天仍然活跃的有多少，结合历史数据，就能求出图中右下角的一层数据，每日数据累加，就能求出表中所有数据

为什么之前设计的历史表不能满足需求（在不强行join的情况下）？
因为拿到今天的活跃用户时，无法判断每个用户n天前是否是活跃的状态，只记录首登日和末登日，无法判断中间几天到底是什么状态；

项目经验总结

1. 关于拉链表

拉链表的思想：

针对状态很长时间不变的数据，使用状态区间来代替每日重复的状态快照，节省空间；当状态不改变时，表就无需改变，当状态改变时，就将原来的区间封闭 （拉链），然后生成新的状态区间，已经封闭的区间就不会再改变了；

前提：数据变化的频率不高，如果每天都变化，那么拉链表的意义就不大了（每天都会产生新的状态区间）

2. 关于后台运行命令

命令后面加上 & 字符，将进程在后台运行，（但是输出还是会输出到控制台）
进程运行时按 ctrl+z 这个操作会将进程挂起（暂停），并不是在后台运行；使用命令 fg+job号 将后台程序拉到前台
在 & 字符前加上 1>/root/std.out 2>/root/err.out 使程序在后台运行并将标准输出输出到std.out文件，错误输出输出到err.out；这里补充：任何一个程序，都有两个输出（1.标准输出，2.错误输出）和一个输入（0.键盘输入），两个输出默认是输出到控制台上，如果将输出重定向到 1>/dev/null 则是将输出抛弃；

2019.9.5

项目经验提升

访问间隔分析

分析的是一段时间范围内，中间隔了n天才由下一次访问的人数分布情况
窗口函数

lead(c,n) over() 取出c字段n行之后的值（over里面指定拆分依据（如果什么字段改变了，就重新计算顺序；）和排序依据（所谓n行之后的后是按照什么顺序而来的；））
lag(c,n) over() 取出c字段n行之前的值
first_value( c ) over() 某字段在窗口中的第一个数
last_value( c ) over()某字段在窗口中的最后一个数（要指定order by，否则就是这个数本身，因为不指定order by 默认是ranges over unbounded preceding and current row，即窗口规格为所有不比自己大的数）
sum() over()
count() over()
row_number() over() 排序，无并列排名
rank() over() 排序，有并列排名，排名数字不连续
dense_rank() over() 排序，有并列排名，排名数字连续
ntile(n) over([partition by ] order by) 有一个有序的数据集和按大小平均分配到n桶中。（序号从1 到 n，若不能平均分配，则优先分配编号较小的桶，且各桶号的行数差不超过1）

2019.9.6

项目需求

业务路径转化率，按照标准2：判断是否满足业务C步骤，只要求C事件发生前，前面发生过 B ，B前面发生过A，不要求紧邻的规则来求出完成某业务的某步骤的人数有多少
```
* 比如，业务定义的步骤事件分别为： A B C D
* 假如，某个人的行为记录为：
* 张三： A  A  B  A  B  C
* 李四： C  D  A  B  C  E  D
* 王五： A  B  B  C  E  A  D
* 赵六： B  C  E  E  D
```

项目技能提升

规则引擎

企业级管理者对企业IT系统的开发有着如下的要求：
1.为提高效率，管理流程必须自动化，即使现代商业规则异常复杂。
2.市场要求业务规则经常变化，IT系统必须依据业务规则的变化快速、低成本的更新。
3.为了快速、低成本的更新，业务人员应能直接管理IT系统中的规则，不需要程序开发人员参与。

项目经验总结

业务路径转化率代码设计知识点众多，列出完整代码，在代码中根据步骤再做详细的思考总结

  def routeMatch(userActions: List[String], transSteps: List[String]): List[Int] = {
	//  首先定义一个算法，传入用户的操作顺序，和业务的步骤；
	//  求出该用户完成的业务的步骤的list
    //  userActions :   A   B   B   D   A  C  F
    //  transSteps:     A   B   C   D
    //  返回：  List[1,2,3]

    val ints = new ListBuffer[Int]
    var index: Int = 0
    var flag = true
    //这里因为想要取出业务步骤中对应的编号，所以定义角标i
    //这里后面发现需要控制条件当某条件达到时跳出循环；
    //因为scala中没有break，因此使用for循环的守卫，将达成需要跳出的条件时，将守卫条件改为false
    for (i <- transSteps.indices if flag) {
      //每次找到元素后，都要记录这个元素的位置，下一次继续从这个位置找
      index = userActions.indexOf(transSteps(i), index)
      if (index != -1) {
        //角标从0开始，但步骤从1开始
        ints.+=(i+1)
      } else {
        flag = false
      }
    }
    ints.toList
  }

//...省略前面导入用户数据和字典数据

    // 将业务路径定义变成hashmap格式
    /**
      * Map(
      * "t101" -> list[(1,A),(2,B),(3,C),(4,D)]
      * "t102" -> list[(1,D),(2,B),(3,C)]
      * )
      */

    val routeMap: collection.Map[String, List[(Int, String)]] = routeDefine
      // 这里拿到的rdd 的格式是row，里面装了四个字段
      // T101	1	步骤1	A	null
      .rdd
      .map(row => {
        val t_id = row.getAs[String]("tid")
        val t_event = row.getAs[String]("event_id")
        val t_step = row.getAs[Int]("step")

        // 这里是想将row格式，转换为元组模式，有kv，方便分组
        // 取序号出来是为了保证顺序不错
        // (T101,(1,A))
        (t_id, (t_step, t_event))
      })
      // 这里就真的进行分组了，分组后，每个key的value 是一个迭代器
      // T101,(1,A)
      .groupByKey()
      // 拿到每个迭代器，将这个迭代器直接转换为一个list，并按照指定顺序排序
      // T101,List((1,A),(2,B),(3,C),(4,D))
      .mapValues(iter => iter.toList.sortBy(_._1))
      //将这个字典数据收集到driver端，准备当做广播变量发送出去
      .collectAsMap()

    // 广播
    val bc = spark.sparkContext.broadcast(routeMap)


    // 处理用户行为
    val x: RDD[((String, String), String)] = userActionRoute
      //这里返回一个df[Row]
      .select("uid", "sid", "step", "url")
      // 这里拿到的rdd是一个row类型的一列value
      // Row(u01,session1,1,A)
      .rdd
      // 将row类型转换为元组类型，把其中的步骤转成数字
      // Row(u01,session1,1,A)
      .map(row => {
      val uid = row.getAs[String]("uid")
      val sid = row.getAs[String]("sid")
      val step = row.getAs[String]("step")
      val url = row.getAs[String]("url")
      (uid, sid, step.toInt, url)
    })
      //这里groupby，是将同样uid和sid，即同一用户的数据放在一组，这个用户的所有行为信息将被放入一个迭代器
      //(u01,session1),(u01,session1,1,A)
      //(u01,session1),(u01,session1,2,B)
      .groupBy(tp => (tp._1, tp._2))
      //而这里的mapValues， 又是将这个迭代器中的所有元素按照顺序排好序；
      //并将list中的元组map成一个步骤的字符串（从元组中只取出字符串）之后将这个list通过mkString直接变成字符串
      .mapValues(iter => {
        // 这里就是一个人的一次会话中所有行为事件，并且按次序排好序了
        val actList = iter.toList.sortBy(tp => tp._3)
        // 将这个人的这些事件中的url拿来拼一个字符串
        val actStr = actList.map(_._4).mkString("")
        //(u01,session1),"ABSJDUWGS"
        actStr
        })
    // 现在这个RDD就变成一个用户一条了（后面跟他的操作步骤）

    // 拿处理好的用户行为记录，去比对业务路径，看满足哪些业务的哪些步骤

    // 业务字典：
    /**
      * bc:
      * Map(
      * "t101" -> list[(1,A),(2,B),(3,C),(4,D)]
      * "t102" -> list[(1,D),(2,B),(3,C)]
      * )
      */

    // 用户行为 x
    //((u01,s01),XYABCBO)
    //((u02,s02),ACABDBC)


    // TODO  套算法
    val res = x
      //这里是因为一个tp想对应多行，所以输入tp返回一个list，使用flatmap就会自动分成多行
      //输入((u01,s01),XYABCBO)
      //输出 (u01,T101,1)
      //    (u01,T101,2)
      .flatMap(tp => {
        // 用户id "u01"
        val uid = tp._1._1
        // 不toString的话拿到的是个char数组
        // 用户的行为事件序列 List("X","Y","A","B","C","B","O")
        val userActions: List[String] = tp._2.toList.map(c => c.toString) 
        //业务步骤字典数据
        //因为字典中有多条业务的业务步骤，因此，需要遍历这个MAP中的所有业务依次求出用户满足的所有步骤
        val transRoutes: collection.Map[String, List[(Int, String)]] = bc.value

        // 构造一个listbuff来装结果（uid,t_id,t_step）
        val resList = new ListBuffer[(String, String, Int)]

        // 遍历每一项业务
        // 遍历map的方法， 拿到里面的每个entry
        //"t102" -> list[(1,D),(2,B),(3,C)]
        for ((k, v) <- transRoutes) {
          // 业务中的步骤事件序列
          // list(D,B,C) ---> 这是T102(k) 的业务步骤
          val transSteps = v.map(_._2) 

          // 调算法
          // 这里拿到的是 该用户 k业务的 完成步骤List 
          // List(1,2,3)
          val okSteps: List[Int] = TransactionRouteMatch.routeMatch(userActions, transSteps)
          
          //那么我们顺势将用户信息和业务信息加上（这个即为最终想要的输出格式）
          //List[(u01,T102,1),(u01,T102,2),(u01,T102,3)]
          val resOneTrans = okSteps.map(okStep => (uid, k, okStep))
          //将该用户的每一个业务list都添加到这个用户的resList中去，
          resList ++= resOneTrans
        }
        //List{List[(U1T1S1),(U1T1S2),(U1T1S3)],List[(U1T2S1),(U1T2S2)]}
        //打平后会将每个元组作为一行，即为所求
        resList
      })
      .toDF("uid", "tid", "stepid")

    res.show(20, false)
    spark.close()

项目知识点补充

可以使用ListBuffer来构造一个可变的list，不需要用mutable arryalist
mkString将list变成String
string.tolist 得到一个char数组 .map(_.toString()) 后得到String数组
使用groupBy算子将RDD 分组，这样即可以得到一个value的迭代器，方便后面针对迭代器里面的内容进行聚合
关于不能再foreach中调用list.remove方法
进行上述操作时会抛出ConcurrentModificationException，原因是迭代器在调用next方法是会调用checkModification方法，检查modCount（集合被修改的次数）和expectedModCount（迭代器期待集合被修改的次数）是否相等；modCount为Arraylist的成员变量(继承自父类AbstractList)， expectedModCount为Arraylist的内部类Itr的成员变量,被初始化时会被modCount赋值；当调用Arraylist的remove方法时，只会修改modCount，而不会修改expectedModCount，所以当Itr调用next方法时，就会抛出异常；而Itr自己的remove方法中对二者进行了赋值处理，保证两者相同，而且对cursor属性进行了lastRet赋值，保证了cursor(Itr的属性) 和size(ArrayList的属性)相等；
另外，即使是在集合的最后一个元素时执行的删除，也会使Itr调用next方法，原因是Itr的hasNext方法中判断了ArrayList的成员变量cursor和size 的值是否相等，若不相等则返回true，而通过Arraylist的remove方法删除数据时，size会被减1，但cursor不会更改，导致两者不相等，hasNext方法返回true，还是会调用next方法；

你可能感兴趣的:(数仓项目-DATA_Yiee学习笔记（非开源项目，使用内容请联系我）（上）)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
第一场雪岁月静好_nx
早晨起来，外面白茫茫的一片，总算是下雪了，这还是今年第一场雪呢！走在路上，踩着雪“咯吱咯吱”的，空气很湿润。树上、草坪上、屋顶上都落了白白的一层，天上还零星漂着几点雪。慢慢走在路上，呼吸着清新的空气，感受着冬天的美好，心情也好多了。
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持