大数据知识复习汇总

阶段5：流式计算storm

storm:实时数据计算框架
hadoop包含两个框架：hdfs和mapreduce
storm和hadoop的区别在于storm只负责计算不负责存储
storm框架如何获取数据：spout。spout从任何地方取数据，比如文件，数据库，reids等
hadoop用textinputformat获取数据
hadoop用mapreduce计算数据，storm用Bolt计算数据
storm继承baserichspout类读取数据。实现里面的三个方法：
open(初始化方法),nexttuple(循环调用的方法),declareOutputFields（定义字段）
storm继承basebasicbolt类处理数据，实现了execute和declareOutputFields方法
hadoop的map和reduce之间有shuffle，把单词放到迭代器里面。而storm没有，直接就发到下一个bolt去了
topologyBuilder负责生成storm的应用程序（用shuffleGrouping方法）
storm任务的提交分为本地模式和集群模式
pom.xml中的plugin标签可以把依赖的jar包打成一个包
storm集群上运行的命令为storm jar jar包驱动类全路径
storm程序中的某一个环节计算能力跟不上的时候，需要增加多个线程。这个概念叫并行度。在setBolt里面增加参数。
storm分组的概念：数据怎么分发，分发给谁:轮询；哈希；随机；指定发送给某个线程(直接分组)；广播发送(一式多份)；
local or shuffle grouping（local指的是当前jvm，shuffle指的是集群）如果storm程序中的并行度总数太多，就放到多个jvm中运行。可以按照字段分组。
为了减少jvm之间数据传输的开销，如果数据分发没有严格的业务含义，考虑spout数据只发给当前jvm的下游bolt。
config.setNumWorkers可以控制在多个jvm之间分发数据
一般将多个并行度中的实例叫做task。默认情况下一个bolt的并行度是4，分组默认为1。
storm集群中的三个角色：nimbus主节点，supervisor：每个机器上的管理者，UI界面
storm集群启动多少个worker是由用户配置的，每个supervisor启动多少个worker是由nimbus决定的。
storm提交任务的过程：用户提交任务---计算任务分配信息---将任务写入zookeeper---zookeeper的watch机制通知各个supervisor（相当于yarn的nodemaneger）----supervisor下载任务并启动worker
baseBasicBolt里面的prepare方法可以做初始化redis连接等初始化操作。
kafka和storm都依赖zookeeper，可能发生冲突，要在pom文件中排除掉一个。
从kafka中获取的数据是一个field名字为bytes的比特数组
启动storm的命令：storm nimbus,storm supervisor

默认情况下一个supervisor节点会启动4个worker进程
每个worker进程会启动1个executer线程
每个executer会启动1个task

maptask输出时的排序规则
自定义partitioner
将partitioner中getpartition方法的第三个参数设置成numPartitions可以使得每个相同的key分到一个单独的reduceTask
job.setCombinerClass传入reducetask类即可
setgroupingComparatorClass(继承writableComparator)解决topN问题，解决分区之后再按其他指标重新排名（将流量统计结果按照不同省份输出到不同文件）。

setgroupingComparatorClass()(传入的参数类要继承writableComparator)的作用是对reduce端接收数据分组时的key的比较逻辑进行自定义。的应用场景举例：
需求是求每一个订单中成交金额最大的topn。在map阶段我们就要完成分区和按照id和金额排序，因此OrderEntity的compareTo方法先比较订单Id后比较订单金额，
但是这会导致reduce分组时每个id和金额相同的订单会分为一组(map排序和reduce分组都依赖compareTo)，而不是id相同的订单分为一组，阻止了我们在每一个分组中求topn。
然而compareTo方法只能有一个,所以我们就需要setgroupingComparatorClass来自定义reduce端接收数据时的分组方式。
setgroupingComparatorClass的用法是里面有一个构造方法和一个compare方法。

自定义outPutFormat（继承fileOutPutFormat）（传入setOutPutClass方法）可以根据不同情况分别将生成的文件输出到不同的路径.
该类里面有一个自定义的getRecordWriter方法返回你的自定义类，和一个RecordWriter的子类做内部类（也就是你的自定义类）（里面有write方法里面是业务代码，close方法在程序执行完之后执行）
（注释：new Path("xxx").write(xxx)方法可以将数据写入某个hdfs路径）

全局计数器Counter c = context.getCounter("全局计数器的组","全局计数器的值");c.increment(1)
job串联ControlledJob.setjob;addDependingJob;jobControl.addJob;将jobControl放入多线程
mapreduce数据压缩（map和reduce都可以压缩）
ha下java操作hdfs的api变化（hadoop的HA包含hdfs的双namenode消除单点故障和yarn的ResourceManager的ha）：
hdfs地址指定的是hdfs的nameservice，和core-site.xml保持一致，core-site.xml里面配置了nameservice下面的多个namenode及其通信地址

hive的特点：自由扩展集群规模不需要重启；支持用户自定义函数；节点容错
hive有内部表外部表的概念(内部表文件都存在于user/hive/warehouse，外部表建表时指明location)
row format delimited:使用hadoop默认分隔符
fields terminated by ','指定列分隔符
hive加载数据的方式：上传文件，load data inpath''into table xxx,
hive的元数据库在mysql中
建表partitioned by 分区表load data inpath''into table xxx partition(分区字段=xx)。建分区方便查询，只查询当前分区，效率高
stored as textfile存储格式
SEQUENCEFILE|TEXTFILE|RCFILE
如果文件数据是纯文本，可以使用 STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCEFILE。
SEQUENCEFILE不能通过load来加载数据，只能查询其他表后插入
创建分区表：partitioned by (pt_d string)
增删分区alter table add/drop partition()
重命名ALTER TABLE table_name RENAME TO new_table_name
增加更新列：ALTER TABLE table_name ADD|REPLACE/change COLUMNS
注意，分区并不是一个字段，而是一个文件。
1、order by 会对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。
2、sort by不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。
3、distribute by(字段)根据指定的字段将数据分到不同的reducer，且分发算法是hash散列。
4、Cluster by(字段) 除了具有Distribute by的功能外，还会对该字段进行排序。
因此，如果分桶和sort字段是同一个时，此时，cluster by = distribute by + sort by
分桶表的作用：最大的作用是用来提高join操作的效率避免查询全表 Clustered by(字段) into 5 buckets(哈希分桶)
（区分Cluster by和Clustered by，前者是sql语句处理数据用的，后者是建表时用的）

设置属性hive.mapred.mode 为strict能够阻止以下三种类型的查询：
1、  除非在where语段中包含了分区过滤，否则不能查询分区了的表。这是因为分区表通常保存的数据量都比较大，没有限定分区查询会扫描所有分区，耗费很多资源。
不允许：select *from logs;
允许：select * from logs where day=20151212;
2、  包含order by，但没有limit子句的查询。因为order by 会将所有的结果发送给单个reducer来执行排序，这样的排序很耗时。
3、  笛卡尔乘积；简单理解就是JOIN没带ON，而是带where的

分桶：CLUSTERED BY (`campaignid`, `mediaid` ) INTO 100 BUCKETS
create table student4(sno int,sname string,sex string,sage int, sdept string) clustered by(sno) into 3 buckets
对于每一个表（table）或者分区， Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。
把表（或者分区）组织成桶（Bucket）有两个理由：
（1）获得更高的查询处理效率。桶为表加上了额外的结构，Hive 在处理有些查询时能利用这个结构。
具体而言，连接两个在（包含连接列的）相同列上划分了桶的表，可以使用 Map 端连接（Map-side join）高效的实现。比如JOIN操作。
对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以，可以大大较少JOIN的数据量。
（2）使取样（sampling）更高效。在处理大规模数据集时，在开发和修改查询的阶段，如果能在数据集的一小部分数据上试运行查询，会带来很多方便。

分桶机制默认关闭，需要开启。
分桶的表不能load插数据，只能查询其他表插数据

桶表抽样查询
Select * from student tablesample(bucket 1 out of 2 on id)
tablesample是抽样语句，语法：TABLESAMPLE(BUCKET x OUT OF y)
y必须是table总bucket数的倍数或者因子。hive根据y的大小，决定抽样的比例.
如，table总共分了64份，当y=32时，抽取(64/32=)2个bucket的数据，当y=128时，抽取(64/128=)1/2个bucket的数据。
x表示从哪个bucket开始抽取。例如，table总bucket数为32，tablesample(bucket 3 out of 16)，表示总共抽取（32/16=）2个bucket的数据，分别为第3个bucket和第（3+16=）19个bucket的数据。

Hive 支持等值连接（equality joins）、外连接（outer joins）和（left/right joins）。Hive 不支持非等值的连接，因为非等值连接非常难转化到 map/reduce 任务。
另外，Hive 支持多于 2 个表的连接。

reducer 会缓存 join 序列中除了最后一个表的所有表的记录，再通过最后一个表将结果序列化到文件系统。
这一实现有助于在 reduce 端减少内存的使用量。实践中，应该把最大的那个表写在最后（否则会因为缓存浪费大量内存）。例如：
SELECT a.val, b.val, c.val FROM a
JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key2)
这里用了 2 次 map/reduce 任务。第一次缓存 a 表，用 b 表序列化；第二次缓存第一次 map/reduce 任务的结果，然后用 c 表序列化。

LEFT SEMI JOIN是IN/EXISTS的高效实现。

Hive参数配置有以下三种设定方式：
配置文件
命令行参数
参数声明

hive集合类型主要包括：array，map，struct等

UDF 作用于单个数据行，产生一个数据行作为输出。
1、先开发一个java类，继承UDF，并重载evaluate方法
2、打成jar包上传到服务器
3、将jar包添加到hive的classpath
hive>add JAR /home/hadoop/udf.jar;
4、创建临时函数与开发好的java class关联
Hive>create temporary function tolowercase as 'cn.itcast.bigdata.udf.ToProvince';
5、即可在hql中使用自定义的函数tolowercase ip
Select tolowercase(name),age from t_test;

Hive的 TRANSFORM 关键字提供了在SQL中调用自写脚本的功能
适合实现Hive中没有的功能又不想写UDF的情况
SELECT
TRANSFORM (movieid , rate, timestring,uid)
USING 'python weekday_mapper.py'
AS (movieid, rating, weekday,userid)
FROM t_rating;

Hive对文件中的分隔符默认情况下只支持单字节分隔符，,默认单字符是\001。
hive处理特殊分隔符的方式：
1.使用RegexSerDe通过正则表达式来抽取字段
create table t_bi_reg(id string,name string)
row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe'
with serdeproperties(
'input.regex'='(.*)\\|\\|(.*)',
'output.format.string'='%1$s%2$s'
)
stored as textfile;
2.自定义inputformat
1.打包成jar，放到$HIVE_HOME/lib下
2.建表指明自定义的inputformat
create table t_lianggang(id string,name string)
row format delimited
fields terminated by '|'
stored as inputformat 'cn.itcast.bigdata.hive.inputformat.BiDelimiterInputFormat'
outputformat 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat(hive内置的)';

hive不适合做正删改查，hbase适合
hbase是典型的key/value系统。是建立在hdfs之上，实时读写的介于关系型数据库和nosql的数据库系统。主要用于海量结构化和半结构化数据存储。
它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。
Hbase查询数据功能很简单，不支持join等复杂操作，不支持复杂的事务（行级的事务）
与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

HBase中的表一般有这样的特点：
大：一个表可以有上十亿行，上百万列
无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列；
面向列:面向列(族)的存储和权限控制，列(族)独立检索。
稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。
数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时间戳
数据类型单一：Hbase中的数据都是字节数组 byte[]。
hbase的行键按照字典顺序排列。

hbase表中的每个列，都归属与某个列族。列族是表的schema的一部分(而列不是)，必须在使用表之前定义。
列名都以列族作为前缀。例如courses:history ， courses:math 都属于 courses 这个列族。
访问控制、磁盘和内存的使用统计都是在列族层面进行的。
列族越多，在取一行数据时所要参与IO、搜寻的文件就越多，所以，如果没有必要，不要设置太多的列族

Cell
由{row key, column( = + ), version} 唯一确定的单元。
cell中的数据是没有类型的，全部是字节码形式存贮。

hbase删除表之前要先disable table
hbase的java api中的各种过滤器和分页查询

flume可以监控路径，文件。生成的文件可以自动切分。
flume拦截器，自定义拦截器，agent串联
flume内置拦截器有四种，时间拦截器，主机拦截器，静态拦截器，正则过滤拦截器。前三种是为了添加报头，第四种是为了过滤消息。
拦截器起作用于source和channel之间，一个拦截器只能拦截一个source的消息。
flume日志分类采集基于拦截器，在source中配置拦截器，在sink中把拦截器字段作为变量。

自定义Flume拦截器：过滤掉不需要的字段，并对指定字段加密处理，将源数据进行预处理。减少了数据的传输量，降低了存储的开销。
自定义拦截器的使用方法为：
编写一个java类打成jar包放到flume/lib。然后在flume配置文件中指明类的路径，数据的分隔符，分割之后的传入的参数的索引等配置项。

一个source可以配置多个拦截器，同时起作用。

Interceptor(hive拦截器)
用于Source的一组Interceptor，按照预设的顺序在必要地方装饰和过滤events。
内建的Interceptors允许增加event的headers比如：时间戳、主机名、静态标记等等
定制的interceptors(改变和处理日志中的内容)可以通过内省event payload（读取原始日志），实现自己的业务逻辑（很强大）
自定义拦截器实现了Interceptor接口，里面的final变量是通过配置文件传进来的变量。里面有builder内部类实现了Interceptor.Builder。
在Intercept方法里接收event集合，解析出每一个event的每一行再进行进一步处理。
将打好的har包上传到flume的lib文件夹

sqoop导入到hive的本质是先导入hdfs
数据导出必须现在mysql上创建了表。默认模式是insert，更新模式是update

sqoop作业：将命令封装在作业里面（不是调用脚本，就是执行shell命令），执行job的时候会调用
bin/sqoop job --create myimportjob
sqoop job --list查看作业列表
sqoop job --exec myjob执行作业

Sqoop的原理其实就是将导入导出命令转化为mapreduce程序来执行，sqoop在接收到命令后，都要生成mapreduce程序
使用sqoop的代码生成工具可以方便查看到sqoop所生成的java代码，并可在此基础之上进行深入定制开发（用得少）

1)基础分析（PV,IP,UV）
PV(访问量)：即Page View, 即页面浏览量或点击量，用户每次刷新即被计算一次。
IP(独立IP)：指独立IP数。00:00-24:00内相同IP地址之被计算一次。
　　UV(独立访客)：即UniQue Visitor,访问您网站的一台电脑客户端为一个访客。 00:00-24:00内相同的客户端只被计算一次。

storm：实时数据计算框架，不负责存储数据，由spout获取数据，从数据库，文件，redis中等拿数据，bolt计算数据
hadoop离线计算框架，存储数据，由inputformat获取数据，MapReduce计算数据
storm中用TopologyBuilder来生成job
storm的spout中有open,nextTuple(collector.emit方法传递数据到bolt)和field方法，bolt中有execute（input获取的数据的格式是byte[]）和field方法
storm可以本地提交或集群提交
storm提交任务的时候要指定jar包和驱动类(TopologyBuilder类)
某个环节计算跟不上的时候，需要多个线程同时执行，叫做并行度，在TopologyBuilder类里面设置setNumTasks(4)
分组：数据分发给哪个线程（轮询，哈希取模，随机（默认，即为shufflegrouping方法,该方法用于指定处理的先后顺序），指定线程，广播，全局分组，local or shuffle grouping）
local or shuffle grouping（必须在没有业务含义的情况下使用）（为了减少jvm之间传输的开销）:
如果有一个或多个task在同一个jvm进程（每个jvm都有spout和bolt），就发给这些task，否则就如同shuffle grouping
config.setNumWorkers()可以设置jvm的数量。worker就是jvm。不指定的话默认是一个jvm，一个线程。
多个并行度中的实例，称为task.task基本上是平均分配在worker上。

实时日志监控告警的架构：flume，kafka，storm，数据库手机邮件等
后台管理系统设置appId，用于flume过滤，然后运维再启动flume

定时更新规则的实现方式为在bolt的execute中判断是否到了更新配置规则的时间
通过将告警appid和规则id存进redis并设置过期时间来避免重复告警
通过多线程可以设置每个worker只执行一次每隔十分钟规则改变，通过变量控制可以避免一分钟内大量重新加载规则。

大数据风控系统的预警：storm实时获取activemq传送过来的订单信息，解析并匹配规则（规则从规则库中定时加载），匹配成功就通知相关业务员

scala编程.doc 复习scala语法
akka和actor编程还复习

sparkcontext：所有计算的开头
sparkconf：设置配置信息，app名字，设置集群运行模式和本地运行模式
提交到集群运行时，sc.textfile默认是两个分区。本地运行的分区数是自己设置的
spark-submit提交任务

设置cache的地方：小任务遇到shuffle,大任务
shuffle宽依赖最好设置checkpoint
cache放到内存中
checkpoint放到本地磁盘或hdfs

sparksql是spark中操作结构化数据的模块，可以对接文本文件，hive,mysql
sparksql相当于hive
书写代码的两种方式是dataframe和sql
sql：spaeksql集成sql的语法：
1.通过sc加载任意类型的数据
2.创建表结构（case class比class，全部变量都是val，多了tostring,hashcode,equal方法）
3，将数据添加到表结构
4转化成df
5.将df注册成表
6.sqlcontext.sql操作注册的表

map：操作单行
flatmap：压平多行

Spark SQL的应运而生，它是将Spark SQL转换成dataframe
与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，
除了数据以外，还记录数据的结构信息，即schema。同时，与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map）。
从API易用性的角度上看，DataFrame API提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低。

sparksql可以从mysql中读写数据，可以集成hive使用（加载hive中的数据到内存）
sparkstreaming对比storm
flume+sparkstreaming
kafka+sparkstreaming

将数据写入到MySQL中（api）：
//创建Properties存储数据库相关属性
val prop = new Properties()
prop.put("user", "root")
prop.put("password", "123456")
//将数据追加到数据库
sqlcontext.sql("xxx").write.mode("append").jdbc("jdbc:mysql://192.168.10.1:3306/bigdata", "bigdata.person", prop)

从mysql中加载数据（命令行）
val jdbcDF = sqlContext.read.format("jdbc").options(Map("url" -> "jdbc:mysql://192.168.10.1:3306/bigdata", "driver" -> "com.mysql.jdbc.Driver", "dbtable" -> "person", "user" -> "root", "password" -> "123456")).load()
执行查询
jdbcDF.show()

spark对接hive只需要把hive的配置文件hive-site.xml拿过来，告诉spark hive的mysql元数据表的位置
val conf=new SparkConf().setAppName("Spark-Hive").setMaster("local")
val sc=new SparkContext(conf)

//create hivecontext
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ") //这里需要注意数据的间隔符

sqlContext.sql("LOAD DATA INPATH '/user/liujiyu/spark/kv1.txt' INTO TABLE src ");

sqlContext.sql(" SELECT * FROM jn1").collect().foreach(println)

sc.stop()

sparkStream是spark流式处理的框架。可以从kafka,flume,hdfs中读数据，可以将数据写入到hdfs和传统数据库或redis里
sparkStream将流式数据封装成DStream,变成批处理。DStream是一系列连续的RDD，每个RDD含有一段时间间隔内的数据
DStream的操作和RDD的操作相同

//创建SparkConf并设置为本地模式运行
//注意local[2]代表开两个线程(两个线程一个用于收集数据一个用于处理)
val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")
//设置DStream批次时间间隔为2秒）（设置多长时间计算一次）
val ssc = new StreamingContext(conf, Seconds(2))
//通过网络读取数据）（注册监听）
val lines = ssc.socketTextStream("192.168.10.101", 9999)
//将读到的数据用空格切成单词
val words = lines.flatMap(_.split(" "))
...
//开始计算
ssc.start()
//等待停止
ssc.awaitTermination()

updateStateByKey用来解决reduceByKey的不累加性
WINDOWS操作：reduceByKeyAndWindow(窗口显示时间，窗口移动时间)：设置多长时间移动和显示一次。用于绘制k线图，每秒计算流量统计。
val result: DStream[(String, Int)] = textStream.flatMap(_.split(" ")).map((_,1)).reduceByKeyAndWindow((a:Int,b:Int) => (a + b),Seconds(5),Seconds(5))
result.print()

spark和sparkStreaming的区别：sparkStreaming是小批量的rdd处理方式
sparkStreaming从flume获取数据有pull和push两种

用户画像看1348
反外挂看1，复习elk
impala看1.10.11.12

用户画像的流程：数据收集，行为建模，用户画像
静态信息缺少的可以通过建模来判断

电商大数据应用之用户画像.docx
hive整合hbase.doc

Hive整合HBase后的使用场景：
（一）通过Hive把数据加载到HBase中，数据源可以是文件也可以是Hive中的表。
（二）通过整合，让HBase支持JOIN、GROUP等SQL查询语法。
（三）通过整合，不仅可完成HBase的数据实时查询，也可以使用Hive查询HBase中的数据完成复杂的数据分析。

官方网站将日志生产到日志采集服务器nginx中，flume和logstash再将日志采集到kafka中供离线分析和实时分析
京东通过log.gif来访问日志服务器

和传统的日志处理方案相比，ELK Stack 具有如下几个优点：

   处理方式灵活。Elasticsearch 是实时全文索引，不需要像 storm 那样预先编程才能使用；
   配置简易上手。Elasticsearch 全部采用 JSON 接口，Logstash 是 Ruby DSL 设计，都是目前业界最通用的配置语法设计；
   检索性能高效。虽然每次查询都是实时计算，但是优秀的设计和实现基本可以达到全天数据查询的秒级响应；
   集群线性扩展。不管是 Elasticsearch 集群还是 Logstash 集群都是可以线性扩展的；
前端操作炫丽。Kibana 界面上，只需要点击鼠标，就可以完成搜索、聚合功能，生成炫丽的仪表板。

Kafka采用zookeeper作为管理，记录了producer到broker的信息，
以及consumer与broker中partition的对应关系。因此，生产者可以直接把数据传递给broker，
broker通过zookeeper进行leader-->followers的选举管理；消费者通过zookeeper保存读取的位置offset以及读取的topic的partition分区信息。
由于上面的架构设计，使得生产者与broker相连；消费者与zookeeper相连。有了这样的对应关系，就容易部署logstash-->kafka-->logstash的方案了。

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。

Kibana 允许使用者采用 Lucene Query String 语法搜索 Elasticsearch 中的数据。请求可以在页面顶部的请求输入框中书写。
在请求框中输入如下内容。然后查看表格中的前几行内容。friends, romans, countrymen

logstash的filter中可以根据type字段等进行判断和过滤，对数据进行操作和处理，自定义参数并赋值value等

impala是一个高效的sql查询工具，快于hive(mr)和sparkrdd(rdd)
impala是基于hive并使用内存进行计算，兼容hive的绝大多数语法，可以完全替代hive兼顾数据仓库
impala使用的是hive的元数据（但是他是找hive不找mysql），因此使用之前需要启动hive的metadata服务
impala缺点：内存消耗大，每个节点128内存
impala当中数据加载的四种方式：
1.从hdfs load inpath到impala的文件夹
2.create table as select
insert into
insert into select

公司一般是用脚本封装impala命令，少数用java api(使用的是hive驱动类，jdbc方式执行查询并遍历查询结果)

一共要复习九个原理

day03笔记-zookeeper.docx

zookeeper是分布式系统的协调服务，只要有半数以上节点存活就能正常使用
zookeeper应用场景：
主节点的主备切换（主节点挂掉之后zookeeper会将他删除，其他机器监听zookeeper会知道挂了）
主节点的选举
分布式共享锁（进程之间的锁不能用多线程）（每个进程在zookeeper上按照序号从小到大注册和删除自己的锁sequential znode，id最小的可以获得锁，其他的等待）

Zookeeper所提供的服务涵盖：主从协调、服务器节点动态上下线、统一配置管理（统一管理配置文件）、分布式共享锁、统一名称服务（dubbo哪些服务器有某个名称的服务）……
虽然说可以提供各种服务，但是zookeeper在底层其实只提供了两个功能：
a、管理(存储，读取)用户程序提交的数据；
b、并为用户程序提供数据节点监听服务；

zookeeper特性
1、Zookeeper：一个leader，多个follower组成的集群
2、全局数据一致：每个server保存一份相同的数据副本，client无论连接到哪个server，数据都是一致的
3、分布式读写，更新请求转发，由leader实施
4、更新请求顺序进行，来自同一个client的更新请求按其发送顺序依次执行
5、数据更新原子性，一次数据更新要么成功（半数以上节点成功），要么失败
6、实时性，在一定时间范围内，client能读到最新数据（一致性同步的时间延迟：毫秒之内。是实时的）

读数据的时候会找最新的数据版本，原理为paxos《paxos一致性算法原理》一致性算法和流言
zookeeper不适合做大量数据的存储，都是保存的小数据。每个znode数据要小于一兆（配置文件里面设置），最好是在1k之内

Znode有两种类型：
短暂（ephemeral）（客户端断开连接自己删除，常用）
持久（persistent）（客户端断开连接不删除）

创建 ZooKeeper 节点 (znode路径： zoo2, 数据： myData2 ，权限： OPEN_ACL_UNSAFE（一般只用这个开放的权限），节点类型： Persistent");
zk.create("/zoo2", "myData2".getBytes(), Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);

初始化zkclient的时候创建的监听可以监听到zk的所有变化(需要在getdata中将监听参数设置为true)，可以筛选自己关心的进行处理event.getpath和gettype
zk.getData("/zoo2", true, null);返回结果是字节数组
设置所有版本的数据：zk.setData("/zoo2", "shenlan211314".getBytes(), -1);
监听子节点：getChildren(path,watch?)监听的事件是：节点下的子节点增减变化事件
删除某路径所有版本的数据：zk.delete(this.thisPath, -1);
Stat s = zk.exists("/zoo2", true)布尔值代表是否持续监听，监听的话也可以传入Watcher。Stat是元数据，不存在时为null。

zookeeper的选举机制（zk的数据一致性核心算法paxos）
以一个简单的例子来说明整个选举的过程(根据id来选举).
假设有五台服务器组成的zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的.假设这些服务器依序启动,来看看会发生什么.
1) 服务器1启动,此时只有它一台服务器启动了,它发出去的报没有任何响应,所以它的选举状态一直是LOOKING状态(第一个服务器选举自己)
2) 服务器2启动,它与最开始启动的服务器1进行通信,互相交换自己的选举结果,由于两者都没有历史数据,所以id值较大的服务器2胜出,
但是由于没有达到超过半数以上的服务器都同意选举它(这个例子中的半数以上是3),所以服务器1,2还是继续保持LOOKING状态.
3) 服务器3启动,根据前面的理论分析,服务器3成为服务器1,2,3中的老大,而与上面不同的是,此时有三台服务器选举了它,所以它成为了这次选举的leader.
4) 服务器4启动,根据前面的分析,理论上服务器4应该是服务器1,2,3,4中最大的,但是由于前面已经有半数以上的服务器选举了服务器3,所以它只能接收当小弟的命了.
5) 服务器5启动,同4一样,当小弟.

非全新集群的选举机制(数据恢复，需要考虑数据version，选大的)
那么，初始化的时候，是按照上述的说明进行选举的，但是当zookeeper运行了一段时间之后，有机器down掉，重新选举时，选举过程就相对复杂了。
需要加入数据version、leader id和逻辑时钟。
数据version：数据新的version就大，数据每次更新都会更新version。
Leader id：就是我们配置的myid中的值，每个机器一个。
逻辑时钟：这个值从0开始递增,每次选举对应一个值,也就是说: 如果在同一次选举中,那么这个值应该是一致的 ; 逻辑时钟值越大,说明这一次选举leader的进程更新.
选举的标准就变成：
       1、逻辑时钟小的选举结果被忽略，重新投票
       2、统一逻辑时钟后，数据id大的胜出
       3、数据id相同的情况下，leader id大的胜出
根据这个规则选出leader。

redis中的value内部可以支持各种数据结构类型，比如可以存入一个普通的string，还可以存list，set，hashmap，sortedSet（有序的set）
redis应用场景
A、用来做缓存(ehcache/memcached)——redis的所有数据是放在内存中的（内存数据库）
B、可以在某些特定应用场景下替代传统数据库——比如社交类的应用
C、在一些大型系统中，巧妙地实现一些特定的功能：session共享、购物车
只要你有丰富的想象力，redis可以用在可以给你无限的惊喜…….

redis的特性
1、redis数据访问速度快（数据在内存中）
2、redis有数据持久化机制（持久化机制有两种：1、定期将内存数据dump到磁盘；2、aof(append only file)持久化机制——用记日志的方式记录每一条数据更新操作，
一旦出现灾难事件，可以通过日志重放来恢复整个数据库）
3、redis支持集群模式（容量可以线性扩展）
4、redis相比其他缓存工具（ehcach/memcached），有一个鲜明的优势：支持丰富的数据结构

jedis是redis的客户端(api和命令行代码很相似)
reids本质上是存储字节数组。
存储对象要将对象转化成字节数组。也可以将对象转换成json串存储进value
jedis.lpush(“”，“”)从左边插入list
List功能演示
#从头部（左边）插入数据
redis>LPUSH key value1 value2 value3
#从尾部（右边）插入数据
redis>RPUSH key value1 value2 value3
#读取list中指定范围的values
redis>LRANGE key start end
redis> lrange task-queue 0 -1 读取整个list
#从头部弹出一个元素
LPOP key
#从尾部弹出一个元素
RPOP key
#从一个list的尾部弹出一个元素插入到另一个list
RPOPLPUSH key1 key2 ## 这是一个原子性操作

Redis中的Hashes类型可以看成具有String Key和String Value的map容器

redis 127.0.0.1:6379> hset user001:zhangsan iphone 6
(integer) 1

取出hash数据中一个指定field的值
redis 127.0.0.1:6379> hget user001:zhangsan xiaomi
"8"

Set数据结构功能
集合的特点：无序、无重复元素
插入一条set数据:
redis 127.0.0.1:6379> sadd frieds:zhangsan bingbing baby fengjie furong ruhua tingting
(integer) 6

获取一条set数据的所有members:
redis 127.0.0.1:6379> smembers frieds:zhangsan

02_离线计算系统_第2天（HDFS详解）.docx

hadoop集群分为hdfs集群和yarn集群

一条hdfs元数据是150字节

namenode checkpoint过程：
1.通知secondary namenode准备checkpoint
2.切换日志文件，往新的edits文件里面写日志
3.secondary namenode下载日志文件和image镜像
4.secondary namenode将镜像文件加载到内存，然后将edits文件与之合并
5.将secondary namenode内存中的文件恢复成镜像文件回传给namenode并替换原来的image

reducetask数量比partition分区数少的时候会报错。但是reducetask为1时partition组件会失效

使用combiner组件要保证不能影响业务

maptask机制：
maptask通过inputformat.getrecordreader来获得recordreader对象
recordreader调用nextkey和nextvalue方法从切片中读取key value,然后将值传入map方法
context.write将map()处理后得到的key value用mapoutputCollect调用collect方法将数据传入环形缓冲区（默认大小100m）。环形缓冲区默认溢出比为80%。
环形缓冲区溢出到spiller时会排序，用compareTo。
溢出组件spiller调用spill方法将数据写入磁盘（溢出可能有多次，但至少有一次）
写入磁盘的过程中会分区.分区getPartition方法
多次溢出的各个磁盘文件要进行合并，两两分区排序，最终合并成一个。文件两两之间合并时使用归并排序，combiner程序在此时进行数据合并
为了方便reducetask来读取数据，还会生成一个索引文件，记录每个分区的起始偏移量

mrappmaster协调mapreduce，例如哪个reduce处理哪个分片的数据

reducetask机制：
reducetask去每个maptask拉取相应分区的数据(http下载)
合并成一个有序文件，归并排序
用groupingComparator组件判断key是否相等，分批调用reduce方法。
outputformat.getrecordwriter获取recordwrite调用write方法输出数据

shuffle过程机制：指的是从maptask将数据输出到磁盘开始，到reducetask调用reduce方法读取数据为止。包含数据的缓存，分区排序，数据的分发传输等

03_离线计算系统_第3天（MAPREDUCE详解）.docx

maptask并行度机制：
切片是一个逻辑概念，默认切片大小是hdfs的block size，128m。切片是在客户端的jobSubmiter，fileinputformat.getsplit进行的
将计算好的切片filesplit序列化到job.split文件中，将该文件提交给mrappmaster,一起提交的还有程序和配置等，由 mrappmaster决定启动多少个maptask

小文件场景下切片机制会让大量的maptask处理很少数据，效率低下，处理方法：
1.文件上传到hdfs之前进行文件合并（常用）
2.上传hdfs之后合并
3.修改getsplit源码（难）

通过分析源码，在FileInputFormat中，计算切片大小的逻辑：
Math.max(minSize, Math.min(maxSize, blockSize)); 切片主要由这几个值来运算决定
minsize：默认值：1
配置参数： mapreduce.input.fileinputformat.split.minsize
maxsize：默认值：Long.MAXValue
配置参数：mapreduce.input.fileinputformat.split.maxsize
blocksize
因此，默认情况下，切片大小=blocksize
maxsize（切片最大值）：
参数如果调得比blocksize小，则会让切片变小，而且就等于配置的这个参数的值
minsize （切片最小值）：
参数调的比blockSize大，则可以让切片变得比blocksize还大

但是，不论怎么调参数，都不能让多个小文件“划入”一个split

选择并发数的影响因素：
1、运算节点的硬件配置
2、运算任务的类型：CPU密集型还是IO密集型
3、运算任务的数据量

map并行度的经验之谈
如果硬件配置为2*12core + 64G，恰当的map并行度是大约每个节点20-100个map，最好每个map的执行时间至少一分钟（这个要测试才能确定处理多少数据才能运行一分钟）。
如果job的每个map或者 reduce task的运行时间都只有30-40秒钟，那么就减少该job的map或者reduce数，每一个task(map|reduce)的setup和加入到调度器中进行调度，
这个中间的过程可能都要花费几秒钟，所以如果每个task都非常快就跑完了，就会在task的开始和结束的时候浪费太多的时间。
配置task的JVM重用可以改善该问题：
（mapred.job.reuse.jvm.num.tasks，默认是1，表示一个JVM上最多可以顺序执行的task
数目（属于同一个Job）是1。也就是说一个task启一个JVM）

如果input的文件非常的大，比如1TB，可以考虑将hdfs上的每个block size设大，比如设成256MB或者512MB

尽量不要运行太多的reduce task。对大多数job来说，最好reduce的个数最多和集群中的reduce持平，或者比集群的 reduce slots小。这个对于小集群而言，尤其重要。

mapreduce和yarn交互过程

分片完之后用yarn的rpc客户端yarnClientImpl（注意他不是yarn）,他去读取配置文件中的mapreduce.framework.name
如果设置的是local，会启动localJobRunner（本地mr模拟器）
如果设置的是yarn，就读取yarn.resourcemanager.hostname中的ip和端口，找到yarn的老大resource manager，请求运行一个程序
resource manager会返回一个jobid和一个用于提交资源的路径
客户端提交资源（job.split,jar,xml）到指定的路径
yarn通知客户端提交资源完毕
初始化任务信息，加入yarn的任务调度队列
node manager从resource manager的队列里面领取到任务
node manager根据任务信息创建一个容器container
客户端发送shell命令到Node manager的容器container中启动mrappmaster
mrappmaster根据提交的资源向resourcemanager请求资源节点，得到分配的其他node manager,这些node manager里面也有container容器
在每个container里面启动maptask和reducetask(他们的进程名字都是yarnChild)
全部处理完之后，container向resource manager注销自己

yarn只做资源的分配和调度，mr程序，storm程序，spark程序都可以运行在yarn集群上
yarn是在hadoop2.0出现的，在此之前资源的调度在mr的内部进行，使用jobTracker(只有一个)(相当于resource manager+mrappmaster)和Task tracker(node manager+task)

yarn的三种资源调度器：
先进先出（缺点是大任务会阻塞其他小任务）
容量调度器（两个队列，留一个给小任务，缺点是预留一块内存影响大任务的执行）
公平调度器（动态调整系统资源，取上面两种的优点）

//通过动态设置自定义计数器加1（全局计数器）（第一个参数是计数器的组，第二个参数是计数器的名字）
context.getCounter("counterGroupa", "countera").increment(1);

mapreduce数据压缩是mapreduce的一种优化策略：通过压缩编码对mapper或者reducer的输出进行压缩，以减少磁盘IO，提高MR程序运行速度（但相应增加了cpu运算负担）
1、Mapreduce支持将map输出的结果或者reduce输出的结果进行压缩，以减少网络IO或最终输出数据的体积
2、压缩特性运用得当能提高性能，但运用不当也可能降低性能
3、基本原则：
运算密集型的job，少用压缩
IO密集型的job，多用压缩

1、Flume分布式系统中最核心的角色是agent，flume采集系统就是由一个个agent所连接起来形成
2、每一个agent相当于一个数据传递员，内部有三个组件：
a)Source：采集源，用于跟数据源对接，以获取数据
b)Sink：下沉地，采集数据的传送目的，用于往下一级agent传递数据或者往最终存储系统传递数据
c)Channel：angent内部的数据传输通道，用于从source将数据传递到sink

sqoop工作机制:将导入或导出命令翻译成mapreduce程序来实现

Hbase基本组件说明：
Client：
包含访问Hbase的接口，并维护cache来加快对Hbase的访问，比如region的位置信息。
HMaster：
是hbase集群的主节点，可以配置多个，用来实现HA
为RegionServer分配region
负责RegionServer的负载均衡
发现失效的RegionServer并重新分配其上的region

RegionServer：
Regionserver维护region，处理对这些region的IO请求
Regionserver负责切分在运行过程中变得过大的region

Region:
分布式存储的最小单元。

Zookeeper作用:
通过选举，保证任何时候，集群中只有一个HMaster，HMaster与RegionServers 启动时会向ZooKeeper注册
存贮所有Region的寻址入口
实时监控Region server的上线和下线信息。并实时通知给HMaster
存储HBase的schema和table元数据
Zookeeper的引入使得HMaster不再是单点故障(意思是可以实现HA)

hbase权威指南
hbase中regionserver的范围按照rowkey划分指定
regionserver和datanode尽量部署在一起，防止io操作

day15_HBASE课程学习课件.docx里面有hbase的原理

写操作先写入memstore（每个store有一个memstore）,当memstore中的数据量达到某个阈值，Hregionserver启动flashcache进程写入storefile,每次写入形成单独一个storefile

每个storefile当中有一个布隆过滤器（是一种空间效率很高的随机数据结构），假如通过对比数组的每一位检查通过，
那么被检查的元素很可能存在，否则不存在。假如不存在，再继续检索其他文件，只是效率低了不影响正确性。
一个storefile中包含多个rowkey记录。

hbase删除数据的时候并没有从hdfs中删除，只是打上了一个标签使其不能被查询到。可以通过compact操作真正删除。
compact分为大合并和小合并，删除数据是在小合并。小合并合并几个storefile，大合并合并整个region，会做大量磁盘io消耗性能。

memstore是内存，为了防止丢失，使用hlog。当向region中写入数据的时候，会异步的将日志写入hlog存储在hdfs上。hlog属于region的一部分

总结：client缓存的是region的位置信息等元数据信息，memstore缓存的是具体数据

client访问hbase上数据的过程并不需要master参与（寻址访问zookeeper和region server，数据读写访问regione server），master仅仅维护者table和region的元数据信息，负载很低。

region按大小分割的(默认10G)，每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，Hregion就会等分会两个新的Hregion。
当table中的行不断增多，就会有越来越多的Hregion。

Hregion是Hbase中分布式存储和负载均衡的最小单元。最小单元就表示不同的Hregion可以分布在不同的HRegion server上。但一个Hregion是不会拆分到多个regionserver上的。

HRegion虽然是负载均衡的最小单元，但并不是物理存储的最小单元。
事实上，HRegion由一个或者多个Store组成，每个store保存一个column family。
每个Strore又由一个memStore和0至多个StoreFile组成。

hfile的底层是索引和指针

寻址流程
现在假设我们要从Table2里面查询一条RowKey是RK10000的数据。那么我们应该遵循以下步骤：
1. 从.META.表里面查询哪个Region包含这条数据。
2. 获取管理这个Region的RegionServer地址。
3. 连接这个RegionServer, 查到这条数据。

系统如何找到某个row key (或者某个 row key range)所在的region
bigtable 使用三层类似B+树的结构来保存region位置。
第一层：保存zookeeper里面的文件，它持有root region的位置。
第二层：root region是.META.表的第一个region其中保存了.META.表其它region的位置。通过root region，我们就可以访问.META.表的数据。
第三层： .META.表它是一个特殊的表，保存了hbase中所有数据表的region 位置信息。

说明：
(1) root region永远不会被split，保证了最需要三次跳转，就能定位到任意region 。
(2).META.表每行保存一个region的位置信息，row key 采用表名+表的最后一行编码而成。
(3) 为了加快访问，.META.表的全部region都保存在内存中。
(4) client会将查询过的位置信息保存缓存起来，缓存不会主动失效，因此如果client上的缓存全部失效，则需要进行最多6次网络来回，才能定位到正确的region
(其中三次用来发现缓存失效，另外三次用来获取位置信息)。

StoreFile以HFile格式保存在HDFS上。

读请求过程：
1 客户端通过zookeeper以及root表和meta表找到目标数据所在的regionserver
2 联系regionserver查询目标数据
3 regionserver定位到目标数据所在的region，发出查询请求
4 region先在memstore中查找，命中则返回
5 如果在memstore中找不到，则在storefile中扫描（可能会扫描到很多的storefile----bloomfilter）
补充：布隆过滤器参数类型有2种：
Row、row+col

2、写请求过程：
1 client向region server提交写请求
2 region server找到目标region
3 region检查数据是否与schema一致
4 如果客户端没有指定版本，则获取当前系统时间作为数据版本
5 将更新写入WAL log
6 将更新写入Memstore
7 判断Memstore的是否需要flush为StoreFile文件。

master上线
master启动进行以下步骤:
1 从zookeeper上获取唯一一个代表active master的锁，用来阻止其它master成为master。
2 扫描zookeeper上的server父节点，获得当前可用的region server列表。
3 和每个region server通信，获得当前已分配的region和region server的对应关系。
4 扫描.META.region的集合，计算得到当前还未分配的region，将他们放入待分配region列表。

master下线
由于master只维护表和region的元数据，而不参与表数据IO的过程，master下线仅导致所有元数据的修改被冻结
(无法创建删除表，无法修改表的schema，无法进行region的负载均衡，无法处理region 上下线，无法进行region的合并，
唯一例外的是region的split可以正常进行，因为只有region server参与)，
表的数据读写还可以正常进行。因此master下线短时间内对整个hbase集群没有影响。

storm集群启动过程分析
手动启动nimbus(主节点)和supervisor（从节点）
storm启动过程：
1.判断参数是否足够(storm nimbus和storm supervisor)（参数代表了执行命令）
2.根据不同的参数，调用不同的方法
3.方法中解析conf/storm.yaml的配置信息，nimbus和supervisor分别解析各自的jvm参数
4.拼装日志路径和参数，启动java程序。

supervisor启动worker过程：
nimbus分配任务之后，将任务信息写入到zk
supervisor通过zk的watch机制感知到指定目录的变动
supervisor判断是否有自己的任务，有则启动worker
supervisor启动worker需要告诉worker运行哪个Jar,这个jar包的名字，supervisor的id，worker的端口号，supervisor给worker分配的id

client提交任务过程（从代码提交类中就可以看出来）：
storm提交jar包
stormtopologydriver驱动类中的main方法被执行。main方法会准备任务信息，生成stormtopology对象
向集群或者本地提交任务

nimbus任务分配过程：
将client提交的任务封装到一个队列中
反序列化topology应用程序配置文件，知道topology需要几个worker，有几个executor，有几个task，默认情况下executor=task
nimbus需要知道有多少个supervisor，每个supervisor有多少个worker，有哪些worker空闲
将spouttask和bolttask平均分配给worker
将分配好的任务信息写入zk，目录名称即为topology的id，由nimbus生成。

storm任务分配的几种策略：
新任务提交
monitor容错机制任务重新提交
rebalance负载均衡

worker启动task过程：（前提条件是一个worker可以启动多个task，且可以执行spout和bolt两种类型的task）
worker获得任务信息，知道自己启动哪几个task
循环启动task
启动时判断启动的是spout还是bolt，分别启动spoutthread和boltthread

storm的ack容错机制（storm消息容错指的是数据在处理中出现异常时，需要保证消息被完整处理）：
期望：一个环节出现异常时，spout能够重新发送一份数据
问题：storm如何知道消息的处理状态:baseRichSpout里面有两个方法，分别是成功和失败后调用：
成功：collector.ack()
失败：collector.fail(msgid)
如果忘记手动ack或fail的话，storm会等待反馈直到超时，然后直接fail
如果忘记标识锚点或血缘关系，那么storm不再关心后面阶段的处理状况

baseBasicBolt不再需要手动ack和指定锚点和血缘关系。失败了之后直接抛异常failedException即可

ack机制的实现原理（异或算法，两个相同的结果为0，不同的结果为1）：
发送数据时，同时发给spout/bolt和ack，一式两份，将两个状态进行对比异或，成功则为0
Tuple里面有ROOtID锚点（标识消息）id（每个bolt不一样）（两个id都是64位长整型）和spoutTask。最后将rootid变回用户的msgid（开始时将rootid和msgid用map做了映射）

spout如何知道一条消息的处理状态：
成功：ack(Object msgid)
失败：fail(Object msgid)
bolt如何将消息处理的状态告知spout:
collector.emit(new value())
collector.ack(Object msgid)消息处理成功时
collector.fail(Object msgid)处理失败时

spout重新发送数据并不是自动的，需要手动在fail方法里重新调用collector.emit方法
spout发送数据的时候，需要定制msgid,他是一个object。当消息处理成功或者失败的时候，storm框架会将msgid传回来进行重发等操作。
bolt的execute方法中进行了两个操作：
1.发送数据时，指定血缘关系（锚点）collector.emit(父tuple,new 子tuple)
2.当execute处理完业务逻辑的时候，需要告诉storm框架当前阶段的处理状态collector.ack(tuple)

spout和bolt之间互相发消息携带的信息为spout task和,rootid为系统生成的storm集群中的唯一标识64位随机长整型。由于用户在发送数据的时候指定了msgid，所以在发送数据的时候创建了map。
spout和bolt之间传递信息的同时都会向acl bolt传送，在下游bolt处理完之后会返回，根据rootid将锚点id与ackvalue异或并将结果发回给spout。
注意，发送给ackbolt的数据没有spouttask，只有

storm通信机制（worker与worker的跨进程通信用socket，worker内部的各个executor的通信）：
每一个task对象都有输入队列--执行--输出队列
同一个worker内部的task之间用map来传递数据
跨worker将数据序列化之后用netty传输数据，由taskid得到worker的ip+端口。从map拿到nettyclient然后发送数据。然后nettyserver接受数据。然后就是内部传输数据了。
nettyserver收到数据之后按照数据要发送的taskid先放进各个反序列化队列disruptorQueue(每秒钟处理600万消息，因为没有锁)，有单独的线程去队列里拿数据给每一个task
（nettyclient在每个task中都有一个）

storm数据分发机制（也就是数据流是如何串联起来的）：
shufflegrouping（随机/hash算法分发给一个bolt的不同task），然后携带目标taskid进行数据传递。源码里为MKGroup类在实现数据分发机制。

Kafka核心组件
Topic ：消息根据Topic进行归类
Producer：发送消息者
Consumer：消息接受者
broker：每个kafka实例(server)
Zookeeper：依赖集群保存meta信息。

zookeeper在kafka中的作用是：
1存储集群相关信息
2生产的元数据信息
3消费的元数据信息

kafka的partition：
创建topic的时候可以指定partition的数量，决定了该topic的目录（里面有原始数据和索引文件）存在于多少台机器上

kafka partition分组策略：默认为hash partition，还可以轮询，随机等。
kafka中每个partition都可以设置副本数，解决某个broker挂掉的数据丢失问题
如果设置多个副本，生产数据的时候选出并发给leader，由leader接受和提供消费数据，并同步到其他机器的副本中

kafka的producer端负责数据的partition分发，设置分发的方式为props.put("partitioner.class","")

自定义partition：写一个类实现partitioner接口（该类必须加构造器否则报错）
producer。send方法中必须指定key。另外三个参数是partitionkey，topicid和消息内容。如果不指定，会用当前的key代替partitionkey

如果自定义partitioner一直往一个机器里面发送数据，会每十分钟切换一次。

partition的segment段：
到一定大小就分割文件。各个segment段的消息数量不一定相同
index文件存储的是消息id和日志文件中的日志记录存储在磁盘的位置，日志文件存储的是消息。所以两者结合可以找到某个索引的消息。

kafka的速度为什么这么快（为什么消息吞吐量大）：
顺序写入磁盘，大大快于随机写入（600m每秒：100k每秒）
依赖操作系统底层提供的pagecache，当写操作时，操作系统只是把数据写入了pagecache。当读操作时，首先从pagecache读，没有才从磁盘中读。pagecache是把空闲内存当成了磁盘缓存。
（kafka重启的话pagecache的缓存不会失效）
sendfile技术：从前发送数据是磁盘--系统缓存--应用缓存--网络缓存--发送，sendfile是磁盘--系统缓存--网络缓存--发送，减少了一个数据拷贝的过程

consumergroup之间消费的数据互不干扰
每个consumer对应一个或多个分片，一个分片在同一个consumergroup中只能属于一个consumer

kafka配置文件解析：
生产者集群：partitioner，压缩方式，序列化机制，ack确认机制（0不等待确认；1leader收到消息后发送ack；-1所有follower都同步成功之后再发送ack），
异步模式缓存数据时间条数以及数据发不出去时的处理方式（停止接受信息或抛弃缓存信息）
kafka集群：线程数，segment时间阈值大小阈值，检查大小是否超过阈值的间隔
消费者集群：zk配置，配置判断是否挂点的时间，每次取多少条数据多大数据，多久更新一次offset，zk没有offset信息时是选择smallest还是largest（默认）

数据从kafka生产到storm消费阶段的不丢失和重复消费的分析：
生产者使用同步模式时，将确认机制设置为-1
生产者使用异步模式时，将数据缓存设置为无超时限制，不丢弃数据
数据消费时，在storm开启ack机制
如果不使用storm，确认数据处理完成之后，再更新offset值

数据重复消费如何处理：
将消费的唯一标识保存到外部介质，每次判断
不管也可以

akka（实现多个进程之间通信,编写并发的分布式的应用程序）（负载均衡，高并发。可扩展，高可用）：
rpc就是不同进程之间的方法调用
除了akka之外，通信框架还有jetty，netty等
akka的底层是scala
akka的老大叫ActorSystem，用于创建和监控actor
可以有多个进程，一个进程里面有多个actor
不同ActorSystem下面的actor要进行通信，首先ActorSystem之间要建立连接

看到了akka通信小例子，见myrpc05

actor的prestart方法在构造函数之后执行，receive之前执行

context.actorSelection("akka.tcp://actorsystemname@ip:port/user/actorname")获取actor引用用于通信

akka底层封装了消息的序列化和反序列化

akka的模式匹配，免去了java的反射和动态代理的操作

rdd定义为弹性的分布式数据集，包含了只读的（不能修改数据），分区的（每个rdd算子有多个分区），分布式计算（每个分区上的rdd都可以分别计算）的概念

学习spark源码的作用：根据原理调整参数，进行性能调优
spark的worker向master汇报心跳和核数，内存等
master启动一个调度器周期检查worker的健康情况，移除不可用的worker
start-all.sh是整个spark集群启动的入口
spark-submit.sh是程序启动后的入口
start-all.sh中启动了spark-config.sh(加载配置)，start-master.sh,start-slaves.sh

start-master.sh调用了start-daemon.sh org....master ip port，start-daemon.sh调用spark-class，spark-class调用java -cp org....master，也就是执行了master类的main方法

start-slaves.sh调用start-slave.sh做了和start-master.sh一样的事情启动了worker

启动Master的流程：
执行main方法，创建actorsystem，启动actor
在master的主构造器中，初始化了很多变量
执行actor中的prestart，创建调度线程每隔1分钟执行检查过期worker的操作。若超时，将该map和map的信息从内存删除，
移除该worker上执行的任务，将该worker的持久化信息删除，留下hashset。
worker没有心跳后，master会等待16*60=16分钟（16个超时时间）然后将hashset中的该worker信息删除。如果在这个时间内worker重新发送心跳，
master会发送消息重启worker调度器发送心跳。若worker超过了16分钟时间再发送心跳，master不予理会。

启动worker的流程：
执行main方法，创建actorsystem，启动actor
在worker的主构造器中，封装了一些变量和集合（id--workerinfo，address--workerinfo），供以后使用
执行actor中的prestart，向master注册自己的信息。然后master将worker的信息存入内存。注册成功之后worker更新master的信息,启动定时线程，向master发送心跳，每隔15秒
master判断是否已经注册过和worker是否是dead状态/standby状态，若都不是，则将该workerinfo持久化。
等收到master的返回消息，worker开启一个调度线程，定期发送心跳。

假如master判断每注册过节点或者为dead，就重新注册这个worker，并通知worker更新master信息

master的schedule()调度方法是来调度任务的，集群刚启动的时候没有任务，所以暂不执行。这个方法的作用是提交任务后，触发任务的分配

spark任务提交后执行前的逻辑：
1.spark-submit脚本提交任务，会通过反射的方式调用到我们提交的类的main方法。
2.在自己的代码中new sparkcontext()
3.创建actorsystem，并创建属于他的两个actor，clientactor和driveractor
4.创建三个任务，一个分发任务（taskscheduler），一个调度任务(sparkdeployschedulerbackend)，一个划分任务（DAGScheduler）（）
5.clientactor向master注册app(job jar)信息，并传递driveractorUrl
6.master将app保存起来
7.通过worker的心跳和注册，知道集群有多少资源
8.对比app需要的资源和集群现有的资源，进行资源分配
9.通知worker启动executor并传递driveractorUrl
10.driveractor针对worker进行任务的监听和接收
11.当executor接收任务后，将任务反序列化调用rdd算子执行，将结果保存到内存中
12.将计算结果持久化
其中划分任务是当action触发后，进行stage划分，并创建一个线程池，然后从一个阻塞队列里面取值（有任务就读取，没任务就等待，他不死）；
划分之后提交给任务分发的类，将stage封装成taskset；然后执行调度任务，并通知driveractor向driver循环发送任务，将task序列化之后提交给worker的actor

集群提交任务后调用spark-submit脚本的流程（到调用我们提交的类的main方法之前）
1.在spark-submit脚本中启动了org.apache.spark.deploy.SparkSubmit类，调用了他的main方法
2.在main方法中匹配任务的提交形式，是submit还是kill等，如果是submit，则调用submit方法
3.在submit方法中调用dorunmain方法，然后调用runmain方法
4.在runmain方法中通过Class.forname反射方式实例化了自己提交的类
5.调用自己实现的类的main方法

任务分发调度和任务调度详解（在自己提交的程序中的逻辑）：
1.通过SparkConf设置程序需要的参数（setmaster，setappname），最终将参数保存在ConcurrentHashMap[string,string]()中
2.new sparkContext()，这个类是程序的入口，非常重要
3.在sparkContext类的主构造器中，创建了sparkDriver的actorSystem，并且启动
4.通过sparkContext.createTaskScheduler创建了TaskSchedulerImpl(任务分发)，然后创建调度并将其设置为任务分发的成员变量
5.创建DAGScheduler,划分整个DAG（job）
6.先后调用任务分发任务和任务调度任务的start方法
7.创建DriverActor，然后启动DriverActor,执行其主构造方法和prestart方法，从任务列表中拿出任务并分发任务
8.封装整个job的描述
9.创建AppClient,封装参数，调用其start方法创建clientActor？？？？？？clientActor现在才创建？？不是actorsystem创建的？？？？
10.执行clientActor主构造器，封装参数，然后执行其prestart方法？？？？？？？？？？？？？？

master收到clientactor任务后，进行worker资源分配的流程：
12.在prestart方法中调用registerWithMaster，然后调用tryRegisterWithMasters
13.在tryRegisterWithMasters中拿到master的连接地址，然后拿到master的actor，向master发送消息
14.master收到消息后创建app的描述，放入内存
15.注册app（将app信息记录在内存），并且持久化app
16.给clientActor发送消息，使得client记录appid，设置注册状态为true，改变masterurl，对任务设置监听
17.master执行调度方法schedule，通过计算app需要的资源和集群worker剩余的资源，进行计算分配（主打散分配，副集中分配），并记录资源分配情况

任务提交之后的准备阶段总结：
1.任务提交给master之后，master进行了worker资源的分配
2.任务提交之后，client启动了任务的监听功能（阻塞队列，触发action的时候任务会提交到阻塞队列）

master执行调度方法schedule通知worker启动executor的流程：
1通过计算app需要的资源和集群worker剩余的资源，进行资源分配，并将分配的资源记录在assigned中
2开始记录executor的执行资源和状态
3.向worker发送启动executor的任务信息（worker创建工作目录，创建executorRunner，创建接收和执行任务的executor，修改worker的可用资源量，向master发送修改executor的状态信息）
4.向clientActor？？？？？？？？？？？发送一个executor的添加信息，设置监听和分配任务

代码的action执行后，触发的任务提交流程（提交之后的流程）：
1.DAGScheduler进行stage的划分（shuffle宽依赖之前切一刀）
2.将划分好的stage提交给taskSchedulerImpl这个任务分发的类
3.taskSchedulerImpl将stage封装成taskset
4.调用调度任务进行任务的分发调度
5.调度任务通知driverActor循环发送任务
6.driverActor将任务序列化之后提交给executor
7.executor将任务反序列化执行，调用rdd算子，将结果保存到内存中
8.将结果持久化

任务开始触发的流程（注意，transformation算子可以是宽依赖也可以是窄依赖）：
1.读取hadoop文件sc.textFile()生成了两个rdd，一个hadooprdd，一个mappartitionrdd（以后的每一步transformation都是mappartitionrdd）
2.执行reduceByKey时，生成shufflerdd（hadooprdd和mappartitionrdd是窄依赖，shufflerdd是宽依赖）
（提交任务时，最后保存到硬盘的时候sc.saveAsTextFile的时候又创建了一个mappartitionrdd，他是action）
3.任务提交，提交之后放入任务队列
4.监听该队列的线程进行匹配，识别不同类型的任务
5.任务划分（提交之后的流程，见上面）

如何划分stage：
先从后往前遇到宽依赖就砍一刀，然后以递归的方式创建stage
（获取所有父类的stage，不断往前获取，再返回来），依次赋值stage和parentStage，最后的形式为new stage（new stage（new stage（）））
老师总结：

将stage封装到taskset，提交给executor流程：
1.将finalstage拆分成多个stage（用递归的方式：拿到并判断有没有父stage，若有继续判断父stage有没有父stage。
假如没有，把第一个stage和jobid提交到任务分发任务，如此依次从前到后顺序提交stage到runningstage队列。）
2.逐个将分好的stage依据分区数分为多个task放进taskset，以备下发到每一个分区进行计算（程序发送到数据所在机器，避免了数据的io传递）
3.将taskset放进先进先出队列
4.开始发送任务到driverActor
5.driverActor取出taskset并发送给worker进行计算（需要序列化和反序列化）(是worker向driverActor发送的请求要求分发任务，在的master的命令下)

executor（进程名和全名叫CoarseGrainedExecutorBackend）执行任务的流程：
1.反序列化任务
2.创建taskRunner线程并将它加入队列，标记已经执行了task，不要再重复下发任务
3.将taskRunner线程放进线程池（该线程池是executor在主构造器中创建的）
4.调用线程的run方法
5.反序列化任务（因为包了两层序列化，第一层是taskset的序列化，第二层是包了一层buffer方便io）拿到所有task
6.执行task的run方法，解析出task中的rdd
7.最终执行rdd中的方法，拿到运行结果返回给executor
8.将结果记录，写入各种存储或内存

将stage提交给集群进行运算（老师写的，从划分完stage开始写）的流程：
1finalstage创建成功之后，提交他
2从后往前找stage，找到第一个stage然后顺序提交stage到任务分发任务TaskSchedulerImpl
3.将stage封装成两种，shufflemaptask和resulttask
4.将task封装成taskset，让任务分发任务去分发任务
5.将taskset发送到driveractor
6.循环taskset中的task，将每个task进行两次序列化，然后提交到worker集群
7.executor反序列化消息
8.调用executor的launchtask方法提交任务
9.在launchtask中，通过线程池启动线程，在线程中运行rdd算子，并保存结果
10.继续提交下一个stage到任务分发任务TaskSchedulerImpl，直到任务结束

scala Actor的作用是并发编程，开发多线程应用程序。他底层封装了并发（比java的手动并发编程方便）。
scala在2.11.x版本中将akka加入其中作为其默认actor并废弃了老版本actor
actor是一种编程规范，其他语言也有

mapreduce读取多个文件：
FileInputFormat.setInputPaths(job, new Path[] { new Path("hdfs://192.168.9.13:8020/gradeMarking"),
　　　　　　 new Path("hdfs://192.168.9.13:8020/implyCount") });

HDFS的HA机制详解
通过双namenode消除单点故障
双namenode协调工作的要点：
   A、元数据管理方式需要改变：
   内存中各自保存一份元数据
   Edits日志只能有一份，只有Active状态的namenode节点可以做写操作
   两个namenode都可以读取edits
   共享的edits放在一个共享存储中管理（qjournal和NFS两个主流实现）
   B、需要一个状态管理功能模块
   实现了一个zkfailover，常驻在每一个namenode所在的节点
   每一个zkfailover负责监控自己所在namenode节点，利用zk进行状态标识
   当需要进行状态切换时，由zkfailover来负责切换
   切换时需要防止brain split现象的发生

你们数据库怎么导入 hive 的,有没有出现问题
在导入 hive 的时候，如果数据库中有 blob 或者 text 字段，会报错，解决方案在 sqoop 笔
记中？？？？

上千万或上亿数据（有重复），统计其中出现次数最多的钱 N 个数据：
先用红黑树统计出现次数，再将键值对反过来，插入二叉堆，取得前n个数据。复杂度为1亿*logN

怎么在海量数据中找出重复次数最多的⼀个？
⽅案 1：先做 hash，然后求模映射为小⽂件，求出每个小⽂件中重复次数最多的⼀个，并记录重复
次数。然后找出上⼀步求出的数据中重复次数最多的⼀个就是所求（二叉堆取topn）

海量日志数据，提取出某日访问百度次数最多的那个 IP:
首先是这一天，并且是访问百度的日志中的 IP 取出来，逐个写入到一个大文件中。
注意到 IP 是 32 位的，最多有个 IP。同样可以采用映射的方法，比如模 1000，把整个
大文件映射为 1000 个小文件，再找出每个小文中出现频率最大的 IP（可以采用 hash_map
进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这 1000 个最大的 IP
中，找出那个频率最大的 IP，即为所求。

海量数据分布在 100 台电脑中，想个办法高校统计出这批数据的 TOP10:
首先用在每个电脑上构造二叉堆取出top10，再合并成1000个数据用同样方法取出top10。

倒排索引：
基本原理及要点：为何叫倒排索引？⼀种索引⽅法，被用来存储在全⽂搜索下某个单词在⼀个⽂档或
者⼀组⽂档中的存储位置的映射。
以英⽂为例，下面是要被索引的⽂本： T0 = "it is what it is" T1 = "what is it" T2 = "it is a banana"
我们就能得到下面的反向⽂件索引：
"a": {2} "banana": {2} "is": {0, 1, 2} "it": {0, 1, 2} "what": {0, 1}
检索的条件"what","is"和"it"将对应集合的交集。
问题实例：⽂档检索系统，查询那些⽂件包含了某单词，比如常见的学术论⽂的关键字搜索。

logstash可以从文件，kafka等数据源读取数据

azkaban与oozie使用上的区别总结：
azkaban要创建job文件，附上依赖文件，还要写明每个job之间的依赖关系，打成zip包上传到创建的project计划中，azkaban可以设置执行时间，更改文件内容等。
oozie主要分为workflow工作流和schedule调度，前者可以在hue界面创建各种任务,书写配置项并设置依赖关系，后者调度前面的工作流并设置执行时间，开始结束时间等。

sqoop从mysql导出到hdfs命令：
bin/sqoop export \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--table emp2 \
--export-dir /user/hadoop/emp/

导入到hdfs：
$bin/sqoop import \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--table emp --m 1

导入到hive：
bin/sqoop import --connect jdbc:mysql://hdp-node-01:3306/test --username root --password root --table emp --hive-import --m 1

导入到hdfs指定目录：
bin/sqoop import \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--target-dir /queryresult \
--table emp --m 1

导入数据的子集：
bin/sqoop import \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--where "city ='sec-bad'" \
--target-dir /wherequery \
--table emp_add --m 1

按需导入：
bin/sqoop import \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--target-dir /wherequery2 \
--query 'select id,name,deg from emp WHERE id>1207 and $CONDITIONS' \
--split-by id \
--fields-terminated-by '\t' \
--m 1

增量导入是仅导入新添加的表中的行的技术。
它需要添加‘incremental’, ‘check-column’, 和 ‘last-value’选项来执行增量导入。
下面的语法用于Sqoop导入命令增量选项。
bin/sqoop import \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--table emp --m 1 \
--incremental append \
--check-column id \
--last-value 1205

导出到mysql：
bin/sqoop export \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--table emp2 \
--export-dir /user/hadoop/emp/

创建sqoop作业（就比直接执行任务多了--create xxxjob）：
bin/sqoop job --create myimportjob -- import --connect jdbc:mysql://hdp-node-01:3306/test --username root --password root --table emp --m 1

hive创建分区表：
create table student_p(Sno int,Sname string,Sex string,Sage int,Sdept string) partitioned by(part string) row format delimited fields terminated by ','stored as textfile;

增删分区：
alter table student_p add/drop partition(part='a') partition(part='b');
重命名表：
ALTER TABLE table_name RENAME TO new_table_name
增加和更新列：
ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)
显示命令：
show tables;
show databases;
show partitions table_name;
show functions;
desc extended table_name;
desc formatted table_name;

load数据：
LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO
TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]
OVERWRITE 关键字：
如果使用了 OVERWRITE 关键字，则目标表（或者分区）中的内容会被删除，然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。
如果目标表（分区）已经有一个文件，并且文件名和 filepath 中的文件名冲突，那么现有的文件会被新文件所替代。
插入数据：
INSERT OVERWRITE [INTO] TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM from_statement
查找数据：
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
JOIN table_other ON expr
[WHERE where_condition]
[GROUP BY col_list [HAVING condition]]
[CLUSTER BY col_list
| [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list]
]

你可能感兴趣的:(大数据)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
数字化（电子化）招标采购平台系统核心功能详细介绍 xinyuan_123456 oracle
数智化招标采购平台覆盖全业务类型、全采购流程、全采购方式，是郑州信源公司运用“互联网+”、大数据、人工智能、区块链、物联网等新兴技术，结合供应链管理理念，以招标采购为核心，提供交易、管理、数据、服务、监管为一体的高标准采购管理平台，赋能政企用户实现采购业务全流程的电子化、数字化、智慧化。根据产品功能及应用领域，产品包括：企业数智化招采供应链平台、金融数智化招采平台、政府数智化采购平台、公共资源数智
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数