宇宙中的Philip

大数据笔记（学习归纳）

本文初衷是为了学习归纳，若有错误，请指出。

修改记录

时间	内容
2020年4月10日	第一次发布
2020年4月16日	添加MaxCompute SQL部分
2020年9月14日	新增数仓部分笔记

大数据架构

基础知识题

大数据组件概念

集群：多个人做同样的事

分布式：多个人协作，干不同的事情。

Hadoop：Hadoop是一个分布式存储和计算框架，具有高可靠, 高扩展, 高容错的特点（数据副本和集群）；由底层HDFS分布式文件系统负责存储，和MapReduce负责分布式计算，以及后续增加的yarn负责资源协调管理。

Yarn：yarn是hadoop２.０为了分离资源管理和计算组件而引入的，yarn的诞生源于存储在HDFS的数据需要更多的交互模式，能提供更多的处理框架，而不单单是MR模式。

ZooKeeper：是一个分布式的，开放源码的，用于分布式应用程序的协调服务（service），基于观察者模式，接受观察者的注册，然后监听数据变化。

Hive：是由FaceBook开源的一个数据仓库工具，主要用于解决海量结构化日志的数据统计，可以将结构化的数据文件映射成一张表，并提供类似于SQL的查询方式来统计分析海量数据（主要离线分析），本质上是将HSQL转化成MapReduce程序。

参考文章：

《hadoop之hadoop用途方向》：https://blog.csdn.net/zhang123456456/article/details/77657807

《大数据基本概念》：https://www.sohu.com/a/259640251_741445

大数据环境搭建

1.介绍一下集群搭建的过程？

下载hadoop 2.X，下载JDK1.8，安装CentOS7镜像，这里我自己是用VM虚拟机的环境来搭建三台集群。
安装Linux系统并停掉防火墙，禁止SeLinux，配置时间同步定时刷新集群系统时间
通过VM直接克隆出另外两台机器，配置IP地址，确保三台机器相互之间能ping通，能联网。
然后增加专门用于hadoop的hadoop用户，为root用户和hadoop都配置ssh免秘钥登录：
- 首先修改/etc/hosts文件，每台机器都生成公钥秘钥，并把公钥拷贝到彼此之间的机器上
- 然后集群机器互相验证免秘钥登录
- 接着添加本地的公钥文件到自己的认证文件authorized_keys中，否则后续格式化hadoop可能报错。
最后每台机器都安装hadoop和JDK，并添加对应环境变量，然后配置hadoop的四大核心配置文件（core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml）
取某一台机器做namenode节点进行格式化hadoop，接着启动hadoop验证集群是否搭建成功。

简述的过程是：

安装CentOS7虚拟机 --> 配置IP、hosts文件和时间同步 --> 设置免秘钥登录 --> 安装hadoop --> 格式化hadoop --> 启动hadoop和运行mr程序。

2.说一两个搭建过程遇到的坑？

hdfs namenode -format 格式化的时候失败过，一开始是ssh免秘钥登录的问题，后面又是yarn-site.xml配置文件的格式问题，最好从其它地方粘贴的配置代码先用工具格式化一下，并检查里面是否有中文符号。

另一个坑是虚拟机联网问题，我这里是用自定义网络然后选的vm-ware8，集群的IP一定要在同一网段，并且网关要和物理机上vm-ware8的IP地址相关联。

HDFS

1.请介绍一下HDFS？

Hadoop由三部分组成：HDFS、分布式计算MapReduce和资源调度引擎Yarn。

HDFS 是一个分布式文件系统，负责文件存储。它的文件系统和平时看到的Linux很像，有目录结构，顶层目录是/，存放着文件，以及可以对文件进行增删，修改，移动等功能，不同的是它具有分布式的特点，hdfs的文件系统可以横跨多个机器，文件可能是存储在不同机器上的，但用户在使用时会被当作是存储在一台机器上。

HDFS具有高可用、容错率高、可扩展的特点。

在HDFS中有一个核心概念-block块。

HDFS上的文件，是按照128M为单位，切分成一个个block的，分散的存储在集群的不同数据节点上。128M是指上限，实际可能block文件的大小不到128M。

而为了保证数据的可用及容错，每一个block都可以设置副本数，默认是3，在集群搭建中，在hdfs-site.xml文件就可以设置默认副本数。每一个block的副本并不会存放在同一个服务器上面，而是分开存储在不同服务器，假如第一个block块暂时奔溃了，HDFS的主节点就会为了维持设置的block副本数，会重新在其它服务器上创建一模一样的block1。

HDFS的体系架构是典型的主从架构Master/Slave，有客户端和服务端，客服端通过NameNode主节点来访问存放在各个DataNode上的文件信息，NameNode负责管理每个子节点，同时还有secondaryNameNode做备份主节点。

在NameNode管理每个DataNode过程中，有心跳机制能让namenade周期性地从集群中的每个datanode接受心跳信号和块状态报告，以便得知各集群节点是否正常运行，同时在hadoop集群刚启动时也会用到心跳机制，此时会先进入一个安全模式，等心跳确认99.9%的节点都正常后才进行正常工作，允许外界写入文件到HDFS。

HDFS有一个重要特性，那就是高可用，实现高可用最关键的是消除单点故障，会用到刚才体系架构中提到的SecondaryNamenode，概括来说就是当处于active状态的Namenode节点出问题后，他们之间有zookeeperFC会通知另一个暂时处于Standby状态的SecondaryNamenode准备替换工作，zookeeperFC是用来协调监控NameNode的，通知后原来的NameNode变成Standby状态，而SecondaryNamenode进行运行工作。

HDFS的联邦对应于HDFS的可拓展的特点，可以解决内存受限的问题，提高吞吐量和隔离不同类型的应用，但一般集群规模达到几千台的情况下才可能用到联邦（联邦，即支持多个NameNode主节点，每个Namenode分管一部分的元数据目录，并共享所有datanode存储资源）。

至此HDFS概括性介绍完毕，对于HDFS的读写流程请翻看其它回答。

2.HDFS的机制是指什么，它有什么作用？

HDFS的机制是指它的心跳机制，我们知道HDFS是典型的Master/Slave主从架构，由一个Namenode管理多个Datanode过程中HDFS会用到它的心跳机制，其工作原理如下：

1.首先master启动的时候，会开一个icp server；
2.接着各个slave从节点启动时，连接上master，并且每隔3秒就向master发送一个icp server的”心跳“，携带状态信息；
3.然后master通过这个心跳的返回值，得知从节点的状态，并向从节点传达命令。

心跳机制的作用有三点：

（1）Namenode通过心跳机制全权管理数据，它周期性地从集群中的每个namenode接受心跳信号和块状态报告，有心跳意味着从节点工作正常，块状态报告中也会有该datanode上所有数据的列表。

（2）Datanode启动后向Namenode注册，并通过心跳上报数据块列表，3秒发送一次心跳，返回并执行Namenodede命令，如果10分钟都没有发送，代表这个Datanode出问题不可用。

（3）hadoop集群刚启动时会进入一个安全模式，这个安全模式也会用到心跳机制，只有Namenode得到99.9%datanode的反馈后安全模式才会解除。

3.请简述下HDFS文件的读写流程

HDFS读流程
- 在获取文件名称后，运行在JVM虚拟机上的HDFS客户端，通过文件系统调用Namenode上的RPC方法（远程调用），让Namenode返回给客户端关于块的位置信息
- 客户端获得位置信息后，就通过FSDataInputStream找到不同DataNode节点建立连接并读取数据
- 数据源源不断的写入客户端，假设第一个block读取完成，就关闭指向该DataNode的连接，接着读下一个，以此类推。
- 在读取数据过程中，存储在datanode的block本身有一个crc32位的校验码，当读取给客户端时会重新生成一个crc校验码，并对比前后两次校验码，相等说明读取的跟存入的是同一个文件。
HDFS写流程

客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本。

在写入数据的过程中，底层会有一个data queue队列和ack queue队列，写入数据时，block块是按一个一个字节来将数据写入到一个名为chunk的小块（chunk中包含4byte的校验值），写满chunk后再放到一个package中，后续每个package要加入到data queue队列。

data queue中的package会逐步被发送到对应的datanode及其副本，同时还会复制一份写到ack queue队列中。待package写入完成后会重新生成校验值，这时拿新的校验值和ack queue中的package的校验值一一比对，如果比对成功，ack queue就删除对应package，如果比对不成功那么ack就把package发送回data queue再传输写入一次。

4.HDFS存储大量的小文件会发生什么问题？

首先Namenode存储着文件系统的元数据，元数据记录了文件、块、目录，大约占150字节大小。如果hdfs的小文件过多，那么会占用元数据中记录文件的内存，给Namenode造成压力，影响hadoop存储和访问的效率。

通常可以通过两种方法处理：

HAR文件方案：启动mr程序，通过hadoop archive命令将小文件压缩成一个har文件，适用于文件归档。

Sequence Files方案：还不太会用，暂不说明。

5.block块为什么设置比较大？是不是越大越好？

block的大小是由磁盘传输速度决定的，比如磁盘传输速度是200MB/S，那么block一般设定256MB。

如果block太大，那么从磁盘传输数据的时间会明显变慢，另一方面，mapreduce中的map任务一般一次处理一个block块，如果块过大，mr的处理速度也会变慢。

如果block太小，那么就会跟hdfs存储大量小文件的问题一样，会给namenode造成内存的压力。

MapReduce分布式计算

1.MapReduce的shuffle过程是怎么样的？

MapReduce的shuffle过程实际上包含在map阶段和reduce阶段，也就是Map Shuffle和Reduce Shuffle；

Map Shuffle的过程是对map的结果进行分区排序，然后按照同一分区的输出合并在一起写入到磁盘中，最终得到一个分区有序的文件。大致流程是：
- 从map task输出的kv对数据会先写入到一个环形缓冲区，大小为100MB，但写满80%时就会溢出写入到磁盘文件；
- 在写入到磁盘文件的过程中，会对kv对进行HashPartition分区和排序，HashPartition是mr程序默认的分区方法，它会对kv对的key求hash值，然后对reduce的个数求模运算，最后得到的分区号作为分配给不同reduce的根据，分区后具有相同分区号的键值对存储在一起，每个分区里面的键值对又按key值进行排序。
- 接下来会判断是否需要combine压缩具有同一键的键值对数据
- 然后作为map输出准备传输给reduce
Reduce Shuffle过程中，是从reduce端通过网络传输向磁盘获取map输出开始，中间reduce shuffle也会把键相同的键值对数据放到一起，然后排序合并，最终形成一个整体有序的数据块，但这个过程是一直到调用reduce方法之前，也就是reduce shuffle并不包括调用reduce方法、

2.Combiner的作用

Combiner为了避免map task和reduce task之间的数据传输压力而设置的，它允许用户针对map task的输出指定一个合并函数，这个函数可以压缩具有同一key值的键值对，从而减少传输到reduce的数据量，减少网络带宽和reduce的负载。

但实际上combiner是作为可选项，有没有设置或者设置多少次都不会影响最终结果，在shuffle过程中会判断是否设置而进行压缩。

3.如何诊断是否有数据倾斜存在并处理？

数据倾斜有两种原因：（1）某一个key对应的键值对数量要远远大于其它键的键值对数量；（2）部分数据记录的大小远超过平均值。

可以在MR程序的reduce方法中追踪每个键的最大值，并且设置阈值，当超过该阈值时就可以认为发生了数据倾斜，可以输出到日志文件进行分析。
第二种是很对编写MR程序时，从业务层面去考虑自定义的分区键是否合理。就跟ADS库建表时可以默认指定哪个字段作为分区键。
MR程序中改用TotalOrderPartitioner替换HashPartitioner，它可以通过对原始数据进行抽样得到的结果集来预设分区边界值，也就是能找出导致数据倾斜的key值，再分散处理。
MR程序中使用Combiner。

4.简述一下MapReduce的过程

MapReduce是采用一种分而治之的思想设计出来的分布式计算框架，它由两个阶段组成：map阶段和reduce阶段。

在map阶段中：

首先读取HDFS中的文件，每个文件都以一个个block形式存在，block中的数据会被解析成多个kv对，然后调用map task的map方法；
map方法对接收到的kv对进行分片处理，转换输出成新的kv对；
然后对kv对进行分区和排序压缩，中间会涉及到map的shuffle过程，最后存入本地磁盘，供后续reduce task作为输入参数使用。

在reduce阶段中：

reduce方法将多个map task的输出，按照不同的分区传输到不同的reduce 上进行合并排序，这中间也涉及到reduce的shuffle过程（shuffle就像洗扑克牌一样）
然后reduce方法对输入的键值对汇总计算，输出计算结果
最后把reduce的输出保存在HDFS文件中。

Yarn资源调度框架

1.介绍下Yarn的框架？（重要）

Yarn的框架也是经典的主从结构，和HDFS的一样，大体上yarn由一个ResourceManager和多个NodeManager构成，RM为主节点，NM为从节点。

ResourceManager是一个全局的资源管理器，负责整个系统的资源调度管理和分配，包括处理客户端请求、启动并监控ApplicationMaster，监控NodeManager，以及分配和调度资源。

在ResourceManager中由两个组件构成： Schedule调度器和ApplicationManager应用程序管理器

Schedule调度器会根据容量、队列等限制条件，对应用程序的资源需求进行资源分配。（调度器有三种：先进先出调度器，容量调度器和均分调度器）
ApplicationManager则主要负责管理整个系统中所有应用程序，接受job请求，为应用分配一个Container来运行ApplicationMaster并管理，它和ApplicationMaster的区别是Master运行在NodeManger上的，而ApplicationManager是ResourceManager内部的一个组件。

ApplicationMaster负责管理yarn内运行的应用程序的每个实例，负责协调来自ResourceManager的资源，并通过NodeManager监控容器的执行和资源使用情况。

NodeManager在集群上有多个，它负责每个节点上的资源使用，处理ApplicationManager的请求，以及负责接受ResourceManager的资源分配命令，分配具体的Container给应用，同时还将Container的使用情况报告给ResourceManager。

这里的Container实际上是一个资源抽象概念，代表系统上分配的资源，包括内存、磁盘、IO等。

具体过程如下：

当客户端应用程序向ResourceManager提交应用需要的资源请求后，ResourceManager中的ApplicationManager接受到请求，并返回一个Container给NodeManger，告诉NodeManager启动一个ApplicationMaster实例。

ApplicationMaster启动后向ResourceManager注册，此时客户端可以和ApplicationMaster直接交互，并告诉它需要的资源请求；后续ApplicationMaster继续发送资源请求给ResourceManager，待ResourceManager的Schedule处理后返回具体的Container信息，ApplicationMaster接收到资源信息后会分配给各个NodeManager来启动运行job任务（比如mr程序，内部是多个map task、reduce task）。

在运行过程中，客户端和ApplicationMaster保持交互，可以得知程序的运行情况。ApplicationMaster此时主要监控和管理任务运行，而NodeManager会定时向ResourceManager汇报自身的运行状况和Container的使用信息，待程序运行完毕后，ApplicationMaster关闭，并向ResourceManager归还所有Container。

概括来说其过程如下：

应用程序提交 --> 申请资源 --> 启动ApplicationMaster --> 申请运行任务的Container --> 分
发Container --> 运行task任务 --> task任务结束 --> 回收Container。

另外还有JobHistoryServer（作业历史服务，记录在yarn中调度的作业历史运行情况）和 Timeline Server（写日志数据），需要手动开启。

2.Yarn的动态性是指什么？

是指多个应用程序的ApplicationMaster动态地和ResourceManager进行沟通，不断地申请资源，释放，再申请，再释放资源的过程。

3.Yarn的调度器有哪三种？他们的区别是什么？（重要）

yarn中有三种调度器选择：FIFO Scheduler（先进先出调度器），Capacity Scheduler（容量调度器），Fair Scheduler（均分调度器）

三种调度器区别
- hadoop1.x使用的默认调度器就是FIFO。FIFO采用队列方式将一个一个job任务按照时间先后顺序进行服务，比较好理解，哪个任务先进来就先完成它，在继续下一个任务。
- hadoop2.x使用的默认调度器是Capacity Scheduler。Capacity Schedule调度器以队列为单位划分资源，队列有独立的资源，队列的结构和资源是可以进行配置的。
- Fair Scheduler调度器会为所有job任务动态调整系统资源，且是平均分配的形式，让任务公平的共享集群资源

Zookeeper分布式协调框架

1.请简单介绍下Zookeeper？（重要）

ZooKeeper是一个分布式的，开放源码的，用于分布式应用程序的协调服务。

Zookeeper有攘其外，安其内的特点，也就只指它内部和谐统一，外部一致对外。

攘其外是指Zookeeper服务端有两种模式：单机的独立模式和集群的仲裁模式，所谓仲裁是指一切事件只要满足多数派同意就执行，不需要等到集群中的每个节点反馈才执行。Zookeeper本身也是服从主从架构的，在仲裁模式下会有一个主要的节点作为Leader（领导者），而其余集群中的节点作为Follower（公民），对某一事件是否执行，leader都会先征询各个follower的反馈信息再做决定，如果多数派同意，leader就将命令下发到所有的follower去执行。

安其内是指Zookeeper的leader选举，leader的选举会发生在集群启动时和运行中leader挂了，概括选举过程也是少数服从多数选出新leader。

在Zookeeper中的数据结构也是个重要概念，因为Zookeeper所提供的服务主要是通过它以下三部分组成：

Zookeeper = Znode（数据节点，也是简约版文件系统）+ 原语（可以理解成Zookeeper的命令） + Watcher（通知机制，类似监听器）

Znode可以分为持久节点和临时节点，在用Zookeeper的命令create创建文件时默认时一个持久节点，而临时节点是会随着会话关闭而删除。另外也可以创建为有序节点，在创建时追加一个自增数字的标识。

Watcher通知机制类似于监听器的过程，即有注册 + 监听事件＋　回调函数，客户端在znode上注册一个Watcher监视器，当znode上数据出现变化，watcher监测到此变化就会通知客户端。在HDFS的HA高可用上也用到了Zookeeper的这种机制。

２.Zookeeper的工作原理？

３.Zookeeper读写流程：

在Client向Follwer发出一个读写的请求
Follwer把请求发送给Leader，Leader接收到以后开始发起投票并通知每个Follwer进行投票
Follwer把投票结果发送给Leader
Leader将结果汇总后如果需要读取或写入，则开始执行同时把读写操作通知给Follwer，然后commit
Follower执行并把请求结果返回给Client

4.加入Zookeeper中某个Follower出故障了怎么办？（重要）

这会启动Zookeeper的状态同步过程。具体来说如下：

在完成leader选举后，各Follower和leader进行连接通信，并在每一次事务执行时，Follower都会把自己的最大事务ID发送给leader，当某个Follower出故障后，leader就根据原先该Follower发送的zxid确定同步点，向它同步记录最大zxid之后的内容。

当完成同步后，会通知Follower已成为为update状态，Follower受到update消息后，就可以重新接受客户端的请求继续工作。

Hive

1.概括性地介绍一下Hive及其用法？（重要）

Hive主要解决海量结构化日志的数据统计分析，它是hadoop上的一种数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类似于SQL的查询方式，本质上来说是将Hive转化成MR程序。

Hive与其它数据库的区别：

Hive数据是存储在HDFS，本质上是转换成mr程序执行，因此查询效率比较慢，涉及mr程序的资源调度和任务计算；HDFS的数据操作是支持覆盖追加，它不支持update和事务；扩展性好，可以在多个集群上做应用开发；Hive的读时速度快，因为在加载数据时并不会做数据校验，在读取数据时才会校验数据；处理数据规模大，适合于海量数据查询。
Hive的优缺点：
- 优点：操作接口采用类SQL语法；不用写MR程序来计算；支持用户自定义函数
- 缺点：不支持update和事务；查询延时严重。
Hive的架构原理
- Hive首先是一个客户端工具，它提供了一些用户可操作的接口，可以通过交互shell，JDBC和web UI方式连接Hive，在Hive的内部有个Driver驱动器，驱动器里面实现了解析器，编译器，优化器和执行器的功能，在用Hsql查询表时，sql语句在驱动器中会先做语法和语义解析，解析之后再进行相应的语法编译，然后在通过优化器时产生逻辑计划和物理计划，并进行优化，最后在执行器中转换成对应的mr jar包，打包给hadoop集群运行获得结果.
- 其中，在用SQL查询语句之前，Hive会将存放在hdfs的数据和对应的表建立映射关系，而记录这些映射信息和表结构信息的元数据，会存放在Hive指定的数据库中，比如mysql或者它自身warehourse目录下。
- 大体流程如下：

用户接口（shell、JDBC、Web UI） --> Driver（解析、编译、优化、执行）–> MR程序 --> hadoop集群

Hive的交互方式有三种：Hive交互Shell，Hive JDBC服务和Hive的命令
- Hive交互Shell：直接输入在hive中/bin目录下的hive命令，进行sql查询
- JDBC服务：
  - 启动hiveServer2服务：bin/hive --service hiveserver2
  - 然后 beeline命令连接hiveserver2：
```
bin/beeline
beeline> !connect jdbc:hive2://node1:10000
```
- Hive命令：在hive命令后面加 -e 选项后，接sql查询语句即可。
```
bin/hive -e "show databases;"
```
Hive的数据类型和mysql的类似，常用的int、bigint、double、string、date、boolean，还有smallint、tinyint、float、varchar、timestamp，另外还有三种复合数据类型：array（数组），map（键值对），struct（一组命名的字段），复合类型在建表时需要特别指定。
Hive的建表操作
- Hive的表可以分为外部表和内部表，外部表创建时需要执行EXTERNAL关键字，它仅记录数据所在的存储路径，删除数据时外部表只是删除表的元数据，在重新建表后能直接关联上原来的数据，通常用作底层表；而内部表不需要指定EXTERNAL关键字，在删除数据后会把表的元数据和真实数据一起删除，通常用作中间表。
- 建表时建议指定分区，partitioned by，分区是把表的数据分目录存储在不同文件夹中，后期查询时可以避免全量扫描提升查询效率，可以指定一级分区，二级分区等；分区有动态和静态之分，在插入数据时可以给定具体的分区值做静态分区的方式插入，也可以只写明分区键做动态分区的方式插入，动态分区的方式会根据插入数据的值自动划分分区，但可能产生较多的小文件，浪费系统内存和IO。
- 还可以指定分桶，Clustered by，分桶类似于将文件切分，它是将整个数据内容按照分桶键的值做hash算法，得出的结果再和分桶数做模运算来进行切分，指定了分桶表之后，后续select查询条件要加tablesample(bucket x out of y)，适用于需要抽样调查的情况。
- 最后建表时可以指定每一行中字段的分隔符，用”row format delimited fields terminated by“指定；可以指定文件存储类型，stored as 二进制文件，文本文件、或列式存储文件。以及指定表在hdfs上的存储位置location。
Hive数据的导入和导出
- Hive数据导入：
  - 第一种，用load data导入数据：
```
load data [local]  inpath  'dataPath'  override |　into table student [partition 分区值];
```
  - 第二种，创建表时指定location数据路径，后面如果该路径本身有数据会导入到表中，如果是空文件可以用手动上传数据文件到hdfs中：
    
    hdfs fs -put /opt/bigdata/student.txt /user/hive/warehouse/student1
  - 第三种，可以在建表时as select * from 某张表，也可以insert into｜override table时select * from某张表。
  - 最后一种是直接import table，导入某个数据文件，前提是数据文件要先export准备好。
- Hive数据导出
  - 第一种是insert导出：可以insert导出到本地或者hdfs，还可以指定导出文件后的分隔符
```
#加local导出到本地路径，默认文件分隔符时“\001”，之后本地会生成一个日志型的文件。
insert override local directory '/opt/bigdata/student';
#格式化导出文件
insert override local directory '/opt/bigdata/student' row format delimited fields terminated by ',';
#这里没有local
insert override directory '/export/student' row format delimited fields terminated by ',';
```
  - 第二种是Hadoop命令直接下载，由于表和数据有映射关系，每张表在hdfs上都能找到对应数据存储位置，所以我们可以直接下载下来的，后期要检查下数据和分隔符是否有问题。
```
hdfs fs -get /usr/hive/warehouse/student/student.txt /opt/bigdata/data
```
  - 第三种是Hive shell命令导出，hive命令后面加-e或-f选项，再加sql查询语句指定到某个目录下，比如：
```
#1.hive -e  “sql语句”  >> file; 这种是直接执行sql语句，把结果导出到文件中。
#2.hive  -f  "sql文件"  > file; 这种是执行完sql文件后，将查询结果写入到file中

bin/hive -e 'select * from default.student;' >> /opt/bigdata/student.txt
```
  - 最后一种是export导出到hdfs
```
hive>export table student to '/usr/hive/warehouse/student';
```
Hive的文件存储格式和压缩方式：这里不做介绍，因为了解不深，只知道hive的压缩可以发生在map shuffle阶段中向磁盘写数据时压缩，以及reduce输出结果时作压缩。企业有效方式文件存储压缩是采用orc + snappy方式。
Hive的SerDe 序列化和反序列化，是使用Serde对行对象序列化和反序列化，方便数据加载到表中，最后实现把文件内容映射到hive表。如下所示：

HDFS file -> InputFileFormat -> key,value -> Deserializer（反序列化） -> Row object

Row object -> Serializer（序列化） -> key,value -> OutputFileFormat -> HDFS file

建表时可以指定row format来使用SerDe。常用于企业解决多字符分割场景
最后Hive重要的一点是Hive的调优，参考下面另一个问题的答案：8. 数据倾斜现象和解决办法？（重要）

2. 将数据直接传到HDFS分区目录上，怎么让分区表和数据产生关联？

因为上传到hdfs后，hive没有对应元数据信息所以无法查询到对应数据。可以上传数据后给分区表添加该目录的分区

dfs -mkdir -p 分区目录
dfs -put 分区数据
hive>alter table 表明 add partition(分区);

3. 桶表是否可以直接通过load将数据导入？

不可以，因为load数据的话hdfs下只会有一个文件无法完成分桶的效果，需要通过中间表导入数据

4. hive的分区可以提高效率，那么分区是否越多越好？为什么？

不是越多越好

hive底层是存储在hdfs上的，hdfs是适合存储大文件而不适合小文件，如果有越多的分区，那么会增加namenode的负担。
hive会转化成mr程序，mr会转化为多个task任务，多个小文件的话，每个文件一个task，每个task运行一个JVM实例，JVM的开启和销毁都会降低系统性能。

所以分区数要合理设计，一般在3个以内。

5. 什么情况下Hive可以避免进行mapreduce？

如果是进行简单的查询，直接select，不带count，sum这些聚合函数的，都不会走mapreduce，而是直接读取hdfs目录中的文件。（fetch抓取）
另外如果查询语句中的过滤条件只是分区字段的情况下，也不会走mapreduce（fetch抓取）

select * from order_partition where month = '2019-03';

还有就是可以手动设置，让hive使用本地模式，当然这种有限制，需要查询的文件不超过256M或者文件数量不超过4个,否则系统还是会自动走mapreduce

set hive.exec.mode.local.auto = true;

6. order by ,sort by , distribute by , cluster by 的区别？

Order by会对所给的全部数据进行全局排序，只启动一个reduce来处理。

Sort by是局部排序，它可以根据数据量的大小启动一到多个reducer来工作，并且在每个reduce中单独排序。

Distribute by 类似于mr中的partition，采用hash算法，在map端将查询结果中hash值相同的结果分发到对应的reduce中，结合sort by使用

Cluster by 可以看作是distribute by 和sort by的结合，当两者后面所跟的字段列名相同时，效果就等同于使用cluster by，但是cluster by最终的结果只能是降序，无法指定升序和降序。

7. 如何将数据以动态分区的方式插入分区表中？

1.首先创建对应分区表和一张普通表
2.然后将数据加载到普通表

load data local inpath '/opt/bigdata/order_partition' into table tt_order;

3.最后利用普通表来将数据加载到动态分区表中

#先设置使用动态分区的参数和使用非严格模式
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict; 

#然后通过普通表导入分区表
insert into table order_partition partition(year,month) select order_number,order_price,substring(order_time,0,4) as year,substring(order_time,6,12) as month from tt_order;
#注意导入的字段顺序，分区键一定要放在最后，否则会报错。

8. 数据倾斜现象和解决办法？（重要）

1.什么是数据倾斜？

大量相同特征的key出现在同一个reduce任务中，或者某个key对应的数据量远超过其它key的数据量，这种导致数据分布不均匀的现象就叫做数据倾斜。
2.数据倾斜的现象

在执行任务的时候，任务进度长时间卡在99%左右，查看任务监控页面或者详细日志信息，发现只有少量，一个或者几个reduce子任务没有跑完，主要因为这几个reduce任务处理的数据量和其它reduce任务差异过大。这种单一reduce任务的记录数与平均记录数差异过大，就会极大拖长计算时间。

现实工作中可能会遇到这样的情况比较多：比如大表join小表，其中小表有特别的key值比较集中，这样分发到某一个reduce上的数据就会高于平均值；或者是大表join大表中，作为连接判断的字段0值或者空值较多的，这些0值和空值后续都会由一个reduce处理，导致这个reduce处理量过多；再有的情况就是group by、**count（ distinct ）**某个字段值数据多而导致reduce处理耗时的情况。
3.数据倾斜的原因
- key分布不均匀，比如空值，0值
- 业务数据本身的特性。
- 建表时考虑不周，导致后期join操作时数据倾斜
- 某些sql语句本身就有数据倾斜。比如用count（distinct），它会单独用一个reduce来计算统计，如果数据量很大，就会导致整个job很难完成。这种情况可以先用group by分出需要统计的字段，再进行sum或者count
4.数据倾斜的解决方案，有三个层面可以思考处理：
- 第一，SQL语句调优
  - 查询语句加上具体需要的列和分区键，有些复杂表的字段会存储json格式的文本，这些字段不一定是需要查询的就可以过滤掉，减轻reduce计算负担
  - 大表join小表时用map jion，让小表先进内存，然后大表与小表在map端完成join操作，避免reduce端处理。
  - 大表join大表中，可以把空值的key变成一个字符串然后加上rand（）随机数，后续mr的分区操作会把倾斜的数据重新分发到不同的reduce上，从而避免数据倾斜。或者在join 的on条件中先让key为空的值不参与关联，等key不为空的数据相互合并连接后再union all加回key为空的数据。
```
select * from a left outer join b 
on case where id is null then concat('任意字符串',rand()) else id end = b.id;

select * from log a join users b on a.id is not null and a.id = b.id
union all
selct * from log a where a.id is null;
```
  - 查询语句中count（distinct） 改成group by + sum（），比如
    
    select count(distinct id) from test; ==> select sum(id) from (select id from test group by id); 这种可能会多开一个reduce来完成group by的操作，但会明显提高查询速度。
  - 针对不同数据类型产生的数据倾斜，存在这样的情况，A表中的id字段的数据类型是int，但join的B表中id字段存在脏数据，有一些是int类型但也有string类型的，那么再join操作时，默认的hash操作就会对int类型的key进行分配，而对于string类型的key会被统一分配到一个reduce中，这种情况就需要先进行类型转换，如 a join b on a.id = cast(b.id as int);
  - 还有一些时候可以把数据倾斜的数据单独拿出来处理，然后再union all回去。
- 第二，通过设置hive参数配置解决，这种主要是优化计算速度，避免数据倾斜发生
  - 开启map端聚合
    
    并不是所有的聚合操作都需要在reducec端完成，很多聚合操作都可以现在map端先进行部分聚合，最后在reduce端得出最终结果（类似于mr过程中的combiner，预先合并压缩数据，再提供给reduce统计计算）
    
    再hive开启map端聚合后，一旦发现数据倾斜，系统就能自动负载均衡，把相同特征的key分发到不同的reduce中，主要通过hive.groupby.skewindata参数完成。
```
#开启map端聚合的设置
#是否在map段進行聚合，默认是true
set hive.map.aggr = true
#在map端进行聚合操作的条目数目
set hive.groupby.mapaggr.checkinterval = 100000;
#有数据倾斜的时候进行负载均衡，比如把相同特征的key分发到不同的reduce中（默认是false）
set hive.groupby.skewindata = true;
```
  - 设置并行执行
    
    和oracle一样也可以利用并行执行提高查询速度，不同的是hive是靠参数来空值的
```
#开启并行执行
set hive.exec.parallel = true;
#设置同一个sql允许的最大并行度，默认是8
set hive.exec.parallel.thread.number = 16;
```
  - 设置压缩
    
    压缩可以在map端要进行shuffle时压缩和在完成reduce输出时压缩
    - Hive表中间数据压缩
```
#设置为true为激活中间数据压缩功能，默认是false，没有开启
set hive.exec.compress.intermediate = true;
#设置中间数据的压缩算法
set mapred map.output.compression = codec = org.apache.hadoop.io.compress.SnappyCodec;
```
    - Hive表最终输出结果压缩
```
set hive.exec.compress.output = true;
set mapred map.output.compression = codec = org.apache.hadoop.io.compress.SnappyCodec;
```
  - 推测执行
    
    说简单点就是Hadoop用了一个备份任务来同时执行，跟原来的任务相比较，谁先执行完成就用谁的计算结果作为最终的计算结果。具体定义如下：
    
    Hadoop采用了推测执行机制，它根据一定的法则推测出”拖后腿“的任务，并为这样的任务启动一个备份任务，让备份任务和原始任务同时处理一份数据，并最后选择优先执行完成的任务计算结果作为最终结果。
```
#开启推测执行机制
set hive.mapred.reduce.tasks.speculative.exection = true;
```
  - JVM重用
    
    JVM重用可以使得JVM实例在同一个job中重新使用多次，减少进程的启动和销毁时间
```
#设置jvm重用个数
set mapred.job.reuse.jvm.num.tasks = 5;
```
  - 合理设置map数和reduce数
    - 在map执行之前将小文件合并可以减少map数
```
#系统默认的格式，可以不用设置。
set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; 
```
    - 对复杂文件可以增加map数
```
增加map方法有一个公式：
compute(SliteSize(Math.max(minSize,Math.min(maxSize,blocksizs))))公式
- 调整maxSize最大值，让maxSize小于blocksize就可以增加map数
- minSize默认等于1，maxSize默认等于blockSize大小。

#比如这样设置就可以达到增加map数的效果
#设置每个map处理的文件maxSize大小为10M，这样小于一个block128M的话，系统就会分配更多10M的map来处理复杂任务。
set mapreduce.input.fileinputformat.split.maxsize = 10485760;
```
    - 合理设置Reduce数,比如设置每个job中reduce的个数为3个
```
set mapreduce.job.reduces = 3;
```
- 第三，修改MR程序去避免数据倾斜
  - 可以在MR程序的reduce方法中追踪每个键的最大值，并且设置阈值，当超过该阈值时就可以认为发生了数据倾斜，然后输出到日志文件进行分析。
  - 第二种是在编写MR程序时，从业务层面去考虑自定义的分区键是否合理。就跟ADS库建表时可以默认指定哪个字段作为分区键。
  - MR程序中改用TotalOrderPartitioner替换HashPartitioner，它可以通过对原始数据进行抽样得到的结果集来预设分区边界值，也就是能找出导致数据倾斜的key值，再分散处理。
  - MR程序中使用Combiner。

数据仓库

1.介绍一下对数据仓库的理解？

数据仓库是面向业务主题，为分析数据而设计的。

通俗来讲，数据仓库就像生活中的普通仓库一样，能对物品集中管理、分类摆放、按需取用，最终目的都是为了更方便和更快速地查询到想要的数据结果，提供数据支持和决策支持。

打比方：对多来源的数据做元数据管理就像对物品打标签一样，而ETL抽取的过程和数据分层建模的过程则类比物品分类摆放的过程，期间有些需要抽样研究的就作为数据挖掘和机器学习的数据，有些使用频率非常高的就单独拿来做实时查询，对于不怎么改动的历史数据就按主题抽取另外分析查询，而市面上像阿里云这类的平台工具就好比放物品的货架。

总结来说，它的特点有：

第一，面向主题：面向主题是指数仓中的数据是按照一定的业务主题划分组织的，能帮助用户做决策和分析探索。
第二，集成性：数仓的数据来源于其他源系统，可以使用各种ETL工具集成汇总到数仓。
第三，稳定性：数仓主要是为了决策分析，它存储大量的历史数据，一般只有新增，没有更新操作；
第四，时变性：时变性是指它具有时间属性，可以不断生成主题的新数据，比如按年月日的增量数据。

2.什么是维度、事实表、维度表、数据集市、粒度？

粒度：粒度反映了数据仓库按照不同的层次组织数据，根据不同的查询需要，存储不同细节的数据，粒度越小，数据越细，查询范围就越广泛；粒度大就越不够细节。
维度：看待事物的角度，
维度表：一般是对事实的描述信息，可以看做是用户分析数据的窗口，包含了事实数据的特性。每一张维度表对应显示世界中的一个对象或者概念，比如用户类型、商品、日期、地区等。
事实表：包含对分析事物的一个或多个度量值(指标)。
指标：可以理解为统计的销售额、转账额等这样的业务统计数。
度量：可以是事实表中存放数值型或者连续次数的字段。

3.数据仓库系统的数据质量如何保证？

4.描述一下OLTP和OLAP的区别

OLAP 联机分析处理
- 是数据仓库系统最主要的应用
- 数据量大，适合大数据量查询
- 实时性要求不高、DML操作不频繁
- 支持复杂的分析操作
- 侧重决策支持
- 并且提供直观易懂的查询结果
OLTP 联机事务处理
- 是传统关系型数据库的主要应用
- 数据量小
- 要求实时、DML操作频繁
- 并行事务处理多，强调数据库处理效率

5.数据仓库常用的两种模型及其特点？

星型模型：事实表和多个维度表关联，维度表的主键是事实表的外键，维度表不能继续拥有维度表。
- 优点：逻辑简单，join时不需要关联太多表，有较好的查询性能
- 缺点：维度表存储太多信息，数据冗余度大不利于扩展；另一个是需要做大量数据预处理工作
雪花模型：在星型模型基础上，约定维度表可以继续向外延伸拥有维度表。
- 优点：数据冗余度低，扩展性好
- 缺点：当维度表的层次变多时，可读性差，并且发展到业务后期维护困难；join时关联多表查询性能较低。

6.构建数仓应该有哪些过程？

（1）明确需求，分析数据的业务场景；
（2）分析数据结构，做好元数据管理。
（3）设计数据仓库架构分层，确定数据模型、主题、维度、粒度以及维度表事实表等
（4）制定各项规范，包括命名规范、字段规范、编码规范等；
（5）ETL作业开发和测试，以及数据质量检查；
（6）数据监控，数仓维护，模型优化。

7.ETL流程应该有哪些？

优化相关

1.MaxCompute SQL中用到哪些优化？

首先优化SQL的过程，实际上就是要尽可能减少IO读取，尽可能减少计算资源的使用，尽可能减少SQL复杂度，尽可能提升运行速度。

建分区表，但建议分区层数不超过3层，后续查询时为了避免全表扫描需要分区裁剪，分区值尽量常量化，避免不可确定值；插入数据时尽量采用写入静态分区的方式，优化数据存储，如果用动态分区，会生成较多的小文件，增加系统负担。
只select有效列，并用limit限制返回的条数。
读取相同源表时可以合并成一条sql，系统会优化只读取一次。
mapjoin优化
将full outer join 改为left outer join + union all 并对小表使用上mapjoin
尽可能保证表达式两边的数据类型一致，如果发生隐式转换容易造成精度问题，比如string和bigint都转成double来相等比较，悲观情况下，可能触发数据倾斜。这时要cast显式转换一下
少用distinct，容易触发数据倾斜，count（distinct）处理的时间会很长可以转换成count（）+ group by
多个表join时，join顺序很重要，优先选择join结果输出小的表先关联，能有效减少中间数据量，节省IO和计算资源。
尽量使用内置的UDF函数和窗口函数，内置UDF在实现做了很多优化，运行块，省资源，窗口函数本身能处理很多复杂问题。
尽量避免Order by，order by会触发全局排序，只能单点运行，效率低，如果业务允许，可以改成distribute by + sort by

2.MaxCompute SQL介绍以及与通用数据库的区别？

MaxCompute SQL适用于海量数据，实时性要求不高的场合，MaxCompute 作业提交后会有几十秒到数分钟不等的排队调度；采用的是类似与SQL的语法，可以看作是标准SQL的子集，但也有不同点，比如没有事务，主键约束，索引等。

有Bigint，double，String，datetime，Boolean，decimal类型。

可以设置分区表，还可以给表指定生命周期LifeCycle。

具体区别如下：

1.MaxCompute表不⽀持主键、索引和字段约束；
2.MaxCompute表不⽀持UPDATE语句和DELECT语句，只能DROP 整个表或者某一分区数据；
3.MaxCompute表创建表时不允许指定默认值，可以指定生命周期，周期结束后自动清除数据；
4.SELECT语句输出的数据⾏数是受限制的，最⼤为10000条；
5.MaxCompute 不支持主键，索引，不支持MINUS操作，MaxCompute的where子句也不支持between条件查询。
6.MaxCompute把sql的关键字做为保留字，对列，表或是分区命名时不能直接使用保留字作命名。
7.插入语句有insert into ｜ overwrite into，overwrite into写入前会清空表数据；
8.可以直接在select中使用mapjoin，所有小表占用的内存总和不得超过512MB，在官方文档中说mapjoin最多支持6张小表，但工作中我们是规定不能超过8张小表，因为有些表真的容量不大。
9.MaxCompute SQL不支持顶级的两个查询结果合并，要改写为一个子查询的形式，也就是一个union all连接的语句，外面必须套一层select * from。
10.MaxCompute也有内置函数，和大部分数据库的用法差不多，如果忘记可以直接查看官方文档。
- MaxCompute常用到的函数：dateadd函数对日期加减法，datediff计算两个日期差值，getdate获取系统日期，cast转换目标数据类型， coalesce函数返回列表中第一个非空的值，case when；decode实现if-then-else分支选择的功能，concat连接所有字符串，instr函数计算子串在字符串中的位置，length函数，MD5函数计算输入字符串的md5值（常用作新加的主键），substr函数，to_char函数，to_date函数，lastday函数返回月的最后一天，lag窗口函数，row_number窗口函数计算行号从1开始，还有常用聚合函数等

其它细微的区别用法详见官方文档。

MaxCompute SQL

1.MaxCompute SQL中用到哪些优化？

首先优化SQL的过程，实际上就是要尽可能减少IO读取，尽可能减少计算资源的使用，尽可能减少SQL复杂度，尽可能提升运行速度。

（1）建分区表，但建议分区层数不超过3层，后续查询时为了避免全表扫描需要分区裁剪，分区值尽量常量化，避免不可确定值；插入数据时尽量采用写入静态分区的方式，优化数据存储，提高运行效率；如果用动态分区，底层来说会生成较多的小文件和多个mapreduce任务，增加系统负担。
（2）只select有效列，并用limit限制返回的条数。考虑这两种情况：（1）有些事实表的字段很多，多到有四五十个字段，这种表实际是可能存在的，比如企业报税的申报表，那么select * from整张表的所有字段时，数据量一大就会消耗更多查询时间；（2）第二种情况是假设事实表中存有某个复杂格式的字段，比如json格式，那么在select * from时也会耗时严重，因此select有效列是较好的习惯。
（3）mapjoin优化，mapjoin的原理简单说就是先将小表加载到内存中，后续大表与内存中的小表直接计算（底层是大表与内存中的小表的计算在map阶段直接完成，避免了reduce阶段的计算耗时）
（4）避免一些消耗资源的操作，比如：
- 少用distinct，容易触发数据倾斜
- count（distinct）处理的时间会很长可以转换成count（）+ group by。因为如果原先只用count(distinct)来处理表的数据，只会开启一个reduce任务来完成所有的计算，而改成count/sum + group by后，除了count/sum会开启一个reduce计算之外，group by也会单独开启另一个reduce来计算，因此数据量大时可以明显提升查询速度。
- 尽量避免Order by，order by会触发全局排序，只能单点运行，效率低，如果业务允许，可以改成distribute by + sort by
- 将full outer join 改为left outer join + union all 并对小表使用上mapjoin。
- 多个表join时，join顺序很重要，优先选择join结果输出小的表先关联，能有效减少中间数据量，节省IO和计算资源。
- 读取相同源表时可以合并成一条sql，系统会优化只读取一次。
（5）尽量使用内置的UDF函数和窗口函数，内置UDF在实现时做了很多优化，运行快，省资源，窗口函数本身能处理很多复杂问题。
（6）尽可能保证表达式两边的数据类型一致，如果发生隐式转换容易造成精度问题，比如string和bigint都转成double来相等比较，悲观情况下，可能触发数据倾斜。这时要cast显式转换一下

工作中还用到的：
- 数据量达到千万级别的，尽量固化分区，不在查询sql里面进行动态分区，减少资源使用
- sql行数较长的，尽量拆分成工作流任务，可以优化性能和排查问题的难易度。
- 维度表要放到mapjoin里，加大资源利用率
- 数据倾斜较高的表，先落地成临时表
- 每日全量推送任务的，如果表级数据量较高的，分析是否可以改成增量模式。

2.MaxCompute SQL介绍以及与通用数据库的区别？

MaxCompute SQL适用于海量数据，实时性要求不高的场合，MaxCompute 作业提交后会有几十秒到数分钟不等的排队调度；采用的是类似与SQL的语法，可以看作是标准SQL的子集，但也有不同点，比如没有事务，主键约束，索引等。

有Bigint，double，String，datetime，Boolean，decimal类型。

可以设置分区表，还可以给表指定生命周期LifeCycle。

具体区别如下：

1.MaxCompute表不⽀持主键、索引和字段约束；
2.最明显的区别是，MaxCompute表不⽀持UPDATE语句和DELECT语句(不支持更新操作)，只能DROP 整个表或者某一分区数据，然后用INSERT OVERWRITE/INSERT INTO写入数据。
3.MaxCompute表创建表时不允许指定默认值，可以指定生命周期，周期结束后自动清楚数据；
4.SELECT语句输出的数据⾏数是受限制的，最⼤为10000条；
5.MaxCompute 不支持MINUS差集操作，如果需要做差集操作可以用LEFT OUTER JOIN 然后取右表关联为空的数据。MaxCompute的where子句也不支持between条件查询。
6.MaxCompute把sql的关键子做为保留字，对列，表或是分区命名时不能直接使用保留字作命名。
7.插入语句有insert into ｜ overwrite into，overwrite into写入前会清空表数据；
8.可以直接在select中使用mapjoin，所有小表占用的内存总和不得超过512MB，在官方文档中说mapjoin最多支持6张小表，但工作中我们是规定不能超过8张小表，因为有些表真的容量不大。
9.MaxCompute SQL不支持顶级的两个查询结果合并，要改写为一个子查询的形式，也就是一个union all连接的语句，外面必须套一层select * from加别名。
10.MaxCompute也有内置函数，和大部分数据库的用法差不多，如果忘记可以直接查看官方文档或者MaxCompute的IDE也可以直接搜索。
- MaxCompute常用到的函数：dateadd函数对日期加减法，datediff计算两个日期差值，getdate获取系统日期，cast转换目标数据类型， coalesce函数返回列表中第一个非空的值，case when；decode实现if-then-else分支选择的功能，concat连接所有字符串，instr函数计算子串在字符串中的位置，length函数，MD5函数计算输入字符串的md5值（常用作新加的主键），substr函数，to_char函数，to_date函数，lastday函数返回月的最后一天，lag窗口函数，row_number窗口函数计算行号从1开始，还有常用聚合函数等

其它细微的区别用法详见官方文档。

3.MaxCompute的其他细节：

MaxCompute不支持删除列的。
参与Union All运算的所有列的数据类型和列个数、名称必须完全一致。
数据类型只能是bigint、double、boolean、datetime和string；
lifecycle建表时指明此表的生命周期，但create table like时并不会复制源表的生命周期；
create table … as select …语句创建的表不会复制分区属性，而是把源表的分区键作为目标表的一般列处理；如果希望和源表有相同表结构，建议使用create table … like …，然后再手动插入数据。
对于设置了生命周期的表，如果是非分区表，那么会从最后一次被修改的时间开始计算周期，周期时间到将会被MaxCompute自动回收，如果有数据更新，那么周期会重新刷新时间；如果是分区表，则细分到某个分区是否有被改动过，回收也只是针对某一个长时间为改动过的分区数据。
删除分区：ALTER TABLE … DROP [IF NOT EXISTS] PARTITION …;

添加列：ALTER TABLE … ADD COLUMNS();

修改列名：ALTER TABLE … CHANGE COLUMN…RENAME TO …

修改分区值：ALTER TABLE … PARTITION(分区=分区值) RENAME TO PARTITION(分区=分区值);

修改表的注释：ALTER TABLE…SET COMMENT ‘’;

修改表的生命周期：ALTER TABLE …SET LIFECYCLE = ‘’;

清空非分区表的数据：TRUNCATE TABLE ;如果是分区表，需要ALTER TABLE … DROP PARTITION先删除分区数据再TRUNCATE

修改列、分区的注释：ALTER TABLE … CHANGE COLUMN 列名 COMMENT ‘’;

4.MaxCompute中的类型转换

MaxCompute中支持显示转换cast和隐式转换。
对于显示转换过程中，会发生如下问题：
- cast将double类型转换成bigint类型时，小数部分会被截断；
- 满足double类型的string类型转为bigint类型时，会先将string转为double，然后再转为bigint，期间小数部分也会被截断。
String类型和Datetime类型之间的转换
- MaxCompute支持两者的相互转换，但有一个注意点是各个单位的值域中，如果首位为0是不能忽略的，比如：cast(‘2020-1-1 12:12:!2’ as datatime)中的一月份没有写0就会报错。
由于double存在精度差，所以不能直接对两个double类型的数值用=号判断相等，可以在相减后取绝对值的方式判断，当绝对值足够小时可以说明两数相等。
```
abs(0.9999999999 - 1.0000000000) < 0.000000001
```
String类型在参与运算前会进行隐式类型转换到double类型
bigint和double类型在计算时，bigint会隐式转换为double再计算，返回结果也是double
位运算符不支持隐式转换，同时只允许bigint类型。逻辑运算符也不支持隐式转换，只允许boolean类型。

5.MaxCompute中的mapjoin使用限制

left outer join的左表必须是大表；right outer join的右表必须是大表，inner join左右都可以是大表，full outer join不能使用mapjoin
mapjoin支持小表为子查询，使用mapjoin需要引用小表或者子查询时，需要引用别名
在mapjoin中，可以使用不等值连接或者使用or连接多个条件
最多指定8张小表（看新旧版本），所有小表占用的内存总和不能超过512M，否则报语法错误。
多个表join时，最左边的两张表不能同时时mapjoin的表。

- 学习参考

《开课吧-大数据开发高级工程师一期》课程

你可能感兴趣的:(大数据,大数据,数据仓库)

高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库牧码文数据仓库 hive 数据仓库数据挖掘数据库
内容目录高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库一、高级管理人员信息系统和数据仓库二、外部数据/非结构化数据与数据仓库高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库一、高级管理人员信息系统和数据仓库EIS-高级管理人员信息系统-计算机饿最有效形式之一。EIS处理，处于帮助高级管理人员制定决策的目的而设计的。比较典型的用途：趋势分析和发现关键比例指示器度
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
如果企业数据仓库全部使用 Couchbase Analytics 服务，可能会面临哪些问题？ PersistDZ 数据存储数据仓库
如果企业数据仓库全部使用CouchbaseAnalytics服务，可能会面临哪些问题？一、概述CouchbaseAnalytics服务是一项强大的工具，旨在为NoSQL数据提供近实时的分析能力。然而，如果企业的数据仓库全部依赖于CouchbaseAnalytics服务，可能会遇到一些问题和挑战。以下将从多个角度详细分析这些可能的问题。二、可能的问题和挑战资源消耗和成本高资源需求：Couchbase
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
火山云与腾讯云的优势对比苹果企业签名分发腾讯云云计算
首先，我需要确定用户的需求是什么。可能他们是在选择云服务提供商，或者在做市场调研。用户可能是企业的IT决策者，或者是开发人员，需要了解哪个平台更适合他们的项目。接下来，我得收集火山云和腾讯云的基本信息。火山云是字节跳动旗下的，虽然进入市场较晚，但可能有字节的技术支持，比如大数据和AI方面的优势。腾讯云作为老牌厂商，生态完善，产品线全，尤其在游戏、社交等领域有优势。需要对比的方面包括：背景与市场地位
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
大数据最新大数据StarRocks(七)：数据表创建(2) 2401_84182271 程序员大数据
2.1表分为内部表和外部表默认未内部表，3.0版本开始集成外部数据建议使用catalog，外部表的建表方式将被弃用2.2列定义语法：col_namecol_type[agg_type][NULL|NOTNULL][DEFAULT"default\_value"][AUTO_INCREMENT][ASgeneration_expr]col_name：列名称注意，在一般情况下，不能直接创建以以__op
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str