Azury0910

夸父追日——大数据技术原理与应用

1 本学期我们学习使用了哪些大数据框架，请根据各个框架的功能进行分类。

数据采集：kafka、flume、sqoop
数据存储：mysql、hbase、hive、hadoop
数据处理与分析：hadoop、spark、flink
数据可视化：superset、Apache Zeppelin
编程语言：java、scala、python

2.什么是文件系统和什么是分布式文件系统？二者有哪些区别？

文件系统是操作系统在硬盘或者分区上保存文件信息的方法和数据结构。
分布式文件系统是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。

1.文件管理模式不同
- 文件系统用于管理机器上的文件和目录，使之能够被有效地存取。
- 分布式文件系统一般采用“客户机/服务器”模式，客户端以特定的通信协议通过网络与服务器建立连接，提出文件访问请求，客户端和服务器可以通过设置访问权限限制请求对方底层存储块的访问。
2.文件存储模式不同
- 文件以块为单位进行存储，一个大规模文件可以被分拆成若干个文件块，不同的文件块可以被分发到不同的节点上，支持大规模文件存储。并且大大简化了存储系统。
3.文件系统读取文件流程不同
- 传统系统根据文件名找到对应的inode号码，通过inode号，获取inode信息。根据inode信息，找到文件数据所在的block，读出数据。
- 分布式文件系统是根据名称节点、数据节点比较文件对应ID号进行文件读取。

文件系统

概念

文件系统是操作系统在硬盘或者分区上保存文件信息的方法和数据结构。文件系统用于管理机器上的文件和目录，使之能够被有效地存取。

在操作系统中，每个文件和目录都被指定了一个文件名，用户按文件名存取文件，而实际上，文件和目录在磁盘中是按照柱面、磁道等物理位置存放的，文件系统能够将操作系统对文件的按名存取转化成按磁盘的物理位置进行读写。

inode索引节点

文件储存在硬盘上，硬盘的最小存储单位叫做扇区（Sector）。每个扇区储存512字节
（相当于0.5KB）。

操作系统读取硬盘的时候，不会一个个扇区地读取，这样效率太低，而是一次性连续读取
多个扇区，即一次性读取一个块（block）。这种由多个扇区组成的块，是文件存取的最小单位。

块的大小，最常见的是4KB，即连续八个扇区组成一个 block。

文件数据都储存在块中，还必须找到一个地方储存文件的元信息，比如文件的创建者、文件的创建日期、文件的大小等等。这种储存文件元信息的区域就叫做inode，中文译为索引节点。

文件系统读取文件流程

系统根据文件名找到对应的inode号码；
通过inode号，获取inode信息；
根据inode信息，找到文件数据所在的block，读出数据。

分布式文件系统（Distributed File System）

分布式文件系统（Distributed File System，DFS）是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。分布式文件系统一般采用“客户机/服务器”（client/server）模式，客户端以特定的通信协议通过网络与服务器建立连接，提出文件访问请求，客户端和服务器可以通过设置访问权限限制请求对方底层存储块的访问。

分布式文件系统的设计目标包括通透性，并发控制，可伸缩性，容错以及安全。

通透性。让实际上是通过网络来访问文件的动作，由程序与用户看来，就像是访问本地的磁盘一般。
容错。即使系统中有某些节点脱机，整体来说系统仍然可以持续运作而不会有数据损失。

3 HDFS由哪几个组件构成，各自的作用是什么？

名称节点负责文件和目录的创建、删除和重命名等，同时管理着数据节点和文件块的映射关系。
数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表。
第二名称节点是HDFS架构中的组成部分，它是用来保存名称节点中对HDFS元数据信息的备份，并减少名称节点重启的时间。
客户端: 代表用户与NameNode或者DataNode交互，来访问整个文件系统的对象。
可以支持打开、读取、写入等常见的操作，并且提供了类似Shell的命令行方式来访问HDFS中的数据

分布式文件系统的结构

分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类，一
类叫主节点(Master Node)或者也被称为名称结点(NameNode)，另一类叫从节点(Slave Node)或者也被称为数据节点(DataNode)。

名称节点负责文件和目录的创建、删除和重命名等，同时管理着数据节点和文件块的映射关系，因此客户端只有访问名称节点请求文件块所在的位置，进而到相应位置读取所需文件块。

数据节点负责数据的存储和读取，在存储时，由名称节点分配存储位置，然后由客户端把数据直接写入相应数据节点；在读取时，客户端从名称节点获取数据节点和文件块的映射关系，然后就可以到相应位置访问文件块，数据节点也要根据民称个节点的命令创建、删除和复制数据块。

块

HDFS默认一个块64MB，一个文件被分成多个块，以块作为存储单位

在传统的文件系统中，为了提高磁盘读写效率，一般以数据块为单位，而不是以字节为单位。

块的大小远远大于普通文件系统，可以最小化寻址开销（包括磁盘寻道开销、数据块的定位开销）

HDFS采用抽象的块概念可以带来以下几个明显的好处：

支持大规模文件存储：文件以块为单位进行存储，一个大规模文件可以被分拆成若干个文件块，不同的文件块可以被分发到不同的节点上，因此，一个文件的大小不会受到单个节点的存储容量的限制，可以远远大于网络中任意节点的存储容量
简化系统设计：首先，大大简化了存储管理，因为文件块大小是固定的，这样就可以很容易计算出一个节点可以存储多少文件块；其次，方便了元数据的管理，元数据不需要和文件块一起存储，可以由其他系统负责管理元数据
适合数据备份：每个文件块都可以冗余存储到多个节点上，大大提高了系统的容错性和可用

名称节点

在HDFS中，名称节点（NameNode）负责文件和目录的创建、删除和重命名等，同时管理着数据节点和文件块的映射关系。名称节点保存了两个核心的数据结构，即fsimage和edits。

fsimage用于维护文件系统树以及文件树中所有的文件和目录的元数据。
操作日志文件edits中记录了所有针对文件的创建、删除、重命名等操作。

fsimage

每个fsimage文件存储的都是文件系统元数据信息(文件及目录结构，组成文件的块的信息，副本数量信息)，如果namenode发生故障，最近的fsimage文件会被载入到内存中，用来重构元数据的最近状态，再从相关点开始向前执行edits日志文件中记录的每个事务。

fsimage文件没有记录文件包含哪些块以及每个块存储在哪个数据节点。而是由名称节点把这些映射信息保留在内存中，当数据节点加入HDFS集群时，数据节点会把自己所包含的块列表告知给名称节点，此后会定期执行这种告知操作，以确保名称节点的块映射是最新的。

名称节点的启动

在名称节点启动的时候，它会将fsimage文件中的内容加载到内存中，之后再执行edits文件中的各项操作，使得内存中的元数据保持最新。

一旦在内存中成功建立文件系统元数据的映射，则创建一个新的fsimage文件和一个空的edits文件

名称节点启动成功进入正常状态之后，HDFS中的更新操作会写到edits文件中，因为fsimage文件一般都很大（GB级别的很常见），如果所有的更新操作都往fsimage文件中添加，这样会导致系统运行的十分缓慢，往edits文件里面写就不会这样，因为edits要小很多。

名称节点在启动的过程中出于“安全模式”，只能对外提供读操作，无法提供写操作。启动过程结束后，系统就会退出安全模式，进入正常与逆行状态，对外继续提供读写操作。

SecondaryNameNode

在名称节点运行期间，HDFS的所有更新操作都是直接写到edits中，久而久之， edits文件将会变得很大。

虽然这对名称节点运行时候是没有什么明显影响的，但是，当名称节点重启的时候，名称节点需要先将fsimage里面的所有内容映像到内存中，然后再一条一条地执行edits中的记录，当edits文件非常大的时候，会导致名称节点启动操作非常慢，而在这段时间内HDFS系统处于安全模式，一直无法对外提供写操作，影响用户的使用。

如何解决？答案是：SecondaryNameNode第二名称节点

第二名称节点是HDFS架构中的一个组成部分，它是用来保存名称节点中对HDFS元数据信息的备份，并减少名称节点重启的时间。

SecondaryNameNode一般是单独运行在一台机器上。

它可以完成edits和fsimage的合并操作，减小editlog文件大小，缩短名称节点重启的时间
作为名称节点的检查点，保存名称节点的元数据信息

使用新的日志
使用新的日志，从名称节点上获得fsimage和edits
合并fsimage和edits
把检查点回传给名称节点
用fsimage.ckpt替换fsimage，用edits.new替换edits

数据节点（DataNode）

数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表。

每个数据节点中的数据会被保存在各自节点的本地Linux文件系统中

客户端

客户端是用户操作HDFS最常用的方式，HDFS在部署时都提供了客户端

HDFS客户端是一个库，暴露了HDFS文件系统接口，这些接口隐藏了HDFS实现中的大部分复杂性

严格来说，客户端并不算是HDFS的一部分

客户端可以支持打开、读取、写入等常见的操作，并且提供了类似Shell的命令行方式来访问HDFS中的数据

此外，HDFS也提供了Java API，作为应用程序访问文件系统的客户端编程接口

HDFS体系结构的局限性

HDFS只设置唯一一个名称节点，这样做虽然大大简化了系统设计，但也带来了一些明显的局限性，具体如下：
（1）命名空间的限制：名称节点是保存在内存中的，因此，名称节点能够容纳的对象（文件、块）的个数会受到内存空间大小的限制。
（2）性能的瓶颈：整个分布式文件系统的吞吐量，受限于单个名称节点的吞吐量。
（3）隔离问题：由于集群中只有一个名称节点，只有一个命名空间，因此，无法对不同应用程序进行隔离。
（4）集群的可用性：一旦这个唯一的名称节点发生故障，会导致整个集群变得不可用。

4 MapReduce任务执行过程分为哪几个阶段，叙述MapReduce的Shuffle过程。

Mapreduce的各个执行阶段

不同的map任务之间不会进行通信，不同的reduce任务之间也不会发生任何信息交换。

HDFS 以固定大小的block为基本单位存储数据，而对于MapReduce而言，其处理单位是 split。

split 是一个逻辑概念，它只包含一些元数据信息，比如数据起始位置、数据长度、数据所在节点等。它的划分方法完全由用户自己决定。

（1）MapReduce框架使用InputFormat模块做Map前的预处理，比如验证输入的格式是否符合输入定义；然后，将输入文件切分为逻辑上的多个InputSplit，InputSplit是MapReduce对文件进行处理和运算的输入单位，只是一个逻辑概念，每个InputSplit并没有对文件进行实际切割，只是记录了要处理的数据的位置和长度。

（2）因为InputSplit是逻辑切分而非物理切分，所以还需通过RecordReader根据InputSplit中的信息来处理InputSplit中的具体记录，加载数据并转换为适合Map任务读取的键值对，输入给Map任务。

（3）Map任务会根据用户自定义的映射规则，输出一系列的作为中间结果。

（4）为了让Reduce可以并行处理Map的结果，需要对Map的输出进行一定的分区（partition）、排序（sort）、合并（combine）、归并（merge）等操作，得到形式的中间结果，再交给对应的Reduce进行处理，这个过程称为shuffle。从无序的到有序的，这个过程用Shuffle来称呼是非常形象的。

（5）Reduce以一系列中间结果为输入，执行用户定义的逻辑，输出结果给OutputFormat模块。

（6）OutpFormat模块会验证输出目录是否已经存在以及输出结果类型是否符合配置文件中的配置类型，如果都满足，就输出Reduce的结果到分布式文件系统。

Shuffle过程

shuffle是指对Map任务输出结果进行分区、排序、合并、归并等处理并交给Reduce的过程。

Map端的Shuffle过程

写入数据和执行Map任务
写入缓存
溢写（分区、排序、合并）
文件归并

合并（Combine）和归并（Merge）的区别：
两个键值对<“a”,1>和<“a”,1>，如果合并，会得到<“a”,2>，如果归并，会得到<“a”,<1,1>>

Reduce端的Shuffle过程

Reduce任务通过RPC（Remote Procedure Call，远程过程调用）询问Map任务是否已经完成，若完成，则领取数据
Reduce领取数据先放入缓存，来自不同Map机器，先归并，再合并，写入磁盘
多个溢写文件归并成一个或多个大文件，文件中的键值对是排序的。
当数据很少时，不需要溢写到磁盘，直接在缓存中归并，然后输出给Reduce

5 在Yarn上执行一个MapReduce任务从提交到完成所经历了哪些步骤。

Apache Hadoop YARN (Yet Another Resource Negotiator，另一种资源协调者) 是一种新的Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

Yarn主要由ResourceManager、NodeManager、ApplicationMaster和Container等几个组件构成。

Yarn体系结构

ResourceManager资源管理器

ResourceManager主要负责整个系统的资源管理和分配，内部主要有两个组件：

ResourceScheduler资源调度器：这个组件的唯一功能就是给提交到集群的应用程序分配资源，并且对可用的资源和运行的队列进行限制。Scheduler并不对作业进行监控； 只管理分配不监控
ApplicationsManager (AsM) 应用程序管理器：这个组件用于管理整个集群应用程序的application masters，负责接收应用程序的提交；为application master启动提供资源；监控应用序的运行进度以及在应用程序出现故障时重启它。

ApplicationMaster

ApplicationMaster是应用程序级别的，每个ApplicationMaster 管理运行在YARN上的应用程序。 YARN 将ApplicationMaster看做是第三方组件，ApplicationMaster负责和ResourceManager scheduler 协商资源，并且和NodeManager通信来运行相应的task。ResourceManager 为 ApplicationMaster 分配Container，这些Container将会用来运行task。

ApplicationMaster也会追踪应用程序的状态，监控Container的运行进度。
当Container运行完成，ApplicationMaster 将会向ResourceManager注销这个Container；
如果是整个作业运行完成，其也会向ResourceManager注销自己，这样这些资源就可以分配给其他的应用程序使用了。

NodeManager

NodeManager是YARN中每个节点上的代理，它管理Hadoop集群中单个计算节点，根据相关的设置来启动Container。NodeManager会定期向ResourceManager发送心跳信息来更新其健康状态。同时其也会监督Container的生命周期管理，监控每个Container的资源使用（内存、 CPU等）情况，追踪节点健康状况，管理日志和不同应用程序用到的附属服务（auxiliary service）。

总体来说， NodeManager有以下作用

（1）管理单个节点上的资源
（2）处理来自ResourceManager的命令
（3）处理来自ApplicationMaster的命令

Container

Container是与特定节点绑定的，其包含了内存、CPU磁盘等逻辑资源。容器是由ResourceManager scheduler服务动态分配的资源构成。容器授予 ApplicationMaster使用特定主机的特定数量资源的权限。ApplicationMaster也是在容器中运行的，其在应用程序分配的第一个容器中运行。

步骤

在启动MapReduce之前，确保待处理的文件放在HDFS上面。

MapReduce应用将请求提交给RM，由RM创建对应的Job，一个应用对应一个Job。

Job提交前，先将待处理的文件进行分片（Split）。MR框架默认将一个块（Block）作为一个分片。客户端应用可以重定义块与分片的映射关系。

Job提交给RM，RM根据NM的负载在NM集群中挑选合适的节点调度AM， AM负责Job任务的初始化并向RM申请资源，由RM调度合适的NM启动Container, Container来执行Task。

Map的输出放入一个环形内存缓冲区，当缓冲区数据溢出时，需将缓冲区中的数据写入到本地磁盘，写入本地磁盘之前通常需要做如下处理：

1.分区（Partition）——默认采用Hash算法进行分区，MR框架根据Reduce Task个数来确定分区个数。具备相同Key值的记录最终被送到相同的Reduce Task来处理。
2.排序（Sort）——将Map输出的记录排序，例如将(’Hi’,’1’),(‘Hello’,’1’)重新排序为(‘Hello’,’1’), (’Hi’,’1’)。
3.合并(Combine)——这个动作MR框架默认是可选的。例如将(’Hi’,’1’), (’Hi’,’1’),(‘Hello’,’1’), (Hello’,’1’)进行合并操作为(’Hi’,’2’), (‘Hello’,’2’)。
4.归并(Merge)——Map Task在处理后会产生很多的溢写文件，这时需将多个溢出文件进行归并处理，生成一个经过分区和排序的溢写文件（MOF:MapOutFile）。为减少写入磁盘的数据量，MR支持对MOF进行压缩后再写入。

通常在Map Task任务完成MOF输出进度到**3%**时启动Reduce，从各个Map Task获取MOF文件。前面提到Reduce Task个数由客户端决定，Reduce Task个数决定MOF文件分区数。因此Map Task输出的 MOF文件都能找到相对应的Redcue Task来处理。

前面提到的MOF文件是经过排序处理的。当Reduce Task接收的数据量不大时，则直接存放在内存缓冲区中，随着缓冲区文件的增多， MR后台线程将它们合并成一个更大的有序文件，这个动作是Reduce阶段的Merge操作，过程中会产生许多中间文件，最后一次合并的结果直接输出到用户自定义的Reduce函数。

步骤 1：用户编写客户端应用程序，向 YARN提交应用程序，提交的内容包括ApplicationMaster 程序、启动 ApplicationMaster 的命令、用户程序等。

步骤 2：YARN 中的 ResourceManager 负责接收和处理来自客户端的请求。接到客户端应用程序请求后，ResourceManager里面的调度器会为应用程序分配一个容器。同时，ResourceManager 的应用程序管理器会与该容器所在的 NodeManager 通信，为该应用程序在该容器中启动一个ApplicationMaster。

步骤 3：ApplicationMaster 被创建后会首先向 ResourceManager 注册，从而使得用户可以通过 ResourceManager 来直接查看应用程序的运行状态。接下来的步骤4~7 是具体的应用程序执行步骤。

步骤 4：ApplicationMaster 采用轮询的方式通过 RPC 协议（Remote Procedure Call ）向 ResourceManager 申请资源。

步骤 5：ResourceManager 以“**容器”**的形式向提出申请的 ApplicationMaster 分配资源，一旦 ApplicationMaster 申请到资源后，就会与该容器所在的NodeManager 进行通信，要求它启动任务。

步骤 6：当 ApplicationMaster 要求容器启动任务时，它会为任务设置好运行环境（包括环境变量、JAR 包、二进制程序等），然后将任务启动命令写到一个脚本中，最后通过在容器中运行该脚本来启动任务。

步骤 7：各个任务通过某个RPC 协议向ApplicationMaster 汇报自己的状态和进度，让 ApplicationMaster 可以随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。

步骤 8：应用程序运行完成后，ApplicationMaster 向 ResourceManager 的应用程序管理器注销并关闭自己。若 ApplicationMaster 因故失败，ResourceManager中的应用程序管理器会监测到失败的情形，然后将其重新启动，直到所有的任务执行完毕。

6 实现一个Hadoop自定义类型有哪几个步骤？

hadoop数据类型

除char类型以外，每个Java基本类型的Writable封装，其类的内部都包含一个对应基本类型的成员变量value，get()和set()方法就是用来对该变量进行取值/赋值操作的。这些类型都位于org.apache.hadoop.io包中

Writable接口

序列化是Hadoop核心的一部分，在Hadoop中，位于org.apache.hadoop.io包中的Writable接口是Hadoop序列化格式的实现。

Hadoop Writable接口是基于DataInput和DataOutput实现的序列化协议，紧凑（高效使用存储空间），快速（读写数据、序列化与反序列化的开销小）。Hadoop中的键（key）和值（value）必须是实现了Writable接口的对象（键还必须实现WritableComparable，以便进行排序）。

package org.apache.hadoop.io;
import java.io.DataOutput;
import java.io.DataInput;
import java.io.IOException;
public interface Writable {
	/*
	object将自身字段序列化后的字节流写入输出流out中。
	参数:
	out - 接收object序列化后的字节流的输出流.
	*/
	void write(DataOutput out) throws IOException;
	/*
	将输入流in中的字节流反序列化然后写入object的字段
	参数:
	字节流的出处
	*/
	void readFields(DataInput in) throws IOException;
}

WritableComparable接口

WritableComparable接口定义如下：

package org.apache.hadoop.io;
public interface WritableComparable<T> extends Writable, comparable<T> {
}

WritableComparable没有方法，其方法都是通过继承而来，继承自Writable接口的有以下两个方法。

void write(DataOutput out) throws IOException；
void readFields(DataInput in) throws IOException；

还有继承自comparable的方法，comparable是属于java.lang.*中的一个接口，它只有一个方法。

int compareTo( T other);
/*
比较此对象与指定对象other的顺序。如果该对象小于、等于或大于指定对象，则
分别返回负整数、零或正整数。
参数：other - 要比较的对象。
返回：负整数、零或正整数，根据此对象是小于、等于还是大于指定对象。
*/

ObjectWritable类的实现

创建类实现WritableComparable或者Writable
根据需要定义属性，生成get/set函数
构造函数：空参/带参数
序列化和反序列方法实现
- 重写write方法并添加逻辑以写入所有字段值（就是调用基本类型的write方法）
- 重写readFields方法从输入流读取所有字段值
重写compareTo方法并实现自定义数据类型排序的逻辑

7 简述Hadoop分区函数的作用，及自定义分区函数的方法。

Hadoop中自带了一个默认的分区类HashPartitioner，继承Partitioner类，提供了一个getPartition的方法，定义如下：

public class HashPartitioner<K, V> extends Partitioner<K, V> {
	public int getPartition(K key, V value, int numReduceTasks) {
		return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
	}
}

实现了将key均匀分布在Reduce Tasks上，例如：如果Key为Text的话，Text的hashcode方法跟String的基本一致，得到一个int整数。但是，如果string太大的话这个int整数值可能会溢出变成负数，所以和整数的上限值Integer.MAX_VALUE（即0111111111111111）进行与运算，然后再对reduce任务个数取余，这样就可以让key均匀分布在reduce上。

分区的作用：

根据业务需要，产生多个文件输出
多个reduce任务在运行，提高整体job的运行速度。

8 什么是HBase? HBase 的存储结构是怎样的（Region, 列族）？

HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，是谷歌BigTable的开源实现，主要用来存储非结构化和半结构化的松散数据。

适合于存储大表数据，并且对大表数据的读、写访问可以达到实时级别。
利用Hadoop HDFS作为其文件存储系统，提供实时读写的分布式数据库系统。
利用ZooKeeper作为协同服务。

HBase与传统关系数据库的对比分析

（1）数据类型：关系数据库采用关系模型，具有丰富的数据类型和存储方式，HBase则采用了更加简单的数据模型，它把数据存储为未经解释的字符串。用户可以把不同格式的结构化数据和非结构化数据都序列化成字符串保存到HBase中。

（2）数据操作：关系数据库中包含了丰富的操作，其中会涉及复杂的多表连接，通常借助于多个表之间的主外键关联实现。HBase操作则不存在复杂的表与表之间的关系，只有简单的插入、查询、删除、清空等，因为HBase在设计上就避免了复杂的表和表之间的关系，通常只采用单表的主键查询。

（3）存储模式：关系数据库是基于行模式存储的。HBase是基于列存储的，每个列族都由几个文件保存，不同列族的文件是分离的。

（4）数据索引：关系数据库通常可以针对不同列构建复杂的多个索引，以提高数据访问性能。HBase只有一个索引——行键，通过巧妙的设计，HBase中的所有访问方法，或者通过行键访问，或者通过行键扫描，从而使得整个系统不会慢下来。

（5）数据维护：在关系数据库中，更新操作会用最新的当前值去替换记录中原来的旧值， 旧值被覆盖后就不会存在。而在HBase中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧有的版本仍然保留。

（6）可伸缩性：关系数据库很难实现横向扩展，纵向扩展的空间也比较有限。相反， HBase和BigTable这些分布式数据库就是为了实现灵活的水平扩展而开发的，能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩。

数据模型

概述

HBase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列族、列限定符和时间戳
每个值是一个未经解释的字符串，没有数据类型
用户在表中存储数据，每一行都有一个可排序的行键和任意多的列
表在水平方向由一个或者多个列族组成，一个列族中可以包含任意多个列，同一个列族里面的数据存储在一起
列族支持动态扩展，可以很轻松地添加一个列族或列，无需预先定义列的数量以及类型，所有列均以字符串形式存储，用户需要自行进行数据类型转换
HBase中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧有的版本仍然保留（这是和HDFS只允许追加不允许修改的特性相关的）

数据模型相关概念

表：HBase采用表来组织数据，表由行和列组成，列划分为若干个列族
行：每个HBase表都由若干行组成，每个行由**行键（rowkey）**来标识
列族：一个HBase表被分组成许多列族（ColumnFamily）的集合，它是基本的访问控制单元列
限定符：列族里的数据通过列限定符（或列）来定位。没有数据类型，总被视为字节数组byte[]。有点像数据库里的主键哦，区别某一行数据与其他数据。
单元格：在HBase表中，通过行、列族和列限定符确定一个“单元格”（cell），单元格中存储的数据没有数据类型，总被视为字节数组byte[]。每个单元格可以保存一个数据的多个版本，每个版本对应一个不同的时间戳
时间戳：每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳进行索引

数据坐标

HBase中需要根据行键、列族、列限定符和时间戳来确定一个单元格，因此，可以视为一个“四维坐标”，即[行键, 列族, 列限定符, 时间戳]

Region

将一个数据表按Key值范围连续划分为多个的子表，这个子表，在HBase中被称作 “Region”。
每一个Region都关联一个Key值范围，即一个使用StartKey和EndKey描述的区间。
事实上，每一个Region仅仅记录StartKey就可以了，因为它的EndKey就是下一个 Region的StartKey。
Region是HBase分布式存储的最基本单元。

RegionServer

RegionServer是HBase的数据服务进程。负责处理用户数据的读写请求。
Region由RegionServer管理。所有用户数据的读写请求，都是和RegionServer上的Region进行交互。
Region可以在RegionServer之间迁移。
每个RegionServer负责管理一个region集合。

Column Family

ColumnFamily是Region的一个物理存储单元。同一个Region下面的多个ColumnFamily，位于不同的路径下面。

一个表在水平方向上由一个或多个Column Family组成。一个Column Family可以由任意多个Column组成。Column是CF下的一个标签，可以在写入数据时任意添加，因此CF支持动态扩展，无需预先定义Column的数量和类型。HBase中表的列非常稀疏，不同行的列的个数和类型都可以不同。

9 什么是Hive？Hive中内部表和外部表的区别是什么？

Hive

Hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据：

可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；
可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称Hive SQL，使不熟悉MapReduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。
MapReduce开发人员可以把自己写的mapper和reducer作为插件来支持Hive做更复杂的数据分析。

数据仓库(DataWarehouse，DW)
数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合，用于支持管理决策。

面向主题，即数据仓库中表的设计是按照一个个主题进行组织的而非按照业务流程设计；
集成性，是指将企业中各大业务系统进行数据集中、整合、加工从而形成全局统一的数据视图；
相对稳定，则是指数据仓库中的数据不会做频繁的增删改操作，相对于业务系统中频繁的事务处理，其数据变化相对稳定；
反应历史变化，表明数据仓库通常会保存数据的历史备份，因此就可以从中获取数据历史变化情况。

可以对多种业务数据进行筛选和整合，用于数据分析、数据挖掘、数据报表。

查询语言	HiveQL	SQL
数据存储位置	HDFS	本地FS
数据格式	用户定义	系统决定
数据更新	不支持	支持
索引	新版本有，但弱，仅支持有限索引	有，支持复杂索引
执行	MapReduce、Tez、Spark	Executor
执行延迟	高	低
可扩展性	高	低
数据规模	大	小

hive数据分成两类：数据文件和元数据。

元数据
- 用于存放hive库的基础信息
- 它存储在关系数据库中（如：MySQL、Derby）。
- 主要包括数据库信息、表的名字，表的列和分区及其属性，表的属性，表的数据所在目录等。
数据文件
- hive的数据存储在HDFS中
- 大部分的查询由MapReduce完成
- 对于包含*的查询不会产生MapReduce作业

Driver负责将hive sql 解析和优化HQL语句，将其转换成一个Hive Job（可以是MapReduce，也可以是Spark等其他任务）并提交给Hadoop集群。

Hive的运行机制

① 用户通过用户接口连接Hive,发布Hive SQL
② Hive解析查询并制定查询计划
③ Hive将查询转换成MapReduce作业
④ Hive在Hadoop上执行MapReduce作业

内部表

内部表与关系数据库中的Table在概念上类似。每一个Table在Hive中都有一个相应的目录存储数据。所有的Table数据（不包括External Table）都保存在这个目录中。删除表时，元数据与数据都会被删除。

外部表

外部表指向已经在HDFS中存在的数据。

它和内部表在元数据的组织上是相同的，而实际数据的存储则有较大的差异。

内部表的创建过程和数据加载过程这两个过程可以分别独立完成，也可以在同一个语句中完成，在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。

而外部表只有一个过程，加载数据和创建表同时完成，实际数据是存储在LOCATION后面指定的 HDFS 路径中，并不会移动到数据仓库目录中。当删除一个External Table时，仅删除该链接

如何选择使用内部表或外部表？

如果所有处理都由Hive来完成，则使用内部表
如果需要用Hive和外部其他工具处理同一组数据集，则使用外部表

10 叙述Hive中分区和分桶的概念？

分区

Partition就是一种对表进行粗略划分的机制,可以实现加快查询速度的组织形式。
在Hive中，表中的一个Partition对应于表下的一个目录，所有的Partition的数据都存储在对应的目录中。

桶

Buckets是将表的列通过Hash算法进一步分解成不同的文件存储。
它对指定列计算Hash，根据Hash值切分数据，目的是为了并行，每一个Bucket对应一个文件。

分区是粗粒度的划分，桶是细粒度的划分，这样做为了可以让查询发生在小范围的数据上以提高效率。适合进行表连接查询、适合用于采样分析。

11 Spark生态包含了哪些模块，各个模块的功能是什么？

Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、MLlib和GraphX等组件。

Spark Core实现了Spark框架的基本功能，包含任务调度，内存管理，错误恢复，与存储系统交互等模块。Spark Core还包含了对弹性分布式数据集RDD的API定义。
Spark Streaming是Spark提供的对实时数据进行流计算的组件。
Spark SQL是Spark用来操作结构化数据的程序包，通过它可以使用SQL语言来查询数据，同时支持多种数据源，比如Hive, Parquet以及JSON等。
MLLib是Spark提供的常见机器学习功能的程序库，提供了包括分类、回归、聚类、协同过滤等机器学习算法，还提供了模型评估，数据导入等额外的功能。
GraphX是用来操作图的程序库，可以进行并行的图计算

应用场景	时间跨度	其它框架	Spark生态系统中的组件
复杂的批量数据处理	小时级	MapReduce	Spark
基于历史数据的交互式查询	分钟级、秒级	Hive、Impala、Dremel、Drill	Spark SQL
基于实时数据流的数据处理	毫秒、秒级	Storm、S4	Spark Streaming
基于历史数据的数据挖掘	-	Mahout	MLlib
图结构数据的处理	-	Pregel、Hama	GraphX

12 什么是RDD？RDD的Stage是如何划分的？RDD算子分为哪两类，分别举例说明。

RDD

概念

RDD：是Resillient Distributed Dataset（弹性分布式数据集）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型 。

一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可分成多个分区，每个分区就是一个数据集片段，并且一个RDD的不同分区可以被保存到集群中不同的节点上，从而可以在集群中的不同节点上进行并行计算。

RDD提供了一种高度受限的共享内存模型，即RDD是只读的记录分区的集合，不能直接修改，只能基于稳定的物理存储中的数据集创建RDD，或者通过在其它RDD上执行确定的转换操作（如 map、join和group by）而创建得到新的RDD

RDD属性

只读：不能修改，只能通过转换操作生成新的 RDD。
分布式：可以分布在多台机器上进行并行处理。
弹性：计算过程中内存不够时它会和磁盘进行数据交换。
基于内存：可以全部或部分缓存在内存中，在多次计算间重用

RDD运行原理

RDD执行过程如下：

RDD读入外部数据源进行创建
RDD经过一系列的转换（Transformation）操作，每一次都会产生不同的RDD，供给下一个转换操作使用
最后一个RDD经过“动作”操作进行转换，并输出到外部数据源

这一系列处理称为一个Lineage（血缘关系），即DAG拓扑排序的结果优点：惰性调用、管道化、避免同步等待、不需要保存中间结果、每次操作变得简单

RDD之间的依赖关系

窄依赖表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区
宽依赖则表现为存在一个父RDD的一个分区对应一个子RDD的多个分区

窄依赖

1）子RDD的每个分区依赖于常数个父分区（即与数据规模无关)。
2）输入输出一对一的算子，且结果RDD的分区结构不变，如map、flatMap。
3）输入输出一对一的算子，但结果RDD的分区结构发生了变化，如union。
4）从输入中选择部分元素的算子，如filter、distinct、subtract、sample。

宽依赖

1）子RDD的每个分区依赖于所有父RDD分区。
2）对单个RDD基于Key进行重组和reduce，如groupByKey、reduceByKey。
3）对两个RDD基于Key进行join和重组，如join

Spark的这种依赖关系设计，使其具有了天生的容错性，大大加快了Spark的执行速度。RDD通过血缘关系记住了它是如何从其他RDD中演变过来的。当这个RDD的部分分区数据丢失时，它可以通过血缘关系获取足够的信息来重新运算和恢复丢失的数据分区，从而带来性能的提升。

Stage的划分

Spark通过分析各个RDD的依赖关系生成了DAG，再通过分析各个RDD中的分区之间的依赖关系来决定如何划分Stage，具体划分方法是：

在DAG中进行反向解析，遇到宽依赖就断开
遇到窄依赖就把当前的RDD加入到Stage中
将窄依赖尽量划分在同一个Stage中，可以实现流水线计算

RDD的算子

Transformation

Transformation是通过转换从一个或多个RDD生成新的RDD，该操作是lazy的，当调用action算子，才发起job。
典型算子：map、flatMap、filter、reduceByKey等。

Action

当代码调用该类型算子时，立即启动job。
典型算子：take、count、saveAsTextFile等。

13 Spark运行架构包括哪些组件，各个组件的功能是什么。

Spark运行架构包括

集群资源管理器（Cluster Manager）
运行作业任务的工作节点（Worker Node）
每个应用的任务控制节点（Driver）
每个工作节点上负责具体任务的执行进程（Executor）

其中，资源管理器可以为spark自带的，也可以是Mesos或YARN等资源管理框架

一个Application由一个Driver和若干个Job构成，一个Job由多个Stage构成，一个Stage由多个没有Shuffle关系的Task组成。

当执行一个Application时，Driver会向集群管理器申请资源，启动Executor，并向Executor发送应用程序代码和文件，然后在Executor上执行Task，运行结束后，执行结果会返回给Driver，或者写到HDFS或者其它数据库中。

14 Spark Streaming的设计原理是什么？什么是无状态转换和有状态转换？

流计算是针对流数据的实时计算。

Spark Streaming是构建在Spark上的实时计算框架，且是对Spark Core API的一个扩展，它能够实现对流数据进行实时处理，并具有很好的可扩展性、高吞吐量和容错性。

Spark Streaming可整合多种输入数据源，如Kafka、Flume、HDFS，甚至是普通的TCP套接字。经处理后的数据可存储至文件系统、数据库，或显示在仪表盘里。

设计原理@

Spark Streaming的基本原理是将实时输入数据流以时间片（秒级）为单位进行拆分，然后经Spark引擎以类似批处理的方式处理每个时间片数据。

有状态和无状态转换

无状态转换

和Spark core的语义一致，无状态转化操作就是把简单的RDD转化操作应用到每个批次上。

那么Spark Streaming的无状态转化操作，也就是对Dstream的操作会映射到每个批次的RDD上。

无状态转换操作不会跨多个批次的RDD去执行，即每个批次的RDD结果不能累加。

有状态转换

有状态操作是跨时间区间跟踪处理数据的操作。依赖于之前批次的数据。

1）updateStateByKey函数

有时我们需要在DStream 中跨所有批次维护状态（例如跟踪用户访问网站的会话）。针对这种情况，updateStateByKey() 为我们提供了对一个状态变量的访问，用于键值对形式的Dstream。
使用updateStateByKey需要完成两步工作：
第一步：定义状态，状态可以是任意数据类型
第二步：定义状态更新函数- update(events, oldState)

之前我们写过的wordcount程序，我们应该发现了：单词数统计是按批次的，批次与批次互不影响，当你不断输入某个单词的时候，总的计数不会累加。那么如果想要在任意状况下都去更新某个信息，就需要使用UpdateStateByKey ，使用此功能必须执行两个步骤。

2）windows函数

windows（窗口）函数也是一种有状态操作，基于windows的操作会在一个比StreamingContext的批次间隔更长的时间范围内，通过整合多个批次的结果，计算出整个窗口的结果。
所有基于窗口的操作都需要两个参数，分别为windowDuration以及slideDuration，两者都必须是StreamContext的批次间隔的整数倍。

windowDuration表示窗口框住的时间，slideDuration表示每次窗口移动的时间

间隔多久进行整合操作?slideDuration
对多少个批次进行整合？windowDuration

假设batchDuration为5秒，slideDuration为10秒，windowDuration为15秒。

每5秒采集的数据会生成一个RDD。
每10秒会执行一次计算。即每3个RDD会执行一次计算。
每次计算会计算最新的15秒内所采集的数据。即每次计算最新的3个RDD在合并之后的大RDD。

15 Spark与Hadoop的相同点和不同点？

1）应用场景不同

Hadoop和Spark两者都是大数据框架，但是各自应用场景是不同的。Hadoop是一个分布式数据存储架构，它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，降低了硬件的成本。Spark是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它要借助hdfs的数据存储。

2）处理速度不同

hadoop的MapReduce是分步对数据进行处理的，从磁盘中读取数据，进行一次处理，将结果写到磁盘，然后在从磁盘中读取更新后的数据，再次进行的处理，最后再将结果存入磁盘，这存取磁盘的过程会影响处理速度。spark从磁盘中读取数据，把中间数据放到内存中，，完成所有必须的分析处理，将结果写回集群，所以spark更快。

3）容错性不同

Hadoop将每次处理后的数据都写入到磁盘上，基本谈不上断电或者出错数据丢失的情况。Spark的数据对象存储在弹性分布式数据集 RDD，RDD是分布在一组节点中的只读对象集合，如果数据集一部分丢失，则可以根据于数据衍生过程对它们进行重建。而且RDD 计算时可以通过 CheckPoint 来实现容错。

16 我们在实验中构建的流处理框架由哪几个组件构成？各个组件所起的作用是什么？

参与方们@

我们模拟生成电商平台购买日志，然后使用Flume对日志进行收集，收集的日志一方面存入HDFS，一方面传给Kafka，Kafka收到的日志传给SparkStreaming进行实时流处理，处理的结果存入Mysql。

SparkStreaming组件成分

StreamingContext:SparkStreaming中Driver端的上下文对象，初始化的时候会构造SparkStreaming应用程序需要使用的组件，比如DStreamGraph、JobScheduler等。
DStreamGraph：用于保存DStream和DStream之间依赖关系等信息。
JobScheduler:主要用于调度job。JobScheduler主要通过JobGenerator产生job，并且通过ReceiverTracker管理流数据接收器Receiver。
JobGenerator:主要是从DStream产生job,且根据指定时间执行checkpoint.它维护了一个定时器，该定时器在批处理时间到来的时候会进行生成作业的操作。
ReceiverTracker:管理各个Executor上的Receiver的元数据。它在启动的时候，需要根据流数据接收器Receiver分发策略通知对应的Executor中的ReceiverSupervisor(接收器管理着)启动，然后再由ReceiverSupervisor来启动对应节点的
ReceiverStreamingContext:SparkStreaming中Driver端的上下文对象，初始化的时候会构造SparkStreaming应用程序需要使用的组件，比如DStreamGraph、JobScheduler等。
DStreamGraph：用于保存DStream和DStream之间依赖关系等信息。
JobScheduler:主要用于调度job。JobScheduler主要通过JobGenerator产生job，并且通过ReceiverTracker管理流数据接收器Receiver。
JobGenerator:主要是从DStream产生job,且根据指定时间执行checkpoint.它维护了一个定时器，该定时器在批处理时间到来的时候会进行生成作业的操作。
ReceiverTracker:管理各个Executor上的Receiver的元数据。它在启动的时候，需要根据流数据接收器Receiver分发策略通知对应的Executor中的ReceiverSupervisor(接收器管理着)启动，然后再由ReceiverSupervisor来启动对应节点的Receiver

你可能感兴趣的:(笔记,spark,big,data,hadoop)

leetcode393. UTF-8 编码验证 wl1929 leetcode
classSolution{publicbooleanvalidUtf8(int[]data){intnumberOfBytesToProcess=0;for(inti=0;i=8?binRep.substring(binRep.length()-8):"00000000".substring(binRep.length()%8)+binRep;if(numberOfBytesToProcess=
【计算机网络】第三章：数据链路层（上） iFulling 计算机网络笔记计算机网络网络网络协议笔记
本篇笔记课程来源：王道计算机考研计算机网络接下节：【计算机网络】第三章：数据链路层（下）【计算机网络】第三章：数据链路层（上）一、数据链路层的功能1.基本概念2.功能总览二、组帧（封装成帧）1.主要实现2.字符计数法3.字节填充法4.零比特填充法5.违规编码法三、差错控制1.主要实现2.检错编码Ⅰ.奇偶校验码Ⅱ.循环冗余校验码3.纠错编码Ⅰ.海明校验码四、流量控制、可靠传输1.相关机制Ⅰ.滑动窗口
C练题笔记之：Leetcode-393. UTF-8 编码验证月团子 c语言 leetcode 算法
题目：给定一个表示数据的整数数组data，返回它是否为有效的UTF-8编码。UTF-8中的一个字符可能的长度为1到4字节，遵循以下的规则：对于1字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。对于n字节的字符(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。这是UTF-8编码的工
leetcode 393. UTF-8 编码验证
题目描述：给定一个表示数据的整数数组data，返回它是否为有效的UTF-8编码。UTF-8中的一个字符可能的长度为1到4字节，遵循以下的规则：对于1字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。对于n字节的字符(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。这是UTF-8编码
【LeetCode】393. UTF-8 编码验证 pass night leetcode 算法职场和发展
题目393.UTF-8编码验证给定一个表示数据的整数数组data，返回它是否为有效的UTF-8编码。UTF-8中的一个字符可能的长度为1到4字节，遵循以下的规则：对于1字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。对于n字节的字符(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
使用FinancialDatasets工具包进行财务数据分析 Zbb159 数据分析数据挖掘
##技术背景介绍在现代金融分析中，获取准确且及时的财务数据是至关重要的。FinancialDatasets提供了一个强大的API，可以获取超过16,000个股票的财务数据，时间跨度超过30年。通过与OpenAI的集成，我们能够创建智能化的财务分析助手，为投资者提供深度的市场洞察。##核心原理解析FinancialDatasets工具包通过RESTAPI接口访问财务数据，为每个公开交易的公司提供详细
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
怎样查询汇率实时行情,含汇率转换大大的卷接口 python 大数据前端
汇率转换接口支持多种货币之间的转换。只需简单的API调用，您就可以轻松获取最新的汇率信息。例如，您可以通过以下链接将人民币（CNY）转换为美元（USD）：PHP请求案例：返回数据结果：{"code":1,"msg":"操作成功","data":{"from":"CNY","from_name":"人民币","to":"USD","to_name":"美元","exchange":"0.140583
【Python】（一）面试题和Py基础题戏精亿点点菜 python 开发语言
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
创建 TransactionStatus 悟能不能悟 log4j java 开发语言
在Spring框架中，TransactionStatus是一个接口，通常由事务管理器（如PlatformTransactionManager）在开启事务时自动创建，而不是由开发者直接实例化。如果你需要在代码中操作事务状态，应通过以下标准方式：正确获取TransactionStatus的步骤：注入事务管理器在SpringBean中注入PlatformTransactionManager（如DataS
[3-02-01].第14节：三方整合 - SpringData整合Redis集群 1.01^1000 阶段03：企业框架 spring boot
Redis大纲一、SpringBoot整合主从架构的Redis：1.1.问题说明：1.在Sentinel集群监管下的Redis哨兵架构中，其节点会因为自动故障转移而发生变化，Redis的客户端必须感知这种变化，及时更新连接信息2.SpringBoot中的RedisTemplate底层利用lettuce实现了节点的感知和自动切换，我们需要进行配置才可以实现这种动态上下线的情况。下面，我们通过一个测试
Navicat导出数据库表结构 qq_42676307 数据库 mysql
每一份完善的文档都是为后期维护铺平的道路：针对MySQL导出表结构文档，工具：navicat第一步：navicat新建查询SELECTCOLUMN_NAME列名,COLUMN_COMMENT名称,COLUMN_TYPE数据类型,DATA_TYPE字段类型,CHARACTER_MAXIMUM_LENGTH长度,IS_NULLABLE是否必填,COLUMN_DEFAULT描述FROMINFORMATI
如何创建Python工程目录九月恒心 Python python 自动测试
如何创建一个简单但是比较规范的python工程目录，本文是学习了LearnPythontheHardWay相关内容后做的一些笔记。安装python第三方包1.pipfromhttp://pypi.python.org/pypi/pip用于安装python第三方包的工具2.distributefromhttp://pypi.python.org/pypi/distribute已被弃用，是SetupT
navicat premium导出数据库表结构到Excel（Oracle、MYSQL、SQLServer） Amy_Victoria 数据库数据库 oracle mysql sqlserver
这里使用的navicatpremium是12.0.24版1.Oracle的语句SELECTA.cloumn列名,datatype数据类型,datalength长度,nullable是否为空,b.comments注释FROM(SELECTCOLUMN_NAMEcloumn,DATA_TYPEdatatype,DATA_LENGTHdatalength,NULLABLEnullableFROMALL_
实现el-date-picker带时分秒（附默认时间）
htmldatatime:'',pickerOptions:{showTime:true,format:'yyyy-MM-ddHH:mm:ss'//可以根据需要设置日期时间的显示格式},带默认时间，需要到一个插件momentdataCreateTime:[moment().subtract(30,'days').format('YYYY-MM-DD'),moment().format('YYYY-
解决element ui select多选下拉框编辑时没有回显数据菌菇汤前端 javascript elementui
我们直接从编辑的数据拿id分割成数组是不行的，只会显示id正确做法：应该再遍历一下，主要是字符转数字，重点乘以1letjsonList=data.CharacteristicId.split(',')letlist=[]for(letiinjsonList){list.push(jsonList[i]*1)}this.ruleForm.characteristicEdit=list如果是单个字符串
uniapp用checkbox实现整个页面单选功能成长中的向日葵 uniapp uni-app
1.uniapp使用checkbox实现整个页面单选功能，整个页面只能选择一个选项，还是很有趣的，记录一下。{{checkIndex+1}}.{{item.FixedItemDic.Text}}{{fixedItem.Text}}{{fixedItem.FixedScore}}分data(){return{checkBusinessList:[],//业态规模数组}},checkboxChange
notepad++正则表达式痞子IT 嵌入式开发语言 xml c语言
notepad++正则表达式使用笔记：1.查找空行：^\s*\r\n2.排除以（开头的行：^(?!（).*$3.查找第二行以A-D开头的情况：(\r\n)(^[A-D])4.查找不含有helloworld的行：^(?!.*helloworld).*$5.查找不以com结尾的字符串：^.*?(?|"']|"[^"]*"|'[^']*')*?(?:/>|>.*?)11.查找非换行空白：(\s)(?)及
SystemVerilog LRM 学习笔记 -- clocking块
1clocking...endclocking块clocking块是SV新feature，主要是为了更好解决testbench和DUT之间的timing和同步建模的问题，可以使user基于clockcycle在更高的抽象层次上写testbench(如“##3”，表示三个clock)。clocking只能在module/interface/checker/program中声明，不能在function
Mat转指针和指针转Mat Ring__Rain Opencv
Matorigin_Img=Mat::zeros(m_nGoldenHeight,m_nGoldenWidth,CV_8UC1);;uchar*pimage=origin_Img.data;origin_Img.data=pimage;
Jackson JSR310 日期反序列化问题解决方案 Dolphin_Home 生产环境_场景抽象代码规范 Spring Boot python 开发语言
JacksonJSR310日期反序列化问题解决方案一、问题背景在SpringBoot微服务项目中，使用Java8时间API（如LocalDateTime）配合Jackson处理JSON序列化时，升级Jackson从2.12到2.15后，出现以下反序列化异常：com.fasterxml.jackson.datatype.jsr310.deser.JSR310DateTimeDeserializerB
Java 导出pdf 写出demo 1、需要设置自定义页眉和文字 2、可以插入表格 3、可以插入图片赵八斤 java
以下是一个使用iText7库实现PDF导出的Java示例，包含自定义页眉、文字、表格和图片功能：添加Maven依赖com.itextpdfitext7-core7.2.5com.itextpdflayout7.2.5Java示例代码importcom.itextpdf.io.image.ImageDataFactory;importcom.itextpdf.kernel.colors.ColorC
C# winform利用Graphics绘制数据折线图
int[]x=newint[20];int[]y=newint[20];float[]data=newfloat[20];Point[]pot=newPoint[20];inti=0;Fontf=newFont("隶书",10,FontStyle.Bold);privatevoidForm1_Paint(objectsender,PaintEventArgse){Graphicsgobj=e.Gr
MySQL 统计信息详解：从原理到实践我科绝伦（Huanhuan Zhou） mysql mysql android 数据库
MySQL统计信息是数据库优化器生成查询执行计划的关键依据，记录了表和索引的基本特性，辅助优化器估算查询成本、选择最优执行路径。一、统计信息主要内容分为表级、索引级和列级三类。1.1表级统计信息描述表基本属性，如行数（TABLE_ROWS）、平均行长度（AVG_ROW_LENGTH）、数据大小（DATA_LENGTH）、索引大小（INDEX_LENGTH）、空闲空间（DATA_FREE）。获取方式
JavaWeb（苍穹外卖）--学习笔记03（登录生成令牌）老虎0627 JavaWeb（苍穹外卖）学习笔记 java
前言本片文章是学习B站黑马程序员苍穹外卖的学习笔记。在Day01（如果学到登录界面这里卡住了，可以看看这篇文章），登陆界面的后端实现大致可以分为两部分登录功能和登录校验，其中登陆校验的实现是基于令牌JWT技术来实现会话追踪（校验部分还有拦截器Interceptor这个我没太学懂视频也没提，以后在更）JWT令牌基本概念JWT是一种在Web应用程序，简单且安全地处理用户身份验证和信息交换的技术，首先我
Oracle常用sql语句多肉葡萄和大嘴鱼 sql oracle 数据库
Oracle常用sql语句文章目录Oracle常用sql语句数据定义语言（DDL,DataDefinitionLanguage）1.创建表2.创建/删除索引2.修改表结构3.表or字段注释数据操纵语言（DML,DataManipulationLanguage）1.查询语句1.1groupby语句1.2distinct用法2.更新语句3.插入语句4.删除语句数据定义语言（DDL,DataDefini
【无标题】导出pdf
JavaPDF导出工具-iText7实现下面是一个使用iText7库实现的PDF导出工具，支持页眉文字和图片、表格插入和图片插入功能。importcom.itextpdf.io.image.ImageData;importcom.itextpdf.io.image.ImageDataFactory;importcom.itextpdf.kernel.colors.ColorConstants;im
Failed to load response data: No data found for resource with given identifier 错误问题排查解决 Right.W 部署服务器运维 nginx
同事在一个新的环境里部署了一套测试环境，因为服务器内存问题等问题，没有采用容器部署，直接进行打包部署的，用nginx做代理完成。部署完成后，也是遇到一系列的问题，其中Failedtoloadresponsedata:Nodatafoundforresourcewithgivenidentifier这个问题在平台里导出都有报，但是一直没有找到问题根源，这个问题导致平台中许多节点都不能正常访问，登陆跳
Vue3-尚硅谷笔记八月份的天气 Vue3-笔记笔记
1.Vue3简介2020年9月18日，Vue.js发布版3.0版本，代号：OnePiece（n经历了：4800+次提交、40+个RFC、600+次PR、300+贡献者官方发版地址：Releasev3.0.0OnePiece·vuejs/core截止2023年10月，最新的公开版本为：3.3.41.1.【性能的提升】打包大小减少41%。初次渲染快55%,更新渲染快133%。内存减少54%。1.2.【
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分