TKE_kolento.

大数据离线批处理场景化解决方案----离线处理技术框架介绍

大数据离线批处理化解决方案

HDFS概述
• HDFS(Hadoop Distributed File System)基于Google发布的GFS论文设计开发。
• 其除具备其它分布式文件系统相同特性外，HDFS还有自己特有的特性：
• 高容错性：认为硬件总是不可靠的。
• 高吞吐量：为大量数据访问的应用提供高吞吐量支持。
• 大文件存储：支持存储TB-PB级别的数据。
• 不适用场景：
• 低时间延迟数据访问的应用，例如几十毫秒范围。
原因：HDFS是为高数据吞吐量应用优化的，这样就会造成以高时间延迟为代价。
• 大量小文件。
原因：NameNode启动时，将文件系统的元数据加载到内存，因此文件系统所能存储的文件总数受限于NameNode内存容量。根据经验，每个文件，目录和数据块的存储信息大约占150字节，如果一百万个文件，且每个文件占一个数据块，那至少需要300MB的内存空间，但是如果存储十亿个文件，那么需要的内存空间将是非常大的。
• 多用户写入，任意修改文件。
原因：现在HDFS文件只有一个writer，而且写操作总是写在文件的末尾。
• 流式数据访问：在数据集生成后，长时间在此数据集上进行各种分析。每次分析都将涉及该数据集的大部分数据甚至全部数据，因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。与流数据访问对应的是随机数据访问，它要求定位、查询或修改数据的延迟较小，比较适合于创建数据后再多次读写的情况，传统关系型数据库很符合这一点。

基本系统架构

• HDFS架构包含三个部分：NameNode，DataNode，Client。
• NameNode：NameNode用于存储、生成文件系统的元数据。运行一个实例。
• DataNode：DataNode用于存储实际的数据，将自己管理的数据块上报给NameNode ，运行多个实例。
• Client：支持业务访问HDFS，从NameNode ,DataNode获取数据返回给业务。多个实例，和业务一起运行。
• Metadata：元数据
• 文件块（片）被存在哪个集群；谁有权限查看、修改这个文件；多少datanodes在集群里；集群的事物日志存储位置。
• Replication:副本通常存储三份。

HDFS回收站机制
• 在HDFS里，删除文件时，不会真正的删除，其实是放入回收站，回收站里的文件可以用来快速恢复误删文件。
• 可以设置一个时间阀值（单位：分钟），当回收站里文件的存放时间超过这个阀值或是回收站被清空时，文件才会被彻底删除，并且释放占用的数据块。
• Hadoop回收站trash，默认是关闭的，若开启需要修改配置文件core-site.xml。
•
• 注：value的时间单位是分钟，如果配置成0,表示不开启HDFS的回收站。
• 1440=24*60,表示的一天的回收间隔，即文件在回收站存在一天后，被清空。
• hdfs dfs –lsr /user/root/.Trash 可以找到误删的文件

Hive概述
• Hive是基于Hadoop的数据仓库软件，可以查询和管理PB级别的分布式数据。
• Hive特性：
• 灵活方便的ETL (Extract/Transform/Load)。
• 支持MapReduce、Tez、Spark多种计算引擎。
• 可直接访问HDFS文件以及HBase。
• 易用易编程。

Hive的架构

• MetaStore : 存储表、列和Partition等元数据。Hive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
• Driver : 管理HiveQL执行的生命周期，并贯穿Hive任务整个执行期间。
• Compiler : 编译HiveQL并将其转化为一系列相互依赖的Map/Reduce任务。
• Optimizer : 优化器，分为逻辑优化器和物理优化器，分别对HiveQL生成的执行计划和MapReduce任务进行优化。
• Executor : 按照任务的依赖关系分别执行Map/Reduce任务。
• ThriftServer : 提供thrift接口，作为JDBC和ODBC的服务端，并将Hive和其他应用程序集成起来。
• Clients : 包含命令行接口(CLI/Beeline) 和JDBC/ODBC 接口，为用户访问提供接口。
• JDBC/ODBC，通过Java代码操作，需要启动Hiveserver2，然后连接操作。

Hive的数据存储模型

• 数据库：创建表时如果不指定数据库，则默认为default数据库。
• 表：物理概念，实际对应HDFS上的一个目录。
• 分区：对应所在表所在目录下的一个子目录。
• 桶：对应表或分区所在路径的一个文件。
• 倾斜数据：数据集中于个别字段值的场景，比如按照城市分区时，80%的数据都来自某个大城市。
• 正常数据：不存在倾斜的数据。

Hive内部表和外部表的区别
• 区别：

• 查询表的类型：
•
• 修改内部表tableName为外部表：
•
• 修改外部表tableName为内部表：
•
• Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。
• 在删除表的时候，内部表的元数据和实际数据会被一起删除，而外部表只删除元数据，不删除实际数据。这样外部表相对来说更加安全。

Hive内置函数
• 查看系统函数的用法：hive> show functions;
• 显示函数的用法：hive> desc function upper;
• 详细显示函数的用法：hive> desc function extended upper;
• 常用函数：
• 数学函数，如round( )、 abs( )、rand( )等。
• 日期函数，如to_date( )、current_date( )等。
• 字符串函数，如trim( )、length( )、substr( )等。
• round()–返回近似值（四舍五入）。
• abs()–计算绝对值。
• to_date( )-- yyyy-MM-dd HH:MM:ss 截取日期。
• current_date–获取当前日期，当前是 2019-07-28。
• trim( )–去除空字符串。
• length( )–求字符串长度。
• substr( )–字符串截取。

Hive自定义UDF
• 当Hive提供的内置函数无法满足业务处理需要时，此时就可以考虑使用用户自定义函数，编写处理代码并在查询中使用。
• UDF(User-Defined-Function）
o 用于接收单个数据行，并产生一个数据行作为输出。
• UDAF(User-Defined Aggregation Function）
o 用于接收多个数据行，并产生一个数据行作为输出。
• UDTF(User-Defined Table-Generating Functions）
o 用于接收单个数据行，并产生多个数据行作为输出。
• 按实现方式，UDF分如下分类：
• 普通的UDF，用于操作单个数据行，且产生一个数据行作为输出。
• 用户定义聚集函数UDAF（User-Defined Aggregating Functions），用于接受多个输入数据行，并产生一个输出数据行。
• 用户定义表生成函数UDTF(User-Defined Table-Generating Functions)，用于操作单个输入行，产生多个输出行。
• 按使用方法，UDF有如下分类：
• 临时函数，只能在当前会话使用，重启会话后需要重新创建。
• 永久函数，可以在多个会话中使用，不需要每次创建。

UDF开发步骤
• 继承“org.apache.hadoop.hive.ql.exec.UDF”。
• 实现一个evaluate()方法，编写要实现的逻辑。
• 打包并上传到HDFS里。
• Hive创建临时函数。
• 调用该函数。

Hive调优
• 数据倾斜
• 数据倾斜指计算数据的时候，数据的分散度不够，导致大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢。
• 日常使用过程中，容易造成数据倾斜的原因可以归纳为如下几点：
o group by
o distinct count(distinct xx)
o join
• 举个Wordcount 的入门例子，它的map 阶段就是形成（“aaa”,1）的形式，然后在reduce 阶段进行 value 相加，得出 “aaa” 出现的次数。若进行Wordcount 的文本有100G，其中 80G 全部是 “aaa” 剩下 20G 是其余单词，那就会形成 80G 的数据量交给一个 reduce 进行相加，其余 20G 根据 key 不同分散到不同 reduce 进行相加的情况。如此就造成了数据倾斜，临床反应就是 reduce 跑到 99%然后一直在原地等着那80G 的reduce 跑完。
• 调优参数：
• set hive.map.aggr=true；在map中会做部分聚集操作，效率更高但需要更多的内存。
• set hive.groupby.skewindata=true;此时生成的查询计划会有两个MRJob，可实现数据倾斜时负载均衡。
• 第一MRJob 中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的GroupBy Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；第二个MRJob再根据预处理的数据结果按照GroupBy Key分布到Reduce中（这个过程可以保证相同的GroupBy Key被分布到同一个Reduce中），最后完成最终的聚合操作。
• map side join
• set hive.auto.convert.join=true;当连接一个较小和较大表的时候，把较小的表直接放到内存中去，然后再对较大的表进行map操作。
• join发生在map端的时候，每当扫描一个大的table中的数据，就要去查看小表的数据，哪条与之相符，继而进行连接。这里的join并不会涉及reduce操作。map端join的优势就是在于没有shuffle的过程。
• 并行化执行
• 每个查询会被Hive转化为多个阶段，当有些阶段关联性不大时，可以并行化执行，减少整个任务的执行时间。
• 开启任务并行执行：set hive.exec.parallel=true;
• 设置同一个sql允许并行任务的最大线程数（例如设置为8个）：set hive.exec.parallel.thread.number=8;

HQL开发
• 场景说明
• 假定用户开发一个基于Hive的数据分析应用，用于分析企业雇员信息。
• 假定需要创建三张表：
o 雇员信息表： “employees_info”。
o 雇员联络信息表： “employees_concat”。
o 雇员信息扩展表：“employees_info_extended”。
•

•

•
• 统计要求
• 查看薪水支付币种为美元的雇员联系方式。
• 查询入职时间为2019年的雇员编号、姓名和电话号码字段，并将查询结果加载进表employees_info_extended对应的分区中。
• 统计表employees_info中有多少条记录。
• 查询以“cn”结尾的邮箱的员工信息。
•
• 创建雇员信息表
•
• 创建雇员联络信息表
•
• 创建雇员信息扩展表
•
• 数据加载
• 从本地加载数据到雇员信息表
o
• 从hdfs加载信息到雇员信息表
o
• 查询
• 查看薪水支付币种为美元的雇员联系方式。
o
• 查询入职时间为2019年的雇员编号、姓名和电话号码字段，并将查询结果加载进表employees_info_extended中的入职时间为2019的分区中。
o
• 使用Hive中自带的函数COUNT()，统计表employees_concat中有多少条记录。
o
• 查询以“cn”结尾的邮箱的员工信息。
o

数据集市和数据仓库的区别
• 数据集市
• 数据集市(Data Mart) ，也叫数据市场，数据集市就是满足特定的部门或者用户的需求，按照多维的方式进行存储，包括定义维度、需要计算的指标、维度的层次等，生成面向决策分析需求的数据立方体。
• 数据仓库
• 为满足各类零散分析的需求，通过数据分层和数据模型的方式，并以基于业务和应用的角度将数据进行模块化的存储。
• 从字义上看， “仓库”可以想像成一所大房子，高高的货架，合理的出入路线，是一种集中存储货物的地方，一般顾客是不来参观访问的；而说到“集市”，就容易联想到空旷的场地，川流不息，大小商户摆出摊子，卖衣物的、卖烧饼及卖艺的，是让顾客来消费的地方。具体来说，数据仓库仅仅是提供存储的，提供一种面向数据管理的服务，不面向最终分析用户；而数据集市是面向分析应用的，面向最终用户。

Hive数据仓库
• 数据仓库分层：
• ODS层：原始数据层。原始的数据通常是杂乱无章的，但是又具有安全隐私考虑，通常应用侧是不能看到的。
• DWD层：结构和粒度与原始表保持一致，简单清洗。数据明细详情，去除空值，脏数据，超过极限范围的
明细解析
具体表
• DWS层：以DWD为基础，进行轻度汇总。---------->有多少个宽表？多少个字段
服务层–留存-转化-GMV-复购率-日活。
点赞、评论、收藏;。
轻度聚合对DWD。
• ADS层：为各种统计报表提供数据。做分析处理同步到RDS数据库里边。

分层的优点
• 复杂问题简单化
• 将任务分解成多个步骤完成，每一层只处理单一的步骤，比较简单，并且方便定位问题。
• 减少重复开发
• 规范数据分层，通过中间层数据，减少最大的重复计算，增加一次计算结果的复用性。
• 隔离原始数据
• 避免数据异常或者数据敏感，使真实数据与统计数据解耦。

• 我们对数据进行分层的一个主要原因就是希望在管理数据的时候，能对数据有一个更加清晰的掌控，详细来讲，主要有下面几个原因：
• 清晰数据结构：每一个数据分层都有它的作用域，这样我们在使用表的时候能更方便地定位和理解。
• 数据血缘追踪：简单来讲可以这样理解，我们最终给业务诚信的是一能直接使用的张业务表，但是它的来源有很多，如果有一张来源表出问题了，我们希望能够快速准确地定位到问题，并清楚它的危害范围。
• 减少重复开发：规范数据分层，开发一些通用的中间层数据，能够减少极大的重复计算。
• 把复杂问题简单化。讲一个复杂的任务分解成多个步骤来完成，每一层只处理单一的步骤，比较简单和容易理解。而且便于维护数据的准确性，当数据出现问题之后，可以不用修复所有的数据，只需要从有问题的步骤开始修复。
• 屏蔽原始数据的异常。
• 屏蔽业务的影响，不必改一次业务就需要重新接入数据。

Spark简介
• Spark是基于内存的分布式批处理系统，它把任务拆分，然后分配到多个的CPU上进行处理，处理数据时产生的中间产物（计算结果）存放在内存中，减少了对磁盘的I/O操作，大大的提升了数据的处理速度，在数据处理和数据挖掘方面比较占优势。

Spark应用场景
• 数据处理(Data Processing)：可以用来快速处理数据，兼具容错性和可扩展性。
• 迭代计算(Iterative Computation)：支持迭代计算，有效应对复杂的数据处理逻辑。
• 数据挖掘(Data Mining)：在海量数据基础上进行复杂的挖掘分析，可支持多种数据挖掘和机器学习算法。
• 流式处理(Streaming Processing)：支持秒级延迟的流处理，可支持多种外部数据源。
• 查询分析(Query Analysis)：支持SQL的查询分析，同时提供领域特定语言(DSL)以方便操作结构化数据，并支持多种外部数据源。

Spark对比MapReduce
• 性能上提升了100倍。
• Spark的中间数据放在内存中，对于迭代运算的效率更高；进行批处理时更高效，同时有着更低的延迟。
• Spark提供更多的数据集操作类型，编程模型比MapReduce更灵活，开发效率更高。
• 更高的容错能力（血统机制）。

RDD
• RDD是分布式弹性数据集，可以理解一个存储数据的数据结构。Spark会把所要操作的数据，加载到RDD上，即RDD所有操作都是基于RDD来进行的。RDD是只读和可分区。要想对RDD进行操作，只能重新生成一个新的RDD。
• 从HDFS输入创建，或从与Hadoop兼容的其他存储系统中输入创建。
• 从父的RDD转换的到新的RDD。
• 从数据集合转换而来，通过编码实现。
• RDD的存储：
• 用户可以选择不同的存储级别缓存RDD以便重用。
• 当前RDD默认是存储于内存，但当内存不足时，RDD会溢出到磁盘中。
• RDD(Resilient Distributed Datasets)之所以为“弹性”的特点
• 基于Lineage的高效容错（第n个节点出错，会从第n-1个节点恢复，血统容错）；
• Task如果失败会自动进行特定次数的重试（默认4次）；
• Stage如果失败会自动进行特定次数的重试（可以值运行计算失败的阶段），只计算失败的数据分片；
• 数据调度弹性：DAG TASK 和资源管理无关；
• checkpoint；
• 自动的进行内存和磁盘数据存储的切换

Shuffle
• Shuffle 是划分 DAG 中 stage 的标识,同时影响 Spark 执行速度的关键步骤
• RDD 的 Transformation 函数中,分为窄依赖(narrow dependency)和宽依赖(wide dependency)的操作.
• 窄依赖跟宽依赖的区别是是否发生Shuffle(洗牌) 操作。

窄依赖
• 窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用。
• 表现为：
• 一个父RDD的每一个分区对应于一个子RDD分区。
•

宽依赖
• 宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用。
• 表现为：
• 父RDD的每个分区都被多个子RDD分区使用
•
o 父RDD的每个分区都有可能被多个子RDD分区使用。
o 子RDD分区通常对应父RDD所有分区。
o 一对多
o 只要遇到宽依赖就会产生Shuffle。

Stage

• 当一个任务在spark执行时，该任务会被拆分成多个Stage，然后分配到不同的节点上进行执行。一个运算结果，可能需要借助于多次转换。每一次的转换都需要上次转换后的结果。这样会很大的影响运算速度。我们可以把转过的过程拆分出去，分配到不同的RDD上进行计算。这样转换的过程可以同时运行，最后直接代入上次的转换结果来获得最后的运算结果，这样会节省到运算转换的时间。而每个转换的过程可以看成一个Stage，如下图：RDD A是一个stage，RDD B,G是一个stage，RDD C,D,E,F是一个stage）。

Transformation
• Transformation是RDD的算子类型，它的返回值还是一个RDD。
• Transformation操作属于懒操作（算子），不会真正触发RDD的处理计算。
• 变换方法的共同点：
• 不会马上触发计算。
• 每当调用一次变换方法，都会产生一个新的RDD。
• 例如：map(func)，flatMap(func)
• RDD到RDD的过程就是Transformation。
• Map:参数是函数，函数应用于RDD每一个元素，返回值是新的RDD
• Flatmap:扁平化map，对RDD每个元素转换, 然后再扁平化处理

Action
• Action是RDD的算子，它的返回值不是一个RDD。Action操作是返回结果或者将结果写入存储的操作。Action是Spark应用启动执行的触发动作，得到RDD的相关计算结果或将RDD保存到文件系统中。
•

SparkConf
• SparkConf是用来对Spark进行任务参数配置的对象。
• 是通过键值对的形式，设置Spark任务执行时所需要的参数。
• Spark读取任务参数的优先级是：
• 代码配置>动态参数>配置文件。
• 任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数。
• 初始化后，就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Spark shell会自动初始化一个SparkContext,在编程中的具体实现为：
• val conf = new SparkConf().setAppName(“AppName”).setMaster(“local[3] or masterIP:PORT”)。
• val sc = new SparkContext(conf)。
• SparkContext的简单构造函数为：
• val sc = new SparkContext(“local[3] or masterIP:PORT”,“AppName”)

SparkContext
• SparkContext是Spark的入口，相当于应用程序的main函数。
• SparkContext表示与Spark集群的连接，可用于在该集群上创建RDD，记录计算结果和环境配置等信息。
•
• ClusterManager负责分配资源，有点像YARN中ResourceManager那个角色，大管家握有所有的干活的资源，属于乙方的总包。
• WorkerNode是可以干活的节点，听大管家ClusterManager差遣，是真正有资源干活的主。
• Executor是在WorkerNode上起的一个进程，相当于一个包工头，负责准备Task环境和执行Task，负责内存和磁盘的使用。
• Task是施工项目里的每一个具体的任务。
• Driver是统管Task的产生与发送给Executor的，是甲方的司令员。
• SparkContext是与ClusterManager打交道的，负责给钱申请资源的，是甲方的接口人

SparkSession
• Spark2.0中引入了SparkSession的概念，为用户提供了一个统一的切入点来使用Spark的各项功能。
• 封装了SparkConf和SparkContext对象，方便用户使用Spark的各种API。
•
• Spark2X以后，用SparkSession代替SparkConf和SparkContext。
• 在以前的版本中，sparkcontext 是spark的入口点，因为RDD是主要的API，它是使用上下文API创建和操作的。对于每个其他API，我们需要使用不同的context。
• 对于流式传输，我们需要streamingContext。对于SQL sqlContext和hive hiveContext.，因为dataSet和DataFrame API正在成为新的独立API，我们需要为它们构建入口点。因此在spark 2.0中，我们为DataSet和DataFrame API创建了一个新的入口点构建，称为Spark-Session。

SparkSQL简介
• SparkSQL是Spark用来处理结构化数据的一个模块，可以在Spark应用中直接使用SQL语句对数据进行操作。
• SQL语句通过SparkSQL模块解析为RDD执行计划，交给SparkCore执行。
•
• SparkSQL的命令最终还会交给SparkCore去执行
• 可以看成是对Spark RDD编程接口的封装，对有SQL背景的开发人员提供了熟悉的接口。即满足了使用分布式架构，对海量结构化数据的处理需求，又实现了对已有知识积累的继承性。

SparkSQL使用方式
• 通过SparkSession提交SQL语句。任务像普通Spark应用一样，提交到集群中分布式运行。
• JDBC：
• 应用加载JDBC驱动，然后统一提交到集群的JDBCServer执行。
• JDBCServer是单点服务，会成为任务执行的瓶颈，不能处理海量数据和高并发任务。
•

SparkSQL关键概念DataSet
• DataSet：
• DataSet是一个由特定域的对象组成的强类型集合，可通过功能或关系操作并行转换其中的对象
• DataSet以Catalyst逻辑执行计划表示，并且数据以编码的二进制形式存储，不需要反序列化就可以执行sort、filter、shuffle等操作。
• Dataset是“懒惰”的，只在执行action操作时触发计算。当执行action操作时，Spark用查询优化程序来优化逻辑计划，并生成一个高效的并行分布式的物理计
• RDD、DataFrame、Dataset是Spark三个最重要的概念，RDD和DataFrame两个概念出现的比较早，Dataset相对出现的较晚（1.6版本开始出现）
• Dataset是一个新的数据类型。Dataset与RDD高度类似，性能比较好。
• Dataset不需要反序列化就可执行大部分操作。本质上，数据集表示一个逻辑计划，该计划描述了产生数据所需的计算。

SparkSQL使用场景
• 适合：
• 结构化数据处理。
• 对数据处理的实时性要求不高的场景
• 需要处理PB级的大容量数据。
• 不适合：
• 实时数据查询。

Spark SQL简单查询
var df = spark.read.text(“/person.txt”)
• 查询：df.select(“id”,“name”).show()
• 带条件的查询：df.select( $" i d ",$ “name”).where( $" n a m e " = = = " b b b ") . s h o w () • 排序查询： d f . s e l e c t ($ “id”, $" n a m e ") . o r d e r B y ($ “name”.desc).show
df.select( $" i d ",$ “name”).sort($“name”.desc).show

SparkSQL开发
• 场景说明：
• 假定用户有网民网购时停留网站的日志文本，基于某些业务要求，需要开发Spark应用程序并实现如下功能：
o 统计日志文件中网购停留总时间超过2个小时的女性网民信息。

日志文本
• log1.txt：网民停留日志
• 日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单位为分钟。
• 分隔符为“,”。
LiuYang,female,20
YuanJing,male,10
GuoYijun,male,5
CaiXuyu,female,50
Liyuan,male,20
FangBo,female,50
LiuYang,female,20
YuanJing,male,10
GuoYijun,male,50
CaiXuyu,female,50
FangBo,female,60
LiuYang,female,20
YuanJing,male,10
CaiXuyu,female,50
FangBo,female,50
GuoYijun,male,5
CaiXuyu,female,50
Liyuan,male,20
CaiXuyu,female,50
FangBo,female,50

开发思路
• 目标
• 统计日志文件中网购停留总时间超过2个小时的女性网民信息。
• 大致步骤：
• 创建表，将日志文件数据导入到表中。
• 筛选女性网民，提取停留时间数据信息。
• 汇总每个女性停留总时间。
• 筛选出停留时间大于2个小时的女性网民信息。

Scala样例代码

Yarn-cluster作业提交
• 打jar包
• 上传到Linux某个目录下
• Yarn-cluster提交方式
•

常用采集工具
• 由于大数据的数据源各种各样，由此对数据采集的挑战变的尤为突出。这里介绍几款常用数据采集工具：
• Sqoop
• Loader
• 收集工具，通常就是收集数据的，大数据里面，由于数据的来源多种多样，所以需要使用工具来收集，常用的收集工具有Loader,Sqoop,他们三个。
• 任何完整的大数据平台，一般包括以下的几个过程：数据采集–>数据存储–>数据处理–>数据展现(可视化，报表和监控)其中，数据采集是所有数据系统必不可少的，随着大数据越来越被重视，数据采集的挑战也变的尤为突出。这其中包括：
• 数据源多种多样。
• 数据量大。
• 变化快。
• 如何保证数据采集的可靠性的性能。
• 如何避免重复数据。
• 如何保证数据的质量。

Sqoop简介
• Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。
• Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(MySQL 、 PostgreSQL…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle , PostgreSQL等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
• Sqoop这个工具是做数据迁移用的，是关系型数据库和Hive/Hadoop的数据迁移，方便大量数据的导入导出工作。Sqoop底层是通过MapReduce去实现的，但只有Map没有Reduce。

Sqoop应用

• 导入数据：MySQL，Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统
• 导出数据：从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具，和 HDFS，Hive ，并没有什么高深的理论。

Sqoop原理
• Sqoop Import原理：
• Sqoop在import时，需要指定split-by参数。Sqoop根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同map中。
• 每个map中再处理数据库中获取的一行一行的值，写入到HDFS中。
• 同时split-by根据不同的参数类型有不同的切分方法，如比较简单的int型，Sqoop会取最大和最小split-by字段值，然后根据传入的num-mappers来确定划分几个区域。
• Sqoop export 原理：
• 获取导出表的schema、meta信息，和Hadoop中的字段match；
• 并行导入数据：将Hadoop 上文件划分成若干个分片，每个分片由一个Map Task进行数据导入。

Loader简介
• Loader是实现FusionInsight HD与关系型数据库、文件系统之间交换数据和文件的数据加载工具。
• 提供可视化向导式的作业配置管理界面；
• 提供定时调度任务，周期性执行Loader作业；
• 在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等。
• 基于开源Sqoop研发，做了大量优化和扩展。
• Loader页面是基于开源Sqoop WebUI的图形化数据迁移管理工具，该页面托管在Hue的WebUI中。

Loader的应用场景

• Loader实现FusionInsight与关系型数据库、文件系统之间交换数据和文件，可以将数据从关系型数据库/文件服务器导入到FusionInsight HDFS/HBase/Hive中，或者反过来从Hadoop HDFS/HBase导出到关系型数据库/文件服务器中。
• Loader提供了本集群内部HDFS和HBase之间的数据导入/导出。
• RDB，Relational Data Base，关系型数据库。
• Customized Data Source:支持插件式，扩展外部数据源。

Loader特点

• Loader提供UI界面对作业进行管理，同时也提供了命令行接口，以满足客户调度程序或自动化脚本的需要。
• Loader使用MapReduce进行并行处理。但是在Loader的作业中，有参数会影响MapReduce分片，为了达到最高导入性能，需要选择合适的参数配置。
• Loader的安全版本是在FusionInsight统一配置的。

你可能感兴趣的:(大数据离线批处理场景化解决方案----离线处理技术框架介绍)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
发票合并工具小朋的软件园前端 javascript java html 服务器
"发票合并工具"是一款专为高效整理票据设计的实用工具，支持将来自不同渠道的发票文件（如PDF文档、各类图片格式）快速整合为排版规范的PDF文件，尤其适用于财务报销场景下的批量票据处理需求。核心功能亮点多格式兼容：无缝导入PDF文件及常见图片格式（.png/.jpg/.jpeg/.bmp），适配多来源发票整合需求。智能布局配置：提供灵活的页面布局选项（每页2/3/4张发票），其中"2合1"模式针对报
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
配音助手：自媒体神器，内置海量音色的语音，支持多主播配音阿幸软件杂货间媒体
软件介绍内置文字转语音，提供多个主播音色，男声、女声、小孩、方言。支持的场景也是比较多，比如：广告促销、有声读物、广播配音、影视配音、Ai配音等。这个软件是免费的，只不过需要通过手机号码登录就可以使用全部功能了。软件下载夸克下载
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
docker安装node部分问题自律的蜗牛 docker 容器 node.js
sudonlatestsudo:n:commandnotfound如果运行sudonlatest时出现：sudo:n:commandnotfound说明n版本管理工具未安装或未添加到PATH环境变量。解决方案1️⃣先检查n是否已安装运行：whichn或者：command-vn如果有输出/usr/local/bin/n，说明n已安装，但可能需要sudo访问。如果没有任何输出，说明n没有安装，跳到方法
windows安装pnpm后报错：pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 Ithao2 Vue npm 前端 node.js
使用npm方式安装pnpm,命令如下：npminstall-gpnpm安装完以后，执行pnpm-v查看版本号：pnpm-v执行完发现报错：pnpm:无法将“pnpm”项识别为cmdlet、函数、脚本文件或可运行程序的名称。尝试配置环境变量，重启后均不生效。解决方案：使用PowerShell进行安装1.以管理员用户打开PowerShell，执行如下命令：iwrhttps://get.pnpm.io/
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
Linux操作系统磁盘管理 CZZDg linux 运维服务器
目录一.硬盘介绍1.硬盘的物理结构2.CHS编号3.磁盘存储划分4.开机流程5.要点6.磁盘存储数据的形式二.Linux文件系统1.根文件系统2.虚拟文件系统3.真文件系统4.伪文件系统三.磁盘分区与挂载1.磁盘分区方式2.分区命令3.查看与识别命令4.格式化命令5.挂载命令四.LVM逻辑卷1.概述2.管理命令五.磁盘配额1.概述usrquota:支持对用户的磁盘配额grpquota：支持对组的磁
日历插件-FullCalendar的详细使用老马聊技术 JavaScript 前端 javascript
一、介绍FullCalendar是一个功能强大、高度可定制的JavaScript日历组件，用于在网页中显示和管理日历事件。它支持多种视图（月、周、日等），可以轻松集成各种框架，并提供丰富的事件处理功能。二、实操案例具体代码如下：FullCalendar日期选择body{font-family:Arial,sans-serif;margin:20px;}#calendar{max-width:900
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号