大数据技术架构

使用Apache Hudi构建大规模、事务性数据湖

一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk

关于Nishith Agarwal更详细的介绍，主要从事数据方面的工作，包括摄取标准化，数据湖原语等。

什么是数据湖？数据湖是一个集中式的存储，允许以任意规模存储结构化和非结构化数据。你可以存储原始数据，而不需要先转化为结构化的数据，基于数据湖之上可以运行多种类型的分析，如dashboard、大数据处理的可视化、实时分析、机器学习等。

接着看看对于构建PB级数据湖有哪些关键的要求

第一个要求：增量摄取（CDC）

企业中高价值的数据往往存储在OLTP中，例如下图中，users表包含用户ID，国家/地区，修改时间和其他详细信息，但OLTP系统并未针对大批量分析进行优化，因此可能需要引入数据湖。同时一些企业采用备份在线数据库的方式，并将其存储到数据湖中的方法来摄取数据，但这种方式无法扩展，同时它给上游数据库增加了沉重的负担，也导致数据重写的浪费，因此需要一种增量摄取数据的方法。

第二个要求：Log Event去重

考虑分析大规模时间序列数据的场景，这些事件被写入数据管道，并且数量非常大，可达数十亿，每秒可达百万的量。但流中可能有重复项，可能是由于至少一次（atleast-once）保证，数据管道或客户端失败重试处理等发送了重复的事件，如果不对日志流进行重复处理，则对这些数据集进行的分析会有正确性问题。下图是一个示例日志事件流，其中事件ID为唯一键，带有事件时间和其他有效负载。

第三个要求：存储管理（自动管理DFS上文件）

我们已经了解了如何摄取数据，那么如何管理数据的存储以扩展整个生态系统呢？其中小文件是个大问题，它们会导致查询引擎的开销并增加文件系统元数据的压力。而如果写入较大的文件，则可能导致摄取延迟增加。一种常见的策略是先摄取小文件，然后再进行合并，这种方法没有标准，并且在某些情况下是非原子行为，会导致一致性问题。无论如何，当我们写小文件并且在合并这些文件之前，查询性能都会受到影响。

第四个要求：事务写（ACID能力）

传统数据湖在数据写入时的事务性方面做得不太好，但随着越来越多的业务关键处理流程移至数据湖，情况也在发生变化，我们需要一种机制来原子地发布一批数据，即仅保存有效数据，部分失败必须回滚而不会损坏已有数据集。同时查询的结果必须是可重复的，查询端看不到任何部分提取的数据，任何提交的数据都必须可靠地写入。Hudi提供了强大的ACID能力。

第五个要求：更快地派生/ETL数据（增量处理）

仅仅能快速摄取数据还不够，我们还需要具有计算派生数据的能力，没有这个能力，数据工程师通常会绕过原始表来构建其派生/ETL并最终破坏整个体系结构。下面示例中，我们看到原始付款表（货币未标准化）和发生货币转换的派生表。

扩展此类数据管道时很有挑战，如仅对变更进行计算，或者基于窗口的Join的挑战。对基础数据集进行大规模重新处理不太可能，这会浪费计算资源。需要在数据湖上进行抽象以支持对上游表中已更改的行（数据）进行智能计算。

第六个需求：法律合规/数据删除（更新&删除）

近年来随着新的数据保护法规生效，对数据保留有了严格的规定，需要删除原始记录，修复数据的正确性等，当需要在PB级数据湖中高效执行合规性时非常困难，如同大海捞针一般，需要高效的删除，如进行索引，对扫描进行优化，将删除记录有效地传播到下游表的机制。

要求回顾（汇总）

支持增量数据库变更日志摄取。
从日志事件中删除所有重复项。
Data Lake必须为其数据集提供有效的存储管理
支持事务写入
必须提供严格的SLA，以确保原始表和派生表的数据新鲜度
任何数据合规性需求都需要得到有效的支持
支持唯一键约束
有效处理迟到的数据

有没有能满足上面所有需求的系统呢？接下来我们引入Apache Hudi，HUDI代表Hadoop Upserts Deletes and Incrementals。从高层次讲，HUDI允许消费数据库和kafa事件中的变更事件，也可以增量消费其他HUDI数据集中的变更事件，并将其提取到存储在Hadoop兼容，如HDFS和云存储中。在读取方面，它提供3种不同的视图：增量视图，快照视图和实时视图。

HUDI支持2种存储格式：“写时复制”和“读时合并”。

首先来看看写时复制。如下图所示，HUDI管理了数据集，并尝试将一批数据写入数据湖，HUDI维护称为“提交时间轴（commit timeline）”的内容，以跟踪HUDI管理的数据集上发生的操作/更改，它在提交时间轴上标记了一个“inflight”文件，表示操作已开始，HUDI会写2个parquet文件，然后将“inflight”文件标记为已完成，这从原子上使该新数据写入HUDI管理的数据集中，并可用于查询。正如我们提到的，RO视图优化查询性能，并提供parquet的基本原始列存性能，无需增加任何额外成本。现在假设需要更新另一批数据，HUDI在提交时间轴上标记了一个“inflight”文件，并开始合并这些更新并重写Parquet File1。此时，由于提交仍在进行中，因此用户看不到正在写入任何这些更新（这就是我们称为“快照隔离”）。最终以原子方式发布提交后，就可以查询版本为C2的新合并的parquet文件。

COW已经在Uber投入运行多年，大多数数据集都位于COW存储类型上。

尽管COW服务于我们的大多数用例，但仍有一些因素值得我们关注。以Uber的行程表为例，可以想象这可能是一个很大的表，它在旅程的整个生命周期中获取大量更新。每隔30分钟，我们就会获得一组新旅行以及对旧旅行的一些更新，在Hive上的旅行数据是按天划分分区的，因此新旅行最终会在最新分区中写入新文件，而某些更新会在旧分区中写入文件。使用COW，我们只能重写那些更新所涉及的文件，并且能够高效地更新。由于COW最终会重写某些文件，因此可以像合并和重写该数据一样快。在该用例中通常大于15分钟。再来看另外一种情况，由于某些业务用例（例如GDPR），必须更新大量历史行程，这些更新涉及过去几个月数据，从而导致很高的写入延迟，并一遍又一遍地重写大量数据，写放大也会导致大量的IO。若为工作负载分配的资源不足，可能就会严重损害摄取延迟。

在真实场景中，会将ETL链接在一起来构建数据管道，问题会变得更加复杂。

对问题进行总结如下：在COW中，太多的更新（尤其是杂乱的跨分区/文件）会严重影响提取延迟（由于作业运行时间较长且无法追赶上入流量），同时还会引起巨大的写放大，从而影响HDFS（相同文件的48个版本+过多的IO）。合并更新和重写parquet文件会限制我们的数据的新鲜度，因为完成此类工作需要时间 = (重写parquet文件所花费的时间*parquet文件的数量）/（并行性）。

在COW中，我们实际上并没有太大的parquet文件，因为即使只有一行更新也可能要重写整个文件，因为Hudi会选择写入小于预期大小的文件。

MergeOnRead将所有这些更新分组到一个文件中，然后在稍后的时刻创建一个新版本。对于重更新的表，重写大文件会导致开销变大。

如何解决上述写放大问题呢？除了将更新合并并重写parquet文件之外，我们将更新写入增量文件中，这可以帮助我们降低摄取延迟并获得更好的新鲜度。

将更新写入增量文件将需要在读取端做额外的工作以便能够读取增量文件中记录，这意味着我们需要构建更智能，更智能的读取端。

现在需要进行第二次更新，与合并和重写新的parquet文件（如在COW中一样）不同，这些更新被写到与基础parquet文件对应的增量文件中。RO视图继续查询parquet文件（过时的数据），而RealTime View（Snapshot query）会合并了parquet中的数据和增量文件中的更新，以提供最新数据的视图。可以看到，MOR是在查询执行时间与较低摄取延迟之间的一个权衡。

那么，为什么我们要异步运行压缩？我们实现了MERGE_ON_READ来提高数据摄取速度，我们希望尽快摄取较新的数据。而合并更新和创建列式文件是Hudi数据摄取的主要耗时部分。

因此我们引入了异步Compaction步骤，该步骤可以与数据摄取同时运行，减少数据摄取延迟。

Hudi将事务引入到了大规模数据处理中，实际上，我们是最早这样做的系统之一，最近，它已通过其他项目的类似方法获得了社区认可。

Hudi支持多行多分区的原子性提交，Hudi维护一个特殊的文件夹.hoodie，在该文件夹中记录以单调递增的时间戳表示的操作，Hudi使用此文件夹以原子方式公开已提交的操作；发生的部分故障会透明地回滚，并且不会影响读者和后面的写入；Hudi使用MVCC模型将读取与并发摄取和压缩隔离开来；Hudi提交协议和DFS存储保证了数据的持久写入。

下面介绍Hudi在Uber的使用情况

Hudi管理了超过150PB数据湖，超过10000张表，每天摄入5000亿条记录。

接着看看Hudi如何替代分析架构。利用Hudi的upsert原语，可以在摄取到数据湖中时实现<5分钟的新鲜度，并且能继续获得列式数据的原始性能（parquet格式），同时使用Hudi还可以获得实时视图，以5-10分钟的延迟提供dashboard，此外HUDI支持的增量视图有助于长尾效应对数据集的突变。

为方便用户能快速使用Hudi，Hudi提供了一些开箱即用的工具，如HoodieDeltaStreamer，在Uber内部，HoodieDeltaStreamer用来对全球网络进行近实时分析，可用来消费DFS/Kafka中的数据。

除了DeltaStreamer，Hudi还集成了Spark Datasource，也提供了开箱即用的能力，基于Spark，可以快速构建ETL管道，同时也可无缝使用Hudi + PySpark。

接着介绍更高级的原语和特性。

如何从损坏的数据中恢复？例如线上由于bug导致写入了不正确的数据，或者上游系统将某一列的值标记为null，Hudi也可以很好的处理上述场景，可以将表恢复到最近的一次正确时间，如Hudi提供的savepoint就可以将不同的commit保存起来，用于后续恢复，注意MoR表暂时不支持savepoint；Hudi还提供了文件的版本号，即可以保存多个版本的文件，这对于CoW和MoR表都适用，但是会占用一些存储空间。

Hudi还提供便于增量ETL的高级特性，通过Spark/Spark便可以轻松增量拉取Hudi表的变更。

除了增量拉取，Hudi也提供了时间旅行特性，同样通过Spark/Hive便可以轻松查询指定版本的数据，其中对于Hive查询中指定hoodie.table_name.consume.end.timestamp也马上会得到支持。

下面看看对于线上的Hudi Spark作业如何调优。

下面列举了几个调优手段，设置Kryo序列化器，使用Shuffle Service，利用开源的profiler来进行内存调优，当然Hudi也提供了Hudi生产环境的调优配置，可参考【调优 | Apache Hudi应用调优指南】

下面介绍社区正在进行的工作，敬请期待。

即将发布的0.6.0版本，将企业中存量的parquet表高效导入Hudi中，与传统通过Spark读取Parquet表然后再写入Hudi方案相比，占用的资源和耗时都将大幅降低。以及对于查询计划的O(1)时间复杂度的处理，新增列索引及统一元数据管理以消除对DFS的文件list操作。

还有一些值得关注的特性，比如支持行级别的索引，该功能将极大降低upsert的延迟；异步数据clustering以优化存储和查询性能；支持Presto对MoR表的快照查询；Hudi集成Flink，通过Flink可将数据写入Hudi数据湖。

整个分享就介绍到这里，欢迎观看。

往期推荐
▬
Spark 3.0.0正式版发布，开发近两年新增了哪些特性？

干货 | Kafka 内核知识梳理，附思维导图

数据仓库、数据湖、流批一体，终于有大神讲清楚了！

Flink在快手实时多维分析场景的应用

关于Jedis和lettuce以及springDataRedis的一些区别追光的人（陈聪）第三阶段 redis相关 redis jedis java
1：三者其实都是用来操作redis的2：springDataRedis是对Jedis和lettuce的一系列封装，简化了很多方法3：公司里面之所以不怎么用Jedis也是因为其指令比较繁琐难以记忆，不如就用简化了的springDataRedis4:使用springDataRedis时，首先要导入springDataRedis的依赖，然后导入Jedis或者lettuce，如果是Jedis，需要再导入s
【Redis】Redis入门以及什么是分布式系统{Redis引入+分布式系统介绍} 阿猿收手吧！ #Redis redis 数据库缓存
文章目录介绍redis的引入分布式系统单机架构应用服务和数据库服务分离【负载均衡】引入更多的应用服务器节点单机架构分布式是什么数据库分离和负载均衡理解负载均衡数据库读写分离引入缓存数据库分库分表引入微服务介绍Theopensource,in-memorydatastoreusedbymillionsofdevelopersasadatabases，cache,streamingengine,and
python的小技巧一 2401_87368790 python 开发语言
print(res)####一个数值的范围比较*常规的写法deftest_judge5(self):“”"判断一个值得的范围大小@return:“”"num=int(input(“请输入一个数字：”))ifnum>=0andnum>在判断字典的某一个key是否为空，可以用try…exception来实现>>>deftest_judge3(self):dict_data={“user_base”:{
海康威视ISAPI协议获取全屏温度数据 666先生的救赎 java 图像处理音视频
获取全屏温度接口GEThttp://192.168.3.28/ISAPI/Thermal/channels/2/thermometry/jpegPicWithAppendData?format=json接口返回三部分内容：json结果、全屏温度图片、全屏温度数据；调用全屏测温接口/***下载文件*@paramurl下载地址*@paramheaderMap请求头*@paramfilePath文件路径
DiNO (Knowledge Distillation with No Labels)（二） CL.LIANG pytorch图像处理深度学习
2021年Facebookresearch团队发布DiNO模型后，于2023年又发布了DiNOv2。本文是对DiNOv2论文的学习总结，更多详细细节可以参考论文原稿。论文的创新点Abstract:Therecentbreakthroughsinnaturallanguageprocessingformodelpretrainingonlargequantitiesofdatahaveopenedt
MinIO xiaolin0333 #微服务 minio 对象存储服务
简介Golang语言实现兼容亚马逊S3云存储服务接口，适合存储大量非结构化数据官方文档：MinIODocker安装MinIO创建并运行容器dockerrun-d\--nameminio\-p9000:9000\--restart=always\-e"MINIO_ACCESS_KEY=minio"\-e"MINIO_SECRET_KEY=minio123"\-v/home/data:/data\-v
服务行业的数据管理实践：TapData Cloud 如何助力连锁酒店物业的全球化运营优化数据库
使用TapData，化繁为简，摆脱手动搭建、维护数据管道的诸多烦扰，轻量替代OGG,Kettle等同步工具，以及基于Kafka的ETL解决方案，「CDC+流处理+数据集成」组合拳，加速仓内数据流转，帮助企业将真正具有业务价值的数据作用到实处，将“实时数仓”方法论落进现实。TapData持续迭代产品能力，优化用户体验的同时，也在不断探索各行各业数据需求的底层逻辑，力求为行业用户提供更加简洁、更具针对
mysql 学习3 SQL语句--整体概述。SQL通用语法；DDL创建数据库，查看数据库，删除数据库，使用数据库； hunandede mysql 学习 sql
SQL通用语法SQL语句分类DDLdatadefinitionlanguage:用来创建数据库，创建表，创建表中的字段，创建索引。因此成为数据定义语言DMLdatamanipulationlanguage有了数据库和表以及字段后，那么我们就需要给这个表中添加数据，删除数据，改动数据，这些都是对数据有改动的行为，因此叫做数据操作语言manipulation中文是操作的意思DQLdataqueryla
【Java】常用工具类方法：树形结构、获取IP、对象拷贝、File相关、雪花算法等 PlanOne_A java 算法
1、生成子孙树/***生成子孙树**@paramdataArray遍历所有数据,每个数据加到其父节点下*@return子孙树json*/publicstaticJSONArraymakeTree(JSONArraydataArray){List>data=newArrayListmap=newHashMap>res=newArrayList>map=newHashMapvo:data){map.p
浅谈Linux C基础9----数据链表 Oracle_666 linux c语言运维
前言:基于C语言实现数据链表1.实现代码函数:#include"loop_list.h"//创建单向循环链表node_pcreate_loop(){node_pH=(node_p)malloc(sizeof(node));if(H==NULL){printf("空间申请失败\n");returnNULL;}H->data=0;//链表中暂无数据H->next=H;//单向循环链表，尾结点指向头结点
OpenGL ES 05 纹理单元和采样器是怎么对应上的陈皮话梅糖@ OpenGLES 连载前端 javascript 人工智能
激活纹理单元//激活0号纹理单元，把rawData纹理数据绑定到0号纹理单元glActiveTexture(GLenum(GL_TEXTURE0))glBindTexture(GLenum(GL_TEXTURE_2D),texture)glTexImage2D(GLenum(GL_TEXTURE_2D),0,GL_RGBA,GLsizei(width),GLsizei(height),0,GLen
uniapp uview 一键回到底部组件顾鸟 uniapp uni-app
一、封装组件底部exportdefault{name:"BackBottom",props:{bottom:{type:Number,default:100}},data(){return{pageHeight:0,scrollHeight:0,diffHeight:this.bottom+1,//初始值大于bottom，防止首次渲染不显示};},computed:{show(){returnth
詳細講一下RN(React Native)中的列表組件FlatList和SessionList asecretman! react native react.js javascript
1.FlatList基礎使用importReactfrom'react';import{View,Text,FlatList,StyleSheet}from'react-native';exportconstSimpleListDemo:React.FC=()=>{//1.準備數據constdata=[{id:'1',title:'項目1'},{id:'2',title:'項目2'},{id:'3
YOLO 安装并且命令行指定配置文件 ELI_He999 python 人工智能 YOLO 人工智能深度学习
pipinstallultralyticssettings.yaml保存到当前目录，data参数yolo命令行指定配置文件{"settings_version":"0.0.6","datasets_dir":"xxxx\\datasets","weights_dir":"xxxx\\weights","runs_dir":"xxxx\\runs","uuid":"xxxx","sync":true
OpenIPC开源FPV之msposd配置 lida2003 Linux OpenIPC 开源单片机嵌入式硬件无人机
OpenIPC开源FPV之msposd配置1.源由2.状态3.步骤3.1Step1:下载/更新OpenIPC摄像头固件3.2Step2:下载最新的`msposd`可执行文件3.3Step3:下载各参数`icon`图标3.4Step4:修改`/etc/init.d/S98datalink`配置3.5Step5:修改`/etc/datalink.conf`3.6Step6:设置Ardupilot串口协
OpenIPC开源FPV之重要源码包 lida2003 DIY Drones Linux 开源单片机嵌入式硬件
OpenIPC开源FPV之重要源码包1.源由2.分析2.1功能角度2.2数据角度3.软件包3.1wfb-ng3.1.1目标板配置3.1.2软件版配置3.1.3视频数据发送&接收3.2datalink3.2.1目标板配置3.2.2软件版配置3.2.3数据发送&接收3.3*mavfwd3.3.1目标板配置3.3.2软件版配置3.3.3MAVLink数据采集&接收3.4*mavlink-router3.
【Java】阿里云OSS上传、删除文件 PlanOne_A java 阿里云数据库
阿里云OSS上传、删除文件编写AliOssConfig：importlombok.Data;/***DESC:*VERSION:1.0.0*/@DatapublicclassAliOssConfig{privateStringendpoint;privateStringaccessKey;privateStringaccessSecret;privateStringbucket;privateSt
【C++基础】多线程并发场景下的同步方法 kucupung C++c++开发语言
如果在多线程程序中对全局变量的访问没有进行适当的同步控制（例如使用互斥锁、原子变量等），会导致多个线程同时访问和修改全局变量时发生竞态条件（racecondition）。这种竞态条件可能会导致一系列不确定和严重的后果。在C++中，可以通过使用互斥锁（mutex）、原子操作、读写锁来实现对全局变量的互斥访问。一、缺乏同步控制造成的后果1.数据竞争（DataRace）数据竞争发生在多个线程同时访问同一
Package ‘importlib-metadata‘ requires a different Python: 3.6.10 not in ‘＞=3.7‘ zy_whynot python python 开发语言后端
报错ERROR:Package'importlib-metadata'requiresadifferentPython:3.6.10notin'>=3.7'WARNING:Youareusingpipversion20.0.2;however,version21.3.1isavailable.Youshouldconsiderupgradingviathe'/usr/local/bin/pytho
游戏引擎架构第二版中文pdf_Allen Kashiwa的游戏开发信息 weixin_39811166 游戏引擎架构第二版中文pdf
0本文首发于我的github和我的博客，欢迎大家与我交流。1基础知识与通用技能1.1语言相关1.1.1C/C++C++Primer1.1.2C#C#编程指南CLRviaC#（第4版）1.1.3LuaProgramminginLua1.1.4Python廖雪峰的Python教程1.2语言无关1.2.1算法算法图解DataStructureVisualizations算法可视化visualgoIntr
C语言读取pcm格式,pcm文件转wav C语言深夜利行 C语言读取pcm格式
#include#include/***ConvertPCMrawdatatoWAVEformat*@parampcmpathInputPCMfile.*@paramchannelsChannelnumberofPCMfile.*@paramsample_rateSamplerateofPCMfile.*@paramwavepathOutputWAVEfile.*/inttransform_pcm
致全体用户：2024 年，TapData 的五周年，我们在海内外市场埋下了两颗新的种子数据库
刚刚过去的这一年，对于TapData而言，因着是五周岁的生日而多了一重别样的意义。五年来，我们一直致力于为用户提供高效、稳定的实时数据集成解决方案，帮助各行各业应对数据管理的挑战。在这段旅程中，我们不仅收获了大家的信任与支持，也在技术创新和产品发展上取得了突破。从初期的大胆探索，到如今的厚积薄发、稳步前行，TapData用五年的时间讲述了一段以用户为先的初创企业蓬勃成长史，见证了实时数据技术的旺盛
通过函数创建 ant-design-vue 的 Drawer 组件和 Modal 组件
原由通常在业务中，写抽屉组件或者弹框组件的时候，都是用visible属性来控制是否显示：OpenModalwithasynclogic{{ModalText}}exportdefault{data(){return{ModalText:'Contentofthemodal',visible:false,confirmLoading:false,};},methods:{showModal(){th
kuboard 安装龙胖不下锅部署 kubernetes
kuboard安装sudodockerrun-d\--restart=unless-stopped\--name=kuboard\-p80:80/tcp\-p10081:10081/tcp\-eKUBOARD_ENDPOINT="http://内网IP:80"\-eKUBOARD_AGENT_SERVER_TCP_PORT="10081"\-v/root/kuboard-data:/data\ei
pytorch-分类-检测-分割的dataset和dataloader创建呆呆珝基础 pytorch 分类人工智能
1.前言在PyTorch中，Dataset和DataLoader是两个重要的工具，用于构建输入数据的管道。（1）Dataset是一个抽象类，表示数据集，需要实现__len__和__getitem__方法。（2）DataLoader是一个可迭代的数据加载器，它封装了数据集的加载、批处理、打乱和并行加载等功能。2.分类任务创建Dataset和DataLoader（1）对于分类任务，Dataset需要返
【SpringBoot 】dynamic 动态数据源配置连接池（转） binqian spring spring boot 数据库 oracle
前言在复杂的业务场景中，我们经常需要使用多数据源来满足不同的数据访问需求。DynamicDatasource为我们提供了一种灵活切换不同数据源的解决方案。但是多数据源配置连接池以及说明文档都是收费的。本篇博文将详细介绍如何配置和优化DynamicDatasource的连接池，包括Druid和HikariCP，以及如何根据项目需求进行选择。连接池配置连接池是数据库连接管理的核心组件，它可以显著提高数
JS-Web API -day04 玩三国杀玩的 JS javascript 开发语言 ecmascript
一、日期对象1.1实例化日期对象实例化：new关键字获得当前时间constdata=newDate()获得指定时间constdata1=newDate('2024-5-108:30:00')1.2日期对象方法常见的时期对象方法：getFullYear()、getMonth()、getDate()、getDay()、getHours()、getMinutes()、getSeconds()，返回的数字
【MYSQL】mysql 常用命令 roman_日积跬步-终至千里常用命令 mysql 数据库
文章目录1.数据库管理命令2.表管理命令3.数据操作命令4.数据查询进阶5.用户与权限管理6.使用脚本操作数据库1.数据库管理命令--查看所有数据库SHOWDATABASES;--创建数据库CREATEDATABASE数据库名;--选择数据库USE数据库名;--删除数据库DROPDATABASE数据库名;2.表管理命令--查看所有表SHOWTABLES;--查看表结构DESCRIBE表名;--或S
python实现websocket_基于Python实现WebSocket握手过程 weixin_39757040
importsocketimportbase64importhashlibdefget_headers(data):“””将请求头格式化成字典:paramdata::return:“””header_dict={}data=str(data,encoding=’utf-8′)header,body=data.split(‘\r\n\r\n’,1)header_list=header.split(‘
如何实现 Handy Control DataGrid 全选功能东百牧码人状态模式
如何实现HandyControlDataGrid全选功能在使用HandyControl的DataGrid控件时，经常会有全选的需求。今天我们就结合一段代码，详细介绍如何实现HandyControlDataGrid的全选功能。代码实现前端XAML代码代码解释DataGrid是主要的表格控件，ItemsSource绑定到TrendTagCollection，这是数据源集合。DataGridCheckB
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

使用Apache Hudi构建大规模、事务性数据湖

你可能感兴趣的:(Data,Lake,数据湖)