Bulut0907

Flink CDC 2.2.0同步Mysql数据到Hudi数据湖

目录

1. 介绍
2. Deserialization序列化和反序列化
3. 添加Flink CDC依赖
- 3.1 sql-client
- 3.2 Java/Scala API
4. 使用SQL方式同步Mysql数据到Hudi数据湖
- 4.1 Mysql表结构和数据
- 4.2 Flink开启checkpoint
- 4.3 在Flink中创建Mysql的映射表
- 4.4 在Flink中创建Hudi Sink的映射表
- 4.5 流式写入Hudi

1. 介绍

Flink CDC底层是使用Debezium来进行data changes的capture

特色：

snapshot能并行读取。根据表定义的primary key中的第一列划分成chunk。如果表没有primary key，需要通过参数scan.incremental.snapshot.enabled关闭snapshot增量读取
snapshot读取时的checkpoint粒度为chunk
snapshot读取不需要global read lock(FLUSH TABLES WITH READ LOCK)
reader读取snapshot和binlog的一致性过程：
1. 标记当前的binlog position为low
2. 多个reader读取各自的chunk
3. 标记当前的binlog position为high
4. 一个reader读取low ~ high之间的binlog
5. 一个reader读取high之后的binlog

2. Deserialization序列化和反序列化

下面用json格式，展示了change event

{
  "before": {
    "id": 111,
    "name": "scooter",
    "description": "Big 2-wheel scooter",
    "weight": 5.18
  },
  "after": {
    "id": 111,
    "name": "scooter",
    "description": "Big 2-wheel scooter",
    "weight": 5.15
  },
  "source": {...},
  "op": "u",  // operation type, u表示这是一个update event 
  "ts_ms": 1589362330904,  // connector处理event的时间
  "transaction": null
}

字段含义可以参考Debezium文档

在DataStrea API中，用户可以使用Constructor：JsonDebeziumDeserializationSchema(true)，在message中包含schema。但是不推荐使用

JsonDebeziumDeserializationSchema也可以接收JsonConverter的自定义配置。如下示例在output中包含小数的数据

Map customConverterConfigs = new HashMap<>();
 customConverterConfigs.put(JsonConverterConfig.DECIMAL_FORMAT_CONFIG, "numeric");
 JsonDebeziumDeserializationSchema schema = 
      new JsonDebeziumDeserializationSchema(true, customConverterConfigs);

3. 添加Flink CDC依赖

3.1 sql-client

集成步骤如下：

从github flink cdc下载flink-sql-connector-mysql-cdc-2.2.0.jar包
将jar包放到Flink集群所有服务器的lib目录下
重启Flink集群
启动sql-client.sh

3.2 Java/Scala API

添加如下依赖到pom.xml中


    com.ververica
    flink-connector-mysql-cdc
    2.2.0

4. 使用SQL方式同步Mysql数据到Hudi数据湖

4.1 Mysql表结构和数据

建表语句如下：

CREATE TABLE `info_message` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '主键',
  `msg_title` varchar(100) DEFAULT NULL COMMENT '消息名称',
  `msg_ctx` varchar(2048) DEFAULT NULL COMMENT '消息内容',
  `msg_time` datetime DEFAULT NULL COMMENT '消息发送时间',
  PRIMARY KEY (`id`)
)

部分数据内容如下：

mysql> 
mysql> select * from d_general.info_message limit 3;
+--------------------+-----------+-------------------------------------------------------+---------------------+
| id                 | msg_title | msg_ctx                                               | msg_time            |
+--------------------+-----------+-------------------------------------------------------+---------------------+
|         1          |   title1  |                         content1                      | 2019-03-29 15:27:21 |
|         2          |   title2  |                         content2                      | 2019-03-29 15:38:36 |
|         3          |   title3  |                         content3                      | 2019-03-29 15:38:36 |
+--------------------+-----------+-------------------------------------------------------+---------------------+
3 rows in set (0.00 sec)

mysql>

4.2 Flink开启checkpoint

Checkpoint默认是不开启的，开启Checkpoint让Hudi可以提交事务
并且mysql-cdc在binlog读取阶段开始前，需要等待一个完整的checkpoint来避免binlog记录乱序的情况
binlog读取的并行度为1，checkpoint的粒度为数据行级别
可以在任务失败的情况下，达到Exactly-once语义

Flink SQL> set 'execution.checkpointing.interval' = '10s';
[INFO] Session property has been set.

Flink SQL>

4.3 在Flink中创建Mysql的映射表

Flink SQL> create table mysql_source(
> database_name string metadata from 'database_name' virtual,
> table_name string metadata from 'table_name' virtual,
> id decimal(20,0) not null,
> msg_title string,
> msg_ctx string,
> msg_time timestamp(9),
> primary key (id) not enforced
> ) with (
>     'connector' = 'mysql-cdc',
>     'hostname' = '192.168.8.124',
>     'port' = '3306',
>     'username' = 'hnmqet',
>     'password' = 'hnmq123456',
> 'server-time-zone' = 'Asia/Shanghai',
> 'scan.startup.mode' = 'initial',
>     'database-name' = 'd_general',
>     'table-name' = 'info_message'
> );
[INFO] Execute statement succeed.

Flink SQL>

说明如下：

Flink的table中添加了两个metadata列。还可以定义op_ts列，类型为TIMESTAMP_LTZ(3)，表示binlog在数据库创建的时间，如果是snapshot，则值为0
如果Mysql中有很多个列，这里只获取Flink Table中定义的列
Mysql的用户需要的权限：SELECT、SHOW DATABASES、REPLICATION SLAVE、REPLICATION CLIENT
server-time-zone: Mysql数据库的session time zone，用来控制如何将Mysql的timestamp类型转换成string类型
scan.startup.mode：mysql-cdc启动时消费的模式，initial表示同步snapshot和binlog，latest-offset表示同步最新的binlog
database-name和table-name可以使用正则表达式匹配多个数据库和多个表，例如"d_general[0-9]+"可以匹配d_general0、d_general999等

4.4 在Flink中创建Hudi Sink的映射表

Flink SQL> create table hudi_sink(
> database_name string,
> table_name string,
> id decimal(20,0) not null,
> msg_title string,
> msg_ctx string,
> msg_time timestamp(6),
> primary key (database_name, table_name, id) not enforced
> ) with (
>     'connector' = 'hudi',
> 'path' = 'hdfs://nnha/user/hudi/warehouse/hudi_db/info_message',
> 'table.type' = 'MERGE_ON_READ',
> 'hoodie.datasource.write.recordkey.field' = 'database_name.table_name.id',
> 'write.precombine.field' = 'msg_time',
> 'write.rate.limit' = '2000',
> 'write.tasks' = '2',
> 'write.operation' = 'upsert',
> 'compaction.tasks' = '2',
> 'compaction.async.enabled' = 'true',
> 'compaction.trigger.strategy' = 'num_commits',
> 'compaction.delta_commits' = '5',
> 'read.tasks' = '2',
> 'changelog.enabled' = 'true'
> );
[INFO] Execute statement succeed.

Flink SQL>

说明如下：

不同数据库和表的id字段可能会相同，定义复合主键
hoodie.datasource.write.recordkey.field：默指定表的主键，多个字段用.分隔。认为uuid字段
如果upstream不能保证数据的order，则需要显式指定write.precombine.field，且选取的字段不能包含null。默认为ts字段。作用是如果在一个批次中，有两条key相同的数据，取较大的precombine数据，插入到Hudi中
write.rate.limit：每秒写入数据的条数，默认为0表示不限制
默认write的并行度为4
write.operation：默认是upsert
默认compaction的并行度为4
compaction.async.enabled：是否开启online compaction，默认为true
compaction.trigger.strategy：compaction触发的策略，可选值：num_commits、time_elapsed、num_and_time、num_or_time，默认值为num_commits
compaction.delta_commits：每多少次commit进行一次compaction，默认值为5
MOR类型的表，还不能处理delete，所以会导致数据不一致。可以通过changelog.enabled转换到change log模式

4.5 流式写入Hudi

先同步snapshot，再同步事务日志

Flink SQL> insert into hudi_sink select database_name, table_name, id, msg_title, msg_ctx, msg_time from mysql_source /*+ OPTIONS('server-id'='5401') */ where msg_time is not null;
[INFO] Submitting SQL update statement to the cluster...
[INFO] SQL update statement has been successfully submitted to the cluster:
Job ID: afa575f5451af65d1ee7d225d77888ac


Flink SQL>

注意：这里如果where条件如果添加了"msg_time > timestamp ‘2021-04-14 09:49:00’"，任务会一直卡在write_stream这一步，write_stream的状态一直是bush(max): 100%，并且checkpoint也会一直卡住，查看HDFS上的表是没有数据
默认查询的并行度是1。如果并行度大于1，需要为每个slot设置server-id，4个slot的设置方法为：'server-id'='5401-5404'。这样Mysql server就能正确维护network connection和binlog position

你可能感兴趣的:(#,Hudi,flink,cdc,2.2.0,mysql,hudi,数据湖)

MySQL InnoDB 引擎中的聚簇索引和非聚簇索引有什么区别？ Chen-Edward 数据库 mysql android 数据库
MySQLInnoDB引擎中的聚簇索引和非聚簇索引有什么区别？主要解答详细解答1.**聚簇索引（ClusteredIndex）**2.**非聚簇索引（Non-ClusteredIndex/SecondaryIndex）**3.**对比总结**4.**流程图（查询过程对比）**知识拓展与延伸1.**如何选择主键和索引**2.**Java后端开发中的应用**3.**常见误区**主要解答在MySQL的I
mysql数据一致性
前言美团酒店直连项目自2013年末开始，通过业务上的不断完善和技术上的不断改进，至今已经接入200多家供应商，其中在线酒店3万以上，在线SPU30万以上。经过两年的成长，美团酒店直连平台终于在2015年末发展为国内最大的酒店直连业务平台，其接入的业务类型也从最初的经济连锁，拓展到高星渠道、小连锁集团、非标准住宿等，获得了业界一致好评。随着美团点评的日益壮大，客户的需求和系统体量的不断增加，直连平台
【MongoDB】基础知识全面解析：从入门到核心概念韩悸桉数据库 mongodb 数据库
一、MongoDB是什么？MongoDB是一种开源文档型NoSQL数据库，以灵活的JSON格式（BSON）存储数据，无需固定表结构，适合处理半结构化和非结构化数据。与传统关系型数据库（如MySQL）相比，它具有以下特点：灵活的数据模型：文档结构可动态调整，适应业务需求变化。水平扩展性：支持分片集群，轻松应对海量数据存储。高性能读写：通过索引优化和内存缓存提升查询效率。二、核心概念与术语对比Mong
Docker容器升级MySQL Java王小怪 docker mysql 容器
目录服务升级密码重置1、找到挂载配置文件2、重启服务3、容器交互4、修改密码5、还原配置文件前言：由于项目需要，我们使用docker-compose启动的MySQL服务，原先版本为5.7.3，在服务扫描过程中，发现此版本的MySQL存在漏洞，遂决定对MySQL版本进行升级。服务升级由于库中数据还存在不少，我们并没有把原先MySQL的容器进行删除重新搞个新的，只是升级版本可以做到无痛割接。由于我的M
香港服务器查询缓存禁用-性能优化关键技术解析 cpsvps_net linux
在香港服务器运维过程中，查询缓存禁用是提升数据库性能的关键操作。本文将深入解析禁用查询缓存的原理、操作步骤、适用场景及注意事项，帮助管理员优化MySQL服务器配置，解决高并发环境下的性能瓶颈问题。香港服务器查询缓存禁用-性能优化关键技术解析查询缓存的工作原理与性能影响香港服务器上的MySQL查询缓存(QueryCache)机制会将SELECT语句及其结果存储在内存中。当完全相同的查询再次执行时，系
塞浦路斯VPS MySQL 8.7量子安全索引测试 cpsvps_net mysql 安全数据库
在数字化时代背景下，数据安全已成为全球企业关注的核心议题。本文将深入解析塞浦路斯VPS环境下MySQL8.7量子安全索引的突破性测试成果，揭示其如何通过先进的加密算法重构数据库防护体系，为金融、医疗等敏感行业提供符合后量子密码学标准的解决方案。塞浦路斯VPSMySQL8.7量子安全索引测试-下一代数据库防护技术解析量子计算威胁下的数据库安全新挑战随着量子计算机的快速发展，传统加密算法正面临前所未有
MySQL对CPU的占用率很高怎么处理半桶水专家 mysql mysql 数据库
一、确认与定位确认整体CPU使用情况top-b-n1|head-n15观察MySQL(mysqld)进程所占的%CPU。如果是多核系统，关注总和以及单核是否满载。查看系统负载uptimeLoadAverage长期高于CPU核数，说明系统压力大。查看其它进程情况psaux--sort=-%cpu|head-n10确认是否仅MySQL占用高，或与其它进程有关。二、操作系统层面排查磁盘I/O瓶颈iost
配置MySQL主从复制（一主一从） cici15874 mysql
MySQL主从复制简介MySQL主从复制的目的是实现数据库冗余备份，将master数据库的数据定时同步到slave库中，一旦master数据库宕机，可以将Web应用数据库配置快速切换到slave数据库，确保Web应用有较高的可用性。MySQL主从同步是一个异步复制的过程，要实现复制，首先需要在master上开启bin-log日志功能，bin-log日志用于记录在master库执行的增删改更新操作的
数据中心双活架构解决方案
数据中心双活架构解决方案数据中心双活架构（Active-ActiveDataCenter）旨在实现业务高可用、负载均衡和灾难自动切换。以下是完整的解决方案，涵盖架构设计、关键技术、实施步骤及最佳实践。1.双活架构设计1.1基本架构模型同城双活（MetroActive-Active）两个数据中心距离≤100km（低延迟，通常100km（延迟较高，通常>10ms）采用异步数据复制（如Kafka+CDC
Java SQLException: 解决“Got error 28 from storage engine”的5个步骤墨瑾轩一起学学Java【一】java adb 开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣引言在使用Java进行数据库操作时，有时会遇到java.sql.SQLException:Goterror28fromstorageengine错误。这个错误通常发生在尝试插入数据到MySQL数据库时，表示存储引擎返回了一个错误码28，这通常意味着磁盘空间不足
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
【Django开发】前后端分离django美多商城项目第3篇：用户注册业务实现,用户注册前端逻辑【附代码文档】
教程总体简介：欢迎来到美多商城！项目需求分析1.项目主要页面介绍2.归纳项目主要模块3.知识要点项目架构设计1.项目开发模式2.项目运行机制项目介绍创建工程1.准备项目代码仓库3.创建美多商城工程配置开发环境1.新建配置文件2.指定开发环境配置文件配置Jinja2模板引擎1.安装Jinja2扩展包配置MySQL数据库3.安装PyMySQL扩展包配置Redis数据库1.安装django-redis扩
喜讯！Apache SeaTunnel 荣获上海开源创新菁英荟优秀开源项目奖数据库
近日，在2025上海开源创新菁英荟上，ApacheSeaTunnel凭借信创生态适配与智能化技术突破，荣获「优秀开源项目奖」。这个由中国团队孵化的开源项目，已成为全球数据集成领域的标杆。信创生态：支持20+国产数据库的无缝对接SeaTunnel深度适配华为OpenGauss、阿里OceanBase等20+主流国产数据库，支持CDC（变更数据捕获）与高性能加载。在证券行业信创转型中，SeaTunne
SQL SELECT INTO语句 Lu鹿夫人 sql 数据库 sqlserver
SQLSELECTINTO语句通过SQL，您可以从一个表复制信息到另一个表。SELECTINTO语句从一个表复制数据，然后把数据插入到另一个新表中。SQLSELECTINTO语句注意：MYSQL数据库不支持SELECT…INTO语句，但支持INSERTINTO…SELECT。可以使用以下语句来拷贝表结构及数据：CREATETABLE新表ASSELECT*FROM旧表SQLSELECTINTO语法1
分布式 ID 生成方案对比：Snowflake、UUID、KSUID 该怎么选？田猿笔记知识集合 nodeJs 高级应用分布式 node.js
分布式ID生成方案对比：Snowflake、UUID、KSUID该怎么选？在分布式系统中，如何生成全局唯一ID是一个常见问题。不同的ID生成方案各有优缺点，本文将对比Snowflake、Sonyflake、UUIDv1/v4、XID、KSUID以及自定义ID，并给出Node.js实现示例，帮助你选择最适合的方案。1.为什么需要分布式ID？在单机系统中，可以使用数据库自增ID（如MySQL的AUTO
MySQL数据库核心技术深度解析：SQL语句最佳实践与性能优化指南有趣的灵魂465 mysql
MySQL数据库大师之路：从语法精要到高阶优化全攻略一、开篇：构建系统化的MySQL知识体系在完成《MySQL数据库技术》课程学习后，我通过300+小时的实战演练和源码研究，形成了这套覆盖MySQL5.7/8.0核心技术的知识体系。本文不仅包含标准SQL语法，更将深入InnoDB存储引擎原理、索引实现机制和事务隔离级别的底层实现，帮助开发者跨越从"会写SQL"到"精通数据库"的鸿沟。二、数据库设计
MySQL调优实战 fei飛fei飞 mysql 数据库
各位小伙伴是否在工作中遇到过类似的问题？一个简单的用户查询居然用时15s，接到优化sql语句的任务又无从下手。今天，我们简单的讲讲MySql如何调优。sqlSELECT*FROMusersWHEREage>18ORDERBYcreate_timeDESC;如上图，一个简单的查询sql为啥用时如此之久呢，我们先看这个sql可能存在的问题。1.索引缺失或不合理问题：该查询涉及两个字段条件(age>18
基于springboot+mysql+jpa+html实现商品销售信息系统五星资源 spring boot mysql java
基于springboot+mysql+jpa+html实现商品销售信息系统一、系统介绍1、系统主要功能：2.涉及技术框架：3.本项目所用环境：二、功能展示三、其它系统四、获取源码一、系统介绍1、系统主要功能：订单管理模块商品管理模块品牌管理模块分类管理模块客户管理模块供应商管理模块2.涉及技术框架：web框架：SpringBoot数据库框架：SpingDataJPA数据库：MySql项目构建工具：
mysql中的mvcc理解 simpleGq MySQL mysql java 数据库
是什么：MVCC指的是在读已提交、可重复读这两种隔离级别下，执行普通的select操作时，访问记录的版本链的过程，可以使不同事务的读写操作并发执行，提高性能。MVCC=隐藏字段+undolog版本链+ReadView1.隐藏字段：对于聚簇索引来说，每条记录都有trx_id和roll_pointer两个隐藏列。trx_id：修改该记录的事务的idroll_pointer:每次记录修改的时候，旧的版本
DolphinScheduler 6 个高频 SQL 操作技巧数据库
摘要：ApacheDolphinScheduler系列4-后台SQL经验分享关键词：大数据、数据质量、数据调度整体说明在调研了DolphinScheduler之后，在项目上实际使用了一段时间，有了一些后台SQL实际经验，分享如下。进入DolphinScheduler后台数据库，我这里使用的是MySQL数据库。以任务名称包含“ods_xf_act”的任务为例。一、修改任务组操作UPDATEt_ds_
用systemd管理GreatSQL服务详解数据库mysql
用systemd管理GreatSQL服务详解1.GreatSQL服务文件官网greatsql.service文件[Unit]Description=GreatSQLServerDocumentation=man:mysqld(8)Documentation=http://dev.mysql.com/doc/refman/en/using-systemd.htmlAfter=network.targ
SQL学习笔记5 彤银浦 sql 学习笔记
多表查询1、多表关系MySQL是一个关系型数据库，数据库中表与表之间存在关联。它们的关系根据一张表包含另外一张表数据的多少可以分为：（使用外键建立关系的方法不常用）一对多或多对一：在多的一方加入外键对应少的一方的主键多对一：在两张表中加入一张中间表，中间表中加入两个外键对应两张表的主键一对一：在一张表加入另一张表的外键，且将外键约束为唯一2、多表查询概述多表查询的语法：select字段from表1
SQL学习笔记6 彤银浦 sql 学习笔记
事务1、事务的概念事务就是多个操作的集合，事务将这一串操作作为一个整体向数据库提交，要么同时操作成功，要么同时失败在输入DML语句时，MySQL是自动将事务提交，因此要操作事务时需要手动开启事务操作流程为：开启事务（若中间有错，则回滚复原并报错）结束事务2、事务操作事务操作有两种方式方式一：关闭事务自动提交，改为手动提交查看事务提交方式：select@@autocommit设置事务提交方式：set
MySQL自增约束 @一叶之秋 MySQL理论学习
1、自增约束特点：（1）一个表只能有一个自增约束因为一个表只有一个维护自增值的变量。（2）自增约束的列只能是整数列（3）自增约束的列必须是键列（主键，唯一键，外键），实际中一般是主键自增最多2、如何在建表时指定某个列自增createtable【数据库名.】表名称(字段名1xxIntprimarykeyauto_increment,字段名2数据类型【uniquekey】【notnull】defaul
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
shopex48mysql索引优化 showker mysql
altertablesdb_pluginsaddindexidx_type_identifier(plugin_type,plugin_ident);CREATEINDEXidx_disabled_varnameONsdb_magicvars(disabled,var_name);CREATEINDEXidx_goods_type_spec_typeidONsdb_goods_type_spec(
计算机专业毕业设计选题指南（2025创新版）程序员小天00 课程设计毕业设计小程序 python eclipse java
计算机专业毕业设计选题指南（2025创新版）一、选题方向全景图（按技术维度划分）智能服务系统开发技术架构：SpringBoot+Vue3+MySQL/MongoDB典型场景：●智慧校园：实验室预约系统、学术成果可视化平台●医疗健康：电子病历智能分析系统、慢性病管理助手●城市治理：垃圾分类智能识别系统、交通拥堵预测模型创新点：融合OCR识别/NLP技术，实现无感化服务跨平台应用开发技术选型：Unia
mysql中有大量sleep进程的原因与解决办法 \光辉岁月/ php 数据库
mysql中有大量sleep进程的原因与解决办法mysql服务器中有大量的sleep进程，本文分析下mysql出现大sleep进程原因分析与解决方法。可能的原因：造成睡眠连接过多的原因？1.使用了太多持久连接（个人觉得，在高并发系统中，不适合使用持久连接）2.程序中，没有及时关闭mysql连接3.数据库查询不够优化，过度耗时。当然，更根本的方法，还是从以上三点排查之：1.程序中，不使用持久链接，即
『深度编码』MySQL：数据库命令（一）浮灯Foden 深度编码：MySQL 数据库 mysql sql sqlserver
数据库基本概念数据库管理系统（databasemanagementsystem/DBMS）：数据库系统中对数据进行管理的软件系统。数据库（database/DB）：按照特定的数据结构来组织、存储和管理数据的仓库。表（table）：某种特定类型数据的结构化清单。列（column）或字段：表由一个或多个列组成，每个列都有对应的数据。行（row）或记录：表中的数据是按行存储的，每行存储一条数据。主键（p
mysql 开启远程登录 ubuntu_ubuntu mysql新增用户并开启远程连接 weixin_39709367 mysql 开启远程登录 ubuntu
1、首先用root用户登录mysqlmysql-uroot-p输入密码后登录成功2、新建用户usemysql;selecthost,userfromuser;(查看现有用户)CREATEUSER'king'@'localhost'IDENTIFIEDBY'';(新建用户)；selecthost,userfromuser；(再次查看用户)第一次第二次3、赋权限GRANTALLPRIVILEGESON
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他