kangna_卧龙先生

kettle根据时间戳增量的将数据从MySQL同步SQLServer（linux部署脚本启动作业、config.properties 配置数据库）

目录

一、设计思路与方案

1、思路

2、方案

3、总体流程

二、实现步骤

2.1、创建作业和DB连接

2.2、创建时间戳表

2.3、获取时间戳并设为变量

2.4、插入更新

2.5、更新时间戳

2.6、配置数据源加载外部文件

一、设计思路与方案

1、思路

我的需求：从MySQL 按时间增量同步到 SQLServer，MySQL中的数据会源源不断的写入，不会删除数据， SQLServer根据 MySQL表中的 modifytime 做增量同步就好，三台阿里云机器做数据的接入、计算、同步。

下面是网友的设计思路：

假定在源数据表中有一个字段会记录数据的新增或修改时间（modifytime），可以通过它对数据在时间维度上进行排序。通过中间表记录每次更新的时间戳，在下一个同步周期时，通过这个时间戳同步该时间戳以后的增量数据。这是时间戳增量同步。

但是时间戳增量同步不能对源数据库中历史数据的删除操作进行同步，我们可以通过在每次同步时，把时间戳往前回滚一段时间，从而同步一定时间段内的删除操作。这就是时间戳增量回滚同步，这个名字是我自己给取得，意会即可，就是在时间戳增量同步的同时回滚一定的时间段（参考的https://blog.csdn.net/dora_310/article/details/80511793 ）。

说明：

源数据表 需要被同步的数据表
目标数据表 同步至的数据表
中间表 存储时间戳的表

2、方案

1、刚开始接触到这个需求，我就抱着学习的态度，因为kettle没怎么用过，觉得应该不难，解决方案的话就是如下的操作，别人的：

2、后面的话我参考了同事的一种设计方式

下面这种方式是源数据库与目标数据库保持一致，有源数据库表记录删除，这个是整张表数据的同步，两张表的数据是一致的。

3、从需求的实际出发，我选择博客上网友的设计，但是我没有删除时间戳及其以后的数据，意会我的设计即可

说明：Kettle根据时间戳增量同步两张表的数据从MySQL到SQLServer，时间戳表 etl_last_jobtime 字段last_timestamp记录每次作业开始时的当前时间（数据同步），作业完成后根据ID 更新相应表的 last_timestamp 字段，增量获取数据时 modifytime字段大于等于上次记录的 last_timestamp 字段，作业开始记录当前时间防止作业执行的时间长而丢失数据。

3、总体流程

开始组建
设置config_path
建时间戳表
获取中间表的时间戳，并设置为全局变量
数据的插入或更新
更新时间戳

其实，这里的设计和上面网友的设计基本思路是一样的，区别有两点：

我的临时表时间戳没有把表中的 modifyTime字段排序取最新值，因为排序取值性能这块不好，我们的需求也不需要这样做，因为源数据表中的数据是不断写入的，记录当前时间就可以（now()），然后表中数据的 modifytime 又会不断的更新，下次取数据的时候，我只需要 (modifytime >= last_timestamp) ，我的设计如此，数据重复与丢失考虑的不是很多。

考虑到作业的执行也需要时间，这个当前时间（now()），在作业一开始就给了，作业执行完后，更新这个 last_timestamp ，设计可能存在问题，时间戳回滚也考虑过，但是没想好回滚多长时间合适，数据丢失或重复的可能也存在，数据不能丢失就好，项目搭建测试中

二、实现步骤

2.1、创建作业和DB连接

打开Spoon工具（java环境），新建作业，然后在左侧主对象树DB连接中新建DB连接。创建连接并测试通过后可以在左侧DB连接下右键共享出来。因为在单个作业或者转换中新建的DB连接都是局域数据源，在其他转换和作业中是不能使用的，即使属于同一个作业下的不同转换，所以需要把他们共享，这样DB连接就会成为全局数据源，不用多次编辑，提醒添加相应数据库的驱动。

2.2、创建时间戳表

这张表的话，一开始就是建好的，这个表一定存在的，没有使用 SQL 脚本在作业中创建，考虑到 SQLServer 不熟，我将中间表建在源数据库中 etl_last_jobtime，不同的表根据 ID 取时间戳，为了表信息易维护增加了 table_info字段。

CREATE TABLE IF NOT EXISTS 
etl_last_jobtime(
  id  int(11) NOT NULL PRIMARY KEY,
  table_info varchar(32) NOT NULL,
  last_timestamp TIMESTAMP NOT NULL comment '最近一次同步数据时间'
);
-- 插入初始的时间
INSERT IGNORE etl_last_jobtime(id ,table_info,last_timestamp) VALUES(1,'表1信息', '1998-07-02 15:30:00');
INSERT IGNORE etl_last_jobtime(id ,table_info,last_timestamp) VALUES(2,'表2信息', '1998-07-02 15:30:00');

2.3、获取时间戳并设为变量

这一步使用到了表输入和设置标量， nowTime 就是作业刚开始运行的时间，估计存在偏差还在测试中，想法是这样的，因为作业的执行需要时间，每次数据同步的时间可能不等，所以作业开始执行或者没有开始执行时就获取这个时间戳，然后作业开始执行，这就好比是回滚时间，只不过是根据每次同步作业的执行时间决定的，这块考虑到这块数据一定不能丢失，所以使用了大于等于取数据。

2.4、插入更新

这一步是真正的同步增量同步，完成数据的更新和插入

2.5、更新时间戳

将 etl_last_jobtime 中 last_timestamp 字段的更新放在最后一步。
update etl_last_jobtime set last_timestamp='${NOWTIME}' where id=1;
id =1 的时候更新 last_timestamp 等于前面作业开始是获取的 nowTime

2.6、配置数据源加载外部文件

具体可以参考Kettle配置数据源时加载外部properties配置文件：https://www.jianshu.com/p/ac7c0566d782

1、配置config.properties 文件，设置变量

2、作业空表处双击，设置作业参数，设置变量就是为了将配置的命名参数获取到，从而获取到配置文件 config.properties

config.properties文件配置

3、使用配置文件连接数据库

4、linux 中运行作业的脚本

这里我们使用真实环境的测试运行，使用脚本执行作业，后面也可以定时调度。

#!/bin/bash

###############################
# 
# 
# 
# 
###############################
set -x

date=`date +%Y-%m-%d`
jobPath=`cd $(dirname $0);pwd`
cd  /hadoop/software/kettle/data-integration/
./kitchen.sh -file=${jobPath}/data_sync.kjb -param:"config_path=${jobPath}/config.properties"

说明：作业没有运行，configPath 的配置信息是没有加载进内存的，在左侧 DB 连接测试数据库连接是会报错的，可以先运行作业，作业执行完 start->设置configPath 后会将配置信息加载进内存中，这样配置文件的信息就可以获取到了。

C:\Users\yangxu\.kettle\shared.xml.backup 这块可以看到配置的数据库信息。

将以上的作业、数据库配置文件、作业运行的脚本在本地测试没问题后打包（zip unzip）上传到 linux 测试机，运行脚本即可。

以上就是数据同步的个人记录，后期测试结果，会继续分享。

最后说一下：尽量将转换抽离，不要放在一个转换中，尤其是有多个 SQL脚本需要执行的转换执行的顺序可能不是串行，可以参考：https://mp.csdn.net/console/editor/html/106633806，这样做也方便测试。

kettle转换里面sql脚本的执行顺序：https://blog.csdn.net/u012848709/article/details/65626634

参考博客：使用Kettle实现数据实时增量同步https://blog.csdn.net/dora_310/article/details/80511793

kettle转换里面sql脚本的执行顺序：https://blog.csdn.net/u012848709/article/details/65626634

kettle的转换里面sql脚本执行顺序以执行次数：https://blog.csdn.net/u012848709/article/details/67679366

你可能感兴趣的:(ETL,工具,#,Kettle)

使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
H743定时器输出PWM波方法（基于STM32CubeMX） NW嵌入式开发单片机开发 stm32 定时器 PWM模式
0工具准备1.STM32CubeMX2.《STM32H743参考手册中文版》3.《stm32h743xi数据手册》1前言本文介绍基于STM32CubeMX，使用stm32h743xi，使用TIM15的通道2输出PWM波的方法。2H743定时器输出PWM波方法（基于STM32CubeMX）《STM32H743参考手册中文版》对PWM模式的描述如下：其中，有关PWM模式1和模式2的介绍见TIM15_C
【今日EDA行业分析】2025年3月21日知梦EDA EDA行业分析大数据人工智能半导体 EDA 行业分析
智算时代EDA行业新变局：技术突围与生态重构一、EDA产业格局剧变：技术壁垒与地缘博弈交织在半导体产业链的宏大版图中，EDA工具宛如数字时代的“工业母机”，其重要性伴随芯片复杂度的指数级攀升而愈发显著。据SEMI数据显示，2023年全球EDA市场规模成功突破200亿美元大关，中国本土市场增速更是达到了18%。然而，Synopsys、Cadence、Mentor这三大行业巨头依旧牢牢占据着超过85%
XPipe：一款新型开源终端管理神器修己xj 工具开源
最近，一位朋友在使用Docker时遇到了一个问题：他对宿主机与容器之间的文件复制以及在容器内执行命令等操作感到困惑。这让我开始思考，如果有一款远程管理工具能够直接连接到容器内部，操作是否会变得更加便捷？恰巧，今天在浏览GitHub时，我发现了这样一款名为XPipe的工具。工具介绍XPipe是一款创新的Shell连接中心和远程文件管理器，它能够让你从本地机器轻松访问整个服务器基础设施。这款工具运行在
vscode如何找letax模板_VScode如何实时预览LaTeX？ weixin_39789327
好像感觉我要火了,这个必须专业回答下啊,看完别忘了点赞啊!!用户友好型实时预览的定义即不用手动编译,不用手动刷新文档(PDF)的LaTeX写作方式.实现方式与工具目前主要用的是Latexmk这个perl脚本或者支持实时预览的Markdown编辑器.关于TeX集成系统的一个建议个人建议用TeXLive而非MikTeX甚至CTeX套装,相比而言我用TeXLive时碰到的问题最少.后两种你可能发现好好的
【测试工程师必备！】VS Code好用插件FastPytestRunner 花小田 pytest vscode
你是否还在为PythonTestExplorerforVisualStudioCode以下痛点焦头烂额？•测试扫描慢到怀疑人生，每次启动都要等待5分钟•调试时总是找不到断点入口，配置项复杂到崩溃•传统测试工具无法满足大规模测试需求•每次切换项目都要重新配置测试环境FastPytestRunner——专为测试工程师量身打造的极速测试利器来了！️实战进阶技巧：✅配置黄金法则：{"pytestRunne
GPT-4o mini TTS：OpenAI 推出轻量级文本转语音模型！情感操控+白菜价冲击配音圈蚝油菜花每日 AI 项目与应用实例开源人工智能
❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！AI在线答疑->智能检索历史文章和开源项目->丰富的AI工具库->每日更新->尽在微信公众号->搜一搜：蚝油菜花️“声优连夜转行送外卖！OpenAI新模型每分钟语音成本仅9分钱”大家好，我是蚝油菜花。当同行还在用机械音合成器折磨听众时，这个AI怪物已
Dify-Plus：企业级AI管理核弹！开源方案吊打SaaS，额度+密钥+鉴权系统全面集成蚝油菜花每日 AI 项目与应用实例人工智能开源开源人工智能
❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！AI在线答疑->智能检索历史文章和开源项目->丰富的AI工具库->每日更新->尽在微信公众号->搜一搜：蚝油菜花“CTO集体失眠！这个开源项目让企业AI管理进入上帝模式”大家好，我是蚝油菜花。当同行还在为API调用次数和预算超支扯皮时，这个国产神器已
Go 1.24 新特性一览 go资讯编程语言程序员
Go1.24震撼登场，带来显著性能提升与诸多新功能，如泛型类型别名、优化工具链及标准库增强。可借助os.Root实现安全文件系统操作，运用testing.B.Loop优化基准测试，利用runtime.AddCleanup完善资源管理，还有weak包优化内存、crypto包保障FIPS140-3合规。速升级，提升Go应用效率与安全！文章目录语言特性更新泛型类型别名(GenericTypeAliase
应用-构建并优化 Python 的 Rust 扩展李星星BruceL 自动化测试 python rust 开发语言
目录构建并优化Python的Rust扩展如果你的Python代码运行速度不够快，你可以选择使用编译语言来编写更快的扩展。本文将重点介绍Rust，它具有以下优势：现代工具链，包括名为crates.io的包仓库和内置的构建工具（cargo）。出色的Python集成和工具支持。Rust的Python支持包是PyO3。对于打包，你可以使用setuptools-rust来与现有的setuptools项目集成
数据库原理实验报告：Powerdesigner建模E-R模型并转换表不吃~香菜各类实验报告汇总需要私数据库实验报告 Powerdesigner E-R模型建模
注：此实验并不完整，仅供参考，如需完整版请私我留言一、实验目的：二、实验工具：三、实验要求：四、实验过程：图文并茂，每一步都包含详细图片，总共11页word！往期回顾：计算机接口实验报告：8254定时/计数器应用实验-CSDN博客计算机接口实验报告：D/A转换实验-CSDN博客计算机接口实验报告：LED显示实验-CSDN博客数据库原理实验报告：Powerdesigner建模E-R模型并转换表一、实
【QT入门】qmake和cmake的简单区别不吃~香菜 QT入门 qt 开发语言学习 qmake cmake
声明：该专栏为本人学习Qt知识点时候的笔记汇总，希望能给初学的朋友们一点帮助(加油！)往期回顾：【QT入门】Windows平台下QT的编译过程-CSDN博客【QT入门】VS2019+QT的开发环境配置-CSDN博客【QT入门】VS2019和QTCreator如何添加第三方模块-CSDN博客【QT入门】qmake和cmake的简单区别qmake和cmake是两种常用的构建工具，用于自动化构建C++项
手写promise ,实现 then ,catch,finally,resolve,reject,all,allSettled 会飞的鱼先生前端 javascript 开发语言
完整代码原生Promise的用法1.Promise是JavaScript中用于处理异步操作的重要工具。它代表了一个异步操作的最终完成或失败，并且使异步方法可以像同步方法那样返回值。resolve：当异步操作成功时调用的函数，用于将Promise的状态改为fulfilled，并将结果值传递给后续的.then()方法。reject：当异步操作失败时调用的函数，用于将Promise的状态改为reject
[网安工具] 网安工具库 —— 工具管理手册 Blue17 :: Hack3rX 安全工具 —网安工具手册安全内网安全网络安全 windows 网络
0x00：工具管理类—ToolsManagement0x01：信息收集类—InformationGathering自动化综合信息收集工具—ARL灯塔0x02：漏洞探测类—VulnerabilityIdentification浏览器渗透辅助插件——HackBarSQL注入漏洞——SqlMap0x03：漏洞利用类0x04：远程控制类0x05：权限提升类0x06：权限维持类0x07：隧道代理类0x08：
微信小程序的旅游服务助手景点酒店旅游规划的设计与实现 QQ1304979694 微信小程序旅游小程序
文章目录具体实现截图本项目支持的技术语言研究思路、方法和步骤本系统开发思路主要软件与实现手段系统可行性分析源码获取详细视频演示：文章底部获取博主联系方式！！！！java类核心代码部分展示微信小程序技术现状源码获取/详细视频演示具体实现截图本项目支持的技术语言前端开发框架:vue.js+uniapp数据库mysql版本不限微信开发者工具/hbuiderx数据库工具：Navicat/SQLyog等都可
从零开始学习 Go 语言九班长 Golang 学习 golang 后端开发语言 gin
Go语言（又称Golang）是由Google开发的一种静态强类型、编译型、并发型编程语言。它以其简洁的语法、高效的并发支持和强大的标准库而闻名，非常适合开发高性能的服务器端应用、分布式系统和云计算工具。本文将从零开始，详细介绍如何学习Go语言，涵盖基础语法、核心概念、并发编程、工具链和实战项目等内容。1.Go语言简介1.1Go语言的特点简洁易学：语法简洁，学习曲线平缓。高效编译：编译速度快，生成的
如何避免Bug跟踪系统混乱管理前沿运维人工智能大数据
流程规范化、工具集成化、沟通透明化。其中流程规范化通过明确每个环节的责任分工、标准化Bug报告和处理流程，有效减少混乱和重复劳动，确保Bug跟踪系统高效运转。企业通过数据分析发现，采用标准化流程后Bug处理效率可提升30%以上，这为软件质量控制提供了坚实保障。一、BUG跟踪系统的基本概念与重要性Bug跟踪系统是一种用于记录、管理和解决软件缺陷的工具和流程。它通过集中存储Bug报告、分类处理问题，并
使用ssh-keygen命令生成密钥对无密码远程登陆linux主机哎哟喂我去 rhel6
我们在工作或试验中经常会需要登录多台linux主机进行操作，开启过多的ssh登陆界面，在不同的主机间切换时是非常让人的抓狂一件事情，只登陆一台linux主机然后通过此主机ssh登陆到其他主机这样是比较好的一种方式，但是在ssh登陆到其他主机时频繁的输入密码会让我们一直做重复的输入密码的工作，那有没有可以自动记住密码，或者不需要输入密码的工具呢？linux自带的ssh-kengen命令可以让我们轻松
Android Compose 框架基本状态管理（mutableStateOf、State 接口）深入剖析(十四) &有梦想的咸鱼& android
AndroidCompose框架基本状态管理（mutableStateOf、State接口）深入剖析一、引言在Android开发的历史长河中，UI开发模式经历了从传统的XML布局到动态视图操作，再到如今声明式UI框架的转变。AndroidCompose作为Google推出的新一代声明式UI工具包，为开发者带来了全新的UI开发体验。其中，状态管理是Compose框架的核心概念之一，它决定了UI如何根
Linux find 命令完全指南可问可问春风 Linux从新手到入门 linux chrome 运维
find是Linux系统最强大的文件搜索工具，支持嵌套遍历、条件筛选、执行动作。以下通过场景分类解析核心用法，涵盖高效搜索、文件管理及高级技巧：一、基础搜索模式1.按文件名搜索（精确/模糊匹配）find/path-name"*.log"#精确匹配.log后缀（区分大小写）find/home-iname"*.TXT"#模糊匹配.txt后缀（忽略大小写）find.-name"data_[0-9].cs
深入理解 JSON.stringify：优雅输出 JSON 数据天天进步2015 前端开发 json
在JavaScript开发中，JSON数据的处理是一项基础且关键的技能。JSON.stringify()方法作为将JavaScript对象转换为JSON字符串的标准工具，其功能远不止于简单的数据转换。本文将深入探讨JSON.stringify()的使用技巧、参数配置以及常见陷阱，帮助开发者更优雅地处理JSON数据输出。基础用法JSON.stringify()的基本语法如下：JSON.stringi
【004安卓开发方案调研】之Ionic+Vue+Capacitor开发安卓 ThinkPet 移动app开发 android ionic Capacitor Vue
基于Ionic+Vue+CapacitorPlugins的国内安卓开发生态和技术现状，结合跨平台框架特性与国内实际环境，以下是综合分析：一、技术成熟度评估1.核心优势跨平台开发效率Ionic提供预制的UI组件库（如卡片、列表、表单），结合Vue的响应式数据绑定，可快速构建80%以上的基础功能界面，开发效率比原生开发提升约40%。典型场景：企业内部工具App、电商商品详情页、新闻资讯类应用。Capa
知识图谱系列文章——文物知识图谱 weixin_43407382 知识图谱
文章介绍背景1、文物可以提供创意，如哥窑面饰的照相机2、目前文物数字化工作非常少，没有纳入设计元素3、文物知识图谱建成后具有很多好处&#￥方法一、本体构建1、明确领域和目的——文物知识图谱&设计创意2、领域信息采集与分析——文物信息，３４０件文物实例，3、定义文物本体概念和结构层次4、定义概念属性和属性约束5、本体编码（建模语言和工具）6、本体评估——Jena的内嵌推理机，基于描述的逻辑7、本体实
自动化配置管理工具 SaltStack-03 Mr.Ron linux 自动化服务器运维
一、Jinja模板应用案例1、需求描述给之前通过saltstack安装好的lamp环境的apache修改配置文件，要求每个主机监听自己ip的80端口。2、实现思路如果通过单纯的修改配置文件根本无法实现，所以我们需要用到模板，将配置文件作为模板，通过定义模板中的变量来实现，并且需要引用grians参数。#编辑state配置文件[root@server~]#vim/srv/salt/prod/apac
如何使用LangChain流式处理工具事件 fgayif langchain java 前端 python
在AI开发中，实时处理和监听事件是一项关键能力，特别是在处理复杂的模型和工具链时。本文将向您展示如何使用LangChain框架流式处理自定义工具中的事件，以便更好地监控和调试模型的内部状态。技术背景介绍LangChain是一个用于构建和操作语言模型的工具库，其中astream_events()方法能帮助我们监听和处理来自模型的事件流。了解如何正确地配置这些事件对于调试和高级应用至关重要，尤其是在运
OpenAI Agents SDK 中文文档中文教程（7） wtsolutions openai agents sdk python openai sdk 中文文档
英文文档原文详见OpenAIAgentsSDKhttps://openai.github.io/openai-agents-python/本文是OpenAI-agents-sdk-python使用翻译软件翻译后的中文文档/教程。分多个帖子发布，帖子的目录如下：(1)OpenAI代理SDK，介绍及快速入门(2)OpenAIagentssdk,agents，运行agents，结果，流，工具，交接(3)
Python --**kwargs 潇湘馆记 python
在Python中，**kwargs是一个特殊语法，用于在函数定义中接收任意数量的关键字参数（即键值对参数），并将这些参数以字典形式存储。它是Python中处理动态参数的强大工具，适用于需要灵活传递参数的场景。1.基本语法定义方式：在函数参数列表中使用**kwargs（名称可以自定义，但通常遵循kwargs约定）。参数类型：kwargs是一个字典，键是参数名，值是对应的参数值。示例defprint_
网络安全爬虫全解析 Hacker_LaoYi 爬虫 web安全网络
1.网络爬虫的认识网络爬虫是自动从互联网定向或不定向地采集信息地一种程序工具。网络爬虫分为很多类别，常见的有批量型网络爬虫、增量型网络爬虫（通用爬虫）、垂直网络爬虫（聚焦爬虫）。2.网络爬虫的工作原理通用爬虫：首先给定初始URL，爬虫会自动获取这个URL上的所有URL并将已经在爬取的地址存放在已爬取列表中。将新的URL放在队列并依次读取新的URL，依次判读是否满足所设置的停止获取的条件。聚焦爬虫：
使用DeepSeek R1大模型编写迅投 QMT 的量化交易 Python 代码 wtsolutions qmt量化交易 python qmt deepseek 量化交易代码生成
随着人工智能技术的迅猛发展，利用AI工具提升工作效率已成为现代开发者的重要手段。在使用deepseek官方网页生成迅投QMT代码的时候，deepseek给出的代码是xtquant代码，也就是miniqmt代码，并不是我们传统意义上说的大QMT可用的代码。因此，我们需要自建一个知识库，让deepseek根据我的知识库里面的知识，去帮我生成大QMT可用的交易代码。一、建立迅投QMT的知识库建立迅投QM
轻松帮你搞清楚Python爬虫数据可视化的流程 liuhaoran___ python
Python爬虫数据可视化的流程主要是通过网络爬取所需的数据，并利用相关的库将数据分析结果以图形化的方式展示出来，帮助用户更直观地理解数据背后的信息。Python爬虫+数据可视化步骤1.获取目标网站的数据使用`requests`或者`selenium`库从网页上抓取信息。对于动态加载内容的页面可以考虑结合JavaScript渲染引擎。2.解析HTML内容提取有用信息常见工具如BeautifulSo
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他