antkillerfarm

Kettle, Solr

http://antkillerfarm.github.io/

Kettle

ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。这个过程有时又被叫做“数据清洗”。

Kettle是一款国外开源的ETL工具。其官网为：

http://community.pentaho.com/projects/data-integration/

从大的方面来说，Kettle的工作，可分为Job和Trans两类。

Job是个大尺度的工作分类，它操作的对象是文件或数据库级别的。

相对的，Trans只要是些小尺度的工作。它操作的对象是Row，也就是一条记录。

Sqoop是另一个数据转换工具，但是没有IDE，功能也局限于数据格式的转换（仅相当于Kettle中的Trans）。其官网：

http://sqoop.apache.org/

Job可以调用Trans，也可以执行shell、SQL、Sqoop等多种脚本。因此，Kettle和Sqoop的关系不是二选一，而是可以协作的。

Kettle是一个大的工具集，主要包括以下组件：

1.spoon。Kettle的IDE。

2.pan。用于执行Trans文件（以ktr为后缀）。

3.Kitchen。用于执行Job文件（以kjb为后缀）。

命令行执行Job和Trans

pan -file=/path/to/ktr

kitchen -file=/path/to/kjb

参见：

http://www.cnblogs.com/wxjnew/p/3620792.html

官网资料：

http://wiki.pentaho.com/display/EAI/Pan+User+Documentation

http://wiki.pentaho.com/display/EAI/Kitchen+User+Documentation

命令行不仅可以执行Job和Trans，还可以向Job和Trans传递参数。参见pan和kitchen命令的-param选项。

Job和Trans对命令行参数的处理，有相关的插件，参见：

http://blog.csdn.net/scorpio3k/article/details/7872179

文本处理

Kettle的文本处理以“行”为单位。下图是一个实际的使用流程图：

1.原始数据来自网络爬虫抓取的数据，它的主体是一个json文件，然而在每一条记录的前后都有一些特殊的字符串，因此从整体来说，并不是一个合法的json文件。

2.采用“字符串替换”插件，去除非法字符串。这里需要注意的是，由于整个过程是数据流形式的，因此，无法在一个步骤中，同时去掉前后两个字符串，而必须分为两个步骤。

3.替换之后，原先有字符串的行，可能变成空行，这是可以使用“过滤记录”插件。

文件的增量处理

kettle没有提供直接的插件用于增量处理，因此需要自己设计增量处理的方法。

增量处理的方法很多，这里仅展示其中一种方法：

1.获得需要处理文件总表A。

注意：获取某个路径下的文件名，要用正则式，而不是常见的*.*,*.txt。
对应关系如下：
*.* -> .*
*.txt -> .*\.txt

2.获得已经处理过的文件列表B。这个列表可以来源于数据库，也可来源于文本文件。这里采用后者。

3.使用“合并记录”插件，从A中过滤掉B。“合并记录”插件的flagfield字段，会给出合并的结果。

4.使用“过滤记录”插件，根据flagfield字段的结果，得到过滤后的列表C。C就是真正需要处理的文件列表了。

字段合并操作

Kettle并未提供“字段合并”的插件，因为这个功能如果使用Javascript的话，也就是一行的事情。

调用外部的Java库

1.首先将该库的jar包，放到Kettle的lib文件夹下。

2.其他步骤和一般Java程序没啥区别：import用到的package，然后写代码，over。

HDFS

HDFS的处理比较简单，将普通例子中的本地文件路径，替换为hdfs://形式的hdfs路径即可。

Hbase

Hbase插件中比较费解的是Mapping name这个名词。

从设计初衷来说，kettle本意上是打算利用Mapping将kettle字段映射为Hbase表格的列，从而达到分离两者概念的目的。然而当前的实现中，kettle的所有字段都必须导出到Hbase表格中，不然就会出如下错误：

Can't find incoming field "short_field1" defined in the mapping "mapping_test"

用户对Mapping所做的修改，仅限于修改字段名、设定Key、设定字段类型等。

解决办法：

使用“字段选择”插件过滤掉不必要的字段，然后再导出到Hbase。

参见：

http://forums.pentaho.com/archive/index.php/t-94392.html

Solr

Solr和Lucene的关系

Lucene是一个基于Java的全文信息检索工具包，它不是一个完整的搜索应用程序，而是为你的应用程序提供索引和搜索功能。

Solr是一种开放源码的基于Lucene的Java搜索服务器。它是Lucene的子项目，是Lucene面向企业搜索应用的扩展。

简单的说，Lucene是库，而Solr是一个调度Lucene库的Web服务器。

概况

官网：

http://lucene.apache.org/solr/

教程：

http://lucene.apache.org/solr/quickstart.html

网上的资料有些已经很老了，不看也罢。这是官方的Quick Start，必看之。

除了Solr，类似的软件还有senseidb和elasticsearch。参见：

http://www.cnblogs.com/ibook360/archive/2013/03/22/2975345.html

相关资料：

http://www.solr.cc/blog/

http://blog.csdn.net/aidayei/article/details/6526986

solr中文分词

http://outofmemory.cn/code-snippet/3659/Solr-configuration-zhongwen-fenci-qi

Solr配置中文分词器

http://www.importnew.com/12707.html

全文检索引擎Solr系列—–全文检索基本原理

http://iamyida.iteye.com/category/338597

跟益达学Solr5系列教程

http://iamyida.iteye.com/category/335240

跟益达学Lucene5系列教程

start命令

Solr的运行需要启动相应的服务程序。启动命令如下：

bin/solr start -e cloud -noprompt

其中的cloud表示SolrCloud示例模式，即在一台PC上启动若干进程的所谓伪分布式模式。除此之外，还有techproducts、dih、schemaless等示例模式。

这些示例模式对于快速了解Solr很有帮助。

Post工具

从本质来说，Solr是一个Web服务器。所有的服务请求都以http post的形式提交给Solr。因此，为了方便使用，Solr项目专门提供了post工具。

post工具在bin文件夹下，是一个Unix shell脚本。对于Windows用户，Solr提供了post.jar可执行文件，它在example/exampledocs下。

SolrCloud概述

这是官方Quick Start的默认模式。我们首先对一些概念进行一下讲解。（相关内容参见《Apache Solr Reference Guide》末尾的术语表）

Cluster： 由若干Node组成的集群，使用Zookeeper进行协调。这是Solr中物理层面的最大单元。

Node： 一个运行Solr的JVM实例。

文件的索引（index）用于对文件资源进行定位，它分为逻辑索引和物理索引两种。从冗余备灾的角度出发，一个物理索引被备份到若干个Node中，而这些不同Node上内容相同的物理索引，由于表示的含义是相同的，因此从逻辑上说，算是同一个逻辑索引。

在Solr中，物理索引被叫做Replica，其中副本个数被称为Replication Factor。一个Node可包含多个Replica。

由于物理索引分散在若干不同Node中，因此，其对应的逻辑索引，也分散在若干不同Node中。这些逻辑索引的其中一个实例被称为Core。因此，Core和Replica是一一对应的（尽管它们的含义不同）。显然一个逻辑索引包含了若干个位于不同Node中的Core。

若干个逻辑索引组成了一个Shard。而若干Shard组成一个Collection。Collection是Solr中逻辑层面的最大单元，类似于其他分布式系统中的Task。

属于同一个Shard的若干个Replica中，有且仅有一个Leader，用于协调索引的更新。

上图是SolrCloud模式默认情况下的图示。

其中包括一个名叫gettingstarted的Collection。这个Collection有两个Shard，每个Shard有两个Replica。

这里来个今年美国大选的梗：

记的以前有人说硅谷的政治正确已经到给程序起名字不能带slave了。所以以前熟悉的master slave模式现在很少用了。现在叫leader follower，也可以叫master worker，就是不能有slave。

Quick Start

这是官方Quick Start的摘要版本，相关步骤不做过多解释。

1.启动Solr。

bin/solr start -e cloud -noprompt

2.查看Solr Admin UI。

http://localhost:8983/solr/

2.创建索引。

bin/post -c gettingstarted docs/

索引文件默认存储在example/cloud下。

3.对索引结果进行查询搜索。

Web方式：

http://localhost:8983/solr/#/gettingstarted/query

HTTP方式：

http://localhost:8983/solr/gettingstarted/select?wt=json&indent=true&q=foundation

Luke

Luke是一个查看Lucene/Solr/Elasticsearch索引文件的工具。其官网为：

https://github.com/DmitryKey/luke

SolrCloud的其他细节

1.配置文件在server/solr/configsets/data_driven_schema_configs下。初次启动SolrCloud时，会复制到example/cloud下，但存储形式未知。

2.每个Replica存储的索引文件一般是不同的，因此使用Luke的时候，如果有些数据查询不到的话，可以到其他Replica下查询。

Solr的配置

1.Node配置

solr.xml

2.Core配置

全局配置：core.properties

Solr配置：solrconfig.xml

数据域配置：schema.xml

3.

IKAnalyzer

IKAnalyzer是一个中文分词器。作者：林良益。

官网：

http://git.oschina.net/wltea/IK-Analyzer-2012FF

作者主页：

https://my.oschina.net/linliangyi/home

github上的fork：

https://github.com/yozhao/IKAnalyzer

参考：

http://blog.csdn.net/frankcheng5143/article/details/52292897

这个网页提供了将IKAnalyzer集成到Solr 6的办法，经测试对Solr 6.3也是适用的。

Ansj

Ansj是一个开源的Java中文分词工具，基于中科院的ictclas中文分词算法，比其他常用的开源分词工具（如mmseg4j）的分词准确率更高。

https://github.com/ansjsun/ansj_seg

Solrj

https://wiki.apache.org/solr/Solrj

https://cwiki.apache.org/confluence/display/solr/Using+SolrJ

Lucene

http://lucene.apache.org/core/6_3_0/index.html

你可能感兴趣的:(Kettle, Solr)

Spring Boot 集成 Kettle m0_74824112 面试学习路线阿里巴巴 spring boot 后端 java
Kettle简介Kettle最初由MattCasters开发，是Pentaho数据集成平台的一部分。它提供了一个用户友好的界面和丰富的功能集，使用户能够轻松地设计、执行和监控ETL任务。Kettle通过其强大的功能和灵活性，帮助企业高效地处理大规模数据集成任务。主要组成部分Spoon：用途：Spoon是Kettle的图形化设计工具。用户可以使用Spoon设计和调试ETL转换和作业。功能：拖放式界面
深入理解Kettle：ETL工具的学习与实践未知方程无解
本文还有配套的精品资源，点击获取简介：Kettle（Spoon）是Pentaho公司开发的开源ETL工具，用于数据整合和数据仓库建设。本学习笔记着重于Kettle的核心——转换引擎，详细探讨其数据处理的各个步骤，包括数据的输入、转换、输出以及工作原理，提供了一系列的学习资源和实践操作指南，旨在帮助学习者深入理解并掌握Kettle的转换引擎，从而提升数据处理能力。1.Kettle（Spoon）简介与
Elasticsearch（一）：安装Elasticsearch + kibana + ik分词器 Gooooa Elasticsearch elasticsearch安装 es安装 ik分词器 kibana安装
原文来源自黑马的课程1.Elasticsearch介绍和安装用户访问我们的首页，一般都会直接搜索来寻找自己想要购买的商品。而商品的数量非常多，而且分类繁杂。如果能正确的显示出用户想要的商品，并进行合理的过滤，尽快促成交易，是搜索系统要研究的核心。面对这样复杂的搜索业务和数据量，使用传统数据库搜索就显得力不从心，一般我们都会使用全文检索技术，比如之前大家学习过的Solr。不过今天，我们要讲的是另一个
使用Kettle定时同步数据库的数据（详细实例操作）故里2130 包教会专栏数据库
数据库的数据同步、迁移在我们运维软件中，经常使用，而且非常的频繁。同步、迁移数据的工具非常多，比如Navicat、SqlServer等等，甚至很多公司，都是自己写的定时同步软件。今天，我们介绍一款Java开源免费的数据库同步软件，功能非常强大。本节只演示，定时同步数据库的数据，从test数据库定时同步到test1数据库的教程。（坑很多）1.首先下载安装包，进行解压。路径：迅雷云盘2.然后进入目录中
Kettle 实战面试题及参考答案（完整版）一杯小周 etl 大数据
Kettle实战面试题及参考答案（完整版）以下是几个Kettle（PentahoDataIntegration）项目实战面试题及参考答案的完整Markdown格式整理，包含代码示例和优化方案。目录中文乱码处理增量数据抽取数据去重方案亿级数据同步作业失败排查1.Kettle抽取数据时遇到中文乱码，如何解决？答案：原因：数据库客户端默认编码与Kettle设置不一致（如UTF-8与GBK）。解决方案：在
轻松连接MySQL与Oracle：Spoon(Kettle)配置指南黄豪宙
轻松连接MySQL与Oracle：Spoon(Kettle)配置指南项目地址:https://gitcode.com/Resource-Bundle-Collection/3c3aa项目介绍在数据处理和ETL（Extract,Transform,Load）领域，Spoon(Kettle)是一款功能强大的开源工具，广泛应用于数据集成和数据转换任务。然而，对于许多用户来说，配置Spoon(Kettle
[ vulhub漏洞复现篇 ] solr 远程命令执行 (CVE-2017-12629-RCE) _PowerShell [靶场实战 ]vulhub vulhub漏洞复现 Apache Solr 远程命令执行 CVE-2017-12629 渗透测试
博主介绍‍博主介绍：大家好，我是_PowerShell，很高兴认识大家~✨主攻领域：【渗透领域】【数据通信】【通讯安全】【web安全】【面试分析】点赞➕评论➕收藏==养成习惯（一键三连）欢迎关注一起学习一起讨论⭐️一起进步文末有彩蛋作者水平有限，欢迎各位大佬指点，相互学习进步！文章目录博主介绍一、漏洞编号二、影响范围三、漏洞描述四、环境搭建1、进入CVE-2017-12629-RCE环境2、启动C
强大的ETL利器—DataFlow3.0 lixiang2114 数据分析 etl flume sqoop 数据库数据仓库
产品开发背景DataFlow是基于应用数据流程的一套分布式ETL系统服务组件，其前身是LogCollector2.0日志系统框架，自LogCollector3.0版本开始正式更名为DataFlow3.0。目前常用的ETL工具Flume、LogStash、Kettle、Sqoop等也可以完成数据的采集、传输、转换和存储；但这些工具都不具备事务一致性。比如Flume工具仅能应用到通信质量无障碍的局域网
【YashanDB 知识库】kettle 同步大表提示 java 内存溢出数据库
【问题分类】数据导入导出【关键字】数据同步，kettle，数据迁移，java内存溢出【问题描述】kettle同步大表提示ERROR：couldnotcreatethejavavirtualmachine!【问题原因分析】java内存溢出【解决/规避方法】①增加JVM的堆内存大小。编辑Spoon.bat，增加堆大小到2GB，如：if"%PENTAHO_DI_JAVA_OPTIONS%"==""set
spring boot整合kettle调用数据库资源库中的job 机智的小小岳 kettle
前言上篇文章记录了springboot如何调用文件资源库下的job，这篇文章会记录如何调用数据库资源库的job1.导入jar包在调用文件路径下的job需要导入如下jar包而调用数据库资源库的job需要多导入2个jar包否则会报http错误，jar包如下2.运行代码代码如下：@TestpublicvoidexcuteDBTrans()throwsKettleException{//初始环境EnvUt
5. clickhouse 单节点多实例部署 Toroidals 大数据组件安装部署教程 clickhouse 单节点多实例伪分布安装部署
环境说明：主机名：cmc01为例操作系统：centos7安装部署软件版本部署方式centos7zookeeperzookeeper-3.4.10伪分布式hadoophadoop-3.1.3伪分布式hivehive-3.1.3-bin伪分布式clickhouse21.11.10.1-2单节点多实例dolphinscheduler3.0.0单节点kettlepdi-ce-9.3.0.0单节点sqoop
使用Kettle实现不同数据之间同步 Azure DevOps 数据库数据仓库 etl big data database
Contents1.概述2.软件安装3.典型场景：Oracle-2-SqlServer4.定期自动同步数据1.概述Kettle是一个久负盛名的ETL数据传输工具，在我们接触过的许多IT企业中，几乎都有不同的开发或运维团队在使用这个工具。AzureDevOpsServer中存储着大量的开发过程数据，如果对于开发过程数据进行度量分析，为了避免大量读取实时库(AzureDevOps_DefaultCol
solr 的admin.html 详细使用讲解 qq_37300675 solr
爱雨轩真正的爱情，就像花朵，开放的地方越贫瘠，越是美丽动人！目录视图摘要视图订阅征文|从高考，到程序员深度学习与TensorFlow入门一课搞定！每周荐书|Web扫描、HTML5、Python（评论送书）solr管理界面详解标签：solrsolr管理界面solrqueryanalysis2016-08-0210:425117人阅读评论(0)收藏举报本文章已收录于：分类：Solr（8）作者同类文章X
面试之Solr&Elasticsearch 字节全栈_vBr 面试 solr elasticsearch
优点：1.Elasticsearch是分布式的。不需要其他组件，分发是实时的，被叫做”Pushreplication”。2.Elasticsearch完全支持ApacheLucene的接近实时的搜索。3.处理多租户（multitenancy）不需要特殊配置，而Solr则需要更多的高级设置。4.Elasticsearch采用Gateway的概念，使得完备份更加简单。5.各节点组成对等的网络结构，某些
kettle常用的数据库连接示例星月情缘02 ETL技术 kettle sql连接
kettle是一款强大的数据抽取转换工具，在数据仓库，ETL任务处理中使用的非常频繁的开源工具。它也支持众多的数据库连接类型。下面是支持的数据库连接对比图。请参考学习。就介绍这么多。
kettle 异常关闭后重新打开导致不能创建和打开转换与作业的解决办法星月情缘02 ETL技术
经常使用kettle的人都熟悉kettle工具的常用操作，但是，对于它出现过的很多问题却不一定都见过，自己就是遇到过几次，上午找答案也是乱七八糟的回答，在这里给做一个总结的回复。希望帮助大家。常见的卡死的原因是因为点击某个组件后，长时间无响应只能强制关闭，再次打开后出现错误提示,比如无法找到指定的源步骤，2.不能创建作业和转换文件，3.不能打开已有的转换作业文件，4.Kitchencannotco
Hadoop错误: put: Lease mismatch on ... by DFSClient_NONMAPREDUCE_-499992815_1.... 学习总结星月情缘02 ETL技术 Hadoop hdfs租约 hadoop错误
错误总结分享:使用了hadoop挺长时间了，多数人应该很熟悉它的特点了吧，但是今天突然遇到个错误，从来没见过，一时自己也想不到是什么原因，就在网上查了一些资料，得到了解决的办法，再次分享一下。过程:使用kettle数据清洗工具在进行同步任务的过程中，最后数据是被加载到hdfs的，这里用shell脚本实现，hdfsdfs-put-r/hdfs的目录。结果程序执行到这一步的时候报错了。错误描述就是文章
基于centos6.5安装ElasticSearch 小码农叔叔 ElasticSearch linux与容器实战 ElasticSearch ES安装
前面我们讲述了solr的安装搭建过程，今天讲讲ElasticSearch，ElasticSearch是另一款作为分词和搜索的服务器，相比solr，ElasticSearch在做大数据方面更有优势，因为其天然支持分布式，而且其强大的分词技术使得其在众多需要处理大数据量的业务中低位逐渐拔高，像大数据中做日志的提取和分析，使用ElasticSearch很适合，实际工作中，ElasticSearch主要是
ELK日志分析系统 AWAKE-HU 服务器 elk 日志分布式
什么是ELK:Elasticsearch:基于lucene的开源分布式搜索服务器(类似于solr)特点:分布式,零配置,分片索引,restful风格,多数据源logStash收集日志,过滤分析,并存储Kibana用于展示日志和分析结果ELK原理多个服务器的情况下,各个服务器都会产生不同服务器下不同路径的log文件如果每一台服务器都有一个filebeat把路径下的日志传输给统一的logstash日志
服务行业的数据管理实践：TapData Cloud 如何助力连锁酒店物业的全球化运营优化数据库
使用TapData，化繁为简，摆脱手动搭建、维护数据管道的诸多烦扰，轻量替代OGG,Kettle等同步工具，以及基于Kafka的ETL解决方案，「CDC+流处理+数据集成」组合拳，加速仓内数据流转，帮助企业将真正具有业务价值的数据作用到实处，将“实时数仓”方法论落进现实。TapData持续迭代产品能力，优化用户体验的同时，也在不断探索各行各业数据需求的底层逻辑，力求为行业用户提供更加简洁、更具针对
批量作业调度、数据挖掘，这几款应该是今年 “最值得推荐” 的ETL工具了加菲盐008 taskctl Kettle kettle etl 批量作业调度数据挖掘 taskctl
工具传送门：Taskctl商业付费版(付费)TaskctlWeb商业免费版（永久免费）Kettle（开源免费）Datastage(付费)ETL是数据仓库中的非常重要的一环，是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。下面给大家介绍一下什么是ETL以及
【开源免费】kettle作业调度—自动化运维—数据挖掘—informatica-批量作业工具taskctl 加菲盐008 Kettle ETL作业调度工具 taskctl 运维数据库 linux 大数据数据挖掘
关注公众号"taskctl"，关键字回复"领取"即可获权产品简介taskctl是一款由成都塔斯克信息技术公司历经10年研发的etl作业集群调度工具，该产品概念新颖，体系完整、功能全面、使用简单、操作流畅，它不仅有完整的调度核心、灵活的扩展，同时具备完整的应用体系。目前已获得金融，政府，制造，零售，健康，互联网等领域1000多家头部客户认可。图片来自网络2020年疫情席卷全球，更是对整个市场经济造成
Kettle发送邮件功能如何配置以实现自动化？ DengHua2203 邮件群发服务器邮件营销邮件接口 Kettle发送邮件 API接口触发式邮件
kettle发送邮件如何设置？Kettle配置发送邮件的方法？Kettle发送邮件功能能够帮助用户在数据处理过程中自动发送电子邮件，极大地提高了工作效率。AokSend将详细介绍如何配置Kettle发送邮件功能，以实现自动化操作。Kettle发送邮件：设置对象需要在Kettle中明确指定邮件的收件人和发件人地址。这样，当Kettle发送邮件时，系统就能准确无误地将邮件发送给指定的收件人。这一步骤确
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
2020-08-20 Kettle 无法正常启动报错：does not exist, please create it ；Unable to create the database cache 迷光缓存数据库经验分享
当我启动etl的时候出现报错找不到指定文件Lockacquired.Settingstartlevelto100E:\data-integration\system\karaf\deploydoesnotexist,pleasecreateit.于是我进行了百度根据文章我知道是缓存文件导致的这个问题缓存文件造成的错误，只需要找到..\pdi-ce-6.0.1.0-386\data-integrat
Java高级技术day75：Zookeeper与Dubbo 开源oo柒
一、Zookeeper的介绍1.Zookeeper介绍：顾名思义zookeeper就是动物园管理员，他是用来管hadoop（大象）、Hive(蜜蜂)、pig(小猪)的管理员，ApacheHbase和ApacheSolr的分布式集群都用到了zookeeper；Zookeeper:是一个分布式的、开源的程序协调服务，是hadoop项目下的一个子项目。他提供的主要功能包括：配置管理、名字服务、分布式锁、
第三章可视化ETL平台——Kettle okbin1991 etl 数据仓库数据库
第三章可视化ETL平台——Kettle课程目标能够理解Kettle的主要用途能够搭建Kettle开发环境能够掌握Kettle输入组件的使用能够掌握Kettle输出组件的使用能够掌握Kettle转换组件的使用1.Kettle介绍1.1数据仓库数据仓库是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建的，对多样的业务数据进行筛选与整合。它为企业提供一定的BI能力，指导业务流程
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
MATLAB 编程风格指南 DeepLearning Matlab学习 matlab 编程文档语言测试 documentation
转载自：http://blog.csdn.net/chenyusiyuan/archive/2007/11/19/1892378.aspxMATLAB编程风格指南——RichardJohnsonVersion1.5，Oct.2002版权；Datatool所有翻译：Genial@USTC“Languageislikeacrackedkettleonwhichwebeattunedtodanceto,
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他