忄凝^

Streamsets Data Collector 3.12

官方文档：https://docs.streamsets.com/portal/datacollector/3.9.x/help/datacollector/UserGuide/Getting_Started/GettingStarted_Title.html#concept_htw_ghg_jq

Streamsets Data Collector 3.12
- 1、简介
- - 1.2、特点
- 2、原理组件
- - 2.2、什么是Pipeline？
  - 2.3、工作原理
  - - 单线程和多线程管道
    - 交货保证
  - 2.4、操作 processors
  - 2.5、目的地(Destinations)
  - 2.5.1、ElasticSearch
- 4、实时任务
- - 4.1、Mysql Binary Log 组件
  - 4.2、利用StreamSet抓取MySql数据在ElasticSearch中建立索引
- 5.全量任务
- - 5.1，JDBC Query Consumer
  - 5.2，JDBC Multitable
- 6.增量任务
- - 6.1，JDBC Query Consumer
  - 6.2、JDBC Multitable
- 7.操作 Processors
- - 7.1，定时任务 Cron Scheduler
  - 7.2、Pipeline Finisher Executor 自动停止任务
  - 7.3、Stream selector 分流操作
  - 7.4、JavaScript Evaluator 自定义处理数据
  - 7.5、Field Type Converter 类型转化
  - 7.6、Field Replacer 替换值
  - 7.7、Field Renameer
  - 7.8、Field Remover
- 8、源数据库
- - 8.1、mysql binlog
  - 8.2、JDBC Multitable
  - 8.3、kafka consumer
  - 8.4、Hadoop FS Standalone
- 9、目标库
- - 9.1、KUDU
  - 9.2 hive Metadata hive
  - 9.3、Hadoop FS
  - 9.4、ElasticSearch
  - 9.5、JDBC producer

1、简介

StreamSets 是一款图形化的数据集成工具。

由前 Cloudera 首席工程师和前 Informatica 首席产品在 2014 年创建。2016 年，同 Apache Spark、Tensorflow、ElasticSearch 等一同获得了当年 InfoWorld BOSSIE 2016 最佳开源大数据工具奖。

其核心产品为 StreamSets Data Collector。 GitHub 地址

StreamSets 数据连接器，分为源（Origin）和目标（Destination）两类。数据从源进入，经过转换，传输到目标，从而构建出一条数据管道（Pipeline）。连接器地址

StreamSets Data Collector是一个轻量级、强大的设计和执行引擎，可以实时流式传输数据。使用 Data Collector 路由和处理数据流中的数据。

1.2、特点

StreamSets Data Collector是一款大数据实时采集和ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，实现数据管道(Pipelines)的设计和定时任务调度。最大的特点有：

1、可视化界面操作，可以直观排查错误；

2、内置监控，可是实时查看数据流传输的基本信息和数据的质量；

3、强大的整合力，对现有常用组件全力支持。

对于Streamsets来说，最重要的概念就是数据源(Origins)、操作(Processors)、目的地(Destinations)、执行器(Executor)。

2、原理组件

架构层面，StreamSets将每个数据集成任务抽象成pipeline,数据记录在pipeline中以batch-record的形式流动，而pipeline则由代表数据来源的Origin，代表接收端的Destination，以及包含具体数据转换/映射/过滤等业务逻辑的Processor共同组合实现，具体如下图：

(2)record:

pipeline中的数据是以record形式在上下游之间流动。record可以简单看做是一条条记录，每个record都有自己的schema。record在StreamSets中以Map形式存在，其中key为字段名(field-name),value为字段实际值；record除了包含业务数据外，还自带header属性，保存元数据信息。

2.2、什么是Pipeline？

Pipeline描述了从源系统到目标系统的数据流，并定义了如何在此过程中转换数据。

您可以使用单个源阶段来表示源系统，使用多个处理器阶段来转换数据，并使用多个目标阶段来表示目标系统。

当您开发Pipeline时，您可以使用开发阶段来提供示例数据并生成错误以测试错误处理。您可以使用数据预览来确定阶段如何通过Pipeline更改数据。

您可以使用执行器阶段来执行事件触发的任务执行或保存事件信息。要处理大量数据，可以使用多线程Pipeline或集群模式Pipeline。

在写入Hive 或 parquet或PostgreSQL的Pipeline中，您可以实现数据漂移解决方案，以检测传入数据中的漂移并更新目标系统中的表。

启动Pipeline时，Data Collector会运行Pipeline，直到您停止Pipeline或关闭Data Collector。您可以使用Data Collector运行多个Pipeline。

在Pipeline运行时，您可以监控Pipeline以验证Pipeline是否按预期执行。您还可以定义指标和数据规则以及警报，以便在达到某些阈值时通知您。

2.3、工作原理

数据分批通过管道。这是它的工作原理：

源在从源系统读取数据或从源系统到达数据时创建一个批次，并注意偏移量。偏移量是原点停止读取的位置。

当批次已满或超过批次等待时间限制时，源会发送该批次。批处理通过管道从一个处理器移动到另一个处理器，直到它到达管道目的地。

目标将批处理写入目标系统，Data Collector在内部提交偏移量。根据管道交付保证，Data Collector要么在写入任何目标系统时立即提交偏移量，要么在收到来自所有目标系统的写入确认后提交偏移量。在偏移提交之后，原始阶段会创建一个新批次。

请注意，这描述了一般管道行为。行为可能因特定的管道配置而异。例如，对于 Kafka Consumer，偏移量存储在 Kafka 或 ZooKeeper 中。对于不存储数据的源系统，例如 Omniture 和 HTTP 客户端，偏移量不会被存储，因为它们不相关。

单线程和多线程管道

上面的信息描述了一个标准的单线程管道——源端创建一个批次并通过管道传递它，只有在处理了前一个批次之后才创建一个新批次。

一些来源可以生成多个线程以启用多线程管道中的并行处理。在多线程管道中，您可以配置源以创建要使用的线程数或并发量。并且Data Collector会根据pipeline Max Runners属性创建多个pipeline runners来进行pipeline处理。每个线程都连接到源系统，创建一批数据，并将该批数据传递给可用的管道运行器。

每个管道运行器一次处理一批，就像在单个线程上运行的管道一样。当数据流变慢时，管道运行器会闲置直到需要它们，并定期生成一个空批次。您可以配置 Runner Idle Time 管道属性以指定间隔或选择不生成空批次。

交货保证

配置管道时，您定义了如何处理数据：您要防止数据丢失或数据重复吗？

Delivery Guarantee 管道属性提供以下选择：

至少一次

确保管道处理所有数据。

如果在处理一批数据时发生故障导致Data Collector停止，则在重新启动时，它会重新处理该批。此选项可确保不会丢失任何数据。

使用此选项，Data Collector 在收到来自目标系统的写入确认后提交偏移量。如果在Data Collector将数据传递到目标系统之后但在收到确认并提交偏移量之前发生故障，则最多可能会在目标系统中复制一批数据。
最多一次

确保不会多次处理数据。

如果在处理一批数据时发生故障导致Data Collector停止，则在启动时，它将开始处理下一批数据。此选项可避免由于重新处理而导致目标中的数据重复。

使用此选项，Data Collector 在写入后提交偏移量，而无需等待来自目标系统的确认。如果在Data Collector将数据传递到目标并提交偏移量后发生故障，则最多有一批数据可能不会写入目标系统。

2.4、操作 processors

https://docs.streamsets.com/portal/datacollector/3.12.x/help/index.html 技术文档

Data Generator // 数据序列化组件，将Avro、json、protobuf、text、xml等格式的数据序列成bytearray或string
Data Parser // 数据反序列化组件，将bytearray或string数据反序列成Avro、json、protobuf、text、xml等格式的数据
Delay // 延迟处理组件，用于数据延时处理
Encrypt and Decrypt Fields // 加解密组件，支持多种加解密算法
Expression Evaluator // 表达式组件，可用该组件添加或修改记录标题属性和字段属性
Field Flattener // 数据平铺组件，可以展平整个记录以生成没有嵌套字段的记录
Field Hasher // 哈希组件，可用于计算数据的哈希值，支持多种哈希算法
Field Mapper // 数据映射组件，可用于将表达式映射到一组字段，以更改字段路径，字段名称或字段值
Field Masker // 数据打码组件，可用于将敏感的数据进行打码
Field Merger // 数据合并组件，将List或Map类型的记录中的一个或多个字段合并到记录中的其他路径
Field Order // 数据排序组件，将List或Map类型的记录中的字段进行排序
Field Pivoter // 数据移位组件
Field Remover // 字段删除组件，用于保留或删除记录中的某些字段
Field Renamer // 重命名组件，用于重命名记录中字段的key
Field Replacer // 数据替换组件，用于填充或替换记录中的缺失值
Field Splitter // 字段切割组件，用于将数据按某一分隔符进行切割
Field Type Converter // 类型转化组件，用于数据的类型转化
Field Zip // 拉锁组件，用于将两个数组进行关联
Geo IP // Ip解析组件，用于将ip解析成对应的经纬度、地理信息等数据信息
Groovy Evaluator // Groovy脚本组件，用于自定义Groovy脚本，根据需求编写一些代码实现一个数据处理任务，功能强大
HBase Lookup // HBase 数据查询组件，用于从HBASE查询数据
Hive Metadata // Hive 元数据组件，与Hive Metastore目标以及Hadoop FS或MapR FS目标配合使用，作为Hive漂移同步解决方案的一部分
HTTP Client // Http 客户端组件，用于从http服务中获取获取数据
HTTP Router // Http 路由组件，根据http 请求方式（post put get）和请求路径进行分支路由
JavaScript Evaluator // JavaScript脚本组件，用于自定义JavaScript脚本，根据需求编写一些代码实现一个数据处理任务，功能强大
JDBC Lookup // JDBC 数据查询组件，用于JDBC从数据库中查询数据，适用于通过JDBC方式连接的数据库（Mysql等）的查询
JDBC Tee // JDBC Tee 组件，使用JDBC连接将数据写入MySQL或PostgreSQL数据库表，然后将生成的数据库列值传递给字段。使用JDBC Tee处理器将部分或全部记录字段写入数据库表，然后用其他数据丰富记录
JSON Generator // JSON 序列化组件，用于将数据记录序列化成JSON字符串
JSON Parser // JSON 反序列化组件，用于将JSON字符串数据反序列化成Java对象数据
Jython Evaluator // Jython脚本组件，用于自定义Jython脚本，根据需求编写一些代码实现一个数据处理任务，功能强大
Kudu Lookup // Kudu 查询组件，用于从Kudu 系统中读取数据
Log Parser // 日志解析组件，支持多种日志格式的的解析，用于将具有一定格式的日志数据，解析成系统平台可处理的结构化格式数据
MLeap Evaluator // MLeap 数据分析组件，使用存储在MLeap捆绑软件中的机器学习模型来生成评估，评分或数据分类
MongoDB Lookup // MongoDB 数据查询组件，用于从MongoDB中查询数据
PostgreSQL Metadata //PostgreSQL元数据组件，确定其中每个记录应写入PostgreSQL的表，记录结构对表结构进行比较，然后根据需要创建或改变的表
Record Deduplicator // 记录重复数据删除组件，评估记录中是否有重复数据，并将数据路由到两个流中-一个流用于唯一记录，一个流用于重复记录。使用记录重复数据删除器丢弃重复数据或通过不同的处理逻辑路由重复数据
Redis Lookup // Redis数据查询组件，用于从Redis中查询数据
Salesforce Lookup // Salesforce数据查询组件，用于从Salesforce中查询数据
Schema Generator // Schema 生成组件，基于记录的结构生成模式，并将该模式写入记录头属性。用于生成Avro
Schema Spark Evaluator // spark 数据处理组件，用于将平台与spark关联实现数据处理的分布式处理
SQL Parser // SQL 解析组件
Start Job // 作业启动组件，需要与Controler Hub 配合使用
Start Pipeline // 数据流启动组件，用于启动指定的数据流
Static Lookup // 静态数据查询组件，执行存储在本地内存中的键/值对的查找，并将查找值传递给字段。使用静态查找将字符串值存储在内存中，Pipeline可以在运行时查找这些值，以用其他数据丰富记录
Stream Selector // 数据分选组件，用于通过设置条件，来将数据分选不同分支进行处理
TensorFlow Evaluator // TensorFlow 数据分析组件，通过TensorFlow训练的数据模型，并模型配置到指定目录下，在系统平台上使用，实现数据分析功能
Whole File Transformer // 全文件转换组件，用于全文件目录或文件的快速拷贝或转换

2.5、目的地(Destinations)

2.5.1、ElasticSearch

ElasticSearch https://docs.streamsets.com/portal/datacollector/3.9.x/help/datacollector/UserGuide/Destinations/Elasticsearch.html#concept_u5t_vpv_4r

利用StreamSet抓取MySql数据在ElasticSearch中建立索引

https://juejin.cn/post/6945014553356795935

4、实时任务

4.1、Mysql Binary Log 组件

Credentials：数据库账号密码；
Advanced： Include Tables ——添加要同步的表；Ignore Tables——黑名单，不需要同步的数据。

MySQL binlog底层主从同步原理：

主从复制就是依靠binlog

Slave 端，里面有两个线程，一个是IO线程，另一个是SQL线程；IO线程负责从Master上读取信息然后返回，（slave什么时候读取，master会有一个事件通知slave ）
slave收到通知后使用IO Thread主动去master读取binlog日志,然后异步写入relay日志(中转日志),然后使 SQL Thread完成对relay日志的解析然后入库操作,完成同步。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gHmiSITB-1659665744740)(E:\cache\TyporaChe\605714-20200313213746607-1354459428.png)]
Binlog模式分三种Row、Statement、Mixed。

Row模式存储的是数据修改后的结果，binlog中可以不记录执行的sql语句的上下文相关的信息，仅仅只需要记录那一条记录被修改了，修改成什么样了。对于update mytable set col1=’abc’ where col2=’c’在row模式下可能产生大量的数据，因为语句虽然是一条，但实际影响的数据记录却可能很多。而对于alter table、drop table、create table等信息在Row模式下则不会产生大量的log条目，因为它还是记录的语句，而不是单行数据的变化情况。

优点：在row level模式下，bin-log中可以不记录执行的sql语句的上下文相关的信息，仅仅只需要记录那一条被修改。所以rowlevel的日志内容会非常清楚的记录下每一行数据修改的细节。不会出现某些特定的情况下的存储过程或function，以及trigger的调用和触发无法被正确复制的问题
缺点：row level，所有的执行的语句当记录到日志中的时候，都将以每行记录的修改来记录，会产生大量的日志内容。

Statemnet模式每一条会修改数据的sql都会记录到 master的binlog中。slave在复制的时候sql进程会解析成和原来master端执行过的相同的sql来再次执行。由于他是记录的执行语句，所以，为了让这些语句在slave端也能正确执行，那么他还必须记录每条语句在执行的时候的一些相关信息，也就是上下文信息，以保证所有语句在slave端杯执行的时候能够得到和在master端执行时候相同的结果。

优点：statement level下的优点首先就是解决了row level下的缺点，不需要记录每一行数据的变化，减少bin-log日志量，节约IO，提高性能，因为它只需要在Master上锁执行的语句的细节，以及执行语句的上下文的信息。
缺点：由于只记录语句，所以，在statement level下已经发现了有不少情况会造成MySQL的复制出现问题，主要是修改数据的时候使用了某些定的函数或者功能的时候会出现。

Mixed模式则是前两种的混合，MySQL会根据执行的每一条具体的sql语句来区分对待记录的日志形式，也就是在Statement和Row之间选择一种。选择性的使用面向行数据变化的Row方式记录，主要是面对一些未决语句（nondeterministic），考虑到安全问题，避免主从库之间数据出现不一致，比如语句面向多行插入，其中又有auto-increment的字段，数据库存储引擎不同，可能带来插入顺序

4.2、利用StreamSet抓取MySql数据在ElasticSearch中建立索引

https://juejin.cn/post/6945014553356795935

5.全量任务

5.1，JDBC Query Consumer

5.2，JDBC Multitable

6.增量任务

6.1，JDBC Query Consumer

当您为增量模式定义 SQL 查询时，JDBC Query Consumer 需要在查询中包含 WHERE 和 ORDER BY 子句。

使用 OFFSET 常量来表示偏移值

在 WHERE 子句中，使用 ${OFFSET} 表示偏移值。

例如，当您启动Pipeline时，以下查询将返回表中偏移列中的数据大于初始偏移值的所有数据：SELECT * FROM WHERE > ${OFFSET}**提示：**当偏移值是字符串时，将 ${OFFSET} 括在单引号中。
在 ORDER BY 子句中，包括偏移列作为第一列

为避免返回重复数据，请将偏移列用作 ORDER BY 子句中的第一列。

**注意：**在 ORDER BY 子句中使用不是主键或索引列的列会降低性能。

例如，以下增量模式查询从 ID 列是偏移列的 Invoice 表返回数据。查询返回 ID 大于偏移量的所有数据，并按 ID 对数据进行排序：

 SELECT * FROM invoice WHERE id > ${OFFSET} ORDER BY id

6.2、JDBC Multitable

7.操作 Processors

7.1，定时任务 Cron Scheduler

7.2、Pipeline Finisher Executor 自动停止任务

以下源端产生了no-more-data的事件：

Amazon S3源
Azure Data Lake Storage Gen1源
Azure Data Lake Storage Gen2源
Directory源
Google Cloud Storage源
Hadoop FS Standalone源
JDBC Multitable Consumer源
JDBC Query Consumer源
MongoDB源
Salesforce源
SFTP/FTP/FTPS Client源
SQL Server 2019 BDC Multitable Consumer源
SQL Server CDC Client源
SQL Server Change Tracking源
Teradata Consumer源

1）点击origin的目录插件，配置该插件产生事件

-- 此语句 数据接受完停止管道
${record:eventType() == 'no-more-data'}

7.3、Stream selector 分流操作

${record:value("/Type") == "DELETE"} 通过类型来判断

也可以通过字段值来进行分流 ${record:value("/字段名称")==0}

${record:attribute('sdc.operation.type') == 5 }
${record:attribute('jdbc.cdc.source_name') == '表名' }

7.4、JavaScript Evaluator 自定义处理数据

初始化脚本-可选的初始化脚本，用于设置任何必需的资源或连接。管道启动时，初始化脚本将运行一次。
主处理脚本-处理数据的主脚本。根据配置的处理模式，为每个记录或每批数据运行主脚本。
销毁脚本-可选的销毁脚本，用于关闭处理器打开的任何资源或连接。当管道停止时，销毁脚本将运行一次。

Record Processing Mode ：参数

Record by Record

处理器为每个记录调用脚本。处理器将记录作为映射传递到脚本，并分别处理每个记录。
Batch by Batch

处理器为每个批次调用脚本。处理器将批次作为列表传递到脚本，并一次处理该批次。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k2Nrpyi3-1659665744744)(E:\cache\TyporaChe\image-20220718162935669.png)]

获取年月日传递给下一个操作

var records = sdc.records;
var d = new Date()
for(var i = 0; i < records.length; i++) {
    try {
      var year = d.getFullYear()+'';
      var month =  d.getMonth() + 1 +'';
      if(month.length==1){
        month = '0'+month;
      }
       var day = d.getDate() -1 +'';
      if(day.length==1){
        day = '0'+day;
      }
      var str = '/user/hive/warehouse/ads_hubei.db/ads_hotel_isprice_dd/day_id='+ year + month + day;
     
     records[i].value.tableName = str
      sdc.output.write(records[i]);
    } catch (e) {
        // Send record to error
        sdc.error.write(records[i], e);
    }
}

获取HDFS文件自定义schema

var records = sdc.records;
for(var i = 0; i < records.length; i++) {
    try {
    
       if(null!=records[i].value['text']){

         var strs = records[i].value['text'].split(',')

         if(strs.length == 6){
            
           records[i].value['rateplanId']=strs[0];
           //records[i].value['hotelId']=strs[1];
          // records[i].value['valid']=strs[2];
           if(strs[3]=='false'){
               records[i].value['isPrice'] = 0;
          }else{
             records[i].value['isPrice'] = 1;
          }  
           records[i].value['cityId']=strs[4];
         }
        }
    
      
        sdc.output.write(records[i]);
    } catch (e) {
        // Send record to error
        sdc.error.write(records[i], e);
    }
}

7.5、Field Type Converter 类型转化

7.6、Field Replacer 替换值

${f:value()+28800000} 支持一下类型

Byte
Double
Float
Integer
Long
Short
String

7.7、Field Renameer

7.8、Field Remover

8、源数据库

8.1、mysql binlog

同 4.1 章节

8.2、JDBC Multitable

同 5.2 章节

8.3、kafka consumer

text 格式

写入到kudu中

8.4、Hadoop FS Standalone

files

data format

9、目标库

9.1、KUDU

将数据写入到kudu表里

多表模式
Table Name 修改为 impala::hubei.${record:value("/Table")} 通过JS来获取name；
impala::hubei.${record:value("/Database")}_${record:value("/Table")} 获取库名表名

9.2 hive Metadata hive

-- Decimal Scale Expression
${record:attribute(str:concat(str:concat('jdbc.', field:field()), '.scale'))}
-- Decimal Precision Expression 
${record:attribute(str:concat(str:concat('jdbc.', field:field()), '.precision'))}

data format 数据格式 Avro/parquet

hadoop FS

hive metastore

9.3、Hadoop FS

9.4、ElasticSearch

9.5、JDBC producer

计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
物联网 - JetLinks与ThingsBoard技术选型对比天机️灵韵物联网开源项目物联网
JetLinks与ThingsBoard作为两款主流的开源物联网平台，在技术架构、功能特性及适用场景上存在显著差异。以下从技术选型的关键维度进行深度对比分析：JetLinks与ThingsBoard物联网平台的深度技术对比及选型建议，综合多个维度分析两者的核心差异与适用场景：一、技术架构与性能技术栈JetLinks：基于Java8、SpringBoot2.x、WebFlux、Netty等，采用响应
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
批处理脚本NTP服务Windows操作系统时间同步设置感叹号的豆浆 windows 自然语言处理
脚本如下：///创建时间同步服务@echooff@echooff&&@chcp65001>nulsetlocalenabledelayedexpansion::设置版本号set"o=cls&echo"&set“z=&&echo.&echo按任意键或等待15秒后自动退出本界面&&timeout/t15&&exit”modeconlines=10cols=60&&netsession1>NUL2>NU
Vue2集成LuckExcel实现excel在线编辑及保存冉成未来 Web excel vue.js
文章目录LuckSheetnpm安装相关依赖vue使用luckSheet第一步：通过CDN引入第二步：指定一个excel编辑容器第三步：创建一个表格通过文件url实现excel文件的加载Excel工具类export.jsLuckSheetgitee网址：https://gitee.com/mengshukeji/LuckysheetluckSheet文档网址：https://dream-num.g
uniapp的安卓app 定位权限被拒绝后，询问是否开启授权并跳转到手机设置页面绣**** 前端基础 uni-app
uniapp的安卓app定位权限被拒绝后，询问是否开启授权并跳转到手机设置页面询问是否授权定位->拒绝定位授权->再次访问提示是否打开授权->跳转至手机设置页面uni.getLocation({type:'gcj02',success:res=>{this.latitude=res.latitudethis.longitude=res.longitude},fail:error=>{console
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
华为云认证 - 云学堂「集证」有礼天氰色等烟雨华为云
华为云最近又出了一个新活动，我看了一下，奖励比上次的要好很多，本来不想搞的，这下不得不考虑一下了~还是一样，得先报名才能参与活动！特别提醒一下，企业账号是不能参加这次活动的，大家要用个人账户来报名。按以往的经历，不是实名认证的账号也可以参与进来。活动地址如下：DeveloperEvents_DeveloperAlliance-HuaweiCloudMeetlike-mindeddevelopers
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
高可用Keepalived在Linux中的应用「已注销」 linux 运维服务器高可用集群 keepalived centos
目录一、高可用1.高可用介绍（1）普通理解（2）专业理解2.高可用目的3.高可用实现1.介绍2.特点三、Keepalived1.介绍2.Keepalived核心组件（1）VRRPstack（2）NetLink接口（3）IPVSWrapper（4）checkers（5）systemcall（6）SMTP（7）watchDog3.控制组件4.内存管理四、Keepalived核心概念1.虚拟路由器2.m
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
题解 | 牛客周赛 Round 49 DEF Java题解 han_xue_feng java
面试又黄了反正不是什么喜欢的工作[牛泪]面试又黄了反正不是什么喜欢的工作2024秋招数据开发第一波面试题露出#字节##滴滴##大数据##面经##秋招#引流字节阿里巴巴腾讯百度美团美团后端暑期实习体验——实习的一天早上：8点半出门坐地铁，9点下地铁到惠新西街南口地铁站，出地铁站坐班车（这一点还是不错的），9点30深圳阿里实习day1领工牌mac，认工位mentor，配环境看文档，七点就润了。看各个文
Search after解决ES深度分页问题 Elastic开源社区 elasticsearch 大数据 search after 深度分页 ES
文章目录1、search_after的作用和意义2、search_after的工作原理3、search_after的使用方法4、注意事项5、与传统分页的对比6、总结search_after是Elasticsearch中用于实现深度分页的一种机制。相比于传统的from和size分页方式，search_after更适合处理大数据集的分页查询，因为它避免了深度分页带来的性能问题。1、search_aft
第七章Solr：企业级搜索应用 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
第七章Solr：企业级搜索应用1.背景介绍1.1搜索引擎的重要性在当今信息时代,数据量呈指数级增长,海量数据中蕴含着极其宝贵的信息和知识。然而,如何快速、准确地从大数据中检索出所需的信息,一直是企业和组织面临的巨大挑战。传统的数据库查询方式已经无法满足现代搜索需求,因此高效的搜索引擎应运而生。1.2什么是SolrApacheSolr是一个高性能、可扩展、云就绪的企业级搜索平台,由Apache软件基
金融租赁系统的创新发展与市场竞争力提升探讨红点租赁系统开发其他
内容概要随着经济的快速发展，金融租赁系统逐渐成为金融市场中不可或缺的一环。它不仅提供了灵活的资金解决方案，还促进了企业的资本结构优化与资源配置效率。因此，了解该系统的市场背景与发展现状至关重要。在现今环境下，新兴技术如人工智能、大数据和区块链等正加速推动金融租赁的创新。通过这些技术，不仅可以优化业务流程，提升运营效率，还可以增强风险管理能力。例如，利用数据分析可以实时监测租赁资产的风险，从而采取相
分块查找算法 1haooo 算法 java 算法开发语言数据结构
分块的原则前一块的最大数据，小于后一窥啊中所有的数据（块内无序，块间有序）块数数量一般等于数字的个数开根号。比如：16个数字一般分为4块左右。publicclassblockSearch{publicstaticvoidmain(String[]args){int[]arr={16,5,9,12,21,18,32,23,37,26,45,34,50,48,61,52,73,66};//共18个元素
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

Streamsets Data Collector 3.12

Streamsets Data Collector 3.12

目录

1、简介

1.2、特点

2、原理组件

2.2、什么是Pipeline？

2.3、工作原理

单线程和多线程管道

交货保证

2.4、操作 processors

2.5、目的地(Destinations)

2.5.1、ElasticSearch

4、实时任务

4.1、Mysql Binary Log 组件

4.2、利用StreamSet抓取MySql数据在ElasticSearch中建立索引

5.全量任务

5.1，JDBC Query Consumer

5.2，JDBC Multitable

6.增量任务

6.1，JDBC Query Consumer

6.2、JDBC Multitable

7.操作 Processors

7.1，定时任务 Cron Scheduler

7.2、Pipeline Finisher Executor 自动停止任务

7.3、Stream selector 分流操作

7.4、JavaScript Evaluator 自定义处理数据

7.5、Field Type Converter 类型转化

7.6、Field Replacer 替换值

7.7、Field Renameer

7.8、Field Remover

8、源数据库

8.1、mysql binlog

8.2、JDBC Multitable

8.3、kafka consumer

8.4、Hadoop FS Standalone

9、目标库

9.1、KUDU

9.2 hive Metadata hive

9.3、Hadoop FS

9.4、ElasticSearch

9.5、JDBC producer

你可能感兴趣的:(大数据,大数据,Streamsets,数据同步,etl)