大数据下的画像人

17-ETL工具、大数据架构、Flume介绍、Flume组件介绍

9.8 ETL

9.8.1概念描述

ETL理解
- ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，
- 目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据
设计分为3部分
- 数据抽取
- 数据的清洗转换
- 数据的加载
对3部分的理解
- 在设计ETL的时候我们也是从这三部分出发。数据的抽取是从各个不同的数据源抽取到ODS(OperationalData Store，操作型数据存储)中——这个过程也可以做一些数据的清洗和转换)，在抽取的过程中需要挑选不同的抽取方法，尽可能的提高ETL的运行效率。
- ETL三个部分中，花费时间最长的是“T”(Transform，清洗、转换)的部分，一般情况下这部分工作量是整个ETL的2/3。数据的加载一般在数据清洗完了之后直接写入DW(DataWarehousing，数据仓库)中去。
- 各模块可灵活进行组合，形成ETL处理流程。

9.8.2 模块介绍

数据抽取【Extract】
- 确定数据源，需要确定从哪些源系统进行数据抽取
- 定义数据接口，对每个源文件及系统的每个字段进行详细说明
- 确定数据抽取的方法：是主动抽取还是由源系统推送？是增量抽取还是全量抽取？是按照每日抽取还是按照每月抽取？
数据清洗转换【Transform】
- 通常的做法是从业务系统到ODS做清洗，将脏数据和不完整数据过滤掉，在从ODS到DW的过程中转换，进行一些业务规则的计算和聚合
- 数据清洗
  - 数据清洗的任务是过滤那些不符合要求的数据，将过滤的结果交给业务主管部门，确认是否过滤掉还是由业务单位修正之后再进行抽取。
  - 不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。
- 数据转换
  - 数据转换的任务主要进行不一致的数据转换、数据粒度的转换，以及一些商务规则的计算。
  - 空值处理：可捕获字段空值，进行加载或替换为其他含义数据，或数据分流问题库
  - 数据标准：统一元数据、统一标准字段、统一字段类型定义
  - 数据拆分：依据业务需求做数据拆分，如身份证号，拆分区划、出生日期、性别等
  - 数据验证：时间规则、业务规则、自定义规则
  - 数据替换：对于因业务因素，可实现无效数据、缺失数据的替换
  - 数据关联：关联其他数据或数学，保障数据完整性
数据装载【Load】
- 装载主要是将经过转换的数据装载到数据仓库里面，可以通过直连数据库的方式来进行数据装载，可以充分体现高效性。
- 在应用的时候可以随时调整数据抽取工作的运行方式，可以灵活的集成到其他管理系统中。

9.8.3 ETL工具

对于ETL工具的理解
- ETL是数据整合解决方案，说小了，就是倒数据的工具
- 常见的ETL工具
  - sqoop
  - DataX
  - Kettle
  - Canal
  - StreamSets
sqoop
- 理解
  - 是Apache开源的一款在Hadoop和关系数据库服务器之间传输数据的工具
  - 将一个关系型数据库（MySQL ,Oracle等）的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导出到关系型数据库中
- 本质
  - sqoop命令的本质是转化为MapReduce程序。
- 步骤
  - sqoop分为导入（import）和导出（export）
- 策略分为table和query
- 模式分为增量和全量
DataX
- 理解
  - DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台
  - 实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、、DRDS 等各种异构数据源之间高效的数据同步功能
Kettle
- 一款国外免费开源的、可视化的、功能强大的ETL工具，纯java编写
- 可以在Windows、Linux、Unix上运行，数据抽取高效稳定。
canal
- canal是阿里巴巴旗下的一款开源项目，纯Java开发。
- 基于数据库增量日志解析，提供增量数据实时订阅和消费，目前主要支持了MySQL，也支持mariaDB
StreamSets
- 是大数据实时采集ETL工具，可以实现不写一行代码完成数据的采集和流转。
- 通过拖拽式的可视化界面，实现数据管道(Pipelines)的设计和定时任务调度。
- 创建一个Pipelines管道需要配置数据源(Origins)、操作(Processors)、目的地(Destinations)三部分

9.8.4 加载策略

系统日志分析方式
- 通过分析数据库自身的日志来判断变化的数据
触发器方式
- 直接进行数据加载
- 利用增量日志表进行增量加载
时间戳方式
- 在源表上增加一个时间戳字段，系统中更新修改表数据的时候，同时修改时间戳字段的值。
全表比对方式
- 全表比对即在增量抽取时，ETL 进程逐条比较源表和目标表的记录，将新增和修改的记录读取出来。
源系统增量（delta）数据直接或者转换后加载
- 日常的 ETL 更新中，还会遇到目标表的数据来源来自于多张源表，通过关键字段的拼接进行更新操作。
- 如果多张源表都有时间戳字段，可以利用时间戳进行增量更新，另外还可以采用全表比对的方式进行增量更新

9.9 常见概念描述

9.9.1 数据仓库

概念：
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理中的决策制定。
特点：
首先，数据仓库用于支持决策，面向分析型数据处理，它不同于企业现有的操作型数据库;
其次，数据仓库是对多个异构的数据源有效集成，集成后按照主题进行了重组，并包含历史数据，而且存放在数据仓库中的数据一般不再修改。
应用场景：
一般都是作为商业智能系统、数据仪表盘等可视化报表服务的数据源。
数据仓库是一个功能概念，是将企业的各业务系统产生的基础数据，通过维度建模的方式，将业务数据划分为多个主题（集市）统一存储，统一管理。

9.9.2 数据集市

概念：
数据集市可以理解为是一种"小型数据仓库"，它只包含单个主题，且关注范围也非全局。数据集市可以分为两种:
分类：
独立数据集市，这类数据集市有自己的源数据库和ETL架构；
非独立数据集市，这种数据集市没有自己的源系统，它的数据来自数据仓库。
应用场景：
数据集市是数仓之上更聚焦的业务主题合集，更偏向于应对业务数据快速高效应
用的需求，一般用于商业智能系统中探索式和交互式数据分析应用。
数据集市是一个结构概念，它是企业级数据仓库的一个子集，主要面向部门级业务，
并且只面向某个特定的主题。

9.9.3 数据孤岛

数据孤岛理解

业务系统之间各自为政、相互独立造成的数据孤岛，体现在业务不集成、流程不互通、数据不共享

9.9.4 数据湖

概念：
2010年，Pentaho首席技术官James Dixon创造了“数据湖”一词。
他把数据集市描述成一瓶清洗过的、包装过的和结构化易于使用的水。
数据湖更像是在自然状态下的水，数据流从源系统流向这个湖。用户可以在数据湖里校验，取样或完全的使用数据。
特点：
从源系统导入所有的数据，没有数据流失。数据存储时没有经过转换或只是简单的处理。数据转换和定义schema 用于满足分析需求。
应用场景：
以大数据技术为基础有多样化数据结构海量大数据存储需求，也可作为数据仓库或者数据集市的数据源。
数据湖是一种数据存储理念，存储企业各种各样的原始数据的大型仓库，包括结构
化、非结构、二进制图像、音频、视频等等

9.9.5 数据中台

概念：
- 数据中台是指通过企业内外部多源异构的数据采集、治理、建模、分析，应用，使数据对内优化管理提高业务，对外可以数据合作价值释放，成为企业数据资产管理中枢。数据中台建立后，会形成数据API，为企业和客户提供高效各种数据服务。
特点：
- 利用大数据技术，对海量数据进行统一采集、计算、存储，并使用统一的数据规范进行管理，将企业内部所有数据统一处理形成标准化数据，挖掘出对企业最有价值的数据，构建企业数据资产库，提供一致的、高可用大数据服务。
- 数据中台不是一套软件，也不是一个信息系统，而是一系列数据组件的集合，企业基于自身的信息化建设基础、数据基础以及业务特点对数据中台的能力进行定义，基于能力定义利用数据组件搭建自己的数据中台。
应用场景：
是将数据服务化提供给业务系统，目的是将数据能力渗透到业务各个环节，不限于决策分析。
数据中台是一个逻辑概念，为业务提供服务的主要方式是数据API，它包括了数据仓库，大数据、数据治理领域的内容。

9.9.6 宽表窄表

宽表
窄表

9.10 大数据架构

9.10.1互联网大数据平台

9.10.2 lambda架构

架构的提出
- Lambda 架构（Lambda Architecture）是由 Twitter 工程师南森·马茨（NathanMarz）提出的大数据处理架构。这一架构的提出基于马茨在 BackType 和 Twitter 上的分布式数据处理系统的经验
Lambda架构的优势
- Lambda 架构使开发人员能够构建大规模分布式数据处理系统。它具有很好的灵活性和可扩展性，也对硬件故障和人为失误有很好的容错性
Lambda架构组成
- 批处理层（Batch Layer）
  - 批处理层存储管理主数据集（不可变的数据集）和预先批处理计算好的视图。
  - 批处理层使用可处理大量数据的分布式处理系统预先计算结果。它通过处理所有的已有历史数据来实现数据的准确性。这意味着它是基于完整的数据集来重新计算的，能够修复任何错误，然后更新现有的数据视图。输出通常存储在只读数据库中，更新则完全取代现有的预先计算好的视图。
- 速度处理层（Speed Layer）
  - 速度处理层会实时处理新来的大数据。
  - 速度层通过提供最新数据的实时视图来最小化延迟。速度层所生成的数据视图可能不如批处理层最终生成的视图那样准确或完整，但它们几乎在收到数据后立即可用。而当同样的数据在批处理层处理完成后，在速度层的数据就可以被替代掉了
- 服务层（Serving Layer）
  - 响应查询
  - 批处理层和速度层处理完的结果都输出存储在服务层中，服务层通过返回预先计算的数据视图或从速度层处理构建好数据视图来响应查询
Lambda缺点
- Lambda 架构使用起来十分灵活，并且可以适用于多种应用场景，但在实际应用中，Lambda 架构也存在着一些不足，主要表现在它的维护很复杂。
- 使用 Lambda 架构时，架构师需要维护两个复杂的分布式系统，并且保证他们逻辑上产生相同的结果输出到服务层中。
- 维护 Lambda 架构的复杂性在于我们要同时维护两套系统架构：批处理层和速度层。我们已经说过了，在架构中加入批处理层是因为从批处理层得到的结果具有高准确性，而加入速度层是因为它在处理大规模数据时具有低延时性。
- 改进批处理层的系统让它具有更低的延时性，又或者是改进速度层的系统，让它产生的数据视图更具准确性和更加接近历史数据

9.10.3 Kappa架构

对lambda架构的改进提出
- Kappa 架构是由 LinkedIn 的前首席工程师杰伊·克雷普斯（Jay Kreps）提出的一种架构思想。克雷普斯是几个著名开源项目（包括 Apache Kafka 和 Apache Samza 这样的流处理系统）的作者之一，也是现在 Confluent 大数据公司的 CEO。
Kappa架构的步骤
- 第一步，部署 Apache Kafka，并设置数据日志的保留期（Retention Period）。这里的保留期指的是你希望能够重新处理的历史数据的时间区间。
  - 例如，如果你希望重新处理最多一年的历史数据，那就可以把 ApacheKafka 中的保留期设置为 365 天。如果你希望能够处理所有的历史数据，那就可以把 Apache Kafka 中的保留期设置为“永久（Forever）”。
- 第二步，如果我们需要改进现有的逻辑算法，那就表示我们需要对历史数据进行重新处理。
  - 我们需要做的就是重新启动一个 Apache Kafka 作业实例（Instance）。这个作业实例将从头开始，重新计算保留好的历史数据，并将结果输出到一个新的数据视图中。我们知道 Apache Kafka 的底层是使用 Log Offset 来判断现在已经处理到哪个数据块了，所以只需要将 Log Offset 设置为 0，新的作业实例就会从头开始处理历史数据。
- 第三步，当这个新的数据视图处理过的数据进度赶上了旧的数据视图时，我们的应用便可以切换到从新的数据视图中读取。
- 第四步，停止旧版本的作业实例，并删除旧的数据视图。与 Lambda 架构不同的是，Kappa 架构去掉了批处理层这一体系结构，而只保留了速度层。你只需要在业务逻辑改变又或者是代码更改的时候进行数据的重新处理。
Kappa架构的缺点
- 因为 Kappa 架构只保留了速度层而缺少批处理层，在速度层上处理大规模数据可能会有数据更新出错的情况发生，这就需要我们花费更多的时间在处理这些错误异常上面。
- Kappa 架构的批处理和流处理都放在了速度层上，这导致了这种架构是使用同一套代码来处理算法逻辑的。所以 Kappa 架构并不适用于批处理和流处理代码逻辑不一致的场景。

9.11 数仓规范设计

目的在于约束N个人对齐认知，按照一个标准或流程进行开发，以保证数据一致性，流程清晰且稳定。
提高开发效率，提升质量，降低沟通对齐成本，降低运维成本等

9.11.1 表命名规范

9.11.2 开发规范

9.11.3 流程规范

9.12 数仓元数据

9.12.1 业务元数据

理解

9.12.2 技术元数据

9.12.3 管理元数据

十、Flume

10.1 Flume的简介

Flume是一个分布式、可靠、和高可用的海量日志采集、汇聚和传输的系统。

Flume可以采集文件，socket数据包（网络端口）、文件夹、kafka、mysql数据库等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中

一般的采集、传输需求，通过对flume的简单配置即可实现；不用开发一行代码！

Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日常数据采集场景

10.1.1 Flume概述

Flume定义
- Flume是一个分布式、可靠、和高可用的海量日志采集、汇聚和传输的系统。
- 支持在系统中定制各类数据发送方，用于收集数据
- 同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力
Flume的作用
- Flume可以采集文件，socket数据包（网络端口）、文件夹、kafka、mysql数据库等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中

10.1.2 Flume使用场景

Flume解决的问题
- 线上数据一般主要是落地（存储到磁盘）或者通过socket传输给另外一个系统，这种情况下，你很难推动线上应用或服务去修改接口，实现直接向kafka里写数据，这时候你可能就需要flume这样的系统帮你去做数据传输。

10.1.3 Flume的体系架构

1. 核心的组件

Client
- Client生产数据，运行在一个独立的线程
Event
- 一个数据单元，由消息头和消息体组成
- Events可以是日志记录、avro对象等
Flow
- Event从源点到达目的点的迁移的抽象
Agent
- 一个独立的Flume进程，是Flume最小的运行单位，包含组件Source、Channel、Sink
- Agent使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks
Source
- 数据收集组件
- source从Client收集数据，然后将数据封装成Event传递给Channel
- 支持多种Source格式
  - AVRO：其他的Flume的Sink
  - exec：Linux命令产生的数据
  - Spooling Directory：文件目录
Channel
- 中转Event的一个临时存储，保存由Source组件传递来的Event（缓存，生产者消费者）
- Channel连接 sources 和 sinks ，这个有点像一个消息队列
- 为了数据的安全和效率，可以考虑多种缓存的手段
  - Memory：内存
  - JDBC：数据库
  - File：文件
Sink
- 数据的输出方，可以根据自己的需求将Event输出到任意的位置
  - HDFS
  - AVRO：输出到其他的Flume
  - Kafka
- 从Channel中读取并移除Event，然后将Event传递到FlowPipeline中的下一个Agent（如果有的话）
- Sink从Channel收集数据，运行在一个独立线程。
Interceptor
- 拦截器
- 可以根据业务的需求拦截指定的数据

将Agent1中的Event传递给下一个Agent到Agent2

2. Flume的采集的大致流程

10.1.4 Flume的组件详解

1. Agent结构

理解Agent
- Flume运行的核心是Agent，flume采集系统就是由一个个的Agent连接起来所形成的额一个或简单或复杂的数据传输通道
Agent的作用
- 对于每一个Agent来说，他就是一个独立的守护进程（JVM），它负责从数据源接收数据，并发往下一个目的地
Agent的三个组件
- source：数据源
- channel：临时存储数据的管道
- sink：目的地

2. Source

理解Source
- 数据源，通过Source组件可以指定让Flume读取哪里的数据，然后将数据传递给后面的channel
- 数据的收集端，负责将数据捕获后进行特殊的格式化，将数据封装到事件（event）里，然后将事件推入Channel中
Flume内置的source格式
- Flume提供了很多内置的Source，支持读取多种数据源，包括Avro， log4j， syslog 和http post(body为json格式)。可以让应用程序同已有的Source直接打交道，如AvroSource
- 如果内置的Source无法满足需要， Flume还支持自定义Source。
几个常用的数据源的介绍
- NetCat Source
  - 绑定的端口（tcp、udp），将流经端口的每一个文本行数据作为Event输入
  - 参数介绍
    - type：source的类型，必须是netcat。
    - bind：要监听的(本机的)主机名或者ip。此监听不是过滤发送方。一台电脑不是说只有一个IP。有多网卡的电脑，对应多个IP。
    - port：绑定的本地的端口。
- Avro Source
  - 监听一个avro服务端口，采集Avro数据序列化后的数据
  - 参数介绍
    - type：avrosource的类型，必须是avro。
    - bind：要监听的(本机的)主机名或者ip。此监听不是过滤发送方。一台电脑不是说只有一个IP。有多网卡的电脑，对应多个IP。
    - port：绑定的本地的端口。
- Exec Source
  - 于Unix的command在标准输出上采集数据
  - 参数介绍
    - type:source的类型：必须是exec。
    - command：要执行命令。
- Spooling Directory Source
  - 监听一个文件里的文件新增，如果有则采集作为source
  - 参数介绍
    - type：source 的类型：必须是spooldir
    - spoolDir：监听的文件夹【提前创建目录】
    - fileSuffix：上传完毕后文件的重命名后缀，默认为.COMPLETE
    - deletePolicy：上传后的文件的删除策略never和immediate，默认为never。
    - fileHeader：是否要加上该文件的绝对路径在header里，默认是false。
    - basenameHeader：是否要加上该文件的名称在header里，默认是false。

3. Channel

理解
- 用来缓存source递过来的数据，并形成一个个event事件，等待sink来拿
- 可以把channel理解为一个临时存储数据的管道
- 它可以将事件暂存到内存中也可以持久化到本地磁盘上，直到Sink处理完该事件
Channel的类型
- 内存 Memory Channel
- 内存+文件（磁盘）Spillable Memory Channel
- 文件 File Channel
- JDBC
几种常用的Channel
- Memory Channel 使用内存作为数据的存储
  - Type channel的类型：必须为memory
  - capacity：channel中的最大event数目
  - transactionCapacity：channel中允许事务的最大event数目
- File Channel 使用文件作为数据的存储
  - Type channel的类型：必须为 file
  - checkpointDir ：检查点的数据存储目录【提前创建目录】
  - dataDirs ：数据的存储目录【提前创建目录】
  - transactionCapacity：channel中允许事务的最大event数目
- Spillable Memory Channel 使用内存作为channel超过了阀值就存在文件中

4. Sink

理解
- 数据输出，读取Channel整理好的一个个event并传送（存储）到指定地方
输出目的地
- 文件系统、数据库、Hadoop存数据，也可以是其他agent的source
- Sink从Channel中取出事件，然后将数据发到别处，可以向文件系统、数据库、 hadoop存数据，也可以是其他agent的Source。
- 在日志数据较少时，可以将数据存储在文件系统中，并且设定一定的时间间隔保存数据。
- 注意：Channel中的数据直到进入目的地才会被删除，当Sink写入目的地失败后，可以自动重写，不会造成数据丢失，这块是有一个事务保证的
Sink类型
几个常用的Sink
- HDFS Sink：将数据传输到hdfs集群中。比较常见，主要是针对实时计算场景
  - type：sink的类型必须是hdfs。
  - hdfs.path：hdfs的上传路径。
  - hdfs.filePrefix：hdfs文件的前缀。默认是:FlumeData
  - hdfs.rollInterval:间隔多久产生新文件，默认是:30（秒） 0表示不以时间间隔为准。
  - hdfs.rollSize：文件到达多大再产生一个新文件，默认是:1024（bytes）0表示不以文件大小为准。
  - hdfs.rollCount：event达到多大再产生一个新文件，默认是:10（个）0表示不以event数目为准。*
  - hdfs.batchSize：每次往hdfs里提交多少个event，默认为100
  - hdfs.fileType：hdfs文件的格式主要包括：SequenceFile, DataStream,CompressedStream，如果使用了CompressedStream就要设置压缩方式。
  - hdfs.codeC：压缩方式：gzip, bzip2, lzo, lzop, snappy
  - 注：%{host}可以使用header的key。以及%Y%m%d来表示时间，但关于时间的表示需要在header里有timestamp这个key。
- logger Sink 将数据作为日志处理（根据flume中的设置的日志方式来显示）
  - 将数据作为日志处理，可以选择打印到控制台或者写到文件中，这个主要在测试的时候使用
  - 要在控制台显示在运行agent的时候加入：-Dflume.root.logger=INFO,console 。
  - type：sink的类型：必须是 logger。
  - maxBytesToLog：打印body的最长的字节数默认为16
- Avro Sink：数据被转换成Avro Event，然后发送到指定的服务端口上。
  - type：sink的类型：必须是 avro。
  - hostname：指定发送数据的主机名或者ip
  - port：指定发送数据的端口
- File Roll Sink：数据发送到本地文件。
  - type：sink的类型：必须是 file_roll。
  - sink.directory：存储文件的目录【提前创建目录】
  - batchSize：一次发送多少个event。默认为100
  - sink.rollInterval：多久产生一个新文件，默认为30s。单位是s。0为不产生新文件【即使没有数据也会产生文件】

5. Interceptor

拦截器作用
- 当我们需要对数据进行过滤时，除了我们在Source、 Channel和Sink进行代码修改之外， Flume为我们提供了拦截器，拦截器也是chain形式的
拦截器的位置
- 拦截器的位置在Source和Channel之间
- 当我们为Source指定拦截器后，我们在拦截器中会得到event，根据需求我们可以对event进行保留还是抛弃，抛弃的数据不会进入Channel中。
几种常见的拦截器
- Timestamp Interceptor 时间戳拦截器在header里加入key为timestamp，value为当前时间。
  - type：拦截器的类型，必须为timestamp
  - preserveExisting：如果此拦截器增加的key已经存在，如果这个值设置为true则保持原来的值，否则覆盖原来的值。默认为false
- Host Interceptor 主机名或者ip拦截器，在header里加入ip或者主机名
  - type：拦截器的类型，必须为host
  - preserveExisting：如果此拦截器增加的key已经存在，如果这个值设置为true则保持原来的值，否则覆盖原来的值。默认为false
  - useIP：如果设置为true则使用ip地址，否则使用主机名，默认为true
  - hostHeader：使用的header的key名字，默认为host
- Static Interceptor 静态拦截器，是在header里加入固定的key和value。
  - type：avrosource的类型，必须是static。
  - preserveExisting:如果此拦截器增加的key已经存在，如果这个值设置为true则保持原来的值，否则覆盖原来的值。默认为false
  - key:静态拦截器添加的key的名字
  - value:静态拦截器添加的key对应的value值

10.1.5 Flume特性和优点

1. Flume的复杂流动性

理解
- Flume允许用户构建多跳流程，其中事件在到达最终目的地之前会通过多个代理传播。
- 它还允许扇入和扇出流，上下文路由和备份路由（故障转移）
对于跨代理的处理
- 为了使数据跨多个代理或跃点流动，前一个代理的接收器和当前跃点的源必须为avro类
  型，接收器指向源的主机名（或IP地址）和端口
- 这可以在Flume中实现，方法是为多个第一层代理配置一个avro接收器，它们均指向单个代理的avro源（同样，在这种情况下，您可以使用节俭的源/接收器/客户端）。第二层代理上的此源将接收到的事件合并到一个通道中，该通道由接收器消耗到其最终目的地。
- Flume支持将事件流复用到一个或多个目的地。这是通过定义一种流多路复用器来实现的，该流多路复用器可以将事件复制或选择性地路由到一个或多个通道

2. 优点

数据产生者和数据收容器之间的缓存调节（消息中间件）
- 当收集数据的速度超过将写入数据的时候，也就是当收集信息遇到峰值时，这时候收集的信息非常大，甚至超过了系统的写入数据能力，这时候，Flume会在数据生产者和数据收容器间做出调整，保证其能够在两者之间提供平稳的数据
消息的可靠发送
- Flume的管道是基于事务，使用了两个事务模型（sender + receiver），保证了数据在传送和接收时的一致性.
- Flume使用两个独立的事务分别负责从soucrce到channel，以及从channel到sink的事件传递。一旦事务中所有的数据全部成功提交到channel，那么source才认为该数据读取完成。同理，只有成功被sink写出去的数据，才会从channel中移除。
- Sender保证只要能成功提交进来的数据就绝对不会少，百分百进入管道。Receiver向输出提交，只要返回成功，就可以把数据移除管道。
- Flume可以保证不丢数据，如此严格的事务管理，可能导致数据重复，而且慢。（事务的两个极端：要么是保证不会重复，但是可能丢数据。要么是保证不会丢数据，但是可能重复。事务的两个管理的方法，一个是保证消息的不重复，一个是保证消息的可靠性）
Flume是可靠的，容错性高的，可升级的，易管理的，并且可定制的（可以根据生产需要自行定义一个数据来源端或者终点端）
除了日志信息，Flume同时也可以用来接入收集规模宏大的社交网络节点事件数据，比如Facebook、Twitter、电商网站如亚马逊等
支持多路径流量，多管道接入流量，多管道接出流量，上下文路由等。

10.1.6 Flume执行流程

1 Source 接受数据

2 Channel Processor 处理 Event

3 Channel Processor 将 Event 传递给interceptor链对 Event 进行过滤操作

4 过滤完之后再把 Event 发送回 Channel Prodessor

5 Channel Processor把 Event 发送给Channel selectors

6 Channel selector返回Event 属于哪个Channel

7 根据第6步返回的结果，将Event发送到指定的Channel

8 SinkProcessor从Channel中拉去数据

9 最后把数据Sink出去

10.1.7 Flume事务

推送事务流程
- doPut: 把批数据写入到临时缓冲区putList
- doCommit: 检查Channel容量是否足够，如果容量足够则把putList里的数据发送Channel
- doRollBack:如果Channel容量不够，则把数据回滚到putList
拉取事务流程
doTake:把数据读取到临时缓冲区takeList
doCommit:检查数据是否发送成功，成功的话，则把event从takeList中移除
doRollBack:如何发送失败，则把takeList的数据回滚数据到Channel
可靠
- 只有当sink接收到，数据落地完成的信息之后，才会将数据从通道中删除。
- 事件在每个代理上的一个通道中上游。然后将事件传递到流中的下一个代理或终端存储库（如HDFS）。仅将事件存储在下一个代理程序的通道或终端存储库中之后，才将其从通道中删除。这就是Flume中单跳消息传递语义如何提供流的端到端可靠性的方式。
- 数据传输的方式不是byte，而是一个个的event Flume使用事务性方法来确保事件的可靠传递。源和接收器分别在事务中封装存储在通道中或由通道提供的事务中提供的事件的存储/检索。这确保了事件集在流中从点到点可靠地传递。在多跳流的情况下，来自上一跳的接收器和来自下一跳的源均运行其事务，以确保将数据安全地存储在下一跳的通道中。
可恢复
- 当数据丢失了，只有从存储在磁盘的方式，才能将数据找回事件在通道中上演，该通道管理从故障中恢复。
- Flume支持持久的文件通道，该通道由本地文件系统支持。还有一个内存通道可以将事件简单地存储在内存队列中，这虽然速度更快，但是当代理进程死亡时，仍保留在内存通道中的任何事件都无法恢复

你可能感兴趣的:(大数据,大数据,etl,架构)

贝融助手是什么？贝融助手是专业的大数据信用查询平台无忧达人
贝融助手是一个可以快速了解自己信用的工具，是一个生活中非常实用的小助手，信用是现在最重要的一个生活场景，人人都想有一个好的信用，贝融助手就是帮助我们查询自己信用的平台。贝融助手是一个非常专业的平台，贝融助手18年就上线了，到现在已经有很多年的历史了，在信用行业一直都是行业前三的平台，用户量也是非常的大，身边朋友都在用的平台。贝融助手查询入口放在文末了，划到文章结尾就可以看到查询入口贝融助手大数据信
AWS基础 Mr Robot aws 云计算
AWS编写基础架构提AWS提供通过接口来控制的基础架构，叫作应用编程接口（applicationprogramminginterface，API）。用户能通过API控制AWS的每一部分。用户可以使用大多数编程语言、命令行和更复杂的工具的SDK调用这些API。在AWS上，一切操作都可以通过API来控制。用户通过HTTPS协议调用RESTAPI来与AWS交互，如图4-1所示。一切操作都可以通过API提
基于Python的Twitter Card数据爬取与分析实战：从入门到精通 Python爬虫项目 python twitter dreamweaver 自动化开发语言宽度优先爬虫
摘要本文详细介绍了如何使用Python最新技术栈构建一个高效的TwitterCard数据爬虫系统。我们将从TwitterCard的基本概念讲起，逐步深入到爬虫架构设计、反爬策略应对、数据解析与存储等核心环节。文章包含完整的代码实现，使用Playwright+Asyncio的高性能爬取方案，以及数据分析与可视化的实战案例。通过本文，读者将掌握大规模社交媒体数据采集的关键技术，并能够将这些技术应用于实
从AWS MySQL数据库下载备份到S3的完整解决方案 AWS官方合作商数据库 aws mysql
本文将介绍两种主流方法将AWSRDSMySQL数据库备份下载到S3，适用于生产环境需求。方法一：通过RDS快照导出（AWS原生方案）适用场景：全量备份、大数据量、无需额外计算资源流程：创建数据库快照进入AWSRDS控制台→选择目标MySQL实例→点击"操作"→"拍摄快照"输入快照名称（如my-db-snapshot-2024）配置S3导出任务在RDS控制台左侧菜单选择快照→选择刚创建的快照点击"操
人脸检测算法——SCRFD 海绵波波107 #计算机视觉算法计算机视觉
SCRFD算法核心解析1.算法定义与背景SCRFD（SampleandComputationRedistributionforEfficientFaceDetection）由JiaGuo等人于2021年在arXiv提出，是一种高效、高精度的人脸检测算法，其核心创新在于：双重重分配策略：样本重分配（SR）：动态增强关键训练阶段的样本数据。计算重分配（CR）：通过神经架构搜索（NAS）优化骨干网络（B
车载电子电器架构 --- MCU信息安全相关措施汽车电子实验室电子电器架构——刷写方案车载电子电气架构单片机网络架构安全电气电子架构开发的应对策略 ECU刷写与busoff原则电子电气架构
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：周末洗了一个澡，换了一身衣服，出了门却不知道去哪儿，不知道去找谁，漫无目的走着，大概这就是成年人最深的孤独吧!旧人不知我近况，新人不知我过往，近况不该旧人知，过往不与新人讲。纵你阅人何其多，再无一人恰似我。时间不知不觉中，来到新的一年。2025开始新的忙碌。成年人的我也不知道去哪里渡
一条SQL引发的革命：金仓KES V9 2025如何用“融合”颠覆数据库格局 Loving_enjoy 计算机学科论文创新点机器学习 facebook 课程设计经验分享
>一条SQL，既能查交易记录，又能搜相似图片，还能分析JSON文档——国产数据库正在用“全栈融合”重新定义数据价值“迁移成本太高了！”某银行技术总监看着眼前的Oracle集群摇头叹息。为了部署新的AI风控系统，团队需要在关系数据库、文档数据库和向量数据库之间搭建数据管道——**不仅架构复杂度飙升，维护成本更是翻了三倍**。直到他们遇见了金仓KESV92025。2025年7月15日，中电科金仓发布新
Python 网络编程从入门到精通：架构、协议与 Socket 实现
Python网络编程从入门到精通：架构、协议与Socket实现网络编程是现代软件开发的核心技术之一，它允许不同设备上的程序通过网络进行通信和数据交换。本文将深入探讨网络编程的基础知识，包括软件架构设计模式、网络通信三要素、TCP与UDP协议的特点，以及Python中Socket编程的实现方法。一、软件架构设计模式1.C/S架构（Client/Server）C/S架构是最经典的网络应用架构，由客户端
B/S架构系统角色与对应协议详解步行cgn JavaWeb 架构
B/S架构系统角色与对应协议详解一、核心角色及协议映射系统角色主要职责关键协议协议作用说明浏览器用户交互界面HTTP/HTTPS应用层通信基础(Browser)发送请求/渲染响应WebSocket全双工实时通信执行前端逻辑WebRTC点对点音视频传输DNS域名解析--------------------------------------------------------------------
认识ETL流程：数据工程的基石淦暴尼数仓 etl 原型模式数据仓库
1.ETL流程简介2.ETL流程设计的关键步骤2.1需求分析2.2数据抽取（Extract）2.3数据转换（Transform）2.4数据加载（Load）2.5调度与监控3.ETL设计模式3.1批处理ETL3.2流式ETL3.3Lambda架构4.主流ETL技术栈选择4.1技术栈一览表4.2各环节简要说明4.3典型技术组合建议5.ETL最佳实践与完整流程示例5.1ETL最佳实践5.2完整ETL流程
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
碳中和碳交易骗局揭晓！第七届内部操盘群伍戈被骗黑幕曝光!血泪事迹令人惊心! 昌龙律法
如今大家生活好了，手里或多或少有点闲钱了。就开始想着怎么赚更多的钱！这也使得各种投资市场很火爆，无孔不入的骗子们又暗戳戳上线了，利用人们对赚钱的渴望，打着网络投资的旗号实施诈骗。随着“互联网+”的发展，万物皆可“数字经济”的“数字大数据”投资项目走入现实生活中。但是有不法分子就利用了这一“商机”，将数字投资变为新型找形式，并且利用洗脑话术，核心骗术仍然是高额返利，让人不知不觉掉进提前布局的“陷阱”
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
B/S 架构通信原理详解步行cgn JavaWeb 架构
B/S架构通信原理详解一、核心架构Browser/Server（浏览器/服务器）模型：前端：浏览器作为统一客户端（Chrome/Firefox/Edge等）后端：服务器处理业务逻辑+数据存储（Nginx/Apache/Tomcat等）通信协议：基于HTTP/HTTPS的请求-响应模型二、完整通信流程sequenceDiagramparticipant用户participant浏览器particip
SmartX 用户建云实践｜某大型综合券商：轻量私有云与全栈信创云建设实践
作为国内领先的大型综合证券公司，该证券公司拥有复杂的IT环境和多样化的业务需求。为了应对日益增长的业务压力、提升IT运行效率并响应国家信创战略，该券商选择了SmartX榫卯企业云平台*，在北京和上海等多数据中心进行了大规模部署，将其作为CMP和云门户的重要算力支撑，并使用同一套架构基于鲲鹏和海光两种芯片平台构建轻量信创云底座，完成云化与信创双转型。*榫卯企业云平台由SmartX全栈超融合方案升级而
【laravel+redis】分布式锁的实现起灵人 php laravel redis laravel redis php
laravel官方支持“原子锁”，并且说“要使用这个功能，应用必须使用memcached、dynamodb、redis、database或array缓存驱动作为应用默认的缓存驱动，此外，所有服务器必须和同一台中央缓存服务器进行通信”。前半句不多解释，后半句也强调了laravel的原子锁不负责在集群架构中保障故障转移期间的数据安全性。我贴一下laravel的源码看一下它是怎样用redis实现的分布式
Supervisor 入门指南一篇就够 —— 安装、项目配置与常见报错速查逻极 python 开发工具笔记 python 运维工具开发 supervisor
Supervisor入门指南一篇就够——安装、项目配置与常见报错速查一、Supervisor是什么在服务器进程管理中，Supervisor是一款用Python编写的进程守护与管理工具。它的核心功能是将普通的命令行进程转变为后台daemon进程，并且在进程因意外情况退出时，能够自动将其重启，保证进程的持续运行。在实际应用中，它常出现在多层架构里。比如在Nginx→Gunicorn/Django→Su
失业程序员的逆袭：从代码渣到百万架构师金牌学霸就业规划人生规划职业规划能源软件开发职场和发展职业规划就业指导
职业规划分析：30岁离异失业程序员的重启之路核心优势分析：技术根基扎实：211计算机本科+多年开发经验（假设5年+）行业适配性强：IT领域存在大量技术迁移机会危机意识觉醒：失业状态激发转型动力关键挑战：年龄焦虑（30+求职竞争）职业空白期解释技术更新迭代压力分阶段职业发展路径（3年规划）阶段时间核心目标具体行动方案重启期1-3个月快速就业+心理建设-主攻中大型企业维护型岗位-每天4小时LeetCo
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
推客系统小程序开发实战：2025年技术架构与实现细节 wx_qutudy java 推客小程序开发推客系统
引言在电商生态竞争日益激烈的2025年，推客系统作为私域流量运营的核心工具，其技术实现效率与合规性已成为企业增长的关键指标。本文基于实际开发经验，深度解析推客系统小程序的技术选型、架构设计与核心功能实现，旨在为开发者提供可复用的技术方案。一、技术选型：多端统一开发框架的深度实践1.1前端框架选型对比在2025年主流框架对比中，Taro3.6.31展现出显著优势：跨平台能力：支持微信/支付宝/百度小
计算机毕设——高校在线学习平台
随着教育信息化改革不断推进，传统教学模式逐渐暴露出诸多弊端，例如资源分散、互动匮乏、教学反馈滞后等。如何借助现代Web技术构建一个功能完善、稳定高效的教学平台，成为许多高校面临的重要课题。本文将从我的毕业设计项目《在线学习平台》出发，分享一个完整在线教育平台的设计与开发过程，涵盖技术选型、系统架构、核心模块实现以及系统测试等内容，适合对SpringBoot+Vue全栈开发感兴趣的同学学习参考。一、
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
MySQL(147)如何进行跨平台迁移？辞暮尔尔-烟火年年 mysql adb 数据库
跨平台迁移涉及将数据库从一个操作系统或平台迁移到另一个，例如从Windows迁移到Linux，或从不同架构的硬件之间进行迁移。这个过程比同平台迁移更加复杂，需要特别注意数据库的兼容性、数据编码、文件路径等问题。以下是一步一步的指导，详细介绍如何进行跨平台数据库迁移。一、准备工作1.确认源与目标平台源平台：当前运行数据库的操作系统和硬件平台。目标平台：新的操作系统和硬件平台。2.安装数据库软件在目标
2024年圈子社交APP源码开发：仿小红书垂直社区小程序搭建详解宠友信息 IM即时通讯 APP源码社交APP源码小程序微信 java uni-app spring boot 微服务
目录核心功能模块及技术解析多平台适配与技术架构结语在社交网络迅速发展的今天，垂直社交平台逐渐成为主流。特别是类似小红书的圈子社交应用，它们不仅为用户提供了一个分享和交流的空间，还满足了特定群体的个性化需求。2024年您可以打造一个深度互动、功能丰富的垂直社区。本文将详细描述如何基于这些技术构建社交平台，并结合相关的技术术语和代码片段。演示下载地址：社交源码_语音聊天软件_即时通信软件-社交软件-宠
用项目说话：我的React博客构建成果与经验复盘 Pan Zonghui 移动端 react 项目总结 react.js 前端前端框架
这是一个基于React19+TypeScript+Vite构建的现代化博客系统，采用了最新的前端技术栈和工程化实践。项目不仅实现了完整的博客功能，更在架构设计、性能优化、开发体验等方面体现了企业级应用的标准。成品展示个人博客链接地址：https://pzhdv.cnpc端页面展示首页分类页面关于我文章详情页面移动端技术栈选择与分层设计技术栈选择核心框架与工具React19.1.0:最新版本的Rea
从零开始学 Linux：循序渐进的学习指南我爱学嵌入式 Linux基础 linux 服务器
Linux作为一款开源、稳定且安全的操作系统，在服务器领域、嵌入式开发、云计算等场景中占据着举足轻重的地位。对于程序员、运维工程师或IT爱好者而言，掌握Linux技能已成为一项核心竞争力。但面对命令行界面和复杂的系统架构，很多初学者往往感到无从下手。本文将为你梳理一条清晰的Linux学习路径，助你从入门到精通。一、明确学习目标：为什么学Linux？学习Linux前需明确目标，不同目标对应不同的学习
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情