mishidemudong

案例：恒丰银行——大数据实时流处理平台

恒丰银行于2016年1月完成了传统数据仓库向大数据平台数据仓库的迁移，以新的数据仓库平台为基础，结合行内的通用文件传输平台、统一调度平台，规范了源数据系统的数据报送，梳理构建了新的数据模型，大数据平台解决了传统数仓在批量数据处理能力的不足，在相关任务上体验到了从数小时到十几分钟的提升。

大数据平台解决了大数据特征中四个V的大数据量（Volume）的处理，我们还需要引入实时处理技术能覆盖数据多样性（Variety），高速处理数据（Velocity），从而挖掘更大的价值（Value）。数据的价值随着时间的流逝而降低，如何在技术上提供支撑，发挥以日志为代表的行内实时数据和付费购买或者免费爬取的海量互联网数据在商业银行业务中的价值是亟待解决的问题。变现，是硬道理！换句话说，我们需要将ETL、业务建模、机器学习、可视化扩展到实时数据，将与风险管理、客户营销相关的数据和计算规则从银行关键业务系统里面解耦，对相关业务应用提供完整的支撑。

周期/节奏

2015年9月至11月，大数据实时流处理平台可行性分析，技术组件选型。

2015年11月，项目启动。

2015年12月，完成总体需求分析，确定平台的主要业务目标是在运营监控、反欺诈、客户行为分析、风险预警方面提供实时数据支持。

2015年12月-2016年8月，完成平台设计和基础组件的实施、投产。

2016年8月-今，对基础组件进行优化和补充，对业务应用开发提供支持，配合IT运营实时监控、客户点击流、交易反欺诈、贷后预警等与实时数据相关的应用建设。

客户名称/所属分类

恒丰银行/大数据技术服务

任务/目标

同互联网公司相比，传统商业银行在业务种类、交易模式、监管要求方面都大大不同，我们针对行内业务需求设计了以下功能架构：流处理平台提供基础的数据采集、接收、过滤解析、实时规则计算、存储和分析挖掘功能，以此为基础构建实时营销平台、实时风险预警平台进行业务逻辑加工，行内的各个渠道系统、信贷系统、IT运营监控系统、运营风险监测通过订阅方式获得实时处理后的数据，满足IT运营实时监控、客户行为分析、交易反欺诈、授信评审与贷后预警、运营风险监测等方面的业务需求。

当前的实时数据源主要包括业务系统的应用日志，企业消息总线关联交易日志，第三方数据公司实时推送数据，网络设备、操作系统、中间件日志，数据库日志，外部网站爬虫信息，流处理平台要负责实现以下目标：

●各类基础数据的实时采集，过滤解析；

●根据业务应用需要提供基础数据实时加工功能；

●同时支持简单和复杂业务逻辑规则模型，支持基于流数据的实时分析；

●便于与异构系统集成，实现数据共享，要包含与主流的流计算框架、各类数据库、前端框架、消息中间件设施、主流接口协议；

●海量数据的持久化存储和快速检索；

●提供平台级别的数据管理功能，包括数据脱敏、用户权限、数据时效管理和分级存储等方面功能。

挑战

大数据实时流处理平台在实际实施过程中主要面临以下技术难点：

1.如何实现流处理系统在可伸缩性、系统容错、高可用性、弹性部署、差异服务管理、吞吐性能方面的要求。

●平台资源方面：使用物理机服务器和传统的虚拟机技术无法根据数据流量和计算任务量实现资源层面快速扩容；对计算、存储、网络等资源管理不够精细，资源申请周期长，资源的可用性低。

●应用架构方面：如果采用传统的单体应用架构，由于Socket连接方式、线程服务模型、锁冲突、同步IO阻塞等原因，在并发处理能力上先天不足；大数据微服务架构又会面临编程学习和开发成本高，并且框架对异步并行调度、服务质量管理方面支持不足的问题。

●开发体系和工具方面：流处理平台组件繁多，迭代频率高，服务质量管理更精细，现有的开发体系和工具无法在实施的各个阶段实现有力支撑。

2.如何构建高性能、高可用性，覆盖所有业务需求数据源的实时采集、传输组件。

商业银行内部价值最大的流数据就是应用系统及各类设备每天产生的日志数据，同互联网公司比，银行的系统种类多，来源广，架构平台杂，主要交易系统的产品化程度高，改造风险大，日志规范性差，不同应用的日志路径、文件个数、内容、回滚规则各不相同，如某重要系统应用，同时打印的交易日志文件达几百个；除了应用日志文件外，用于运维监控的系统实时资源信息、需要从外部获得的舆情、资讯信息都需要数据采集组件提供高性能、高可用性、高安全可靠性的实时采集、传输功能。

3.如何提供易于异构系统集成的软件服务能力。

流数据及其计算处理后的数据最终是要提供给其他应用使用的，这就要求流处理平台提供统一的消息服务能力，满足异构系统各种集成方式的需求，这些需求可能通过前端直接访问、RPC远程调用，也可能通过主流的消息中间件、内存数据库，传统数据库，也可能通过与其他流处理框架集成。

4.如何应对灵活的业务逻辑变化，降低开发工作量。

基于流数据的业务应用要求流处理平台在数据处理和计算上具有较高的灵活性，在数据解析结构化方面，如日志或者资讯信息中的某些字段在当前的监控业务模型中没有具体用处，不做预处理，突然有一天，业务人员发现可以用于实时交易欺诈模型；在计算规则方面，如银行新开通了信用卡业务，对于客户全渠道行为的分析就要把信用卡的数据加入，业务人员都希望能够基于提出的规则即时实施，并且能够处理复杂规则逻辑，平台要在这方面进行支撑，减少上层应用开发工作量。

5.如何对庞大的平台各组件及客户端提供统一的配置和管理。

云平台下对应用的计算资源、存储资源进行精细化管理，应用的节点数增多，可用性提高，随之大大提高了日志采集客户端的数量，应用日志相对于中间件、数据库、syslog日志相比在采集任务配置也复杂得多，如何高效管理几千个日志采集客户端和爬虫客户端，对其运行状态、采集任务进行实时配置和更新，大规模性的集中部署和升级，如何对其他流计算组件集群的状态一致性进行配置管理，提供方便的流数据处理流程配置功能，也是流处理平台需要解决的问题。

6.如何满足海量数据的高速存储、检索和分析挖掘的需求。

流处理平台要满足原始数据和解析计算后的数据高速存储和查询检索需求，并在使用时满足银行对客户数据脱敏、用户权限管理、数据分级存储的要求，提供集成的数据分析和机器学习工具以便更好地挖掘的数据价值。

实施过程/解决方案

在实际实施过程中，行内针对发布应用日志和应用监控输出的规范，将日志输出的要求纳入了从招标到验收的项目管理整个流程，对新建系统提出了明确的要求，这大大方便了日志采集，提高了流处理的效率，下面主要描述如何从技术上解决上一章提到的六个难点。

●平台架构

通过分析传统单体应用在并发服务能力、服务质量、运行部署方面的不足，并最终选取技术成熟的akka微服务架构+docker容器云技术作为平台流计算和数据服务组件的基础技术架构。

响应式微服务架构通过消息机制避免共享资源的锁冲突，降低线程资源需求。同时，将失败也作为一种消息，实现服务自治，可以实现各个级别的失败快速恢复，能够实现功能及服务的灵活打包部署，构建位置透明的集群服务体系，实现弹性扩容和差异化的硬件资源配置；akka除了具备以上优点外还内嵌了基于netty技术的NIO框架，不需要额外配置Weblogic或者WebSphere等中间件服务器，降低使用成本，支持更多客户端连接，单节点每秒5000万消息处理；1GB内存250万Actor，消息传递机制实现分布式微服务协同、数据共享，消除资源锁需求；Actor模型实现多层级自治监管机制，构建安全运行的防火墙和沙箱，微秒级的故障恢复，支持弹性部署多种集群部署模式，远程服务透明访问，多种可配置的负载均衡策略。

我们将akka微服务架构的集群负载，服务监控、故障恢复与弹性部署能力结合恒丰银行PAAS云平台采用的docker容器技术对应用级负载、监控、弹性资源分配以及快速部署能力相结合，满足了本节开头对流计算组件的要求。除了流计算组件，平台使用的flume、kafka、zookeeper、redis等开源组件也实现docker容器化并借助DevOps工具服务，从开发、构建、测试到版本发布的全流程自动化，中间提供包括计划、任务分配跟踪、问题跟踪、文档管理、版本发布全过程的项目协作支持。

我们使用自研微服务架构平台Skyline进行相关组件开发，Skyline以akka为基础，通过提供zebra脚本语言降低并行编程开发难度，能够对异步并行任务进行监控和调度，实现了对集群的分布式一致性和分布式事务的支持。

●数据采集

在比较了目前主流的开源日志采集组件flume、scribe、logstash之后，我们选取采用Java语言开发，在高可用、资源隔离、二次开发方面具有优势的flume作为我们的日志采集组件。

在日志收集流程方面，针对不同云环境设计了不同的采集流程，对于部署在openstack云环境和部分物理机上的应用，通过在应用服务器直接部署flume agent实时采集每个节点配置的日志文件、syslog、进程状态信息，实时发送后端的flume 服务端，服务端完成原始数据入库和初步的过滤解析并发送到kafka消息中间件；对于部署在docker容器环境下应用，因为已经做了日志规范化，宿主机上的flume直接利用宿主机提供的接口读取对应镜像所属路径下的日志文件，直接发送到kafka消息中间件。

此外，根据实际需要，对flume的客户端进行开发，增加了source种类，覆盖目前所有应用系统的日志打印类型，修改了客户端软件的一些缺陷，设计并实现了不同策略，控制异常情况下对系统资源的占用，修改了agent与zookeeper之间更新配置的方式，利用心跳机制实现对flume agent状态的监控，利用Jenkins、puppet等工具支持进行大规模客户端推送、部署。

为了解决flume服务端收集数据的性能问题，我们对flume服务端进行微服务化拆分，将原来集中在服务端的接收、解析、入库工作拆分出来，原有的flume服务端用其对loadbalance、failover以及与客户端之间发送接收事务的支持进行数据接收，构建skyline微服务组件集群实现解析和入库的功能，并根据不同级别、不同类型的解析、入库需求分配不同的组件。

除此之外，为了补充采集一些既有系统交易数据和爬取外部网站一些数据，平台提供探针组件和爬虫组件，并基于zookeeper实现了上述客户端程序组件的注册、注销、实时任务分配，实现了高可用和水平扩展。

●异构系统集成

流处理平台通过建立自己的分布式实时消息总线与周边系统集成，该消息总线以Akka的消息处理框架为核心枢纽。

如上，一方面，通过SockJs、WebSocket、HTTP协议将流数据包装为各种服务，构建与移动端应用和其他外部系统前后端的消息通道，对应用开发程序员屏蔽各种消息编码解码算法细节；另一方面，通过代理组件的编写和统一的元消息语义，可以将异构系统的kafka、MQ等消息中间件设施和主流的spark streaming流处理框架，当成流处理平台消息总线设施一部分，实现与上述设施和流计算框架的无缝集成；此外，用户也可以针对特定的数据，定制自己的持久化方案，支持将数据实时写入主流的数据库。

●规则计算

为了应对各方面业务对流处理规则的变动，减少使用硬编码实现流计算组件的工作量，我们引入了开源的drools规则引擎。Drools规则引擎速度快、效率高，且具有强大的规则冲突处理能力，并且完全开源，使用Java编写，方便基于其进行开发。

在实际使用时，我们将drools集成为skyline平台的一个计算组件，与我们的kafka消息中间件和redis内存数据库完成适配，将drools的监测数据源改为实时数据，并利用其处理由事件触发的复杂业务逻辑。为了方便业务人员使用，编辑规则逻辑的方式由开发Java语言风格.drl文件改为提供可视化话编辑页面，用户可以通过在页面上编写简单逻辑组合条件和标准sql的方式配置复杂业务逻辑，并从各方面完善了规则引擎的功能，便于应用使用。

对于时间触发类型的流计算规则，如日常的实时交易量统计，并发访问量，客户当日消费金额，我们使用spark streaming sql功能代替原本需要针对绝大多数数据源和规则逻辑开发的流计算组件，并将查询结果实时导入内存数据库，提供给规则引擎进行复杂逻辑处理。目前，大部分实时规则的计算时间从数据触发到计算结果输出的时间都控制在100ms以内。

流计算过程中需要的其他组件，如数据分发组件、持久化组件、告警推送组件，我们使用skyline平台构建对应流处理集群，使用zebra脚本语言编写业务逻辑，满足相关业务需求。

●服务和任务配置、管理

流处理集群的服务和任务配置管理主要有三部分：

第一部分是日志采集、交易探针、爬虫这些客户端程序。恒丰银行目前绝大多数应用采用同城双中心双活，应用在每个中心的部署单元也是集群多活形式，应用从传统物理机环境迁移到云环境后，节点数增多，与之对应的是日志采集客户端的增多。目前，恒丰银行的生产环境已经上线运行了三千多个虚拟机节点，各类测试环境和准生产环境共有六千个节点，对每个虚拟机上的采集客户端的服务状态、资源占用情况进行监控，对采集任务的一些参数进行批量或者单独的更新，如增加/减少路径，增加文件黑白名单。对于不能通过日志获得流数据的既有系统和外部咨询数据，我们分别开发了探针和爬虫客户端程序。这些客户端程序的服务和任务管理都是利用zookeeper实现的。

第二部分是基于Skyline平台开发的流计算组件，这一部分我们利用skyline平台的一致性管理器进行管理，每个组件自带基于raft协议一致性管理的接口，管理集群和各组件集群间通过消息广播机制进行通信。

第三部分是流处理流程的配置，除了之前提到的Streaming Sql和规则引擎组件，我们使用skyline平台开发了一些基础组件，如分类，数据补全，持久化，脱敏、数据转换组件，用户可以使用拖拽方式可视化配置一个流处理过程。

●数据存储、分析和挖掘

在有些业务场景下，流处理平台需要将原始的非结构化和半结构化数据存储起来并提供查询检索，如运维业务需要提供事件发生时的各类资源和日志快照信息；针对解析后的结构化数据，也需要集中存储，用于统计分析和报表。在这方面，我们使用继续使用在数仓迁移时引入的企业级大数据平台，引入企业级的大数据平台免去了对大数据平台的运维压力。

流处理组件可以通过jdbc驱动直接使用标准sql在Hyperbase表上进行数据库表的相关操作，并且支持上建立全局索引、局部索引，以满足多种复杂场景的实时写入、检索需求，Hyperbase支持全文索引，方便用户快速检索自己关心的信息。流处理平台使用平台提供的Scala语言接口，开发数据挖掘和深度学习的相关模型，进行分布式挖掘和模型训练。

结果/效果总结

目前，市面上的商业流处理产品大多基于单一应用目的开发，使用商业化产品在采集规模和功能覆盖性、数据开发灵活性上受制约，同时，大部分产品的收费模式都基于节点数或者原始数据流量，而大多数流数据是低价值密度数据，在这类收费模式下很难全面挖掘数据价值。

从技术指标方面来看，恒丰银行大数据实时流处理平台具有以下优势：

●数据采集：节点多，部署超过1500个服务器节点；网络结构复杂，横跨多中心所有网段；采集功能覆盖性强，能够满足日志、进程资源信息、接口服务信息、库表信息、外部爬虫数据实时采集，在日志采集方面覆盖所有日志打印方式，最大支持同时维护三百个日志文件；任务调度和监控方便，所有任务统一配置，实时更新，支持客户端自动批量发版，客户端运行状态监控完善。

●数据接收和预处理：基于规则引擎和Streaming SQL实现，提供可视化规则配置页面和拖拽式流程配置，业务人员可以直接配置，不需要编程开发，支持复杂规则逻辑，支持弹性扩容，绝大多数基于流数据的逻辑处理时间小于100ms。

●流计算：基于规则引擎和Streaming SQL实现，提供可视化规则配置页面和拖拽式流程配置，业务人员可以直接配置，不需要编程开发，支持复杂规则逻辑，支持弹性扩容，绝大多数基于流数据的逻辑处理时间小于100ms。

●数据存储和检索：接收和存储采取异步处理，在八个存储节点条件下支持接近100M/S写入速度，通过自动分表，当月日志元数据结合全文检索检索皆在3秒以内。

以上技术指标完全满足上层监控、反欺诈、贷后预警、客户行为分析、运营风险监控类业务需求对实时数据处理的要求。

从实际应用效果看，恒丰银行大数据实时流处理平台针对一些典型业务的支撑已经验证了当初“将实时数据集中采集、集中计算处理、集中发布订阅”决策的优势和正确性，同一份渠道系统交易数据可以用于运维监控，可以用于用户行为分析，可以用于交易反欺诈核验，可以放在此用户的贷后预警模型里，将数据同源系统解耦，不同的业务只需要响应增加逻辑规则配置即可，而不是像原有模式分别在源系统里面增加业务，增加开发和投产任务。家庭金融是恒丰银行新开展的一项以家庭为单位财富管理业务，业务人员设计了较为复杂成员之间各类交易动账提醒规则，按照以往的模式需要核心增加提醒业务，各渠道交易接口可能需要改造，相关系统要协同上线，如果新增渠道系统后原有模型还得重新开发、上线；基于流处理平台的处理方案，在流处理组件或者规则引擎中配置规则，关联各个渠道数据源，新增数据源和规则更新可以立即配置，即时生效，大大提高了业务灵活性，降低了开发成本。

企业介绍：

恒丰银行股份有限公司是12家全国性股份制商业银行之一，注册地烟台。

近年来，恒丰银行稳健快速发展。截至2016年末，恒丰银行资产规模已突破1.2万亿元，是2013年末的1.6倍；各项存款余额7682亿元，各项贷款余额4252亿元，均比2013年末翻了一番。2014年至2016年累计利润总额312.17亿元，这三年的累计利润总额为以往26年的累计利润总额；服务组织架构不断完善，分支机构数306家，是2013年末的两倍。

近年来，恒丰银行屡获荣誉。在英国《银行家》杂志发布的“2016全球银行1000强”榜单中排名第143位；在香港中文大学发布的《亚洲银行竞争力研究报告》中位列亚洲银行业第5位；在中国银行业协会发布的“商业银行稳健发展能力‘陀螺（GYROSCOPE）评价体系’”中，综合能力排名位列全国性商业银行第7位，全国性股份制商业银行前三；荣获“2016老百姓最喜欢的股份制商业银行”第二名、“2016年互联网金融创新银行奖”、“2016年最佳网上银行安全奖”、“2016年度创新中国特别奖”等多项荣誉。

作为一家肇始于孔孟之乡山东的全国性股份制商业银行，恒丰银行秉承“恒必成德致丰”的核心价值观，践行“1112·5556”工程，即：一个愿景（打造“精品银行、全能银行、百年银行”）、一个文化（打造“开放、创新、竞争、协同、守规、执行”的“狼兔文化”）、一个目标（五年目标是以客户为中心，以创新为驱动，高效协同，弯道超车，五年内进入全国性股份制商业银行第二方阵；十年目标是要打造一个国际金融控股集团）、两个策略（“植根鲁苏，深耕成渝，拓展中部六省和海西，进军京沪广深”的区域策略和“四轮驱动、两翼齐飞”的经营策略）、“五化”强行战略（国际化、信息化、精细化、科技化、人才化）、“五力”工作方针（忠诚力、执行力、目标力、风险经营力、恒久发展力）、五个引领（人才引领、科技引领、创新引领、效率引领、效益引领）、六大综合能力（价值分析能力、风险鉴别能力、定价能力、创新能力、调研能力、学习能力）；大力实施“12345”行动纲领，即:“1”是做金融综合解决方案的提供商，“2”是金融云平台和大数据平台，“3”是数字银行、交易银行、银行的银行，“4”是龙头金融、平台金融、家庭金融、O2O金融等四大金融创新业务模式，“5”是投行、资管、平台、人才盘点和以“One Bank”为核心的绩效评价体系等五大战略落地工具，致力于做“知识和科技的传播者、渠道和平台的建设者、金融综合解决方案的提供者”，力求打造令人瞩目、受人尊敬的商业银行，为客户和社会提供效率最高、体验最佳的综合金融服务。

GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
信息系统安全相关概念(上) YuanDaima2048 课程笔记基础概念安全信息安全笔记
文章总览：YuanDaiMa2048博客文章总览下篇:信息系统安全相关概念(下)信息系统安全相关概念[上]信息系统概述信息系统信息系统架构信息系统发展趋势：信息系统日趋大型化、复杂化信息系统面临的安全威胁信息系统安全架构设计--以云计算为例信息系统安全需求及安全策略自主访问控制策略DAC强制访问控制策略MAC信息系统概述信息系统用于收集、存储和处理数据以及传递信息、知识和数字产品的一组集成组件。几
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
慢速连接攻击是什么？慢速连接攻击怎么防护？快快小毛毛网络 ddos 服务器
慢速连接攻击（SlowConnectionAttack），又称慢速攻击（SlowlorisAttack），是一种网络攻击技术，旨在通过占用服务器上的所有可用连接资源来使其无法响应正常请求。与传统的拒绝服务（DoS）和分布式拒绝服务（DDoS）攻击不同，慢速攻击并不依赖于发送大量数据包来消耗带宽，而是利用HTTP、TCP或SSL等协议的特性，通过发送大量不完整的请求或缓慢发送数据来占用服务器资源，使
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
Gobelieve 架构 weixin_34099526 数据库 golang json
Gobelievegithub地址声明:转简书JackieF的文章,为了自己方便copy了一份,加一些自己的东西.链接：https://www.jianshu.com/p/8121d6e85282IMCore主要分三大块:im客户连接服务器（可分布式部署，暂无负载均衡模块)imr路由查询服务器（主要解决im分布式部署的问题）ims存储服务器(主从部署)基础模块1.数据包协议包：header(12)
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
Rides实现分布式锁，保障数据一致性,Redisson分布式事务处理朱杰jjj 缓存分布式
分布式环境下分布式锁有三种方式：基于数据库分布式锁基于Redis分布式锁基于zk分布式锁本帖只介绍Redis分布式锁为什么需要用到分布式锁？在单机环境下一个服务中多个线程对同一个事物或数据资源进行操作时，可以通过添加加锁方式（synchronized和lock）来解决数据一致性的问题。但是如果出现多个服务的情况下，这时候我们在通过synchronized和lock的方式来加锁会出现问题，因为多个服
机电综合管理系统架构小熊coder 机载系统系统架构
文章目录一、机电综合管理系统架构1.系统概述2.架构层次3.核心组件二、余度管理1.余度概述2.硬件冗余3.软件冗余4.通信冗余三、总线架构1.MIL-STD-1553B总线2.ARINC429总线3.ARINC629总线4.AFDX/ARINC664总线四、未来发展趋势1.分布式架构2.高速网络3.智能化与自动化结语机电综合管理系统（ElectromechanicalManagementSyst
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
Dubbo架构概览：服务注册与发现、远程调用、监控与管理木南曌 dubbo 架构
Dubbo是一个成熟的、高性能的、基于Java的微服务开发框架，它主要用于解决分布式系统中的服务治理问题，包括服务的注册与发现、远程过程调用（RPC）、服务监控与管理等多个关键环节。以下是Dubbo架构概览的详细介绍：服务注册与发现Dubbo的服务注册与发现机制是其核心功能之一，它依赖于注册中心来管理服务的生命周期和定位服务提供者。1.服务提供者（Provider）服务提供者是实际提供服务的节点，
以太坊DApp开发指南 Kirn
DApp架构设计DApp架构.png如上图，DApp的架构我们可以简单分为以上三种类型：轻钱包模式、重钱包模式和兼容模式。轻钱包模式轻钱包模式下我们需要有一个开放HttpRPC协议的节点与钱包通信，这个节点可以是任意链上的节点。轻钱包通常会作为一个浏览器插件存在，插件在运行时会自动注入Web3框架，DApp可以通过Web3与区块链节点通信。当DApp只是单纯的获取数据时是不需要钱包介入的，但是当D
系统架构设计师教程第5章 5.3 系统分析与设计笔记 z2014z 系统架构设计师系统架构笔记
5.3系统分析与设计系统分析阶段把复杂的对象分解为简单的组成部分，其基本任务是在充分了解用户需求的基础上，书写系统需求规格说明书。系统设计是根据系统分析的结果，完成系统的构建过程。其主要目的是绘制系统的蓝图，权衡和比较各种技术和实施方法的利弊，合理分配各种资源，构建新系统的详细设计方案和相关模型，指导系统实施工作的顺利开展。系统设计的主要内容包括概要设计和详细设计。5.3.1结构化方法★★★★★针
nfs服务搭建 GHope
nfs是什么？基哥度娘网络文件系统(NFS)是sun微系统最初开发的分布式文件系统协议,[1]允许客户端计算机上的用户通过计算机网络访问文件很像本地存储被访问。NFS与许多其他协议一样,在开放网络计算远程过程调用(很久以前RPC)系统上建立。NFS是在请求注释(RFC)中定义的开放标准,允许任何人实现协议。NFSNFS优势：节省本地存储空间，将常用的数据存放在一台NFS服务器上且可以通过网络访问，
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
新零售SaaS架构：客户管理系统的应用架构设计公众号-架构师汤师爷 SaaS架构零售架构系统架构后端 java
客户管理系统的应用架构设计应用层定义了软件系统的应用功能，负责接收用户的请求，协调领域层能力来执行任务，并将结果返回给用户，功能模块包括：客户管理：核心功能模块，负责收集和更新客户信息，包括个人资料、联系方式、消费习惯、会员卡、归属信息（比如销售或顾问）和备注。这个模块是CRM系统的基础，支撑其他模块的运作，提供详细的客户信息，帮助企业更好的理解和服务客户。客户标签：通过对客户进行标签化管理，实现
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

案例：恒丰银行——大数据实时流处理平台

你可能感兴趣的:(分布式计算,分布式架构设计)