tuna_lxg

构建大型云计算平台分布式技术的实践

本文基于章文嵩博士在2014年7月18日的全球架构师峰会ArchSummit上的主题演讲《构建大型云计算平台分布式技术的实践》整理而成。演讲slides可从ArchSummit官网下载。

演讲者简介

章文嵩博士是阿里集团的高级研究员与副总裁，主要负责基础核心软件研发和云计算产品研发、推进网络软硬件方面的性能优化、搭建下一代高可扩展低碳低成本电子商务基础设施。他也是开放源码及Linux内核的开发者，著名的Linux集群项目LVS（Linux Virtual Server）的创始人和主要开发人员。LVS集群代码已在Linux 2.4和 2.6的官方内核中，保守估计全世界有几万套LVS集群系统在运行着，创造了近十亿美金的价值。加入阿里前，他是 TelTel的首席科学家与联合创始人，曾为国防科技大学计算机学院副教授。他在设计和架构大型系统、Linux操作系统、系统软件开发、系统安全和软件开发管理上有着丰富的经验。章文嵩博士在2009年加入阿里之后，先后负责淘宝的核心系统研发与阿里巴巴集团的基础研发，2013年10月开始同时负责阿里云的系统研发与阿里巴巴集团的基础研发工作。

本演讲主要分为五个部分：

云计算的挑战与需求
ECS的分布式存储设计
SLB、RDS与OCS的设计
全链路监控与分析系统
未来工作展望

云计算的挑战与需求

云计算跟淘宝在业务特点上有较大的不同，其中最大的不同就在于：淘宝、天猫是由四千多个小应用去支持的，都是分布式设计，很多情况下即使一两个应用宕机了，也不影响整体的服务，可以按部就班的修复。对于淘宝而言，只有交易量下降了10%以上的情况会算做是P1故障，开始计算全站不可用的时间。

而对于云计算的场景而言，一个云主机宕机了，对这个客户来说就是100%的不可用，而这可能是这个客户的全部“身家性命”。所以，云计算平台对可靠性、稳定性的需求是非常高的。以前我们可能网络遇到问题，但是上层应用设计得好，就把这个问题隐蔽掉了；而对于云平台，要求是更高的可靠性，而且数据不能丢，系统稳定，性能还要好——目前尽量跟用户自己买物理机的性能差不多，另外要能够快速定位问题，最好在用户发现问题之前就先把问题解决了，让用户感知不到。还有就是成本要低，比用户自己买服务器便宜是底线。

ECS的分布式存储设计

ECS是阿里云的云服务器产品线，也是我们销量最大的产品。其背后是分布式文件存储，支持快照制作、快照回滚、自定义镜像、故障迁移、网络组隔离、防攻击、动态升级等功能。ECS的管理基于一个庞大的控制系统，目前一个控制系统可以控制3600台物理机的规模，未来计划要做到5000台到两万台。

这其中，数据可靠性是极为关键的。阿里云以前的做法是数据写入的时候同步写三份到分布式存储上的chunk server上之后才算成功，这种实现的开销大，延时长，造成当时阿里云的用户抱怨性能不好。后来，我们做了2-3异步，即同步写2份确保成功，异步写第三份，IO性能上得到一定的改善。我们现在对这个过程再做优化：读写性能优化的关键在于返回成功的时间，因为吞吐率是时间的倒数，延时缩短性能就会提升。缩短延时的思路之一就是将原本过长的路程截断以进行缩短，同时保证数据的可靠性。其具体思路为：

SSD+SATA的混合存储方案，在chunk server上做二级存储。这个方案目前在vm上做到的randwrite-4K-128可达5500 IOPS左右
cache机制
以多线程事件驱动架构重构TDC和Chunk Server的实现，做到一个IO请求在物理机上只用一个线程完成所有工作，避免锁和上下文切换

下面详细介绍一下这几个机制的设计。

IO路径上的各层cache与写IO的几种模式探索

从应用发出请求到数据写入磁盘的路径上有三层cache，依次是应用程序的user cache（如MySQL buffer pool）、操作系统的缓存（如Linux page cache）、以及存储硬件的cache（如磁盘的缓存）。

由此可以引申出如下几种写IO的模式：

buffer write，写入目标是guest OS的page cache，通过writeback刷到硬盘的缓存，然后再通过自动刷或者sync命令触发的方式刷到持久化存储介质上。这种写方案的速度很快，缺点是数据完整性无法得到严密保证（取决于回写的策略），而且回写有可能引起阻塞而影响服务质量
direct write，从应用直接写到硬件上的缓存，绕过操作系统的page cache。比如MySQL引擎自己有缓存机制，就可以使用direct write写到硬盘缓存然后再通过sync命令刷到下面的存储介质。绕过page cache的好处是避开了回写的影响，但数据仍然不是绝对可靠，sync完毕之前数据仍然是不安全的
write+sync，写入page cache的同时即调用sync/fsync直接写到存储介质，sync返回算成功。此方式的好处是数据足够安全，缺点是慢，具体等待时间随着操作系统内存使用情况的不同而不同
O_SYNC，加了此标签的写入操作会在数据写入硬盘缓存时同步刷到碟片上

以上就是系统提供的几种机制。以本地SAS盘作为参考，在虚拟机中以4k的块大小做dd的写入速度，buffer write平均在212MB/s，direct write平均在68MB/s，而direct+sync则平均在257kB/s。实际应用中可以根据不同情况、不同应用选择不同的方式，一般来说buffer write和direct write是主流，两者加起来占据了97%的写操作。

云计算环境中的IO

以上分析的是本地的情况，写入的目标是本地的硬盘缓存与存储介质。那么在云计算环境中，我们不仅可以选择本地，还可以有分布式存储。分布式存储相当于本地的存储介质，我们目前的思路是在其上加一层分布式缓存系统作为本地硬盘缓存的替代。相当于整个写IO路径在云计算环境中变成了：

VM SYNC->PV前端FLUSH->后端->host->cache系统->分布式存储系统

为了确保数据完整性，我们的语义全部符合POSIX，将语义由以上路径从VM透传IO全链路。

cache系统的效果

我们用以下指令对ECS的写性能进行测试：

 ./fio -direct=1 -iodepth=1 -rw=randwrite -ioengine=libaio -bs=16k -numjobs=2 -runtime=30 -group_reporting -size=30G -name=/mnt/test30G

在iodepth=1的状态，纯SATA分布式存储只有200左右的iops，平均延时在8ms，抖动幅度（标准方差）达到7ms。

加入SSD cache系统之后，iops提升到600左右，平均延时降低到3ms，抖动幅度降低至2ms左右。

 ./fio -direct=1 -iodepth=8 -rw=randwrite -ioengine=libaio -bs=16k -numjobs=2 -runtime=30 -group_reporting -size=30G -name=/mnt/test30G

增加iodepth到8的状态，纯SATA分布式存储的iops提升至2100左右，平均延时在7ms，抖动幅度依然是7ms左右。

加入SSD cache之后，iops提升到2900左右，平均延时在5ms左右，抖动幅度约为1ms。

以上是cache方案的两点好处：

加速写请求。未来我们也会加入对读请求的加速
降低分布式存储系统的抖动对上层应用的影响。这种抖动在高并发的情况对延时的影响相当大，Google的Jeff Dean于2013年2月发表于CACM上的The Tail at Scale一文详细描述了这个影响：“如果有1%的概率请求延迟超过1S，并发100个请求，然后等待所有请求返回，延时超过1S的概率为63%”

ECS不同的存储选择

目前在ECS上可以有几种实例选择：背后是纯SATA存储集群的实例，适合大部分应用；对于IO性能要求更高的应用可以选择混合存储集群；我们未来还会推出性能更高的纯SSD集群，预计将在11月/12月推出，目前的测试数据是物理机chunk server可以做到最高18万的iops，虚机上可以把万兆跑满，iops在9万左右，目前的问题就是跑满的状态需要消耗6颗HT CPU，这一部分还有待优化。

另外，对于Hadoop、HBase、MongoDB这样本身已经考虑了3副本的系统，阿里云还提供了SATA本地磁盘和SSD本地磁盘的ECS，减少不必要的冗余以降低成本。

以上就是我们对云服务器产品ECS的一些优化工作。云服务器理论上可以用来跑任何东西，但是通用的方案不适合做所有的事情。因此，阿里云同时提供了一些细分产品，在特定应用场景下将取舍做到极致——

SLB、RDS与OCS

SLB是阿里云的负载均衡产品，提供了4层的（基于LVS）和7层的（基于Tengine），支持等价路由和Anycast跨机房容灾，同时具备防攻击的特性。一台12物理核机器的SLB的正常转发性能在1200万左右的pps，心跳可以做几千台；而同等配置的ECS（千兆网络）的转发性能只有70万左右的pps，心跳也只能做两台。

RDS是阿里云的数据库服务，跑在物理机上（而非虚拟机）。RDS数据通道采用标准的三层架构，每层都做到机房和部件冗余，无状态设计；中间层提供了安全防护、流量调度和桥接的功能，管理通道以元数据库（MySQL）为中心，消息驱动，各组件异步通信，无状态支持热升级，一个控制系统下可以管理数万个MySQL实例。RDS依赖于很多其他团队开发的组件，包括用SLB做负载均衡，接ODPS做过滤分析，SLS做日志收集，OSS做备份，OAS做冷数据的备份，用精卫做分表，以及全链路的控制系统和组件监控。同等配置下，RDS的tps要比ECS高两、三倍。

OCS是阿里云的缓存服务，基于Tair搭建，前面的Proxy负责了安全访问控制、QoS、流控的工作。OCS目前是一个集群都在一个机房，可随时扩容，对用户提供了全面的监控数据和图形展示。性能方面，OCS上目前99%的请求都做到了2ms以内响应，去年双十一，整个OCS集群的能力做到了一秒内可处理一亿个请求。同等配置下，OCS的成本要比ECS上自建Memcached便宜一半。

全链路监控与分析系统

监控分析系统目前在RDS上用的比较重。坦白讲去年RDS遇到很多问题，很大一部分问题就是闪断：背后的机器故障时，MySQL实例会迁移，这时候如果客户端的应用做得好，应用会自动发起重连的请求，保持原先的连接，但很多应用做的时候并没有考虑这个问题。那时候很多游戏厂商遇到这个问题，让他们改程序也很困难，不可能一个一个帮助他们优化，所以就需要后端帮他们的实例做保持连接和重连的工作。

所以我们建立起全链路的监控，收集所有的SQL日志、网络行为和用户行为，注入到一个Kafka集群，然后用JStorm和Spark做实时分析，ODPS做离线分析。目前每天的SQL日志语句的量级在几十个T，可以在秒级发现问题，比如发现请求慢了，则会给用户提醒是否没有建索引，而网络异常、连接中断的情况则会及时报警。

目前这套系统先用在RDS上，未来各个云产品需要将自己的异常分析都抽象出来注入到这个系统当中，完成全产品线的全链路监控。

未来工作展望

首先，ECS上全路径IO还需要持续优化，力求在全国、全球做到最好的性能。这涉及到Cache策略的优化，带SSD的读写缓存，存储与计算分离，万兆纯SSD集群，动态热点迁移技术，GPU支持，LXC/cgroups支持等。比如纯SSD的集群，iops已经挖掘的很高的情况，如何降低CPU消耗？Cache现在为了快速，往下刷的频率是比较高的，这方面的策略能否优化，做批量刷？以前部署的SATA集群，是否都加上SSD缓存？如果本地缓存的命中率在90%以上，是否可以做计算节点和存储节点分离，这样可以让计算和存储按自己的需求发展。未来实现动态的热点迁移，可以在云计算上要实现更高的超配，当一台物理机发生比较忙的情况下，系统能自动将一些实例迁移到比较闲的机器上。目前淘宝的聚石塔、阿里小贷都已经在阿里云，未来会将淘宝无缝迁移到云平台上并降低成本，这些都是ECS上未来需要做的工作。

RDS方面，目前支持MySQL和SQL Server，计划加入PostgreSQL以方便Oracle用户往这边迁移。容灾方面，目前是双机房容灾，成本还比较高，是否可以通过非常高速的非易失性网络存储来存储redo log，容量不需要大，数据存储在分布式文件系统，做一个低成本的RDS方案，只是用户需要容忍几十秒的MySQL实例宕机重启的时间？这需要架构师做取舍，看我们要放弃一些什么以得到一些东西。

另外，全链路的监控与分析系统，我们也需要进一步应用到全线云产品之上。未来还会推出更多的云产品，包括无线网络加速、 AliBench服务质量监测（目前在内部使用）、OCR识别服务、深度学习的CNN/DNN计算服务等。

华为仓颉编程语言与医疗领域的深度融合：技术与实践想成为高手499 华为人工智能服务器
引言在数字化浪潮席卷全球的背景下，医疗行业的智能化转型已成为一种不可逆的趋势。从电子病历（EMR）、医疗影像分析，到远程手术和个性化健康管理，技术创新正在不断推动医疗领域的变革。然而，这一过程对底层技术提出了更高的要求：高效的计算性能、强大的硬件适配性、分布式计算能力以及生态系统的支持。华为推出的自研编程语言仓颉（Cangjie）正是在此背景下应运而生。仓颉语言以其高效、灵活和强大的硬件整合能力，
当现代教育技术遇上仓颉---探秘华为仓颉编程语言与未来教育技术的接轨想成为高手499 华为服务器 php
引言随着人工智能、物联网、区块链等新兴技术的发展，编程语言的需求也在不断演化。据市场研究机构发布的数据显示，全球编程语言市场规模预计在未来五年内将以每年10%的速度增长。此外，越来越多的企业和高校正在积极推动基于分布式系统和硬件优化的新型语言开发，这进一步表明对高性能编程语言的需求日益旺盛。近年来，华为推出了自研编程语言“仓颉”，以其高效的语法设计、灵活的语义表达能力和强大的跨平台适配性能引发了编
学习使用 Git 和 GitHub 开发项目的教程推荐 vortex5 学习 git github
Git和GitHub是现代软件开发中不可或缺的工具，无论你是个人开发者还是团队成员，掌握它们都能极大提升效率。本文精选了一系列优质教程资源，涵盖从基本Git命令到进阶多人协作的内容。这些教程既有文字形式，也有视频或交互式资源，适合不同学习风格的人。一、为何要学习Git和GitHub？Git是一个分布式版本控制系统，让你追踪代码变更、回滚错误并与他人协作；GitHub则将其扩展为一个云端平台，支持代
Kafka集群部署实战 Gold Steps. 技术博文分享 kafka 分布式
服务背景ApacheKafka作为分布式流处理平台，在金融交易系统、物联网数据处理、实时日志分析等场景中发挥关键作用。某电商平台日均处理订单消息1.2亿条，峰值QPS达5万，采用Kafka集群实现订单状态流转、用户行为追踪和库存同步等功能。以下是经过生产验证的集群部署方案及典型故障处理经验。集群运维最佳实践1.容量规划建议指标推荐值监控阈值分区数量/Broker≤4000≥3500告警副本同步延迟
腾讯云与阿里云，哪个更好些？云计算开发者小李阿里云腾讯云
借用一部电视剧的名字：都挺好！根据IDC最新的数据统计显示，国内前二的云计算平台分别是阿里云、腾讯云，分别背靠阿里、腾讯两大互联网集团，接下来我们就简单的介绍下两大平台。阿里云：国内最早成立的云计算平台，并且一开始就是独立运营，马爸爸宣称每年投入10亿，连续投入10年，最终阿里云的发展没有让阿里人失望，目前已成长为超千亿美元的独角兽，阿里云也由最早的带有明显淘系特色的云平台成长为综合性的云计算平台
Node.js 中使用 RabbitMQ 海上彼尚 node.js node.js rabbitmq 分布式
目录一、RabbitMQ简介二、核心概念解析三、环境搭建（以Ubuntu为例）四、Node.js实战：生产者与消费者1.安装依赖2.生产者代码（发送消息）3.消费者代码（处理消息）五、高级配置与最佳实践六、常见问题与解决方案七、总结一、RabbitMQ简介RabbitMQ是一个基于AMQP协议的开源消息代理工具，专为分布式系统设计。它通过解耦生产者和消费者实现异步通信，支持流量削峰、任务队列、服务
Java面试八股之Redis集群Cluster 天哥不爱学习 Java面试八股文 java 面试 redis
Redis集群ClusterRedisCluster是一种基于数据分片（Sharding）的分布式缓存和存储系统，它实现了数据的水平扩展、高可用性和自动故障转移。以下是对RedisCluster模式详细实现流程的描述：1.初始化与配置部署节点：在不同的服务器上部署多个Redis节点，每个节点既可以作为主节点也可以作为从节点。配置集群模式：为每个节点启用Cluster模式，指定Cluster所需的端
鸿蒙API14开发【@ohos.account.distributedAccount (分布式账号管理)】短距通信服务移动开发技术栈鸿蒙开发 harmonyos 分布式华为鸿蒙系统鸿蒙通信
本模块提供管理分布式账号的一些基础功能，主要包括查询和更新账号登录状态。说明本模块首批接口从APIversion7开始支持。后续版本的新增接口，采用上角标单独标记接口的起始版本。导入模块import{distributedAccount}from'@kit.BasicServicesKit';distributedAccount.getDistributedAccountAbilitygetDis
python3实现爬取淘宝页面的商品的数据信息（selenium+pyquery+mongodb） flood_d mongodb python selenium pyquery 爬虫
1.环境须知做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库，还需要安装MongoDB这个分布式数据库。2.直接上代码spider.pyimportrefromconfigimport*importpymongofromseleniumimportwebdriverfromselenium.common.exceptionsimportT
Fastdfs-V5.11使用docker部署集群(X86) 礁之 Linux系列 dfs java docker
文章目录一、Fastdfs介绍二、部署信息三、步骤tracker/storage机器的compose内容storage机器的composetracker与storage启动目录层级与配置文件client.confstorage.conf查看集群信息测试测试集群扩容与缩减nginx配置一、Fastdfs介绍FastDFS是一款高性能的分布式文件系统，特别适合用于存储和管理大量的文件二、部署信息使用d
基于Docker 搭建Redis三主三从分布式集群 DBA学习之路 docker redis 容器
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、分布式系统规划二、准备配置文件1.创建redis集群目录三、启动Redis容器四、创建分布式系统1.创建集群2.查看节点信息总结前言提示：这里可以添加本文要记录的大概内容：本次搭建的为”三主三从“的分布式系统，分布式系统中节点存放的数据可以是不同的。当有数据写入请求到达分布式系统后，系统会采用虚拟槽分区算法将数据写入相
《Linux运维总结：基于银河麒麟V10+ARM64架构部署多机elasticsearch7.17.21分布式集群+单机kibana7.17.21二进制版ssl集群》东城绝神《Linux运维实战总结》运维 linux elasticsearch ssl
总结：整理不易，如果对你有帮助，可否点赞关注一下？更多详细内容请参考：Linux运维实战总结一、背景elasticsearch是一个分布式、实时、高性能的搜索和分析引擎，它广泛应用于企业级搜索、日志分析、实时数据处理等领域。随着elasticsearch的广泛应用，安全性变得越来越重要。这里将从安全策略和访问控制两方面来部署elasticsearch集群安全策略涉及到数据安全、访问安全和操作安全等
Rocky Linux安装部署Elasticsearch（ELK日志服务器）_rockylinux elk 2401_83739411 程序员服务器 linux elasticsearch
一、Elasticsearch的简介Elasticsearch是一个强大的开源搜索和分析引擎，可用于实时处理和查询大量数据。它具有高性能、可扩展性和分布式特性，支持全文搜索、聚合分析、地理空间搜索等功能，是构建实时应用和大规模数据分析平台的首选工具。二、RockyLinux系统安装链接：VMwareWorkstation下载安装（含秘钥）链接：VMwareWorkstation创建虚拟机链接：Ro
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
【Apache Storm】茉菇 apache storm 大数据
一、Storm简介1、概述官网地址：https://storm.apache.org/index.htmlApacheStorm是一个开源的、分布式的实时计算系统，专为处理流式数据而设计。它能够处理大量数据流并在极低的延迟下提供实时的结果。相比于传统的批处理系统，Storm具有处理无限数据流的能力，支持非常高的可扩展性和容错机制。Storm可以适用于多种编程语言，具有高度的灵活性。2、核心功能分布
Node.js系列（4）--微服务架构实践一进制ᅟᅠ ‌‍‎‏ Node.js 架构 node.js 微服务
Node.js微服务架构实践引言微服务架构已成为构建大规模Node.js应用的主流选择。本文将深入探讨Node.js微服务架构的设计与实现，包括服务拆分、服务治理、通信机制等方面，帮助开发者构建可扩展的微服务系统。微服务架构概述Node.js微服务架构主要包括以下方面：服务拆分：业务领域划分与服务边界服务治理：服务注册、发现与负载均衡通信机制：同步与异步通信方案数据管理：分布式事务与数据一致性可观
flink从kafka读取数据写入clickhouse本地表的实现 Breatrice_li kafka flink 分布式大数据
实现功能因为直接写clickhouse的分布式表在数据量比较大的时候会有各种问题，所以做了一个flink读取kafka数据然后路由写入到相应的本地表节点，并且关于不同的表的配置信息可以随时更改并设置生效时间。实现流程首先从kafka将数据读取过来然后进行相应的处理及逻辑判断写入到对应的clickhouse表格中最后根据CDC读取来的配置信息进行相应节点的hash路由，直接写入本地表读取kafka数
分布式事务3PC解决了2PC哪些问题？ java干货仓库八股文汇总分布式事务分布式 java 面试
三阶段提交（3PC，Three-PhaseCommit）是对二阶段提交（2PC，Two-PhaseCommit）的改进，旨在解决2PC的一些固有缺陷，特别是在分布式系统中的容错性和性能问题。以下是3PC比2PC更好的原因及其优势的详细分析：1.二阶段提交（2PC）的问题2PC是一种经典的分布式事务协议，分为两个阶段：准备阶段（PreparePhase）：协调者向所有参与者发送准备请求。参与者执行事
思途CMS高并发、高性能、高可用架构设计 php
一、整体架构概述思途CMS采用分层架构设计，整体架构分为客户层、接入层、站点层、数据存储层和缓存层。各层之间通过松耦合的方式协同工作，确保系统在高并发场景下的高性能和高可用性。通过分布式部署、负载均衡、多级缓存等技术手段，思途CMS能够有效应对大规模用户访问，保障系统的稳定性和响应速度。二、各层技术特点及实现方式客户层1.1CDN加速思途CMS支持与主流CDN服务商（如阿里云CDN、腾讯云CDN等
按照时间排序的分布式游标分页像云~ 记录分布式
背景最近有这么一个需求，就是在分页查询的时候，需要返回最近的pagesize条记录，即按照时间倒序的近pagesize条记录。有两个问题：一个就是这些记录来自于不同的存储位置，不能通过一次查询统一排序取数据，而需要分开查询读入，再汇总统一排序另一个就是在进行分页的时候，要保证当前页数据与上一页的连贯性，有点类似刷短视频的瀑布流。即分页查询是统一的，而数据存储是分布式的。方案由于是在高并发的场景下，
企业数据存储的几种方式对比存储
在当今信息化时代，企业常见的数据存储方式包括本地存储、云存储、网络附加存储（NAS）、对象存储等，它们在安全性、扩展性与成本方面各有优势。其中，云存储凭借高弹性、低维护成本等特点备受青睐。它利用网络将数据托管于远程服务器，企业无需自建机房，也能快速扩容并进行全球化部署，极大降低了初期投入成本。这种方式实现了随用随付、自动备份，为众多中小型企业提供了便捷且经济的选择。一、本地存储本地存储是指企业将数
深入探索 dubbo-rpc-jsonrpc：跨语言服务调用的高效桥梁郁铎舒
深入探索dubbo-rpc-jsonrpc：跨语言服务调用的高效桥梁dubbo-rpc-jsonrpcApacheDubbo-rpc-jsonrpc是一个用于ApacheDubbo的JSON-RPC协议实现项目。它提供了一个用于ApacheDubbo的JSON-RPC协议实现库和工具。适合用于在应用程序中处理分布式服务。项目地址:https://gitcode.com/gh_mirrors/dub
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
【etcd】茉菇 etcd 数据库
一、ETCD简介etcd是一个由CoreOS团队开发的开源项目，旨在提供一个高可用的、分布式的、一致的键值存储，用于配置共享和服务发现。尽管它看起来像一个键值存储，但etcd的设计目标远远超出了传统数据库的功能范围。etcd的核心特性包括：高可用性和容错性：etcd使用Raft共识算法来确保数据的一致性和服务的高可用性。这意味着即使集群中的某些节点出现故障，etcd也能继续提供服务，并保证数据的一
Apache Storm实时流处理的核心技术 Hello.Reader 大数据 apache storm 大数据
1.引言ApacheStorm是一个开源的、分布式的实时计算系统，专为处理流式数据而设计。它能够处理大量数据流并在极低的延迟下提供实时的结果。相比于传统的批处理系统，Storm具有处理无限数据流的能力，支持非常高的可扩展性和容错机制。Storm可以适用于多种编程语言，具有高度的灵活性。1.1什么是ApacheStorm？ApacheStorm是一个流处理引擎，它可以持续处理不断到来的数据流（str
使用 DingoDB 创建自查询检索器的实战演示 fgayif python
DingoDB深入解析与实战演示DingoDB是一种分布式多模向量数据库，它结合了数据湖和向量数据库的特点，能够存储任何类型和大小的数据（如Key-Value、PDF、音频、视频等）。它具有实时低延迟处理能力，可以快速获取洞察并响应，还能高效进行即时分析和处理多模数据。在本教程中，我们将演示如何使用DingoDB向量存储来创建一个自查询检索器。技术背景介绍DingoDB的设计结合了数据湖的灵活性和
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
Spring Boot 整合 Elasticsearch 实践：从入门到上手遇见伯灵说 mysql Spring elasticsearch jenkins springboot
引言Elasticsearch是一个开源的分布式搜索引擎，广泛用于日志分析、搜索引擎、数据分析等场景。本文将带你通过一步步的教程，在SpringBoot项目中整合Elasticsearch，轻松实现数据存储与查询。1.创建SpringBoot项目首先，你需要创建一个SpringBoot项目。如果你还没有创建，可以使用SpringInitializr快速生成一个项目。在生成项目时，确保选择了以下依赖
面试官问：什么是分布式定时任务调度？鸡米花不花 java 分布式分布式数据库网络协议 java
任务调度的背景在业务系统中有很多这样的场景：1、账单日或者还款日上午10点，给每个信用卡客户发送账单通知，还款通知。如何判断客户的账单日、还款日，完成通知的发送？2、银行业务系统，夜间要完成跑批的一系列流程，清理数据，下载文件，解析文件，对账清算、切换结算日期等等。如何触发一系列流程的执行？3、金融机构跟人民银行二代支付系统对接，人民银行要求低于5W的金额（小额支付）半个小时打一次包发送，以缓解并
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓