数栈DTinsight

数栈技术大牛分享：云原生大数据系统架构的实践和思考

ArchSummit2021年全球架构师峰会于4月25日-26日在上海举办，袋鼠云运维开发技术专家沙章利（花名：浣熊）应邀出席此次峰会，并在4月26日下午的《弹性架构实践》专题会场上为大家带来《弹性云原生大数据系统架构实践》的演讲。本次演讲主要介绍袋鼠云基于数栈、结合数年大数据基础设施建设经验，打造云环境下的大数据基础设施的实践和案例，部分架构细节首次对外公布，以下内容整理自本次架构峰会。

大家好，我是来自袋鼠云的浣熊，感谢这次会议的讲师们给我们带来了云原生技术应用的分享，感觉又打开了几个新脉门，解锁了新的武魂。在接下来的分享中，希望大家跟着我们的实践案例做一些探索性的思考。

首先我们快速回顾下大数据技术的发展，然后重点给大家分享我们最近几年做的一些系统云化架构，最后再做个回归总结，希望能给大家带去有价值的思考。

大数据技术的发展

大数据技术的发展史也是大数据架构的发展史。

云原生大数据技术是否是新一代大数据处理技术？

1964年，IBM发布了System360，这是计算机发展史上的里程碑事件，System360上配备的磁盘驱动器(DASD)加速了数据库管理系统（DBMS）和关系型数据库的发展，DBMS和关系型数据库的出现使数据处理的效率大大提升，一些规模较大的银行、航空公司开始引入数据库软件处理业务数据，这可以追溯为第一代(大)数据处理技术。

随着全球经济的快速发展，需要处理的数据量也越来越大，单处理架构已经无法满足数据处理需求，有问题就有解决方案，针对这个问题美国Teradata公司推出了并行计算的架构，就是我们今天常说的MPP架构，在MPP架构的技术基础上，Teradata的数据仓库建设技术不断发展，在与当时的巨头IBM的激烈竞争之下，Teradata依托沃尔玛建设了当时世界上最大规模的数仓。这一代技术的关键词我们总结为MPP+数据仓库。

Hadoop生态的出现多少有点意外（眼前一亮），Hadoop、HDFS及其开源生态圈可以使用更低廉的X86机器，通过快速横向扩容的方式就能满足PB级别数据处理的需求。十多年的时间，从Hadoop（MapReduce）到Spark、Flink等，开源生态的计算框架不断演进，基于内存的Spark、Flink计算架构已经与具体的存储解耦，奠定了开源生态大数据系统计算与存储分离架构的基础，我们把开源生态这一系列看作是新一代大数据技术。

在云计算红利的推动下，大数据系统上云是必然的趋势，Teradata在2016年把自己的数据仓库搬到了公有云上，AWS也在2014年上架了数据仓库型产品Redshift，阿里云上的MaxCompute（早期叫ODPS）是国内云上高性能并行大数据处理技术的里程碑。

去年9月份Snowflake的上市，把云原生数据仓库的话题推上了风口，公有云厂商开始从自家云产品的角度做出对云原生数据库、数据仓库、大数据平台等的解答。相比较前几代大数据处理技术，云原生大数据处理技术是否能称为新一代大数据处理技术呢？带着这个问题，我们来看下在大数据系统云化方面我们的一些架构实践。

大数据系统云化实践

公有云上的大数据产品已经发展成熟，由于社区发展成熟、技术自主可控等特点，开源生态大数据体系已经在国内外头部公有云平台上先后上架，各家公有云厂商配套上架了成熟的数据开发套件。

经过了数年大大小小生产级实践检验，直接选型公有云大数据产品，即可享受按需创建、秒级弹扩、运维托管和海量的大数据处理能力。然而由于种种限制，一些传统大型企业、金融行业等的核心业务并没有到公有云上。各行业在追求云计算红利的进程中，又希望把更多的业务系统上云。在这种冲突下，私有云和混合云得到不断发展，这类云上的产品形态也日渐丰富，已经由早期的ECS自由逐渐发展成中间件自由。

大数据时代，大数据处理和分析是企业的共性需求，以批处理和流处理为代表的数据处理平台逐渐下沉为企业的大数据基础设施，若能实现大数据基础设施自由，即实现大数系统的按需创建、按需扩缩、运维托管，即可为企业内和行业客户提供快速可复制的大数据处理能力。

开源大数据处理系统以复杂著称，以数栈为例，底层的存算层兼容主流的Hadoop发行版，中间的的计算层可开放集成主流的批流、算法、图计算框架，既支持传统的MapReduce计算框架，也支持存算解耦的内存计算框架，上层应用层建立在数据共享、数据资产管理、数据可视化管理等核心数据应用之上。

在VM/PM环境下，部署和运维这样一套大数据基础设施系统，也不是一件容易的事情，早期需要我们1-2名中高级实施工程师，连续1-2周时间，才能完成这样一套系统的部署和调试。如何实现整套系统的云上自动化交付，成为我们系统云化架构的第一个目标，即实现大数系统的云上体验、按需创建。

1、第一套云化架构

第一目标达成关键是云化部署架构和自动化部署技术。

1）首先要考量的是云化模式，模式的不同如共享模式、独享模式等，将直接影响云化部署架构。

共享模式下一般以多租户的方式支持，一个机构共享一套基础设施，套内共享存储、计算和数据应用，资源之间以多租户的方式进行逻辑隔离，共享模式的优点是部署简单，缺点是租户间资源会相互抢占。

独享模式的隔离性会更好，但是按需创建的自动化部署技术是个难点。

2）第二个要考量的是公共系统对接，例如对接IaaS获取动态IaaS资源，对接用户、升级、监控、计费等公共模块，这部分不多说。

3）第三要考虑云环境下的网络环境，比如管理网（underlay）和VPC（overlay）网络划分情况，网络访问策略在制定部署架构前需要清晰。

4）最后也是最重要的，在环境准备好之后，如何高效的完成系统的自动化部署、服务发现、健康检查、监控数据接入等就比较关键了。

为完成系统的自动化部署和监控运维，从2018年开始，我们自研了部署运维管家EasyManager（以下简称EM），EM的核心能力之一是实现对资源的管理和服务的编排、管控。

把EM的Agent和服务编排模版打进系统镜像是自动化部署的最佳实践，VM启动的过程就是服务启动的过程，服务启动后自动注册至EM-Agent-Server，上层管理网络通过Agent-Server以服务的粒度实现对系统服务的管控，同时基于自动的服务发现机制，配套实施监控数据自动采集汇总、供查。

系统自动部署起来后，在独享模式下，为实现动态集群（实例系统）的访问，我们引入Traefik来解决动态代理问题，Traefik是一个不错的免开候选，Traefik支持从Zookeeper、Redis等配置中心动态加载路由配置，自动化部署模块拿到集群（实例系统）地址信息后写入配置中心，Traefik热加载配置并根据路由规则进行请求转发。结合Traefik动态路由的能力，访问请求可以通过统一的IP或域名进入，经由Traefik根据全局唯一的集群（实例系统）ID进行请求转发。

解决了以上几个关键问题之后，第一目标基本可以达成，配套上订购（创建）页、实例控制台，就完成了大数系统云化架构的第一个实践探索。这个实践的结果是可以实现5-10分钟快速创建一套独享的（云化）大数据系统，且支持在线扩容，基本实现了上云体验、按需创建的系统云化目标。

这套云化架构没有动业务系统本身的架构，容易落地是优点。当然缺点也很明显，首先不是标准化的云化方案，各个依赖系统如IaaS的对接需要根据具体云化环境定制，改造成本高；其次系统上云后的弹性能力并没有得到提升，勉强可以在线扩容，无法实现闲时缩容。基于这两个缺点的考虑，我们尝试了第二个云化架构。

2、第二套云化架构

为实现IaaS层对接标准化，我们做了系统的容器化改造和Kubernetes部署对接，并自研了无状态应用和有状态应用部署Operator。在系统组件全面容器化的基础上，结合一套自定义的Schema，构建面向Kubernetes的制品包，这个制品包可以通过EM一键部署到Kubernetes集群。

为实现系统弹性能力的提升，依托开源社区计算框架对Kubernetes的适配，我们做了产品层的封装，实现了把Spark和Flink的计算任务提交到Kubernetes执行。利用Kubernetes强大的资源管理能力，实现计算资源的弹性扩缩。

这套架构的另一个特点是兼容On Yarn模式，这个点很受企业的欢迎，原因是即能拥抱Kubernetes大法，又能继续使用已有的Hadoop基础设施进行生产，兼容并蓄，领导开心。

这套云化架构可以解决上一套遗留的问题，通过集成Kubernetes，实现对底层IaaS资源对接的标准化，同时提升了计算资源的扩缩能力，理论上是秒级的。当然也产生了新的问题：

计算任务提交至Kubernetes后，计算资源的弹性得到保障，但同时计算真正意义上的远离了数据，这对计算性能是否有不良影响？
计算的弹性解决了，那存储的弹性怎么办？

第二套云化架构上，架构调整的角度已经从部署架构转移到系统架构层面，我们开始调整系统的计算架构，即用Kubernetes代替Yarn作为计算资源管理者，这是在面向云环境做系统架构适配。

在我们进一步考虑存储架构调整的时候，我们重新审视系统云化实践的过程，我们发现我们的实践思路发生了改变，总结下来就是从构建云（云化）到基于云构建的思路转变。大数据系统的弹性能力也是数据的处理能力，从弹性的诉求出发，利用云化或者云原生技术统一管理资源池，实现大数系统产品、计算、存储资源池化，实现全局化、集约化的调度资源, 从而实现降本增效。

我们再回到大数系统云化架构上，产品和计算资源已经可以通过Kubernetes实现资源池化管理，考虑云化环境下实现存储能力的弹性诉求，依托计算框架对底层存储的解耦合，参考对象存储在公有云上的实践经验，我们把底层存储切换成分布式对象存储，这个架构选型上主要考量以下三点：

在私有云环境下，基于OpenStack、Swift、Ceph这些可以提供对象存储服务的开源软件架构已经在生产实践了多年;
开源生态的计算框架兼容对象存储服务；
兼顾数据湖存储选型，然后我们尝试了第三种云化架构。

‍ 云原生技术驱动下的大数系统云化架构演进‍

3、第三套云化架构

为满足存储的弹性和海量存储的需求，我们引入对象存储，为兼容公有云、私有云和现有其他成熟的对象存储服务，同时尽可能提高读写性能，在计算和底层存储之间我们加上一层缓存（选型参考JuiceFS、Alluxio）。其中存储层，在公有云环境上直接选型公有云的对象存储，在私有云环境下选型OpenStack Swift、Ceph、MinIO等成熟的开源方案。

这套架构重点是从存储的角度，尝试改造系统的存储架构，同时兼容现有的HDFS存储，相比之下更适合在动态的云环境中落地，实现应用、计算、存储三层弹性可扩缩。目前这套架构还在内部性能测试中，如下是们其中一组性能测试数据（大文件词频统计），加上性能和缓存优化后的存储性能符合预期。

总结和展望

参考云原生基金会（CNCF）对云原生的定义，“云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中，构建和运行可弹性扩展的应用”，从定义上看跟我们大数系统云化的需求不谋而合。

利用容器化、服务网格、微服务、声明式API等云原生技术，实现在公有云、私有云和混合云等云化环境下构建和运行弹性可扩展的大数据系统，这是我们对大数据云原生的理解，也是我们拥抱大数据系统云原生的方式。

今天通过三个具体的大数系统云化架构，给大家呈现一个完整的架构过程，希望能给大家带去思考和帮助。然后我们再回到开头那个问题，云原生大数据技术是否是新一代大数据处理技术，相信大家已经有了自己的答案。

每一代大数据技术基本都是为了解决上一代技术存在的问题，云原生的方法论和技术路线契合了大数据系统云化过程中求弹性、求扩展的诉求，对大数据系统云化具有指导和实践意义。当然云原生不是银弹，只有结合自身业务系统的发展诉求，才能更好的享受其带来的红利。

最后做一点展望，由于种种限制和云化技术积累不均衡（公有云的技术积累大于私有云、混合云）等原因，公有云和私有云混合架构场景有待进一步探索和实践。数据湖和大数据云原生的架构呈现一种架构融合的趋势，我们会在云原生的湖仓一体的新型融合架构上做更多的尝试，谢谢大家。

数栈是云原生—站式数据中台PaaS，我们在github和gitee上有一个有趣的开源项目：FlinkX，FlinkX是一个基于Flink的批流统一的数据同步工具，既可以采集静态的数据，也可以采集实时变化的数据，是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star！star！star！

github开源项目：https://github.com/DTStack/flinkx

gitee开源项目：https://gitee.com/dtstack_dev_0/flinkx

新兴技术对 TCP/IP 链路层性能提升的影响研究 wire290 网络
目录软件定义网络（SDN）对链路层性能的优化灵活的流量调度快速的故障恢复网络功能虚拟化（NFV）在链路层的优势体现降低硬件成本与灵活部署提升资源利用率5G技术对链路层的革命性影响超高速率与低延迟传输海量连接支持在数字化时代浪潮中，网络技术日新月异，新兴技术不断涌现。这些技术正逐步渗透到TCP/IP协议栈的各个层面，其中链路层作为网络通信的基础，受到的影响尤为显著。从提升传输速率到增强网络稳定性，新
RabbitMQ相关的面试题努力的搬砖人. java rabbitmq 后端
以下是150道RabbitMQ相关的面试题及简洁回答：RabbitMQ基础概念1.什么是RabbitMQ？RabbitMQ是一个开源的AMQP（高级消息队列协议）实现，用于在分布式系统中进行消息传递和通信。它允许应用程序通过网络发送和接收消息，实现异步处理、解耦合和扩展性。RabbitMQ使用Erlang语言开发，具有高可用性和容错性，适用于各种规模的应用程序。2.RabbitMQ的核心组件有哪些
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
MySQL理论八股的学习记录不吃元西好记性不如烂笔头 mysql 学习数据库
什么是MySQLMySQL是一种关系型数据管理系统数据库三大范式是什么？第一范式（1NF）：要求数据库表的每一列都是不可分割的原子数据项。第二范式（2NF）：在1NF的基础上，非码属性必须完全依赖于候选码（在1NF基础上消除非主属性对主码的部分函数依赖）第二范式需要确保数据库表中的每一列都和主键相关，而不能只与主键的某一部分相关（主要针对联合主键而言）。第三范式（3NF）：在2NF基础上，任何非主
mysql-orchestrator（一）配置与数据交流的路上 mysql Orchestrator mysql 数据库
一、配置orcherstrator的配置涉及到很多的内容，详细可查看官方文档1，官方文档2，下面所说的一些状态的详细解释也可以查看官网1.后端配置让orchestrator知道在哪里可以找到后端数据库。在此设置中，orchestrator将在3000端口上提供HTTP。{"Debug":false,"ListenAddress":":3000",}以MySQl为后端的配置{"MySQLOrches
SpringBoot2.0实战 | 第二十八章：整合SpringSecurity之前后端分离使用JWT实现登录鉴权死牛胖子 #SpringBoot springBoot springSecurity jwt token mybatis
在前面的文章中，我们已经使用token实现前后端分离的系统登录及访问鉴权。第二十四章：整合SpringSecurity之最简登录及方法鉴权第二十五章：整合SpringSecurity之基于数据库实现登录鉴权第二十六章：整合SpringSecurity之前后端分离使用JSON格式交互第二十七章：整合SpringSecurity之前后端分离使用Token实现登录鉴权登录成功后，服务端会生成一个toke
Java程序开发之分布式事务终极方案：Seata原理与实战微风不留尘 java java 分布式 Seata java入门
一、分布式事务挑战与Seata定位1.CAP理论下的事务困境场景一致性要求可用性要求典型方案支付交易强一致性中等SeataAT/TCC订单创建最终一致高消息事务+Saga库存扣减强一致性高TCC+重试补偿2.Seata架构全景图发起全局事务协调分支事务协调分支事务注册分支注册分支全局提交/回滚
MySql数据库等级考试学习分享3（Day8） weixin_53545579 学习数据库 mysql
题目解析题目：以下关于局部变量的叙述中，错误的是（）。选项：A、局部变量只能在BEGIN...END之间声明B、使用SET语句能够为局部变量赋值C、DECLARE能够在声明局部变量的同时指定默认值D、使用SELECTINTO能够将数据表中一列的所有值赋值给局部变量0基础知识点总结1.局部变量（LocalVariables）的定义与特性定义：局部变量是在存储过程、函数或触发器的BEGIN...END
Python+Peewee 中 Model 操作的常见方法爱搬砖的程序猿. python 数据库
Peewee是一个轻量级的PythonORM（对象关系映射）库，它允许开发者使用Python类和对象来与数据库进行交互。在Peewee中，Model是一个核心概念，代表数据库中的一张表，下面详细介绍Peewee中Model操作的常见方法。1.创建表（create_table）该方法用于在数据库中创建与Model类对应的物理表。frompeeweeimport*#连接SQLite数据库db=Sqli
7-3 一元多项式求导分数 20 超级翼小子算法
作者DS课程组设计函数求一元多项式的导数。单位浙江大学输入格式:以指数递降方式输入多项式非零项系数和指数（绝对值均为不超过1000的整数）。数字间以空格分隔。注意：零多项式用00表示。输出格式:以与输入相同的格式输出导数多项式非零项的系数和指数。数字间以空格分隔，但结尾不能有多余空格。输入样例:34-5261-20输出样例:123-10160代码长度限制16KB时间限制400ms内存限制64MB栈
Stable Diffusion 模型具体如何设置参数？壁纸样机神器 stable diffusion 人工智能计算机视觉
基础参数设置随机种子（seed）：设置一个固定的随机种子值，可以确保在相同文本提示下生成相同的图像。如果设置为-1，则每次生成的图像都是随机的。num_inference_steps：控制模型推理的步数。步数越多，生成的图像质量通常越高，但生成时间也会相应增加。通常使用默认值50步，如果需要更快的结果可以减少步数，而更高质量的图像则可以适当增加步数。guidance_scale：用于调整生成图像对
Yashan DB 数据字典不三不四୭ YashanDB 后端开发数据库 oracle
一、概念数据字典是YashanDB用于管理和显示数据库元数据信息的一组系统表、系统视图和动态视图。具体包括：1.系统表•系统表由YashanDB自动维护，包含数据库的元数据信息。•不建议数据库管理员自行修改系统表中的数据，因为这可能会导致数据库的不稳定或错误。2.系统视图•系统视图是基于系统表创建的，用于将元数据信息以更易理解的方式呈现给用户。•系统视图通常以`DBA_`、`ALL_`、`USER
如何使用Navicat连接Oracle数据库 Dawn·张数据库 oracle
如果有人提供了如下数据库连接信息：数据库信息：UserId=mes_stsp;Password=******;DataSource=172.20.1.60:1521/ORCL这表示您需要连接到Oracle数据库。以下是通过Navicat连接Oracle数据库的步骤：1.打开Navicat，新建连接打开Navicat软件，在工具栏中点击“连接”。从下拉列表中选择“Oracle”。2.配置连接信息在弹
CSP-23-2 【非零段划分】 C++满分题解（利用set和vector）德善真好看！ CSP认证 c++stl
【题目描述】A1,A2,⋯,An是一个由n个自然数（非负整数）组成的数组。我们称其中Ai,⋯,Aj是一个非零段，当且仅当以下条件同时满足：1≤i≤j≤n；对于任意的整数k，若i≤k≤j，则Ak>0；i=1或Ai−1=0；j=n或Aj+1=0。下面展示了几个简单的例子：A=[3,1,2,0,0,2,0,4,5,0,2]中的4个非零段依次为[3,1,2]、[2]、[4,5]和[2]；A=[2,3,1,
pandas寻找四分位数及判断离群点 SXxtyz python
importpandasaspdtrain_df=pd.read_csv("train.csv")q1,q3=train_df['price'].quantile([0.25,0.75])iqr=q3-
通过数据库网格架构构建现代分布式数据系统 Navicat中国 Navicat 技术智库数据库架构分布式 navicat 信息可视化 mongodb redis
在当今微服务驱动的世界中，企业在跨分布式系统管理数据方面面临着越来越多的挑战。数据库网格架构已成为应对这些挑战的强大解决方案，它提供了一种与现代应用架构相匹配的分散式数据管理方法。本文将探讨数据库网格架构的工作原理，以及如何使用PostgreSQL和MongoDB等流行数据库实施该架构。究竟什么是数据库网格架构？数据库网格架构是一种分散的数据基础架构管理方法，不同的数据库作为一个有凝聚力的系统协同
新手村：统计量均值、中位数、标准差、四分位数嘉羽很烦机器学习均值算法算法
新手村：统计量均值、中位数、标准差、四分位数统计量定义与讲解统计量定义计算公式示例说明均值数据集中的所有数值之和除以数值的个数。Mean=∑i=1nxin\text{Mean}=\frac{\sum_{i=1}^{n}x_i}{n}Mean=n∑i=1nxi对于数据集[1,2,3,4,5]，均值为(1+2+3+4+5)/5=3(1+2+3+4+5)/5=3(1+2+3+4+5)/5=3中位数将数据
【NLP】 3. Distributional Similarity in NLP（分布式相似性） pen-ai NLP 机器学习自然语言处理分布式人工智能
DistributionalSimilarityinNLP（分布式相似性）分布式相似性（DistributionalSimilarity）是自然语言处理（NLP）中的核心概念，基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性，广泛应用于词向量、信息检索、文本分类等任务。1.分布式假设（DistributionalHypothesis）分布式相似性基于以下假设：“Yoush
Free QWQ - 世界首个免费无限制分布式 QwQ API 安替-AnTi 大模型理论&实战指南开源大模型 qwen 分布式免费
文章目录简介截图网址/二维码介绍/推荐语核心特点使用方式技术栈简介一句话简介：基于QwQ32B大语言模型的完全免费、无限制、无需注册登录的分布式AI算力平台。截图网址/二维码官方网站：https://qwq.aigpu.cn介绍/推荐语FreeQWQ是世界上第一个完全免费、无限制的分布式AI算力平台，基于阿里最新开源的QwQ32B大语言模型提供强大的AI服务。通过创新的分布式算力架构，整合了来自全
MySQL知识点梅塔文·欧帕西安卡琼 MySQL mysql
什么是SQL注入？SQL注入就是在用户输入的字符串中加入SQL语句，如果在设计不良的程序中忽略了检查，那么这些注入进去的SQL语句就会被数据库服务器误认为是正常的SQL语句而运行，攻击者就可以执行计划外的命令或访问未被授权的数据。SQL注入的原理SQL注入的原理主要有以下4点：1.恶意拼接查询我们知道，SQL语句可以查询、插入、更新和删除数据，且使用分号来分隔不同的命令。例如：SELECT*FRO
如何实现自动备份 MySQL 数据库：脚本编写与部署指南 *才华有限公司* 数据库 mysql
引言在远程部署的时候，数据备份是确保业务连续性和数据安全的关键步骤。对于使用MySQL数据库的系统，定期备份数据库是必不可少的。本文将详细介绍如何编写一个Bash脚本，实现自动备份MySQL数据库，并将其部署到远程服务器上。1.需求分析在开始编写脚本之前，我们需要明确以下需求：备份频率：每周二备份一次。备份文件存储：备份文件需要按日期存储，且不删除之前的备份数据。自动化运行：脚本需要通过cron任
如何进行OceanBase 运维工具的部署和表性能优化呢? oceanbase
随着OceanBase数据库应用的日益深入，数据量不断攀升，单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此，部署专门的运维工具、实施针对性的表性能优化策略，以及加强指标监测工作，都变得更为重要。以下为基于我们的使用场景，所采取的一些部署和优化措施分享。一、OCP部署升级1．OCP升级（1）4.2.1BP1升级到4.2.2，本来以为毫无波澜但是下载完毕一键包并完成前期准备工作启动后发现无
《java性能调优》2.Stream如何提高遍历集合效率 just_one_wk java性能调优
在Java8中，Collection新增了两个流方法，分别是Stream()和parallelStream()。什么是Stream？在Java8之前，我们通常是通过for循环或者Iterator迭代来重新排序合并数据，又或者通过重新定义Collections.sorts的Comparator方法来实现，这两种方式对于大数据量系统来说，效率并不是很理想。Java8中添加了一个新的接口类Stream，
Java开发第一坑：记一次MySQL ON DUPLICATE KEY UPDATE影响行数异常排查：从现象到解决的全过程猿享天开 java mysql 开发语言
记一次MySQLONDUPLICATEKEYUPDATE影响行数异常排查：从现象到解决的全过程一、问题现象：神秘的计数器异常由于学习JAVA开发时间不长，也没有进行系统性学习，由于项目需要就草草的开始了程序开发，在开发医疗影像归档系统时，归档患者影像时需要自动根据数据库操作后的返回值判断是新增插入数据，还是更新数据，但由于返回的影响行数不准确，比如插入1条新数据、更新一条数据或未变化，返回的影响行
【赵渝强老师】达梦数据库的归档模式数据库信创
达梦数据库的备份与恢复都需要使用到重做日志文件。在默认的情况下，达梦数据库采用的非归档模式。通过执行下面的语句可以查看当前数据库实例的日志模式。SQL>selectarch_modefromv$database;#输出的信息如下：行号ARCH_MODE-------------------1N#提示：这里输出的N表示的是非归档模式。由于在非归档模式下，重做日志文件会发生覆盖的情况，从而造成数据的丢
cursor全栈网页开发最合适的技术架构和开发语言 getapi 架构开发语言
在使用Cursor（一个基于AI的代码编辑器）进行前后端全栈网页开发时，选择合适的技术架构和开发语言非常重要。以下是一个推荐的技术架构和语言组合，能够帮助你高效开发并充分利用Cursor的功能。1.技术架构推荐对于全栈开发，建议采用MERN/MEAN技术栈或现代化的微前端架构，具体如下：(1)MERN技术栈MERN是MongoDB、Express.js、React和Node.js的缩写，是目前非常
应用层之网络应用模型，HTTP/HTTPS协议 @ANONYME http https 网络协议 p2p
应用层是网络协议栈的最顶层，直接为应用程序提供通信服务，定义了不同主机间应用进程交互的规则，包括报文类型、语法、语义及通信时序一、网络应用模型1.定义及特点模型定义核心特点典型应用场景C/S客户端向服务器发起请求，服务器集中处理并响应资源，依赖中心化架构1.角色明确（客户端与服务器分离）2.资源集中在服务器端3.依赖网络稳定性与服务器性能4.易于管理和维护Web服务（HTTP）、邮件系统（SMTP
MATAB学习笔记2 好大一口果汁 MATLAB 学习笔记算法
1.多项式拟合>>p=polyfit(DateNum,Pclose,1);%多项式拟合>>value=p(1)%将斜率赋值给value，作为股票的价值value=0.1212代码分析：%后面的内容是注释，ployfit（）有三个参数，第三个参数表示多项式的阶数，也就是最高次数。比如：第三个参数为1，说明为1次项，即一次函数，第三个参数为你要拟合的阶数，一阶直线拟合，二阶抛物线拟合，并非阶次越高越好
PostgreSQL数据库怎么生成一个随机的UUID chen2017sheng 经验总结数据库 postgresql
如果需要在pg数据库中生成UUID做表的主键该如何实现，有两种方法：方法一：使用pgcrypto扩展的pg_random_uuid()函数要在PostgreSQL中使用pg_random_uuid()函数，你需要首先确保pgcrypto扩展已经被安装在你的数据库中，并且对于你想要使用它的数据库（或schema）已经启用了这个扩展。以下是如何启用pgcrypto扩展的步骤：登录到PostgreSQL
elasticsearch 横向扩展-添加节点 yp2800 elasticsearch elasticsearch
ELKELK运维都会接触到，是一个分布式日志收集平台。logstash收集数据写到elasticsearch里，kibana从elasticsearch里读取数据。数据在elasticsearch里可以被检索，各种查询api,数据聚合等，功能很强大，不多说。environments目前现状：os:centos6.6elasticsearch:2.4cpu:8mem:48disk:8Tindex:4
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

数栈技术大牛分享：云原生大数据系统架构的实践和思考

大数据技术的发展

大数据系统云化实践

总结和展望

你可能感兴趣的:(数栈精品技术文章,数据库,大数据,hadoop,分布式,云原生)