罗西的思考

[业界方案] ClickHouse业界方案学习笔记

文章目录

[业界方案] ClickHouse业界方案学习笔记
- 0x00 摘要
- 0x01 简介
- 0x02 OLAP场景的特点
- 0x03 选型原因
- - 携程选型原因
  - 头条选型原因
- 0x04 技术特点
- 0x05 多
- - 数据Sharding
  - 数据Partitioning
  - 高吞吐写入能力
  - 支持数据复制和数据完整性
- 0x06 快
- - 列式存储
  - 主键索引
  - 稀疏索引
  - 实时数据更新
  - 支持近似计算
  - 多核并行
  - 向量化执行与SIMD
  - 分布式计算
  - 数据Sharding
- 0x07 好
- - 复杂数据类型支持
  - 主备同步
  - 支持数据复制和数据完整性
  - 功能多
  - 稳定性更高，运维成本更低
- 0x08 省
- - 列式存储
  - 数据TTL
  - 有限支持delete、update
  - 动态代码生成Runtime Codegen
- 0x09 独立
- 0x10 ClickHouse 的缺点
- 0x11 下一步发展
- 0xFF 参考

0x00 摘要

本文通过分析总结几篇文章来看目前工业界可能偏好的ClickHouse解决方案。学习目的是：大致知道其应用领域，技术特点和未来方向，看看目前工作中是否可以用到，或者当以后选型时候能够做到心里有数。

0x01 简介

ClickHouse是近年来备受关注的开源列式数据库，主要用于数据分析（OLAP）领域。

目前国内社区火热，各个大厂纷纷跟进大规模使用：

今日头条用ClickHouse来做用户行为分析，一共几千个ClickHouse节点，单集群最大1200节点，总数据量几十PB，日增原始数据300TB左右。
腾讯内部用ClickHouse做游戏数据分析，并且为之建立了一整套监控运维体系。
携程目前80%的业务都跑在ClickHouse上。每天数据增量十多亿，近百万次查询请求。
快手内部也在使用ClickHouse，存储总量大约10PB，每天新增200TB， 90%查询小于3S。
在国外，Yandex内部有数百节点用于做用户点击行为分析，CloudFlare、Spotify等头部公司也在使用。

0x02 OLAP场景的特点

读多于写，需要尝试从各个角度对数据做挖掘、分析。需要反复试错、不断调整、持续优化，其中数据的读取次数远多于写入次数。要求底层数据库为这个特点做专门设计。
大宽表，读大量行但是少量列，结果集较小
数据批量写入，且数据不更新或少更新
无需事务，数据一致性要求低
灵活多变，不适合预先建模

0x03 选型原因

携程选型原因

尝试过关系型数据库，但千万级表关联数据库基本上不太可能做到秒出
考虑过Sharding，但数据量大，各种成本都很高。
热数据存储到ElasticSearch，但无法跨索引关联，导致不得不做宽表，因为权限，酒店信息会变，所以每次要刷全量数据，不适用于大表更新，维护成本也很高。
Redis键值对存储无法做到实时汇总，
也测试过Presto，GreenPlum，kylin，真正让我们停下来深入研究，不断的扩展使用场景的是ClickHouse。

头条选型原因

产品需求
- 交互式分析能力（in seconds）
- 查询模式多变
- 以大宽表为主
- 数据量大
开源MPP OLAP引擎 - （性能、特点、优质）

0x04 技术特点

ClickHouse从OLAP场景需求出发，定制开发了一套全新的高效列式存储引擎，并且实现了数据有序存储、主键索引、稀疏索引、数据Sharding、数据Partitioning、TTL、主备复制等丰富功能。以上功能共同为ClickHouse极速的分析性能奠定了基础。

从用户角度来说，ClickHouse就是实现了“多快好省，独立”。

快：提供了极致的查询性能
多：支持分布式集群模式，支持高吞吐写入能力
省：以极低的成本存储海量数据
好：提供完善SQL支持，上手十分简单；提供json、map、array等灵活数据类型适配业务快速变化；同时支持近似计算、概率数据结构等应对海量数据处理。
独立：独立于Hadoop技术栈

下面我们逐一介绍。

0x05 多

“多”这个特点具体是由如下具体技术实现来完成的。

数据Sharding

ClickHouse支持单机模式，也支持分布式集群模式。在分布式模式下，ClickHouse会将数据分为多个分片，并且分布到不同节点上。不同的分片策略在应对不同的SQL Pattern时，各有优势。ClickHouse提供了丰富的sharding策略，让业务可以根据实际需求选用。

sharding机制使得ClickHouse可以横向线性拓展，构建大规模分布式集群，从而具备处理海量数据的能力。

数据Partitioning

ClickHouse支持PARTITION BY子句，在建表时可以指定按照任意合法表达式进行数据分区操作。

在partition key上进行分区裁剪，只查询必要的数据。
对partition进行TTL管理，淘汰过期的分区数据。

高吞吐写入能力

ClickHouse采用类LSM Tree的结构，数据写入后定期在后台Compaction。通过类LSM tree的结构，ClickHouse在数据导入时全部是顺序append写，写入后数据段不可更改，在后台compaction时也是多个段merge sort后顺序写回磁盘。顺序写的特性，充分利用了磁盘的吞吐能力，即便在HDD上也有着优异的写入性能。

支持数据复制和数据完整性

ClickHouse 使用异步的多主复制技术。当数据被写入到任何一个可用副本后，系统在后台将数据分发给其他副本。

0x06 快

“ 快”这个特点具体是由如下具体技术实现来完成的。

列式存储

而列存模式下，只需要读取参与计算的列即可，极大的减低了IO cost，加速了查询。
同一列中的数据属于同一类型，压缩效果显著。列存往往有着高达十倍甚至更高的压缩比，更高的压缩比意味着更小的data size，从磁盘中读取相应数据耗时更短。

主键索引

ClickHouse支持主键索引。通过对主键索引进行二分查找，能够直接定位到对应的index granularity，避免了全表扫描从而加速查询。ClickHouse的主键索引并不用于去重，即便primary key相同的行，也可以同时存在于数据库中。

稀疏索引

ClickHouse支持对任意列创建任意数量的稀疏索引。之所以叫稀疏索引，是因为它本质上是对一个完整index granularity（默认8192行）的统计信息，并不会具体记录每一行在文件中的位置。

实时数据更新

ClcikHouse 数据是以增量的方式有序的存储在 MergeTree 中。因此，数据可以持续不断高效的写入到表中，并且写入的过程中不会存在任何加锁的行为。

支持近似计算

ClickHouse 提供各种各样在允许牺牲精度的情况下对查询进行加速的方法

用于近似计算的各类聚合函数，比如，近似估算distinct values、中位数，分位数等多种聚合函数；
基于数据的部分样本进行近似查询，比如，建表DDL支持SAMPLE BY子句，支持对于数据进行抽样处理；
不使用全部的聚合条件，通过随机选择有限个数据聚合条件进行聚合。

多核并行

ClickHouse将数据划分为多个partition，每个partition再进一步划分为多个index granularity，然后通过多个CPU核心分别处理其中的一部分来实现并行数据处理。在这种设计下，单条Query就能利用整机所有CPU。极致的并行处理能力，极大的降低了查询延时。

向量化执行与SIMD

ClickHouse不仅将数据按列存储，而且按列进行计算。ClickHouse实现了向量执行引擎（Vectorized execution engine），对内存中的列式数据，一个batch调用一次SIMD指令（而非每一行调用一次），不仅减少了函数调用次数、降低了cache miss，而且可以充分发挥SIMD指令的并行能力，大幅缩短了计算耗时。向量执行引擎，通常能够带来数倍的性能提升。

分布式计算

除了优秀的单机并行处理能力，ClickHouse还提供了可线性拓展的分布式计算能力。ClickHouse会自动将查询拆解为多个task下发到集群中，然后进行多机并行处理，最后把结果汇聚到一起。

数据Sharding

数据分片，让ClickHouse可以充分利用整个集群的大规模并行计算能力，快速返回查询结果。

0x07 好

“ 好”这个特点具体是由如下具体技术实现来完成的。

复杂数据类型支持

ClickHouse还提供了array、json、tuple、set等复合数据类型，支持业务schema的灵活变更。

主备同步

ClickHouse通过主备复制提供了高可用能力，主备架构下支持无缝升级等运维操作。而且相比于其他系统它的实现有着自己的特色：

1）默认配置下，任何副本都处于active模式，可以对外提供查询服务；

2）可以任意配置副本个数，副本数量可以从0个到任意多个；

3）不同shard可以配置不提供副本个数，用于解决单个shard的查询热点问题；

支持数据复制和数据完整性

ClickHouse 使用异步的多住复制技术。当数据被写入到任何一个可用副本后，系统在后台将数据分发给其他副本。

功能多

- 支持类SQL查询，比ES的DSL更加简单，学习成本更低。

- 支持繁多库函数（例如IP转化，URL分析等，预估计算/HyperLoglog等）

- 支持数据库异地复制部署

稳定性更高，运维成本更低

相比ES，ClickHouse稳定性更高，运维成本更低。

ES中不同的Group负载不均衡，有的Group负载高，会导致写Rejected等问题，需要人工迁移索引；在ClickHouse中通过集群和Shard策略，采用轮询写的方法，可以让数据比较均衡的分布到所有节点。
ES中一个大查询可能导致OOM的问题；ClickHouse通过预设的查询限制，会查询失败，不影响整体的稳定性。
ES需要进行冷热数据分离，每天200T的数据搬迁，稍有不慎就会导致搬迁过程发生问题，一旦搬迁失败，热节点可能很快就会被撑爆，导致一大堆人工维护恢复的工作；ClickHouse按天分partition，一般不需要考虑冷热分离，特殊场景用户确实需要冷热分离的，数据量也会小很多，ClickHouse自带的冷热分离机制就可以很好的解决。

0x08 省

“ 省”这个特点具体是由如下具体技术实现来完成的。

列式存储

而列存模式下，同一列中的数据属于同一类型，压缩效果显著。列存往往有着高达十倍甚至更高的压缩比，节省了大量的存储空间，降低了存储成本。
高压缩比，意味着同等大小的内存能够存放更多数据，系统cache效果更好。

数据TTL

在分析场景中，数据的价值随着时间流逝而不断降低，多数业务出于成本考虑只会保留最近几个月的数据，ClickHouse通过TTL提供了数据生命周期管理的能力。

有限支持delete、update

在分析场景中，删除、更新操作并不是核心需求。ClickHouse没有直接支持delete、update操作，而是变相支持了mutation操作。目前主要限制为删除、更新操作为异步操作，需要后台compation之后才能生效。

动态代码生成Runtime Codegen

ClickHouse实现了Expression级别的runtime codegen，动态地根据当前SQL直接生成代码，然后编译执行。不仅消除了大量的虚函数调用（即图中多个function pointer的调用），而且由于在运行时表达式的参数类型、个数等都是已知的，也消除了不必要的if-else分支判断。

0x09 独立

基于Hadoop而衍生的Hive、Pig、Spark、Presto、Impala等一系列组件共同构成了Hadoop生态体系。Hadoop生态为今天的大数据领域提供着稳定可靠的数据服务。

Hadoop生态体系解决了大数据界的大部分问题，当然其也存在缺点。Hadoop体系的最大短板在于数据处理时效性。基于Hadoop生态的数据处理场景大部分对时效要求不高，按照传统的做法一般是 T + 1 的数据时效。即 Trade + 1，数据产出在交易日 + 1 天。

ClickHouse的产生就是为了解决大数据量处理的时效性。完全独立于Hadoop生态。

0x10 ClickHouse 的缺点

没有完整的事务支持
缺少高频率、低延迟的修改或删除已存在数据的能力，仅能用于批量删除或修改数据。
不支持Transaction：想快就别想Transaction
聚合结果必须小于一台机器的内存大小：不是大问题
缺少完整的Update/Delete操作
支持有限操作系统
不支持高并发，官方建议qps为100

0x11 下一步发展

ClickHouse会向两个方向发展。

1 云计算数据库：

Yandex希望通过ClickHouse促进公司云计算数据库的发展，包括用户可以通过云服务的方式，使用ClickHouse，开源是走向市场的第一步。

2. 加强SQL兼容性。

为了支持更多的企业用户，目前的查询虽然采用非常近似的SQL语言，但是还有很多地方需要改进，包括和一些商业软件（例如Tableau,Pentaho）的集成无缝使用。

0xFF 参考

ClickHouse 详解

最快开源 OLAP 引擎！ ClickHouse 在头条的技术演进

彪悍开源的分析数据库-ClickHouse

ClickHouse深度揭秘

干货 | 每天十亿级数据更新，秒出查询结果，ClickHouse在携程酒店的应用

从携程性能测试case中重新认识clickhouse

干货 | 携程ClickHouse日志分析实践

★★★★★★关于生活和技术的思考★★★★★★
微信公众账号：罗西的思考
如果您想及时得到个人撰写文章的消息推送，或者想看看个人推荐的技术资料，可以扫描下面二维码（或者长按识别二维码）关注个人公众号）。

如何将联系人从 iPhone 导入到Mac ？
如果您希望将联系人从iPhone无缝迁移到Mac，那么您应该选择经过验证的解决方案来确保过程顺利。将联系人从iPhone传输到Mac不仅需要一根USB数据线。面对现实，联系人信息极其宝贵，因此在转移过程中需要格外小心。如果您想掌握正确将联系人从iPhone导入到Mac的方法，请留意以下详细的实用信息。方法1：不使用iCloud/iTunes将iPhone中的联系人导入到Mac并非所有人都倾向于使用
macOS运行python程序遇libiomp5.dylib库冲突错误解决方案 screenCui macos python 开发语言
用途说明在macOS系统运行某些涉及OpenMP或多线程的Python程序（如PyTorch、NumPy等科学计算库）时，可能会出现libiomp5.dylib库冲突的错误。设置os.environ['KMP_DUPLICATE_LIB_OK']='True'允许系统加载重复的动态链接库，临时解决冲突问题。典型错误场景错误信息通常包含以下内容：OMP:Error#15:Initializingli
iOS 性能测试工具全流程：主流工具实战对比与适用场景 2501_91600747 http udp https websocket 网络安全 tcp/ip
在iOS开发中，性能优化往往被安排到开发后期，甚至上线前才临时补救。但性能瓶颈通常是架构设计、资源加载、动画机制等多方面共同作用的结果，仅凭肉眼感知和log输出，难以精准定位。一套合适的性能测试工具组合，不仅能帮助开发者在早期识别潜在问题，还能在迭代阶段快速验证改动效果。本文从实战角度出发，汇总市面上主流的iOS性能测试工具，分析它们各自适用的场景与边界，为开发者构建适合自身项目的调试方案提供参考
大数据如何助力企业文化“软实力”升级？深挖数据背后的文化密码 Echo_Wish 大数据高阶实战秘籍大数据
大数据如何助力企业文化“软实力”升级？深挖数据背后的文化密码今天我们聊一个听起来很“软”的话题——企业文化，但从一个不太“软”的角度来看：大数据如何参与企业文化的建设与提升。企业文化往往被看作无形资产，是团队凝聚力、创新力的源泉。但传统“喊口号”式的文化建设常常效果有限。大数据技术的兴起，给我们提供了洞察员工心理、量化文化影响的新思路，让文化建设从“感性”走向“理性”，从“盲目”变得“精准”。一、
C++——命名空间
一、命名空间的基本概念1.命名空间的定义命名空间（Namespace）是C++提供的一种机制，用于将全局作用域划分为不同的命名区域，解决名称冲突问题。它是C++对C语言中全局命名空间污染问题的解决方案。2.命名空间的作用解决命名冲突当不同库或模块使用相同名称时，命名空间提供隔离环境：namespaceLibA{intvalue=10;}namespaceLibB{intvalue=20;//不会与
我是如何搭建了一个企业级PDF处理平台的 wh3933 pdf 架构
第一部分：执行摘要与架构愿景1.1.拟议解决方案概述本文旨在为构建一个模块化、高鲁棒性、可扩展的企业级PDF处理平台提供全面的架构设计与技术实现蓝图。该平台的核心功能集成了虚拟打印、PDF创建、光学字符识别（OCR）以及高级加密，以满足现代企业对文档工作流自动化和安全性的严苛要求。为了实现这一目标，我们提出一个清晰的、关注点分离的系统架构。该架构将整个解决方案解耦为两个核心部分：一个部署在用户工作
车载以太网-TC8测试-UT(Upper Tester) 天赐好车车载以太网车载以太网 TC8 UT
目录一、技术原理：指令体系与协议适配1.**指令格式与传输机制**2.**协议栈交互逻辑**3.**规范遵循与版本演进**二、测试应用：TC8测试场景与案例1.**TCP协议栈深度验证**2.**ARP协议健壮性测试**3.**SOME/IP服务动态管理**三、实现挑战与解决方案1.**实时性要求**2.**安全性风险**3.**协议栈适配差异**四、集成流程与工具链1.**UT开发与部署**2.
Nuxt.js 静态生成中的跨域问题解决方案 m0_73882020 javascript 开发语言 ecmascript
当您运行npmrungenerate生成静态页面时，Vite的代理服务器确实无法使用，因为生成阶段是在Node.js环境中执行的构建过程。但别担心，我将为您提供一套完整的解决方案来处理构建阶段的跨域问题。核心解决方案1.构建阶段：使用服务端中转API（推荐）在构建阶段通过Nuxt的server路由中转请求，避开跨域限制：//server/api/products.tsexportdefaultde
【AI与数据管理】基于AI大模型的企业元数据管理方案暴躁小师兄数据学院人工智能 ai 语言模型
基于AI大模型的元数据关键解决方案元数据（metadata）是描述数据的数据，例如数据的来源、结构、类型和质量信息。它在数据管理、分析和应用中至关重要。随着人工智能（AI）大模型（如基于Transformer的模型）的发展，这些模型凭借其强大的自然语言处理、模式识别和生成能力，为元数据处理提供了高效、自动化的解决方案。下面，我将逐步解释基于AI大模型的元数据关键解决方案，帮助您理解核心方法、挑战和
雪豹速清：智能清理，释放手机空间非凡ghost 智能手机软件需求 android 生活
在智能手机的日常使用中，随着时间的推移，手机内存往往会逐渐被各种垃圾文件占据，导致手机运行缓慢、存储空间不足。为了解决这一问题，南宁酷比网络科技有限公司推出了雪豹速清这款功能强大的手机清理软件。它通过智能筛选垃圾文件、保护重要数据、查找卸载残留等功能，为用户提供了一个高效、安全的手机清理解决方案，让手机内存空间更加清洁，运行更加流畅。雪豹速清为用户带来轻松的文件管理功能，你可以对手机的内存进行清理
CORS（跨域资源共享）：跨域请求的解决方案阿珊和她的猫 javascript 前端
前端开发工程师、技术日更博主、已过CET6阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》、《前端求职突破计划》蓝桥云课签约作者、上架课程《Vue.js和Egg.js开发企业级健康管理项目》、《带你从入门到实战全面掌握uni-app》文章目录一、CORS的基本概念1.简单请求2.预检请求二、设置CORS使用Nod
FastAPI 与 OpenIddict 的微服务鉴权整合方案 NetX行者 python fastapi 微服务架构开源 python
架构概述基于微服务的身份认证架构采用OAuth2.0/OpenIDConnect协议，OpenIddict作为认证服务器，FastAPI作为资源服务器。系统包含三个核心组件：认证服务、API网关和业务微服务。OpenIddict负责颁发令牌，FastAPI通过JWT验证访问权限。技术栈选型认证服务器:OpenIddict4.8（基于ASP.NETCore）资源服务器:FastAPI0.95+（Py
数据标注问题【附解决方案】【持久更新】
视频转化错误对抽烟检测的数据准备标注，首先将视频进行转化，但是报错，尝试视频修复。1️⃣MP4Repair0.9.0FreeDownloadforWindowsDownloadMP4Repair0.9.0:ThisisawrapperorGUIarounduntrunc-w,theWindowsversionofuntrunc.UntruncisautilityforMP4videorepair.
Sider多模型AI助手平台深度评测：开发者高效编程的秘密武器梦玄海人工智能 copilot 自动化运维开源
一、为什么开发者需要多模型平台？当技术决策面临关键选择时：核心价值：避免被单一模型局限思维，通过横向对比获得最佳解决方案二、Sider核心功能全景图模块支持能力开发场景示例模型库GPT-4/Claude/Gemini/本地模型等`gitdiff智能编程实时补全/调试/注释生成VSCode中自动生成JSDoc文档处理PDF/Word/网页解析技术白皮书关键信息提取自动化定时任务+API集成每日自动生
家装宝典《水路通·水管工智能宝典》—— 零基础到大师的全流程水管工程解决方案
《水路通·水管工智能宝典》是一款为水管工及家居维修爱好者打造的零门槛专业工具，堪称行业从业者的"掌上工艺图书馆"。软件构建了覆盖水管工程全生命周期的知识体系分享了「水管工手册」链接：https://pan.quark.cn/s/1cd0bf17b7b8
React 组件间传值的问题及解决方案 JJCTO袁龙 react.js 前端前端框架
React组件间传值的问题及解决方案在React开发中，组件间传值是构建复杂用户界面的基础。然而，开发者在实现组件间传值时可能会遇到各种问题，如数据传递不正确、状态更新延迟或嵌套组件传值复杂等。本文将探讨React组件间传值的常见问题，并提供解决方案。一、React组件间传值的常见问题（一）数据传递不正确父组件传递给子组件的props可能未正确接收或使用，导致子组件无法正确显示数据。错误示例：//
React.js 组件间数据传递的常见问题及解决方案 JJCTO袁龙 react react.js 前端前端框架
React.js组件间数据传递的常见问题及解决方案在React.js开发中，组件间的数据传递是构建复杂用户界面的基础。然而，开发者在实现组件间数据传递时可能会遇到各种问题，导致数据无法正确传递或更新。本文将探讨这些问题的常见原因，并提供相应的解决方案。一、React.js组件间数据传递的常见问题（一）数据传递不正确父组件传递给子组件的props可能未正确接收或使用，导致子组件无法正确显示数据。（二
React-Ts项目中配置路径别名@ wisuky 前端项目相关配置 react.js 前端前端框架
方案一：配置webpack.config.js在react脚手架搭建的项目中，webpack.config.js配置文件是隐藏的，需要通过npmruneject打开，并且该操作是不可逆的，所以不建议使用该方案。方案二：使用craco库1.安装cracoyarnadd-D@craco/cracoORnpmi-D@craco/craco2.在项目根目录中创建craco.config.js配置文件，并添
react-ts项目使用地图
react-amap使用教程参考链接地理/逆地理编码REACT-AMAP问题描述boss直聘移动端页面展示的是一个地图图片我们决定展示地图，可以缩放，中心坐标为职位工作地点方案管理员发布职位时填写工作地址：省份＋城市＋区县＋城镇＋乡村＋街道＋门牌号码根据结构化地址信息请求高德地图接口，返回地理编码例如：结构化地址举例：北京市朝阳区阜通东大街6号转换后经纬度：116.480881,39.989410
AntDesignPro动态路由配置全攻略 bemyrunningdog 前后端
目录AntDesignPro前后端动态路由配置指南(TypeScript+Java)一、整体架构二、Java后端实现1.数据库设计(MySQL)2.实体类定义3.DTO对象4.服务层实现5.控制器三、前端实现(TypeScript)1.定义路由类型2.路由转换器3.应用配置(app.tsx)4.路由加载优化四、权限控制整合1.Java端权限检查2.前端权限整合五、部署优化方案六、生产环境建议七、完
煤炭传送带YOLOv8异物检测系统介绍 qq1309399183 计算机视觉实战项目集合 YOLO 目标检测人工智能深度学习计算机视觉传送带识别异物识别
传送带YOLOv8异物检测系统介绍随着工业自动化水平的不断提高，传送带系统在矿山、食品加工、制造业等领域的应用日益广泛。然而，传送带在运行过程中常常会混入各种异物，如金属零件、石块、木块等，这些异物不仅会影响产品质量，还可能损坏设备甚至危及人员安全。基于YOLOv8算法的传送带异物检测系统应运而生，为解决这一问题提供了智能化解决方案。系统概述YOLOv8(YouOnlyLookOnceversio
Docker快速部署Hive服务长路 ㅤ 运维 Docker配置 Hive环境大数据远程调试
文章目录前言Docker快速配置hive环境资料获取前言博主介绍：✌目前全网粉丝4W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)CSDN搜索：长路视频平台：b站-Coder长路Docker快速配置hive环境Ap
从UI设计到数字孪生实战：构建智慧教育的个性化学习平台
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：数字孪生重构智慧教育的技术范式在教育数字化转型加速推进的背景下，传统在线教育正面临"个性化不足、学习体验单一、效果评估滞后"的瓶颈。教育部数据显示，采用数字孪生技术的智慧教育平台，学生学习效率平均提升35
编程效率的飞跃、创新驱动的测试与行业应用的新篇章
###引言在人工智能技术飞速发展的今天，AI工具、大模型及行业应用正在深刻改变着开发者的工作模式与各领域的发展格局。从智能编码助手到自动化测试平台，从大模型落地实践到垂直行业解决方案，AI正成为提升效率、驱动创新的核心引擎。本文将围绕“AI技术如何重塑你的工作与行业”这一主题，探讨AI工具、AI编程、AI测试以及AI行业应用和大模型落地等方面的影响。 ###一、AI工具重塑开发工作 #
每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户_用户每日登陆脉脉会访问app不同的模块,现有两个表表1记录了每日脉脉活跃用户的ui(1)
文章目录每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户每日语录第25题：1.需求列表1.初级题:每日活跃用户思路分析(1)创建表(2)思路答案获取加技术群讨论附表文末SQL小技巧后记每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户大家好，我是Maynor。相信大家和我一样，都有一个大厂梦，作为一名资深大数据选手，深知SQL重要性，接下来我准备用100天时间，基于大
Visual Studio Code 中统一配置文件在团队协作中的应用织_网 vscode ide 编辑器
在团队协作开发中，保持一致的开发环境是提升效率、减少环境差异导致问题的关键。VisualStudioCode（VSCode）的配置文件功能为此提供了便捷的解决方案，通过统一配置文件，团队可实现开发环境的标准化与快速同步。以下从核心功能、操作流程、优势及实践建议展开说明：一、统一配置文件的核心价值团队协作中，统一配置文件可实现以下目标：环境标准化：确保所有成员使用相同的编辑器设置（如格式化规则、快捷
Vue.js 中跨域请求未配置 CORS 的问题及解决方案 JJCTO袁龙 Vue vue.js 前端 javascript
Vue.js中跨域请求未配置CORS的问题及解决方案在Vue.js开发中，跨域请求（CORS）是一个常见的问题。当你的前端应用尝试从不同的源访问后端API时，浏览器会出于安全考虑阻止这些请求，除非后端服务器明确允许。本文将探讨这些问题的常见原因，并提供相应的解决方案。一、Vue.js中跨域请求未配置CORS的常见原因（一）浏览器的同源策略限制浏览器的同源策略限制了从一个源加载的文档或脚本与来自另一
基于Abp Vnext、FastMCP构建一个企业级的模型即服务（MaaS）平台方案 NetX行者 Abp vnext Maas Abp vnext FastMCP 企业级平台解决方案开源 python
企业级MaaS平台技术可行性分析报告一、总体技术架构HTTP/WebSocketgRPC/RESTgRPC/RESTgRPCVue3前端ABPvNextAPI网关.NET9业务微服务ABPvNextMCPClientFastMCP模型仓库PyTorch/TensorFlowHuggingFaceHeyGem/ChatGLM自定义模型统一鉴权中心二、核心框架与中间件组件技术选型官方链接作用前端框架V
XSLT模版注入漏洞
XSLT模版注入漏洞模版注入漏洞根因（SSTI，服务器端模版注入）XSLT介绍XSLT模版注入漏洞关键点漏洞触发场景漏洞复现环境引入依赖poc修复方案限制document读取路径限制使用`xsl:include`、`xsl:import`引用外部实体避免暴露java的危险类和方法完整代码（包含修复）参考模版注入漏洞根因（SSTI，服务器端模版注入）由于模版内容部分或全部被外部控制，导致在模版加载或
SFTP服务器搭建实战：腾讯云 Linux 上的快速安全文件传输方案
更多云服务器知识，尽在hostol.com你有没有遇到这种情况：FTP上传老是失败？内网传输日志经常被拦截？最气的是安全部门说你那套文件传输方式“明文传输，不合规”。那好吧，现在是时候扔掉老掉牙的FTP，来点靠谱的了——SFTP。等等，SFTP是啥？SSH的“升级版”？不，是你服务器通信里那把真正的保险锁。今天就带你5分钟搞定它，尤其是在腾讯云Linux云服务器环境下，手把手实战部署，从基础到加固
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

[业界方案] ClickHouse业界方案学习笔记

[业界方案] ClickHouse业界方案学习笔记

文章目录

0x00 摘要

0x01 简介

0x02 OLAP场景的特点

0x03 选型原因

携程选型原因

头条选型原因

0x04 技术特点

0x05 多

数据Sharding

数据Partitioning

高吞吐写入能力

支持数据复制和数据完整性

0x06 快

列式存储

主键索引

稀疏索引

实时数据更新

支持近似计算

多核并行

向量化执行与SIMD

分布式计算

数据Sharding

0x07 好

复杂数据类型支持

主备同步

支持数据复制和数据完整性

功能多

稳定性更高，运维成本更低

0x08 省

列式存储

数据TTL

有限支持delete、update

动态代码生成Runtime Codegen

0x09 独立

0x10 ClickHouse 的缺点

0x11 下一步发展

0xFF 参考

你可能感兴趣的:(010_业界方案,007_笔记整理,ClickHouse,大数据,OLAP)