架构师小秘圈

趣头条基于Flink+ClickHouse的实时数据分析平台

导读：趣头条一直致力于使用大数据分析指导业务发展。目前在实时化领域主要使用 Flink+ClickHouse 解决方案，覆盖场景包括实时数据报表、Adhoc 即时查询、事件分析、漏斗分析、留存分析等精细化运营策略，整体响应 80% 在 1 秒内完成，大大提升了用户实时取数体验，推动业务更快迭代发展。

本次分享主要内容：

业务场景与现状分析
Flink to Hive 的小时级场景
Flink to ClickHouse 的秒级场景
未来规划

趣头条的查询页面，分为离线查询和实时查询。离线查询有 presto，spark，hive 等，实时查询则引入了 ClickHouse 计算引擎。

上图为实时数据报表，左边为数据指标的曲线图，右边为详细数据指标，目前数据指标的采集和计算，每五分钟一个时间窗口，当然也会有三分钟或者一分钟的特殊情况。数据都是从 Kafka 实时导入 ClickHouse 进行计算的。

1. 小时级实现架构图

Flink-to-Hive 小时级实现架构图如图所示，架构实现的思路如下：

Database 中的 Binlog 抽数据到 Kafka，同时 Log server 数据也会上报到 Kafka，所有的实时数据落地到 Kafka 之后，通过 Flink 抽取到 HDFS 上。HDFS 到 Hive 之间有条虚线，即 Flink 落地到 HDFS 后，通过程序监控，Flink 在消费完成时，数据落地到 Hive 中可能是小时级的或者是半小时级的，甚至是分钟级的，此时需要知道数据的 Event time 已经到了什么时间，然后再去触发比如 alert table、add partition、 add location 等，把分区写进 Hive 中。这时还需要看一下当前的 Flink 任务的数据时间消费到了什么时间，如9点的数据要落地时，需要看一下 Kafka 里 Flink 数据消费是否到了9点，然后在 Hive 中触发分区写入。

2. 实现原理

这块的实现原理主要是使用 Flink 高阶版本的特性 StreamingFileSink。

StreamingFileSink 的主要功能如下：

forBulkFormat 支持 avro、parquet 格式，也就是支持链式的存储格式
withBucketAssigner 自定义按数据时间分桶，支持数据时间的分桶，上图用到该功能的地方定义了一个 EventtimeBucket，按照数据的时间落地到离线中
OnCheckpointRollingPolicy，会根据 CheckPoint 时间来进行数据的落地，此处可以理解为按照数据的时间，比如按照一定的 CheckPoint 时间内进行数据落地、回滚，数据落地策略还可以按照数据大小落地
Exactly-Once 语义实现，Flink 中自带的 StreamingFileSink 是用 Exactly-Once 语义来实现的。Flink 中有两个 Exactly-Once 的实现，第一个是 Kafka 的 Exactly-Once，第二个是 StreamingFileSink 实现了 Exactly-Once 语义，像上图中 CheckpointRollingPolicy 设置的是十分钟落地一次到 HDFS 文件中

下面来具体说一下 Exactly-Once 是如何实现的。

① Exactly-Once

具体实现 Exactly-Once 的方式，如上图所示，左侧是一个二阶段的模型，Coordinator 发一个 perpare，所有的参与者或者执行者开始触发 ack 动作，Coordinator 收到所有人的 ack 动作后，就开始执行 commit，所有的执行者就把左右的数据进行落地。到了 Flink 这块，Source 收到了 checkpoint barrier 流的时候，开始触发 snapshorState 发送到 Job Manager，Job Manager 把所有的 CheckPoint 都完成以后，会发送一个 notifyCheckpointComplete，Flink 这块跟上图左边的二阶段提交协议是一致的，Flink 也是可以实现二阶段提交协议的。

② 如何使用 Flink 实现二阶段提交协议

首先 StramingFileSink 实现了两个接口，分别是 CheckpointedFunction 和 CheckpointListener。

CheckpointedFunction 实现了 initialzeState 和 snaoshotState 这两个函数；
CheckpointListener 是 notifyCheckPoint Complete 的方法实现。

所以这两个接口可以实现二阶段提交的语义，initialzeState 算子刚启动的时候，它会启动三个动作 commitpendingFile、restoreInProgressFile、truncate。

第一步 commitpedingFile，也就是实时的数据落地到 HDFS 的时候，有三个状态，第一个状态是 in-progress，即正在进行中的一个状态，第二个状态是 pending 的状态，第三个状态是 finish 的状态。

在实时的写入时，如果 CheckPoint 还没有在这之间成功的时候，程序出问题了，那接下来启动的时候就会触发 initialzeState，会把曾经 pending 的 file 进行 commit，然后把写了一半的文件比如 in-progress 文件重置或者截断，进行重置或者截断是使用的是 Hadoop 的2.7版本的 turncate 方式。也就是数据在一直写入，但是写入没有达到一个 CheckPoint 周期，也就是说中间数据断开了，下一次启动的时候，要么把之前没有写完整的数据截断掉，之前 CheckPoint 触发已经写好的数据直接 commit。

第二步 invoke 就是数据实时的写入

第三步 snapshotState 在触发 CheckPoint 的时候会把 in-progress 文件转成 pending state 文件，也就是开始提交文件，同时记录 length 长度。记录长度是因为前边的步骤需要 truncate 来截断多长，snapshot 时，是没有真正的写入到 HDFS，其实是写入到 ListState，等所有的 CheckPoint 算子都完成了，就把 ListState 中的数据都刷到 HDFS 中，只要数据存在 Flink 自带的 state 中，不断把数据成功的刷到 HDFS 中就行了。

第四步 notifyCheckPoint Complete 会触发 pending 动作到 finished 状态的数据写入，实现的方式直接使用 rename，Streaming 会不断的写入 HDFS 中的临时文件，等到 notifyCheckPoint 结束之后，直接做一个 rename 动作，写成正式文件。

3. 跨集群多 nameservices

趣头条的实时集群跟离线集群是独立的，实时集群目前是一套，离线集群是有多套。通过实时集群要写入到离线集群，这样就会遇到一个问题，HDFS nameservices 问题，如果在实时集群中把所有的离线集群的 nameservice 用 namenode HA 的方式全部打入到实时集群，是不太合适的。所以使用 Flink 任务中 resource 下边把 HDFS 中的 xml 文件中间加 final 标签，设置为 true。此处的 value 标签中，stream 是一个实时集群，date 是一个离线集群，这样把两个 HA 配置在 value 标签，从而达到实时集群是实时集群，离线集群是离线集群，中间的 HDFS 中 set 不需要相互修改，直接在客户端时间就行了。

4. 多用户写入权限

针对多用户权限写入的问题，实时写入离线 HDFS 中的时候，会涉及到用户权限。遇到用户权限时，也会有一个问题，Flink 实时提交的用户，是定义好的，所有的程序里用户是同一个，但是离线是多个用户，Flink 目前对于这块用户的权限做的还不够好，所以我们自己改造了一下，在 API 中添加了 withBucketUser，上边已经配置好了 nameServices，然后通过该参数来配置具体是那个用户来写入 HDFS 中，这是 API 层级的。

API 层级的好处是一个 Flink 程序可以写多个，可以指定不同的 HDFS 的不同的用户就可以。具体实现就是在 Hadoop file system 中加一个 ugi.do as，代理用户。以上是趣头条用 Flink 在实时数据同步到 Hive 做的一些工作。其中会有一些小文件的问题，针对小文件，我们通过后台程序定期的 merge，如果 CheckPoint 的时间很短，就会出现大量的小文件的问题。

1. 秒级实现架构图

首先来解释一下趣头条使用 Flink+ClickHouse 的场景，最开始展示的很多实时指标，可能是每五分钟计算一次，也可能是每三分钟计算一次。如果每一个实时指标用一个 Flink 任务，即使是 FlinkSQL 来写，比如消费一个 Kafka Topic，计算它的日活、新增、流程等，当用户提出一个新的需求，那这个 Flink 任务是需要修改还是再启动一个 Flink 任务来消费这个 Topic，这样的话就会出现 Flink 任务在不断的修改或者不断的启动新的 Flink 新的任务。为了解决这个问题，就让 Flink 后边接一个套 ClickHouse 实现整体的 OLAP。

上图为秒级实现架构图，从 Kafka 到 Flink 到 Hive 然后再到 ClickHouse 集群，对接外部 Horizon ( 实时报表 )、QE ( 实时 adhoc 查询 )、千寻 ( 数据分析 )、用户画像 ( 实时的用户画像 )。

2. Why Flink+ClickHouse

具体来说为什么要用 Flink+ClickHouse，主要有以下几点：

指标实现支持 sql 描述，以前的方案使用是 storm 的程序，通过 stormsql 实现，包括 flinksql，这些内容对于 UDF 支持相对有限，但是现在这套 Flink+ClickHouse 基本上可以把分析师提的指标通过 sql 实现。
指标的上下线互不影响，这个主要是解决上边提到的关于 Flink 任务消费了 topic 以后，假如用户提出新的指标的时候，是启动新任务还是要不断修改的问题。
数据可回溯，方便异常排查，这个就类似上边提到的假如我的日活掉了，需要知道哪些指标的口径的逻辑掉了、哪个上报的数据掉了，如 cmd 掉了还是数据流 kafka 掉了还是用户上报的时候指标没有上报导致的日活掉了。假如单纯的 flink 的话，只是会计算出那个指标掉了，是没办法回溯的。
计算快，一个周期内完成所有的指标计算，现在的 horizon 曲线可能是几百上千，需要在五分钟之内或者十分钟之内，把所有分时、累时、以及维度下降的指标全部计算出来。
支持实时流，分部署部署，运维简单。

目前趣头条 Flink 集群有 100+ 台 32 核 128 G 3.5T SSD，日数据量 2000+ 亿，日查询量 21w+ 次，80% 查询在 1s 内完成。

上图为单表测试结果。ClickHouse 单表测试速度快。但受制于架构，ClickHouse 的 Join 较弱。

上图是处理相对较为复杂的 SQL，count+group by+order by，ClickHouse 在 3.6s内完成 26 亿数据计算。

3. Why ClickHouse so Fast

接下来说一下为什么 ClickHouse 这么快，主要是有以下几点：

列式存储+LZ4、ZSTD 数据压缩：列式存储基本是通用的。
计算存储本地化+向量化执行：计算存储本地化，ClickHouse 跟 presto 不一样，presto 数据可能存在 Hadoop 集群里边或者 HDFS 中，需要把数据拉过来，然后进行实时的计算；而 ClickHouse 是每一台计算机器需要的数据存储在本地的 ssd 盘，只要计算本地的数据就可以了，比如求 count 之类的，计算完成后把其他的节点进行合并就可以了。
LSM merge tree+Index：LSM merge tree，他会不断的使用 batch 的形式把数据写入到 ClickHouse 之后，在后台做了一个线程把数据进行 merge，做一个 index 索引，也就是给这张数据表建立很多索引，类如常见的 DT 的时间索引、小时级的数据索引来提高查询性能或者速度。
SIMD+LLVM 优化：SIMD 就是一个单指令多数据集，LLVM 是一个 C++ 的编译器
SQL 语法、UDF 完善：在这块有很大的需求，比如数据分析以及维度下坠，常规的 horizon 数据报表可能就是 count、sum、以及 group by、order by 等，但是在一些维度下坠或者是数据分析领域，可能会有一个窗口期的概念，在一段窗口期内的留存，所以要用到一些更高的特性，类如时间窗口的功能。

上图是 MergeTree 的运行原理图解，最上边的第一层是数据一个 batch 一个 batch 的实时写入，后台会做每一个层级的数据 merge，这块跟 HBase 差不多的实现，merge 的时候会进行数据的排序，然后做一个数据索引。

上图是 ClickHouse Connector，ClickHouse 有两个概念，local table 和 distribute table。local table 是用来写的，当然 distribute table 也可以写入，但是会出现很大的 io 问题，所以尽量不要写 distribute table。但是可以读 distribute table。5-10w 一个 batch 进行数据写入，正常的情况下，是5秒一个周期。

RoundRobinClickHouse DataSource 这块是趣头条自己实现的；

ClickHouse 官方 API 使用：

BalancedClickHouseDataSource 实现的。

上图是 ClickHouse 官方 API 使用：

BalancedClickHouseDataSource

里边有一个问题，比如 mysql 配置一个 ip 和端口号就可以把数据写入了，但是这块要写入 local table 的，所以必须要知道这一个集群到底有多少 local table，每一个 local table 的 ip 和端口号，假如有100台机器，就必须要把这100台机器的 ip 和端口号配置好，然后进行写入。

官方的 api 中有两个 schedule：

一个是 scheduleActualization
另一个是 scheduleConnectionsCleaning

第一个是指100台机器配置了100个 ip 或者端口号，可能会有一些机器出现 ping 不通或者服务无响应，这块是定时的做一个 Actualiza 来发现这些机器哪些无法连接，触发一个下限来把这些 ip 删除掉。

第二个 scheduleConnectionsCleaning，因为 ClickHouse 是 http 的方式，定期的会把一些没用的 http 的请求清理掉。

针对于官方提供的 API，趣头条对这方面做了一个加强，开发了一个 RoundRobinClickHouseDataSource，实现了三个语义，分别是 testOnBorrow、testOnReturn、testWhileldle。

第一个 testOnBorrow 取链接的时候，设置为true，然后去 ping 一下这个链接能不能拿到，ClickHouse 写入的时候，使用的 batch，所以尽量就是拿链接的时候要拿到成功的链接；第二个 testOnReturn 设置为 false，testWhileldle 设置为 true，把上边官方的两个 schedule 功能集成进去了。为什么要实现 RoundRobin，主要是因为假如有100台机器，ClickHouse 相对于 Hadoop 来说，还是需要好好维护一下，如果是 insert 的话，后台是不断 merge 的过程，insert 速度大于 merge 速度时候，会导致 merge 速度永远跟不上，所以就写完这台机器接下来写别的机器，以及5秒一个间隔的写，使 merge 的速度尽量跟上 insert 的速度，这块是整个部分最需要注意的地方。

4. Backfill

趣头条针对集群容错做了一些优化，主要包括两点：

第一点是 Flink 任务小时级容错
第二点是 ClickHouse 集群小时级容错

Flink 导入数据到 ClickHouse，来实现数据的查询、报表展示，会遇到一些问题。如 Flink 任务出现故障、报错、数据反压、network 的一些问题；或者 ClickHouse 集群出现了一些不可响应、ZK 跟不上等 ZK 问题；或者集群的负载问题；或者是上边提到的 insert 太快的问题；会导致整个任务都有问题。如果数据量突然暴涨，把 Flink 启动，就会出现一段时间内不停的追数据，可能就需要调大它的并行度之类的，让 Flink 任务把数据追上。但是数据已经积压了，Flink 又要加大它的并发度来处理数据，但是 ClickHouse 那块又限制了 insert 速度不能太快，所以就做了另外一个机制，也就是 Flink 故障了或者 ClickHouse 故障了，等到 ClickHouse 集群恢复之后，Flink 任务还是从最新的开始消费，过去的一段数据不再去追了，通过 Hive 来把数据导入到 ClickHouse。

用 Hive 是因为数据通过 Kafka 已经实时落地到 Hive，通过 waterdrop 把数据写入到 ClickHouse，ClickHouse 是有分区的，只要把上一个小时的数据删除，再把 Hive 一个小时的数据导入进来，这样就可以继续提供数据查询操作了。

最后是对未来的发展与思考。

1. Connector SQL

对于未来的发展，首先是 Connectors SQL，也就是把 Connector 进行 SQL 化，现在是 Flink-to-Hive 以及 Flink-to-ClickHouse，相对来讲，都是比较固化的一些场景，所以是可以进行 sql 化，除了把 HDFS 的路径指定以及用户指定，其他的一些过程都是可以 SQL 化描述出来的。

2. Delta lake

Flink 是流批一体计算引擎，但是没有流批一体的存储。趣头条会用 HBase、Kudu、Redis 等能够与 Flink 实时交互的 KV 存储进行数据计算。如计算新增问题，目前趣头条的方案是需要将 Hive 历史用户刷到 Redis 或 HBase 中，与 Flink 进行实时交互判断用户是否新增。但因为 Hive 中的数据和 Redis 中的数据是存储为两份数据。其次 Binlog 抽取数据会涉及 delete 动作，Hbase，Kudu 支持数据修改，定期回到 Hive 中。带来的问题是 HBase，Kudu 中存在数据，Hive 又保存了一份数据，多出一份或多份数据。如果有流批一体的存储支持上述场景，当 Flink 任务过来，可以与离线数据进行实时交互，包括实时查询 Hive 数据等，可以实时判断用户是否新增，对数据进行实时修改、更新或 delete，也能支持 Hive 的批的动作存储。未来，趣头条考虑对 Flink 做流批的存储，使 Flink 生态统一为流批结合。

嘉宾介绍：

王金海，10 年互联网历练，先后在唯品会负责用户画像系统，提供人群的个性化营销服务；饿了么担任架构师，负责大数据任务调度、元数据开发、任务画像等工作；现为趣头条数据中心平台负责人，负责大数据基础计算层 ( spark、presto、flink、clickhouse )、平台服务层 ( libra 实时计算、kepler 离线调度 )、数据产品层 ( qe即时查询、horizon 数据报表、metadata 元数据、数据权限等 )、以及团队建设。

今天的分享就到这里，谢谢大家。

特别推荐一个分享架构+算法的优质内容，还没关注的小伙伴，可以长按关注一下：

长按订阅更多精彩▼

如有收获，点个在看，诚挚感谢

【题解-Acwing】1057. 股票买卖 IV X CODE 算法练习题解算法动态规划状态机模型
题目：1057.股票买卖IV题目描述给定一个长度为NNN的数组，数组中的第iii个数字表示一个给定股票在第iii天的价格。设计一个算法来计算你所能获取的最大利润，你最多可以完成kkk笔交易。注意：你不能同时参与多笔交易（你必须在再次购买前出售掉之前的股票）。一次买入卖出合为一笔交易。输入格式第一行包含整数NNN和kkk，表示数组的长度以及你可以完成的最大交易笔数。第二行包含NNN个不超过10000
【论文笔记】GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving
原文链接：https://arxiv.org/abs/2506.00034v1简介：现有的多传感器融合方法多使用基于注意力的拉直(flatten)融合或通过几何变换的BEV融合，但前者可解释性差，后者计算开销大（如下图(a)(b)所示）。本文提出GaussianFusion（下图(c)），一种基于高斯的多传感器融合框架，用于端到端自动驾驶。使用直观而紧凑的高斯表达，聚合不同传感器的信息。具体来说，
GC393低功耗双电压比较器：精准、高效的信号处理解决方案 Jason13510238356 芯麦信号处理单片机嵌入式硬件智能家居音响蓝牙音箱
芯片概述GC393是一款双通道精密电压比较器，具有低至±1mV的输入失调电压（典型值）和宽电源电压范围（单电源2V~36V/双电源±1V~±18V）。该芯片采用独立设计，输入共模范围包含地电平，特别适合电池供电设备和工业控制系统。核心特性超低功耗：静态电流仅0.4mA（5V供电时）高精度：输入失调电压：±1mV（典型值）输入偏置电流：25nA（典型值）宽电压兼容：支持TTL/DTL/ECL/MOS
想转行网络安全，可以先看看过来人的建议孤独的汤姆 web安全安全
在当前就业形势下，不少朋友面临转行的困境。网络安全作为一个热门领域，自然也吸引了许多人的目光。本文将就转行网络安全这一话题，提供一些切实可行的建议。网络安全行业概况网络安全涵盖了从基础的脚本编写到高级的漏洞研究等多个层面。该领域包括但不限于：渗透测试、漏洞评估、恶意软件分析、入侵检测、信息安全管理等。这些内容的复杂性不一，从基础的安全监控到复杂的安全架构设计都涉及其中。这就意味着，尽管有些领域可能
MySQL窗口函数学习小菜0-o mysql 学习 java
视频链接基本语法窗口限定一个范围，它可以理解为满足某些条件的记录集合，窗口函数也就是在窗口范围内执行的函数。基本语法窗口函数有over关键字，指定函数执行的范围，可分为三部分:分组子句(partitionby)，排序子句(orderby)，窗口子句(rows)over(partitionbyorderbyrowsbetweenand)窗口函数适用于在不破坏原有表结构的基础上，新增一列窗口的确定分组
【思考】对“私有化利润，公有化风险”现象的思考海绵波波107 其他的思考学习
如果万达破产，谁的钱会受到影响？如果万达集团申请破产，不同相关方的资金和资产将受到不同程度的影响，具体取决于破产类型（清算或重组）、债务结构以及法律管辖。以下是主要受影响方及影响程度分析：1.债权人（最直接受影响）（1）优先债权人有抵押债权人（银行等金融机构）万达通过资产抵押获得的贷款（如商业地产抵押），债权人有权通过拍卖抵押物优先受偿。但若资产贬值，可能无法全额回收。例如：某银行持有万达广场的抵
TypeScript 两年半.倸枸前端 typescript javascript 开发语言
一、简介1、TS是什么？以JS为基础构建的语言，一个JS的超集。可以在任何支持JS的平台中执行；TS扩展了JS，并添加了类型；TS不能被JS解析器直接执行，需要将TS编译为JS；2、TS增加了什么增加了类型、支持ES新特性、添加了ES不具备的新特性、配置选项。二、环境搭建1、安装Node.js2、安装TS：npmi-gtypescript3、创建一个TS文件4、使用TSC对TS文件进行编译：tsc
【线上故障排查】缓存穿透攻击的识别与布隆过滤器（面试题 + 3 步追问应对 + 案例分析）程序员岳彬从项目到面试：Java 高频面试题场景化通关指南缓存 java 后端 spring boot linux redis
一、高频面试题问题1：什么是缓存穿透？它对系统的核心危害是什么？参考答案：缓存穿透指的是用户请求的数据在缓存和数据库中都不存在，导致请求直接绕过缓存打到数据库。核心危害是大量无效请求会耗尽数据库资源，比如CPU、内存或连接数，严重时可能引发数据库宕机，进而导致整个系统崩溃，影响服务可用性。第一步追问：缓存穿透和缓存雪崩有什么本质区别？参考答案：两者本质不同。缓存穿透是请求不存在的数据，攻击或逻辑漏
MySQL事务实现原理巴里巴气 MySQL知识记录 mysql 数据库
目录MySQL事务介绍事务基础及其实现原理回滚日志MVCC多版本并发控制事务的特性多个事务同时执行出现的三种现象四种隔离级别及其实现原理尽量不要使用长事务MySQL事务介绍要保证⼀组数据库操作，要么全部成功，要么全部失败事务是在存储引擎层实现的,MySQL是支持多存储引擎的系统,不是所有的存储引擎都支持事务,目前最常用的存储引擎InnoDB是支持事务的事务基础及其实现原理回滚日志回滚日志是一种用于
Salesforce解散中国团队，国产SaaS软件如何完美替代热爱永不降温 java 大数据人工智能
近日，全球最大的SaaS软件公司Salesforce突然宣布，解散中国区团队，同时关闭位于中国香港的办公室，转由阿里云代销业务。Salesforce的中国淘金之路彻底折戟。国产软件替代外资软件水土不服等多重因素导致巨头败退作为全球SaaS行业的鼻祖企业，Salesforce的成功一直被业内视为典范。这家1999年在美国成立的企业最早专注于CRM（客户关系管理），后逐渐覆盖财税、人力等多个SaaS细
使用 duckdb::arrow 实现表格输出的 DuckDB CLI 代码
试图让DeepSeek编写输出列名、并支持各种数据类型的代码，总是不成功，在duckdb-rs主页看到它的示例代码支持arrow表格，把此示例提交给DeepSeek,并让他删除语法高亮代码，就能正常处理各种查询了。如下所示。usestd::{error::Error,io::{self,BufRead},time::Instant,};useduckdb::{params,Connection,a
在sf=0.1时测试fireducks、duckdb、polars的tpch l1t 数据库编程语言软件工程 python 压力测试
首先，从https://github.1git.de/fireducks-dev/polars-tpch下载源代码包，将其解压缩到/par/fire目录。然后进入此目录，运行SCALE_FACTOR=0.1./run-fireducks.sh，脚本会首先安装所需的包，编译tpch的数据生成器，然后按照sf=0.1生成tbl文件，再转化为parquet格式，最后执行。如下所示：root@DESKTO
12行脚本实现duckdb自动完成tpch测试 l1t 数据库编程语言软件工程数据库 sql github
核心思想：利用duckdbtpch插件内置的tpch_queries()表函数输出查询Sql语句到qs.txt，然后读入生成的qs.txt,将结果输出到res.txt,在控制台输出计时。autotpch.txt脚本如下：LOADtpch;PRAGMAdisable_progress_bar;CALLdbgen(sf=0.3);.outputqs.txt.modelist.headeroffsele
大模型——什么是 Vibe Coding？从零开始学习 AI 辅助编程不二人生大模型学习人工智能大模型辅助编程
大模型——什么是VibeCoding？从零开始学习AI辅助编程VibeCoding：代码消失，直觉驱动的软件开发新浪潮？生成式人工智能的指数级增长正不断重塑各个行业，软件开发领域也不例外。大约在2025年初，一股源自美国硅谷的新思潮开始引起关注：开发者似乎可以借助AI工具，在几乎不直接编写代码的情况下构建产品。这种依赖直觉、跳脱传统编码苦役的开发方式，被赋予了一个颇具时代感的名字——VibeCod
CMake基础：条件判断详解
目录1.简介2.核心判断类型及示例2.1.变量相关判断2.2.数值判断2.3.文件/路径判断2.4.目标/组件判断2.5.系统与编译器判断2.6.逻辑组合（与/或/非）2.7.括号分组（优先级控制）2.8.判断某个元素是否在列表中3.常见实用场景4.注意事项相关链接1.简介CMake的条件判断是通过if()/elseif()/else()/endif()结构实现流程控制的核心，常用于根据环境、配置
Rust 智能指针深入浅出
在Rust中，智能指针是管理内存的高级工具，它们不仅提供指针功能，还包含额外的元数据和能力（如所有权管理、引用计数等）。以下是Rust主要智能指针的全面解析：一、智能指针vs普通引用特性普通引用(&T)智能指针所有权只借用数据通常拥有数据所有权功能简单的内存访问附加管理逻辑内存位置可指向栈或堆通常管理堆内存元数据无包含额外元数据二、核心智能指针类型1.Box：堆分配的最简指针作用：在堆上分配值，栈
Coze 实战：如何用自动提示词优化功能提升 AI 应用开发效率？ charles666666 产品经理人工智能自然语言处理
在与多家企业合作开发AI应用项目中，我深感团队提示词质量不稳定的困扰。某次为电商客户打造智能客服项目，初期开发团队撰写的提示词繁杂冗长，AI生成的回答时而偏题、时而重复。由于成员对业务理解不一，提示词质量参差不齐，导致产品交付延迟。这个痛点在中小型企业技术团队中尤为突出。模块1：功能定位解析传统提示工程依赖人工反复调试，如开发团队需手动调整提示词结构。而Coze的自动优化功能则不同。Coze能基于
Gemini vs DeepSeek：Transformer 架构下的技术路线差异与企业级选择 charles666666 transformer 架构深度学习语言模型产品经理人工智能
一、引言：从商业价值切入Gemini和DeepSeek都基于Transformer架构，但在技术路线和应用场景上各有侧重。本文将解密同源Transformer下的技术分野，帮助企业做出更明智的大模型选型决策。二、Transformer核心机制精要Transformer架构是现代大语言模型的基础，其核心机制包括自注意力机制和前馈神经网络。自注意力机制使模型能够捕捉序列中元素的全局依赖关系，但也是GP
沃丰科技和印尼MAP集团战略合作，智能化服务印尼2.8亿消费者沃丰科技科技人工智能大数据
在东南亚零售市场风起云涌之际，印尼综合性零售巨头MAP集团与智能客户服务领域领军企业（Udesk）达成深度战略合作，共同启动一项具有里程碑意义的数字化转型工程——通过AI赋能MAP集团旗下客户忠诚度计划平台，为印尼2.8亿消费者打造全场景、个性化的智能客户服务体验。此次合作不仅标志着印尼零售业智能化升级的加速，更将重塑企业与消费者之间的情感连接。一.MAPClub：零售忠诚度战略要地MAP集团：在
Redis 分布式锁实现与实践佑瞻数据库与知识图谱 redis 分布式数据库
在分布式系统架构中，多个独立进程对共享资源的并发访问控制是常见需求，分布式锁作为解决这一问题的关键技术，在缓存更新、任务调度、库存管理等场景中发挥着重要作用。本文将从基础原理出发，详细阐述基于Redis的分布式锁实现方案，包括单实例模式与Redlock算法，并探讨其在实际应用中的关键考量。分布式锁核心概念分布式锁是一种跨进程、跨机器的同步机制，用于保证多个分布式节点对共享资源的互斥访问。一个可靠的
布隆过滤器详解及使用：解决缓存穿透问题豪宇刘缓存哈希算法散列表
在现代应用开发中，缓存技术被广泛应用于提升系统性能和响应速度。然而，缓存系统也带来了一些新的挑战，如缓存穿透、缓存击穿和缓存雪崩等问题。一、什么是布隆过滤器？布隆过滤器是一种空间效率很高的概率型数据结构，用于判断一个元素是否在一个集合中。它的优点是高效且占用内存少，但有一定的误判率（即可能会错误地认为某个不在集合中的元素存在于集合中），不过它不会漏报（即如果一个元素确实不在集合中，布隆过滤器一定能
仓颉编程语言：从入门到精通
为啥要瞅瞅仓颉这玩意儿？有一说一，现在的编程语言多得跟米一样，对吧？那一门新语言想火，没点绝活儿肯定不行。仓颉（Cangjie）这哥们儿，是华为搞出来的新玩意儿，静态编译的，主打的就是一个现代化、性能炸裂、安全感满满，而且天生就会搞并发。就凭这几点，已经有不少大佬开始关注了。这篇博客呢，就是你的“老司机”指南，带你把仓颉这车开得明明白白。不管你是刚上路的小白，还是开惯了Rust、Go、Java、N
【无标题】Python ---Day2 复合类型之序列类型、映射类型和集合类型的学习！！！
系列文章目录文章目录系列文章目录前言一、复合类型初识1.1列表类型1.1.1列表创建1.1.2列表运算1.1.3列表访问1.1.3.1索引1.1.3.2反向索引1.1.3.3切片1.1.4列表操作1.1.4.1添加数据1.1.4.2修改数据1.1.4.3删除数据1.2元组类型1.2.1元组创建1.2.2元组操作1.2.2.2查看元组1.2.2.3解包技能1.2.3元组运算1.2.4元组不可变二、映
脑电分析入门指南：信号处理、特征提取与机器学习 Ao000000 信号处理机器学习人工智能
脑电分析入门指南一、为什么要研究脑电1.课题目标（解决什么问题）2.输入与输出二、脑电分析的整体流程三、每一步详解1.数据采集2.预处理3.特征提取4.特征选择/降维5.分类与识别四、研究过程中遇到的挑战与解决方法五、学习感受一、为什么要研究脑电1.课题目标（解决什么问题）本课题旨在通过对脑电（EEG）的采集与分析，提取有用的神经信息，实现对某类脑状或行为的识别/预测/评估。例如：情绪识别、疾病诊
指针的const应用颖川守一算法 c++
分为三个一、const修饰指针我允许你更换存储的门牌号，但是这个里面住户的数据布局不许改#includeusingnamespacestd;intmain(){inta=10,b=20,c=10;constint*p=&a;//const修饰指针*p=10;//不允许const对于p指针指向的"值"修改p=&b;//允许const对于p指针指向的修改system("pause");return0
Unity Netcode自定义数据传输——结构体及其序列化未来的中科院院士 unity 游戏引擎
在UnityNetcode中，要实现自定义数据的网络传输，确实需要两个关键部分：✅两个必需组件：数据结构定义publicstructPlayerState:INetworkSerializable{publicintid;//字段1：玩家IDpublicboolisReady;//字段2：准备状态//...其他字段}作用：定义要传输的数据内容本质：声明"要传输什么"序列化方法实现publicvoi
Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程
1.依赖库导入importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdfrommatplotlibimportfont_managerfromdatetimeimportdatetimematplotlib.pyplot：用于绘制图表。numpy：numpy：pandas：虽然代码中未font_manager：设置datetime：生成
Linux 中的 .bashrc 是什么？配置详解 vvw& 技术文章 Linux linux chrome 运维服务器 ubuntu 后端 centos
如果你使用过Linux终端，那么你很可能接触过.bashrc文件。这个功能强大的脚本是个性化命令行环境并使其更高效运行的关键。在本文中，我们将向你介绍这个文件是什么，在哪里可以找到它，以及如何安全地编辑它。你还将学到一些实用技能，如创建省时的命令别名、编写强大的shell函数，以及自定义终端提示的外观。最后，我们还将介绍基本的最佳实践和常见错误，帮助你建立更高效、更强大的命令行工作流程。准备强烈简
使用工厂模式和策略模式实现布隆过滤器小菜0-o 策略模式
使用工厂模式和策略模式实现布隆过滤器的大概流程如下：定义布隆过滤器接口：首先定义一个布隆过滤器接口，包括添加元素和判断元素是否存在两个基本操作。实现具体的布隆过滤器类：创建一个具体的布隆过滤器类，实现布隆过滤器接口中的方法。在这个类中，需要定义布隆过滗器的数据结构（比如位数组）、大小等属性。定义哈希策略接口：定义一个哈希策略接口，包含计算哈希值的方法。实现具体的哈希策略类：创建多个具体的哈希策略类
深度解码：企业级 AI 选型中 Gemini 与 DeepSeek 的架构对决 charles666666 人工智能架构语言模型深度学习产品经理机器学习
开篇：技术选型会议中的认知困局当技术团队尝试评估基于MoE（专家混合）架构的Gemini1.5Pro和DeepSeek-V3时，决策者往往陷入认知混乱。尽管两者同属MoE架构，实际测试表现却大相径庭。这种混乱源于对参数规模的盲目崇拜。Gemini1.5Pro拥有1.5万亿参数，而DeepSeek-V3参数规模仅为前者的一半。但在实际企业场景测试中，DeepSeek在中文语义理解任务中的准确率却高出
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

趣头条基于Flink+ClickHouse的实时数据分析平台

你可能感兴趣的:(趣头条基于Flink+ClickHouse的实时数据分析平台)