SelectDB技术团队

同程数科基于 Apache Doris 构建统一实时数仓，查询提速数十倍！

本文导读：

同程数科是同程集团旗下的旅游产业金融科技服务平台，为上下游企业和个人消费者提供数字金融科技服务。近年来，随着同程数科业务的不断拓展和用户量的增加，高效可靠的一站式数据中心建设已成为必不可少的需求。为帮助业务人员提升数据开发的效率与质量，同程数科历经三代架构演进，最终引入 Apache Doris 搭建统一实时数仓，在后续的实际应用中，将实时数仓平台化，进一步构建了一站式数据平台 Ark，为业务人员提供了简单易用、便于维护的系统，实现任务自主开发、灵活上线、简便查询、持续监控等使用功能。

作者：陈松，同程数科大数据平台工程师

同程数科是同程集团旗下旅游产业金融科技服务平台，前身为同程金服，成立于 2015 年 11 月，以数字科技引领旅游产业，以科技的力量赋能旅游产业为愿景，为旅游公司在深层次的生态链条上构建竞争力，同时为旅游产业链上下游企业和个人消费者提供数字金融科技服务。同程数科的业务涵盖了旅游产业链金融服务、旅游消费金融服务、支付科技等板块，累计服务用户超过千万，涵盖 76 座城市。 目前，同程数科已获得首轮战略投资，联合多家产业金融机构，为旅游产业开拓新业务的服务平台。

近年来，随着同程数科业务的不断拓展和用户量的不断增加，我们越来越需要一个可靠、高效的数据中心，以帮助企业更好地了解业务运营情况和制定策略，这包括但不限于建立实时业务报表看板、实时业务指标预警、营销用户画像与标签、以及金融风控实时监测等分析工具。因此，我们更加关注于实时数仓的构建，希望利用数仓帮助业务人员提升数据开发的效率与质量，从而为业务分析提供强大的后盾。

基于此，我们开始了实时数据仓库的探索之旅。如今，数仓架构已经经历了三代演进，经过第一代离线架构与第二代 Lambda 架构的使用后，通过需求分析与调研，最终引入 Apache Doris 搭建了统一的实时数据仓库。本文将详细介绍三代架构的演进过程，分享我们如何基于 Apache Doris 搭建一站式数据平台 Ark，以及如何在业务使用、系统维护、数仓开发等方面达到降本增效的收益与成果。

早期架构演进

在大数据技术发展和运用的初期，同程数据以 Apache Hive 为核心建立了离线数仓，并使用 Hive 进行数仓分层。当数据从源头进入离线数仓后，通过 ODS 、DWD 、DWS 层级处理，数据输出至 MySQL、Redis、HBase 等应用数据库，以供报表平台使用。该架构虽然具有耦合性低、稳定性高等优势，但其缺点也比较明显，主要体现在当进行局部更新时需要对数据进行全量合并，流程冗长，使数据更新时间变长，时效性无法得到保证。随着数据规模不断增加，局部更新需求越来越多，该架构在数据计算效率低下和资源利用不充分的弊端也变得愈加明显。

基于第一代架构存在的问题，我们对架构进行了升级改造。第二代架构为典型的 Lambda 架构，在保留原有离线数仓的同时，新增了以 Apache Flink 与 Apache Kafka 为核心的实时数仓。在该架构中，离线链路主要对数据进行批量处理，负责解决周期性数据跑错的问题。新增的实时链路利用 Flink 对于数据源进行流式处理、利用 Kafka 对数仓分层，最终输出至应用数据库。

尽管该架构解决了第一代架构中数据时效性较低的问题，但是在长期的运行中，我们发现仍存在一些使用痛点：

架构复杂，运维难度高： 由于两套链路同时运行，实时链路需要通过 Apache Flink 与 Apache Kafka 对数据进行流处理，离线链路需要利用 Apache Hive 与 Apache Spark 对数据进行批处理，并且两条链路的维表层中均利用 MySQL 或 Redis 进行存储，这导致整体架构涉及的组件过多，数据处理流程过于复杂。除此之外，该架构会重复计算相同的数据，导致整体资源占用增加、运维管理成本增加、后期维护难度增加。
数据开发成本高： 实时数仓部分完全依赖 Apache Kafka 进行数仓分层，而 Kafka 对于数据的存储周期具有限制，新的数据导入任务需要进行额外的开发工作，这将极大增加开发成本。
数据一致性低： 相同的数据在实时数仓中流处理，离线数仓中批处理，存在数据处理逻辑不统一的问题，数据一致性与准确性得不到保障。由于无法复用第一代架构中的数据血缘、数据质量等管理体系，在运行过程中，当实时链路出现乱序问题时，需要回放全量日志进行数据回溯，增加数据修复的复杂性。

Apache Doris 和 Clickhouse 选型对比

为了彻底解决早期架构的问题，在引入新架构之前，我们决定进行深度的产品调研来选择更适合的数仓搭建方案。我们发现 MPP 架构数据库能够支持统一实时的数据分析，可以有效解决 Lambda 架构复杂、数据一致性无法保障的问题，而这一产品细分下，Apache Doris 与 Clickhouse 比较匹配我们的业务诉求。基于此，我们对这两款 MPP 架构数据库进行了选型对比，并发现 Doris 的表现更加优异，非常符合我们的选型要求，具体表现如下：

产品易用性： ClickHouse 不支持标准 SQL，而 Apache Doris 支持标准 SQL 并兼容 MySQL 协议，使开发人员上手简单，不需要付出额外的学习成本。
Join 性能优异： Doris 支持分布式 Join，查询灵活度较高，且性能表现优异。而 ClickHouse 由于 Join 查询限制、函数局限性以及可维护性较差等原因，不满足我们当前的业务需求。
数据导入： Doris 的数据导入功能完备，支持 Routine Load、Stream Load 和 JDBC Insert Into 等多种数据导入方式，即使在海量数据下也能保持数据稳定写入，性能与速度远高于 ClickHouse。
运维难度： Doris 架构精简，只有 FE 与 BE 两种角色，整体部署简单快速，同时 Doris 在扩容方面非常快捷，支持滚动升级，只需要替换相关安装包即可。而 ClickHouse 对组件依赖较高，在使用和扩容上需要做许多准备工作，这就要求提供一支专业的团队来支持日常的开发与运维工作。

更关键的是，Doris 可以同时支持实时数据服务、交互数据分析和离线数据处理等多场景。 Multi-Catalog 提供了联邦查询的能力，支持对多个数据源进行读取，提高数据的准确性和质量，简化任务开发流程。此外，这一功能可以使开发人员更快速地找到所需数据，减少查询时间和成本，提高查询效率。因此 Apache Doris 的高效运行性能和低开发成本的优势，更符合我们对一站式数据平台搭建的需求。

新一代统一实时数仓

引入 Apache Doris 后，我们对架构进行了重构。如上图所示，我们使用 Apache Doris 统一进行数据存储与计算，完全替代了原先的离线架构与 Lambda 架构，并构建了一站式数仓，不仅保证了数据的一致性，还实现了架构的精简，极大降低了架构运维成本。 其次，在数据源进入实时数仓时，我们新增了 Input 统一数据集成引擎，支持多种异构数据源的数据同步，实现数据入口的统一。总而言之，Doris 的引入真正帮助我们实现了数据集成、存储、计算、输出方面的统一，真正意义上实现了实时统一数仓。

基于 Apache Doris 的一站式数据平台

基于新一代的数仓，我们搭建了一站式数据平台 Ark，希望通过该数据平台实现任务开发、任务提交与测试、任务调度与监控、数据查询、集群监控等一体化服务，为内部人员在实际业务中提升任务开发效率，提高任务监控质量。

数据开发： 我们希望外部数据接入 Apache Doris 时可以高效地进行 ETL 开发，提升报表产出速度。
调度管理： 在业务人员开发完成并上线任务后，我们需要保证任务调度的稳定性以及调度恢复能力，避免问题发生。
数据查询： 由于生产与办公网络中间有隔断，办公网络不能直接使用生产网络的连接，只能通过 Web 形式解决网络隔断，我们希望借助平台能够提供安全便捷地查询和分析方式。
集群管理： 当集群出现异常状况时，我们希望平台能够及时监控捕捉并进行自动化处理。

一键生成任务脚本，提升任务开发效率

Apache Doris 支持丰富的数据源接入，利用这一功能，在 Ark 平台中可以根据不同的数据源，获取相对应的元数据信息来形成脚本，实现任务快速生成。在数据接入方面，平台进行了半自动化代码的相关工作，并创建了快速生成组件。如上图所示，在平台中输入数据源或表的信息可以自动生成 Routine Load 脚本。基于该脚本，只需要对 Apache Kafka 接入源进行 Topic 修改，即可马上生成 Routine Load 任务。同样，对于 Broker Load 的任务开发原理相同，在选择对应的数仓源之后，可以及时生成 Broker Load 所需脚本。利用 Doris 多源异构数据的写入能力，平台能够快速构建代码，实现对 Routine Load 与 Broker Load 的高效任务开发。

自动调度监控，保障任务正常运行

在任务开发与提交之后，平台可以针对 Routine Load 或者 Broker Load 任务进行查询、检查是否存在异常等常规调度操作。对于需要特别关注的任务，可以加入监控列表中，这样系统会定期自动地对任务进行扫描，发生问题时会进行提示并尝试将任务重新拉起。此外，由于 Routine Load 是常驻进程，对于该任务的监控，平台支持定期且持续的自动化监控功能，而对于 Broker Load 与其他常规任务，平台在定期扫描后会对失败的任务进行预警提示。

安全便捷的可视化查询分析

由于生产与办公网段隔离，我们只能通过 Web 进行查询，使用起来繁琐且不方便。为了解决这个问题，我们曾经尝试使用集成 Hue 的方式，使 Doris 通过 MySQL 协议连接到 Hue 进行数据查询，虽然查询过程有所简化，但是这种方法存在数据安全隐患。

因此，同程数科自行开发了内部查询分析页面，设置了权限管理，解决了查询安全性的问题。同时，在 Ark 平台中集成了 Doris Help 功能，使业务人员能够通过关键字搜索进行 SQL 语法和示例的查询，解决常规查询操作问题，以此降低学习成本，提高内部人员查询的便捷性。

完备智能的集群监控

通过 Apache Doris 集群监控页面可以实时监管 FE 、BE 以及 Broker 节点状况。当集群发生异常状况时，监控系统会发送自动提醒并尝试将集群拉起，及时对异常情况进行自动化处理，避免引发更大的问题。同时集群监控的看板也可以帮助我们观察节点的健康度情况，通过 FE 节点状态判断健康度高低。

总结收益与成果

当前，同程数科已经基于 Apache Doris 搭建了高度统一实时的数据仓库，并使用数十台 Doris 节点机器。此外，我们还将 Doris 功能平台化至 Ark 一站式数据平台中，实现对于 Ark 平台能够包罗万象的开发初衷。对于 Doris 的引入，为我们带来以下收益与成果：

缩减开发周期：利用平台一键开发功能，业务人员能够自主开发，无需将需求提给大数据团队，开发时间由原来的半小时缩短到仅需三分钟，显著压缩了任务开发周期，开发效率提升了十倍；
灵活数据开发：配合 Ark 一站式数据平台，数据开发能够灵活分析，需求可以快速上线；
统一数据处理：Doris 在数据导入、存储、计算实现统一，保证数据一致性，实现真正意义的实时统一；
提升查询效率：从过去分钟级效应时间到如今秒级甚至毫秒级，查询效率得到数十倍提升；
降低学习成本：因为 Apache Doris 兼容 MySQL 协议，并且使用标准 SQL，在使用上简单易用。业务人员能够如同使用数据库一样使用大数据，从而进一步降低学习成本；
降低运维成本： Doris 的部署简单，精简架构使整体链路体系简洁，便于维护。

未来规划

在未来，我们希望基于 Apache Doris 能够搭建实时数仓生态体系，并在同程数科的内部进行大规模使用。我们将会持续建设并优化基于 Apache Doris 一站式实时数仓架构，完善统一计算和存储、流批一体能力。对于 Ark 一站式数据平台持续迭代增强，整个实时数仓体系向着时效性、稳定性、灵活性发展。完善 Ark 数据集成平台的图形化功能，持续增加更多异构数据源之间的数据同步功能，增强引擎对数据的处理能力。

其次，我们将持续关注 Apache Doris 在数据湖分析方面的能力，我们希望在湖中能够对多源异构数据进行采集，实现数据统一存储、统一多范式计算，最后由 Doris 的 API 接口统一对外提供服务。另外，我们对于 Apache Doris 2.0 的尝鲜测试也非常感兴趣，特别是倒排索引功能和 JSONB 数据类型的优化，在后续的架构优化中我们会考虑利用倒排索引替换现有的日志系统，利用更新的 Json 数据类型进一步完善查询能力。

在此特别感谢 SelectDB 技术团队长期以来的及时响应和技术支持。未来，我们也会更积极参与社区贡献及活动，与社区共同进步和成长，欢迎大家选择和使用 Doris，相信 Doris 一定不会让你失望！

场景题：有40亿个QQ号如何去重？仅1GB内存卷福同学社招面试面试阿里云京东云 java
场景题也有一些套路可以考虑，比如去重、判断给定数据是否存在1.大数据去重1.1现在有40亿个QQ号如何去重？仅1GB内存参考链接：https://juejin.cn/post/7396332696660131849介绍2种方法：Bitmap和布隆过滤器方法一：Bitmap首先介绍下什么是位图Bitmap位图是使用bit数组表示的，它只存储0或者1，因此我们可以把全部的QQ号放到位图中，当index
袋鼠数据库工具 7.99.1 版已上线
袋鼠数据库工具是一款AI驱动的热门数据库系统客户端(MariaDB/MySQL/Oracle/PostgreSQL/Redis/SQLite/SQLServer/...)，支持建表、查询、模型、同步、导入导出等功能，支持Windows/Mac/Linux等操作系统，致力于打造一款好用、好玩、开发友好的开发者工具。重点特性介绍这个版本继续完善Redis支持，实现了Redis用户管理支持，实现了数据格
使用 Spread.net将 Excel 中的文本拆分为多段 .net
引言：在.NET应用程序中处理Excel数据时，常常会碰到需要把文本拆分成多段的情况。例如在数据清洗、数据分析等场景下，将长文本按照特定规则拆分为多段能让数据更便于处理和分析。Spread.NET作为一款强大的.NET电子表格组件，为我们提供了有效的解决方案。本文将详细介绍如何使用Spread.net将Excel中的文本拆分为多段，涵盖多种实现方式，帮助开发者在.NET应用程序中高效地管理数据。在
docker 搭建mysql 连接不上_docker搭建MySQL主从集群 Grayce docker 搭建mysql 连接不上
关于MySQL主从模式，如果我们直接在本机上搭建的话，是没法搭建的，只能借助于虚拟机，但有的时候我们又需要搭建一个主从集群，以便于进行一些功能性的测试。这个时候我们就可以尝试使用docker，借助于docker的容器化技术，我们只需要创建两个MySQL容器，并且占用主机的两个端口即可，对主机没有其他额外的影响。这种方式非常的轻量，而且也容易复制。本文则主要讲解如何通过docker来搭建MySQL集
通过docker快速搭建mysql主从集群（一主两从） NazzzzMini docker docker mysql 运维
通过docker快速搭建mysql主从集群（一主两从）：首先请确保你的服务器已安装了docker⁄(⁄⁄•⁄ω⁄•⁄⁄)⁄，那么接下来，我们进入正题~1.镜像拉取#latest目前版本为8.0.13;dockerpullmysql:latest2.启动主库镜像dockerrun\--restart=always\-p3306:3306--namemysql\-v/opt/mysql/log:/va
【MySQL】基于Docker搭建MySQL一主二从集群不想睡觉的橘子君踩坑专栏 mysql Docker mysql docker 数据库
本文记录了搭建mysql一主二从集群，这样的一个集群master为可读写，slave为只读。过程中使用了docker，便于快速搭建单体mysql。1，准备dockerdocker的安装可以参考之前基于yum安装docker的文章[1]。容器相关命令[2]。查看正在运行的容器dockerps查看所有容器（查看正在运行的和已经停止运行的）dockerps–adockerps-all查看最后一次运行的容
MYSQL的基础信息如何存放月堂 oracle 数据库
一、存储位置与版本差异1、MySQL8.0+（事务化存储）系统表存储：所有元数据（表结构、索引、权限等）统一存储在mysql系统库的InnoDB事务表中（如mysql.tables、mysql.columns），物理文件为mysql.ibd。优势：性能优化：INFORMATION_SCHEMA改为内存视图，查询效率提升（无需解析文件）。原子DDL：DDL操作（如建表、删表）完全事务化，失败自动回滚
新手向:从零开始MySQL超详细安装、配置与使用指南 nightunderblackcat 基础环境配置 mysql 数据库
什么是MySQL？一句话解释：MySQL是全球最流行的开源关系型数据库，像淘宝、Facebook等大型网站都在使用它存储数据！它采用表格形式管理数据（类似Excel），支持SQL语言进行数据操作。第一步：安装MySQL（多系统详解）Windows系统下载安装包：访问官网：https://dev.mysql.com/downloads/mysql/选择MySQLInstallerMSI（Window
04_MySQL 通过 Docker 在同一个服务器上搭建主从集群（一主一从）耀耀_很无聊【实施】实施日记 mysql docker 服务器
04_MySQL通过Docker在同一个服务器上搭建主从集群（一主一从）准备工作1.拉取MySQL镜像bash复制编辑dockerpullmysql:8.0.262.创建主从配置目录bash复制编辑mkdir-p/root/mysql/master/confmkdir-p/root/mysql/master/datamkdir-p/root/mysql/master/mysql-filesmkdi
Redis 与其他数据库的比较 jarenyVO redis 数据库 redis 缓存
Redis与其他数据库的比较以下是Redis与传统关系型数据库及其他NoSQL数据库的对比列表：Redisvs关系型数据库(MySQL/Oracle)对比维度Redis关系型数据库数据模型键值对、丰富数据结构（String/Hash/Set等）表结构，严格的行列模型持久化可配置（RDB快照/AOF日志）默认持久化，WAL日志+数据文件事务支持简单事务（无回滚）ACID事务，支持复杂回滚查询能力仅支
深度剖析数据中台：大数据领域的核心技术架构大数据洞察大数据架构 java ai
深度剖析数据中台：大数据领域的核心技术架构关键词：数据中台、大数据、核心技术架构、数据治理、数据服务摘要：本文旨在对数据中台这一大数据领域的核心技术架构进行深度剖析。首先介绍了数据中台的背景，包括其目的、适用读者、文档结构和相关术语。接着阐述了数据中台的核心概念、原理和架构，通过文本示意图和Mermaid流程图进行直观展示。详细讲解了核心算法原理及具体操作步骤，并结合Python源代码进行说明。引
SQL规范检查独步秋风 Mysql mysql sql 规范检查
序号规则规则等级数据库类型1Update/Delete需要带上where条件errorMysql2不允许使用Truncatetable语句errorMysql3Update/Delete不允许带limit条件errorMysql4Update/Delete不允许带orderby条件errorMysql5不使用“SELECT*”这样的语句errorMysql6不使用DML广播语句errorMysql
java+vue+SpringBoo智慧旅游系统（程序+数据库+报告+部署教程+答辩指导）
源代码+数据库+LW文档（1万字以上）+开题报告+答辩稿ppt+部署教程+代码讲解+代码时间修改工具技术实现开发语言：后端：Java前端：vue框架：springboot数据库：mysql开发工具JDK版本：JDK1.8数据库：mysql数据库工具：Navicat开发软件：idea主要角色及功能介绍本次系统的用例图做出了十分明确的功能划分，在设计时可以有很好的设计思路进行设计和延展。（1）管理员用
2025年全球数据安全发展趋势 jinan886 人工智能大数据安全数据分析
随着云计算、大数据、人工智能等技术的迅猛发展，数据已成为驱动经济社会发展的关键生产要素。然而，数据泄露、网络攻击等安全事件频发，给个人隐私、企业利益乃至国家安全带来了前所未有的挑战。全球数据安全发展趋势正随着技术进步和威胁演变而不断变化，以下是主要趋势：1.数据隐私法规加强GDPR（欧盟《通用数据保护条例）和CCPA（加州消费者隐私法案）等法规推动了全球对数据隐私的重视，更多国家和地区正在制定或更
使用Chaindesk进行简单高效的文档检索 2501_92325368 langchain
##技术背景介绍Chaindesk是一个开源的文档检索平台，它帮助将个人数据与大型语言模型结合起来，实现高效的信息搜索和数据分析。Chaindesk的核心功能是通过创建数据存储库(datastore)并与大型语言模型进行交互，以提供快捷准确的文档检索能力。##核心原理解析Chaindesk通过一种称为Retriever的组件实现数据检索。Retriever可以与不同的数据存储库进行交互，拉取相关文
数据库连接池优化深度解析后端
在Java企业级应用中，数据库连接池作为数据库访问的核心组件，其性能直接影响系统的整体吞吐量与稳定性。本文从连接池核心参数、性能调优策略、监控与故障诊断及面试高频问题四个维度，结合主流连接池实现（HikariCP、Druid）与工程实践，系统解析数据库连接池的优化方法与最佳实践。一、连接池核心原理与关键参数1.1连接池工作流程1.2关键参数解析（以HikariCP为例）参数作用推荐值maximum
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
MySQL事务隔离级别 Pseudo-lover563 mysql 数据库
目录一、MySQL事务的四大隔离级别1、READ-UNCOMMITTED（读取未提交）2、READ-COMMITTED（读取已提交）3、REPEATABLE-READ（可重复读）（MySQL默认）4、SERIALIZABLE（可串行化）二、总结一、MySQL事务的四大隔离级别1、READ-UNCOMMITTED（读取未提交）最低的隔离级别，允许脏读，也就是可能读取到其他会话中未提交事务修改的数据，
分享一些 SQL 优化工具王宇帆avalanche sql 数据库
一、数据库自带的性能监控和分析工具MySQL：MySQLEnterpriseMonitor：这是MySQL官方推出的一款企业级监控工具，它提供了全面的数据库性能监控和管理功能。功能特点：可以实时监控MySQL服务器的各种关键性能指标，如查询响应时间、吞吐量、连接数、缓存命中率等。它还能深入分析SQL查询的执行计划，帮助用户找出性能瓶颈和优化点。通过直观的图形界面，管理员可以轻松了解数据库的运行状态
mysql api blob处理_SQLite中如何用api操作BLOB类型的字段 weixin_39620684 mysql api blob处理
在实际的编程开发当中我们经常要处理一些大容量二进制数据的存储，如图片或者音乐等等。对于这些二进制数据(blob字段)我们不能在实际的编程开发当中我们经常要处理一些大容量二进制数据的存储，，如图片或者音乐等等。对于这些二进制数据(blob字段)我们不能像处理普通的文本那样简单的插入或者查询，为此SQLite提供了一组函数来处理这种BLOB字段类型。下面的代码演示了如何使用这些API函数。相关阅读：S
MySQL的黑魔法：揭秘隐式类型转换的“双刃剑”效应訾博ZiBo MySQL mysql android 数据库
你是否曾在MySQL中写下这样的CREATETABLE语句？CREATETABLE`products`(`id`intunsignedNOTNULLAUTO_INCREMENT,`product_name`varchar(255)DEFAULTNULL,`sort_order`intDEFAULT'0',--注意这里！PRIMARYKEY(`id`));当你看到sort_order这个int类型的
Python 数据分析与机器学习入门 (一)：环境搭建与核心库概览程序员阿超的博客 Python python 数据分析机器学习入门教程环境搭建 Anaconda JupyterNotebook
Python数据分析与机器学习入门(一)：环境搭建与核心库概览本文摘要本文是Python数据分析与机器学习入门系列的第一篇，专为初学者设计。文章首先阐明了Python在数据科学领域的优势，然后手把手指导读者如何使用Anaconda搭建一个无痛、专业的开发环境，并介绍了强大的交互式工具JupyterNotebook的基本操作。最后，简要概览了NumPy、Pandas、Scikit-learn等核心库
Python 数据分析与机器学习入门 (三)：Pandas 数据导入与核心操作程序员阿超的博客 Python python 数据分析机器学习 Pandas DataFrame Series 数据清洗
引言：Pandas是什么，为何如此重要？如果说NumPy是处理原始数值数组的利器，那么Pandas则是驾驭结构化数据的瑞士军刀。在真实世界的数据分析项目中，数据很少是单纯的数字矩阵。它们通常以表格形式存在，包含行和列，每列可能有不同的数据类型（如文本、数字、日期），并且带有描述性的列名和行索引。Pandas正是为高效处理这类数据而生。Pandas构建于NumPy之上，它不仅继承了NumPy的高性能
docker-compose启动mysql一直提示挂载目录存在文件
version:"3.8"services:mysql:image:mysql:8.0.33container_name:mysqlrestart:unless-stoppedenvironment:MYSQL_ROOT_PASSWORD:123456MYSQL_DATABASE:sample_dbTZ:Asia/Shanghaiports:-"3306:3306"volumes:-/exampl
数据同步工具对比：Canal、DataX与Flink CDC 智慧源点大数据 flink 大数据
在现代数据架构中，数据同步是构建数据仓库、实现实时分析、支持业务决策的关键环节。Canal、DataX和FlinkCDC作为三种主流的数据同步工具，各自有着不同的设计理念和适用场景。本文将深入探讨这三者的技术特点、使用场景以及实践中的差异，帮助开发者根据实际需求选择合适的工具。1.工具概述1.1CanalCanal是阿里巴巴开源的一款基于MySQL数据库增量日志(binlog)解析的组件，主要用于
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
RAG检索增强生成在垂类AI应用效能优化中的应用 TechVision大咖圈人工智能 RAG 检索增强生成垂类AI 效能优化知识库向量检索
关键词：RAG、检索增强生成、垂类AI、效能优化、知识库、向量检索、大模型应用文章目录引言：为什么垂类AI需要RAGRAG技术原理深度解析垂类AI应用的痛点与挑战RAG在垂类AI中的解决方案效能优化的核心策略实战案例分析最佳实践与踩坑指南总结与展望引言：为什么垂类AI需要RAG在AI大模型满天飞的今天，每个企业都想搭建自己的"智能助手"。但是现实很骨感——通用大模型虽然知识渊博，却像个"万金油"，
二次开发源码借贷系统uniapp/借贷认证系统/小额信贷系统/工薪贷APP/资金贷系统h5 csdndddsd uniapp借贷系统开发小额贷系统app 工薪贷系统安装搭建信用贷认证系统 h5资金贷系统安装搭建教程借贷系统安装搭建借贷系统二次开发
前端：UNIAPP后端：ThinkPHP数据库：Mysql前端使用的uniapp可以打包APPH5小程序系统提供了完善的网络借贷体系，为金融中介平台提供从获客到贷后管理全流程服务，解决了借贷手续繁琐、流程缓慢等问题此源码为运营中版本，具有极高稳定性，防注入，防攻击，修复全部已知后门漏洞仅供学习演示、二次开发专用，禁止一切违法行为的利用！可提现金额(元)￥{{qbMoney}}充值提现余额明细余额变
Java后端面试必备：高频知识点与实战解析（Git/Maven/MySQL/SpringBoot全攻略）陈遇巧学习 java maven spring spring boot
1.面试ToC面向个人，B2B2C（第1个B是指商品或服务的供应商，第2个B是指从事电子商务的企业，C是消费者。例子：腾讯课堂，第1个B是腾讯公司，第2个B是入驻授课的企业，C是用户学习课程）1.详细说说你的项目吧从以下几个方面进行项目介绍：1.项目的背景，包括：是自研还是外包，什么业务，服务的客户群是谁，谁去运营等问题。2.项目的业务流程3.项目的功能模块4.项目的技术架构5.个人工作职责6.个
大学专业科普 | 云计算、大数据鸭鸭鸭进京赶烤云计算大数据
大数据专业是近年来随着信息技术发展而兴起的热门学科，专注于从海量、多样化的数据中提取有价值信息，为各行业提供数据驱动的决策支持。专业定义大数据专业旨在培养掌握大数据采集、存储、管理、分析和应用等核心技术的人才。该专业融合了计算机科学、数学、统计学、数据科学和领域知识，重点解决大数据环境下的数据处理和分析问题。课程设置大数据专业的课程体系包括基础课程、专业核心课程和实践课程。（一）基础课程基础课程涵
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><