SelectDB技术团队

Apache Doris 助力中国联通万亿日志数据分析提速 10 倍

本文导读：

在数据安全管理体系的背后，离不开对安全日志数据的存储与分析。以终端设备为例，中国联通每天会产生百亿级别的日志数据，对于保障网络安全、提高系统稳定性和可靠性具有至关重要的作用。目前，Apache Doris 在联通体系的落地已支持了 30 多条业务线和数百个实时作业，不仅帮助联通实现了万亿级安全日志的高效分析和低成本，也为其他运营商提供了成功的参考案例和学习经验，对推动运营商的数字化转型进程具有重要意义。

作者：刘宇麒，大数据开发工程师

联通西部创新研究院是中国联通在西部地区布局的重要载体，也是中国联通数字化创新能力体系的重要组成部分，承载了集团公司科技创新体系和数字化创新体系的需求。依托联通数科的优质资源及能力底座，在云计算、大数据、物联网、人工智能、网络安全等业务领域具备深厚的技术能力和丰富的项目经验。

近些年来，网络高危漏洞数量的增长、DDoS 攻击比例的提升、恶意 Bot 流量的持续上升使得 Web 安全威胁态势愈发严峻，而数字化转型进程的推进在丰富业务创新的同时、也提升了网络空间复杂度、进一步加剧了网络安全风险。这样的背景之下，联通以攻防实战对抗为目标、进行国家级网络空间的安全治理工作，围绕“云-管-端-数”构建了多级综合防控体系，聚焦于实时监测、攻击溯源、通报预警、应急处置、情报共享等工作，构建数据全生命周期安全管理体系，为客户提供从顶层设计到运营维护一站式服务。

在数据安全管理体系的背后，离不开对安全日志数据的存储与分析。以终端设备为例，每天会产生海量的设备日志，这些日志数据记录着各种网络时间和系统操作的细节信息，对于保障网络安全、提高系统稳定性和可靠性具有至关重要的作用。为了更好的管理和分析安全日志数据，联通西部创新研究院应集团要求构建一个集中化日志数据分析平台，满足对事件和日志数据自动化采集、存储、管理、分析和可视化的诉求。这要求集中化数据分析平台具备以下能力：

建模分析：基于网络日志数据和告警数据进行规则或智能挖掘，发现潜在的安全事件，例如钓鱼邮件、非法访问等，并进行定向威胁感知。
态势大屏：通过多种维度不同监控指标的组合，例如安全事件 TOP5 等，密切监控当前网络安全态势状况，通过态势大屏呈现攻击威胁的主要分布。
追踪溯源：通过对安全事件的快速研判，还原整个攻击链条进行精准的溯源取证，从而保障网络和数据安全。

为搭建具备上述能力的集中化日志数据分析平台，在正式搭建之前，结合日志数据的特性及业务要求，我们需要综合考虑考虑如何满足以下要求，以确保平台能高效的支持联通日志场景的实际应用：

数据接入方面：日志数据具有种类繁多、格式多样化、规模庞大等特点，要求数据平台支持多种日志格式数据的导入，并支持高性能的数据写入。
实时性要求方面：为及时监控和了解系统运营情况和存在的问题，高实时性对于数据平台非常关键。这要求平台要实时进行数据同步，保障数据的一致性，并支持数据实时查询，以便获取最新的系统和业务状态。
可扩展要求方面：数据平台需要具备计算与存储的拓展能力，以便满足集团及分公司不断增长的数据处理分析需求。

在中国联通安全日志数据分析平台的迭代过程中，经历了从基于 Hive 的离线数据仓库到以 Apache Doris 为核心的实时数据仓库。从具体业务收益来讲，Apahce Doris 的引入支持了联通 30+ 条业务线和数百个实时作业，为联通带来了存储资源节约 50%、百亿级别数据查询秒级响应、数据导入效率提升 60% 的显著成果，成功实现了降本增效的业务目标；从集团整体价值来讲，通过该平台，联通可以更好地监控运营状态、保障网络安全，为运营商安全管理体系提供了重要的底层支持。总而言之， Apache Doris 在联通体系的落地，不仅帮助联通实现了万亿级安全日志的高效分析和低成本，也为其他运营商提供了成功的参考案例和学习经验，对运营商数字化转型进程的推进有着重要作用。

基于 Hive 的离线数据仓库

在项目一期建设中，我们以 Apache Hive 为核心建立了离线数仓，并在其此础上进行了数据仓库分层。当原始数据经过数据采集进入离线数仓后，由 Spark 逐层进行处理，并配合 Apache DolphinScheduler 以分钟级调度执行计算作业，最终将数据输出至 OLAP 和应用数据库。

从业务的角度来看，该架构数据流的痛点问题在于数据实时性不足，主要受限于 Hive 的离线批处理模式，端到端的延迟最短竟然需要 10 分钟。

其次，我们在该架构中选择了 ClickHouse 作为 OLAP 引擎，但在实际使用场景中发现 ClickHouse 存在以下不足：

ClickHouse 并发支持能力不足，无法满足业务需求，例如实时大屏指标的计算与加载缓慢，经常会在业务高峰期出现查询超时。
业务中有大量安全事件表需要进行多表 Join，这些表数据量较大，而 Clickhouse 在分布式 Join 实现性能较低，时常会出现 OOM 问题，为避免该情况发生，常常需要依赖宽表才能缓解，而这既影响了业务的稳定性，也增加了许多额外的维护成本。
由于 ClickHouse 对于数据更新操作支持较弱、更新性能较差，这也限制了它在某些场景下的应用。
ClickHouse 使用和运维成本较高，也给我们带来了更高的人工投入成本。

系统选型及落地

随着一期架构问题的逐步暴露，我们迫切需要对数据分析平台进行更新迭代。对于二期建设来说，提升数据的实时性被确立为首要目标，为了实现这一目标，我们计划增加实时数据处理链路，以更好地实现数据的实时收集、处理和查询要求，为系统稳定和网络安全提供更有力的支持和保障。其次，为解决一期平台存在的并发能力不足、多表 Join 性能低等核心问题，提升 OLAP 引擎性能成为二期建设的的另一关键目标，因此亟需对一期平台中 OLAP 引擎 ClickHouse 进行替换，以满足业务侧日益严格的数据分析和处理需求。

在此背景下，我们考虑是否可以只选择一个新的实时数据仓库同时满足以上两个目标，一方面即能帮助我们构建实时数据分析处理链路，另一方面又可以作为性能更强悍、更易用的 OLAP 分析引擎，这样不仅可以简化数据处理流程、提高实时效率，而且可以降低平台运维管理的成本。

为了找到符合条件的数据库，我们进行了多方调研和对比研究，最终选择以 Apache Doris 为核心来构建统一的实时数据仓库体系。为了直观展示 Apache Doris 的性能和功能特点，我们使用 Apache Doris 与 ClickHouse 进行了对比，其中最直观的感受是 Apache Doris 在系统并发、Join 性能以及多个功能的易用性都更为领先。

Doris 替换 Hive + ClickHouse 建设实时数据仓库

在项目二期的建设中，我们使用 Apache Doris 替换了 Hive 成功搭建实时数据仓库，实现数据的实时采集、处理和分析，同时使用 Apache Doris 替换 ClickHouse 作为 OLAP 引擎。架构工作机制如下所示：

ODS 贴源层：主要用于存放未经处理的原始数据，通过 Flume 等实时采集工具，将各个厂商未经处理的原始日志以及告警数据统一汇集到 Kafka 中，同时完全相同的数据也会被存入 HDFS 中一份，作为原始数据核查依据或进行数据回放。
DWD 明细层：该层为事实表，数据通过 Flink 计算引擎实时对生产数据及字段进行清洗、标准化、回填、脱敏之后写入 Kafka 。Kafka 中的数据还会对接到 Doris 中，以支持明细日志数据详情回溯查询、准实时模型分析、实时大屏及报表业务。由于大部分日志数据对于数据重复不是很敏感，因此 DWD 层采用 Doris 的 Duplicate Key 模型。
DWS 汇总层：以明细层 Kafka 数据为基础，通过动态规则引擎进行细粒度的聚合分析，为后续的业务查询和 OLAP 分析做准备，同时大部分建模分析的结果也集中在 DWS 层。
ADS 应用层：该层主要使用 Doris 的 Aggregate Key 模型和 Unique Key 模型对以上三层的数据进行自动聚合或者自动更新，以满足前端人员的具体分析需求。

新架构的应用实践

日增百亿数据，稳定快速导入

数据分析平台平均每天有 150 亿的业务日志数据新增，面对如此大规模的数据量，我们需要考虑如何将数据快速实时稳定入库。经调研，Doris Flink Connector 组件（主要依赖 Doris Stream Load ）可以实现海量数据快速导入。并且其使用非常简单，只需要导入相关依赖包进行简单的配置即可进行。在应用 Doris Flink Connector 后，数据写入性能可达到每秒 20-30 万条，极大地提升了数据导入的速度和效率，同时也不会对正常的数据分析造成干扰。

在采用 Flink 进行高频实时写入 Doris 时，如果未合理调整参数配置，可能导致数据版本堆积。为避免该问题，我们进行了以下调整优化：

Flink 优化：为减轻 Doris 的写入压力，可通过提高 Flink 的 Checkpoint 时间来减少版本数量。具体来说，我们可以将 Checkpoint 时间从之前的 15 秒提高为 60 秒，以减少批次写入频率，降低 Doris 单位时间处理事务数量。这样可以在不影响业务的情况下，缓解写入压力，避免产生大量的数据版本。
数据预处理：为了减轻 Doris 的写入压力，部分数据我们会先在 Flink 中通过主键 ID 进行预聚合，将来自多个表中相同的 ID 进行处理并构建大宽表，降低多流数据的写入资源消耗。
Doris 优化：调整 Doris BE 参数，增加 CPU 资源参与 Compaction 操作；根据业务设置合理的表分区、分桶和副本数量，避免过多分分片，以降低 Compaction 的开销。同时增大 max_tablet_version_num，避免版本堆积。

通过以上优化措施，每日新增的百亿数据可以平稳导入 Doris 中，整个导入过程中 BE 表现稳定，Compaction Score 始终保持低位，大批量数据的写入对于前端查询的性能也没有造成任何影响。同时在 Doris 的 Unique Key 模型的加持下，我们可以利用 Flink 对输入数据进行关联、聚合等处理，再以微批、精准一次性写入 Doris 中，实现了数据秒级更新。

存储资源合理配置，成本节约 50%

日志数据具有非常大的数据量和数据增长速度，如果不对存储资源进行合理分配和控制，存储成本将会成为一个巨大的负担。日志数据中也会存在重要性的区分，有一定比例的数据价值密度比较低，如果毫无差别的将这些数据都存储下来，不仅会造成存储浪费，也会增加数据分析的难度。为了有效解决这些问题，我们采用了一系列策略来降低数据存储成本：

ZSTD 高效压缩算法：利用 Doris 的新特性——ZSTD 高效压缩算法进行压缩存储。在建表时指定压缩方法为 ZSTD，特别是对数据量超过 T 级别的数据表，这种压缩方法可以有效地减少数据占用的存储空间，数据压缩比最高可达 1:10。即使采用 3 副本来保证数据的高可靠，数据存储占用的空间仍有非常大幅度的降低。
冷热数据精细化管理：在 Doris 中只存储近一年的数据，将更早的数据备份到成本更低的存储介质中。同时使用热数据转冷的功能，在 SSD 中仅存储最近 7 天的数据，将 7 天之前的数据转存到 HDD 中，以进一步降低存储成本。这样可以根据数据的使用频率，合理分配存储资源，达到性能和成本的平衡。目前 Apache Doris 2.0 版本已经实现了对冷热数据分层功能的支持，这一功能可以将冷数据下沉到存储成本更加低廉的对象存储中，冷数据在对象存储上的保存方式也从多副本变为单副本，存储成本进一步降至原先的三分之一，同时也减少了因存储附加的计算资源成本和网络开销成本，目前我们正在积极测试中，未来有机会也会与大家分享实践经验。
分区级副本设置：将 3 个月以内的数据设置为高频使用数据，将其分区设置为 3 副本；将 3-6 个月的数据分区设置为 2 副本；将 6 个月之前的数据分区设置为 1 副本。这样可以根据数据的使用情况，合理分配副本数量，实现存储成本降低的同时也充分利用多副本来提升热数据的查询性能。

借助于 Doris 极高效率的压缩算法、冷热数据分层管理、分区级副本设置等功能，可对存储资源合理分配，最终实现存储成本节约 50%，成功达到性能和成本的平衡。

数据规模分级查询，查询速度提升 10+ 倍

日志中包含了许多对分析及时性要求非常高的数据，例如异常事件、故障信息等，因此为了保障日志数据的查询效率，我们以数据量的级别为基准采用了不同的查询策略：

对于 100G 以下的数据，可以采用分区表的形式进行查询。在业务初期业务表按照天进行分区，每天执行任务需要手动管理分区为我们带来了非常大的维护成本。后来我们利用 Doris 的动态分区功能，针对数据量较大的表可以使用小时作为分区字段，为了避免分区内数据倾斜，以雪花 ID 作为分桶字段，保证数据的均衡。此外为了避免数据积压，我们还开启了动态分区的起始偏移，保留近 20 天的数据来支撑业务分析。这样可以有效地降低数据积压的风险，同时也能够满足业务的分析需求。
对于 100G 到 1T 的数据，我们采用物化视图进行查询，物化视图是一种预先计算并存储结果集的方式，可以减少查询所需的计算时间和资源消耗，从而提高查询效率。Doris 系统提供了完整的物化视图 DDL 语法，可用于创建、查看和删除等操作，这些语法与 PostgreSQL 和 Oracle 语法一致，使用简单、不需重新学习。
对于上百 T 的数据，我们通过 Aggregate 聚合模型表进行查询，使用 Aggregate 模型在数据写入前进行预聚合，通过以上方式，我们成功将 20 亿条数据的查询时间进一步缩短至 1-2s，有效提高了数据查询的效率。

在一期数据分析平台中，大部分业务场景都是通过 T+1 的方式进行计算。而在基于 Doris 的二期数据分析平台中，我们实现了对大部分业务准实时（分钟以及小时级）和实时计算场景的支持。同时结合以上优化措施，极大降低了各种维度指标的统计时间，以往需要分钟级别的明细查询，现在可以在毫秒级别迅速响应，极大地改善了用户体验；另外，在 Doris 中，我们能够快速对百亿级别的大表进行不同维度的数据分析，只需要几秒即可获得查询结果，大大提高了联通各业务部门数据分析的能力。

收益总结

自引入 Apache Doris 以来，我们已经部署了多个集群、数十台机器，支持了中国联通 30 多条业务线和数百个实时作业，日增日志数据百亿级别，单个集群的数据规模达到数 PB 。Apache Doris 的成功应用为联通带来了多方面收益，主要包括如下方面：

在数据导入方面， 对于联通而言，每天都面临着庞大的日志增量，并且这些数据的实时性和准确性对于业务发展和决策至关重要，而 Doris Flink Connector 帮助我们实现了数据快速且稳定导入，可轻松应对日增百亿数据的导入要求，为后续的数据处理和分析提供了更高效的解决方案。

在存储资源分配方面， 由于数据量庞大、存储周期长等原因，日志数据的存储成本一直是运营商面临的难题，通过采用 Doris 高效的压缩算法、冷热数据精细管理、分区级副本设置等功能，帮助我们降低了数据存储成本，数据存储利用效率和价值得到显著提升。

在查询性能方面， 快速获取日志数据查询结果可以帮助运营商及时掌控网络及系统情况，及时发现并解决问题，也有利于及时了解用户需求和行为，优化营销策略和服务方案。Doris 在查询性能方面提供了强大的支持，能够处理百亿级别大表按小时/天级别的明细查询，并支持不同维度聚合查询分析。业务线整体响应时间可在秒级或毫秒级别完成，甚至可以在 1-2s 内完成对 20 亿条数据的查询，查询速度较之前提升了 10+ 倍。

未来规划

在最新发布的 Apache Doris 2.0 版本中，Apache Doris 提供了大量新的功能，比如倒排索引功能和冷热数据分层等，对于日志分析场景来说都是具有重要意义的更新。目前我们是以数据存储周期为基准进行副本分配，并按照数据热度分别存储在 SSD 和 HDD 中，后续我们将使用冷热数据分层新功能，将数据从从 SSD 或者 HDD 下沉到对象存储中，从而降低数据存储成本，进一步达到服务器磁盘资源节省的目的。此外，我们正在对倒排索引功能进行测试，并计划先在小范围业务场景推广使用，倒排索引对于字符串类型的全文检索和普通数值、日期等类型的等值、范围检索具有更高效的支持，希望通过倒排索可以帮助我们进一步提高日志数据查询的效率和准确度。

除此之外，基于联通的使用场景，我们对自动分桶功能提出一些建议。目前自动分桶计算逻辑是根据最近的分区数据量来动态决定当前分区的分桶数目，这种方式适用于分区数据量呈线性关系的业务表。然而，由于我们的业务表在白天的数据量较多，夜晚数据量较少，因此使用自动分桶会导致白天部分分区具有较少的分桶，而夜晚分区则具有较多的分桶。因此，未来我们期望社区可以增加一种新的分桶规则，以前一天的数据分区存储情况为参照，来对当天的分区进行自动分桶，这样可以更加准确的根据业务表特点进行自动分桶。当然我们也将对该功能的优化进行探索，及时与社区交流，将最新的优化代码贡献到社区，共同推动社区的发展进步。

最后，非常感谢 Apache Doris 社区和 SelectDB 的同学，我们在使用中遇到任何问题时，他们给予了我们快速的响应与技术支持，未来我们会持续的将在实践过程中取得的相关成果贡献到社区。希望 Apache Doris 与 SelectDB 越来越好！

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class