SelectDB技术团队

下一个十年，我们需要一款什么样的分析型数据库？

本文来自于 Doris Summit 2022 演讲实录，演讲人：陈明雨

十年对于数据库意味着什么？

身处在日新月异的时代，我们见惯了技术的兴起与繁荣、变迁与衰落，甚至是朝荣夕灭。信息技术以前所未有的速度更迭，给周遭事物带来了颠覆性地变化。数据库亦是如此，无数数据库悄然湮没在技术更迭的浪潮里，直到在浩渺如海的代码片段中都找不到些许印记。而有的则历久而弥新，经受了时间的考验，彰显出强大的生命力，并以更加繁茂的姿态扎根生长。

十年对于数据库而言，可能是一段从诞生到消逝的完整软件生命周期，也可能是迈过里程碑之后的全新旅程。

所以从 MySQL 1.0 版本诞生，到具备颠覆性意义的 MySQL 5.7 版本正式发布，时间跨度刚好是十年，而十年之后的故事，大家已经都知道了。

所以从 Benoit、Thierry、Marcin 联合创建 Snowflake，到在纽交所成功上市、成为软件行业有史以来最大规模的IPO，再到全面开启云数据仓库时代，时间跨度也差不多十年。

而对于 Apache Doris，十年意味着什么？

留个悬念，在回答这个问题之前，我们不妨来回顾下社区发展历程。

尽管最早的历史可以追溯到 2008 年的百度凤巢广告系统，但彼时非 SQL 的单机查询引擎加 KV 存储系统在产品形态上与 OLAP 还有着较大的差异。

正式确立 OLAP 数据库这一形态是在 2013 年。通过自研全列式存储引擎 OLAP Engine 并基于 Apache Impala 改造了全新的 MPP 查询引擎，自此，Doris 真正成为了具备大数据量下高效支持数据分析能力的 OLAP 数据库，并在百度内部大规模应用，成为了百度内部统一的 OLAP 分析平台。

往往一个内部项目的发展会有两种演进模式，一种是随着需求的增加系统架构日益臃肿，当面对较为灵活的需求，常因改动成本过大而被彻底重构。另一种则是长期服务某一固定场景、需求逐渐收敛乃至停滞，最终被快速革新的外部技术彻底取代。而开源则是内部项目的一场新生，在更广阔的应用场景、更多样的开发者群体以及更高效的研发模式加持下开启新的篇章。

于是在数个版本的迭代与优化后，2017年 Doris 的前身在 GitHub 上开源，2018 年进入 Apache 基金会孵化，并正式更名为 Apache Doris。（GitHub 地址：https://github.com/apache/doris）

时至 2022 年，正是 Apache Doris 在 OLAP 领域深耕的十年之际。

# 我们该如何回顾过去的 2022 年？

2022 年，外部世界正处在前所未有的变化之中，无数魔幻时刻在现实中发生。需要庆幸的是，技术和开源的力量帮助我们穿越了许多不确定性。而这一年势必成为 Apache Doris 发展历程中有着浓墨重彩的一年，我们从几个角度来回顾一下 Apache Doris 过去一年的发展：

社区重要指标

过去一年中：

社区累计贡献者的数量从 200 余位增长至近 420 位，同比增长超过 100% ，目前仍在持续上升中。

每月活跃贡献者的数量从 50 位增长至 100 位，同样呈现翻倍增长的趋势。

GitHub Star 数量从 3.6k 增长至 6.8k，多次登上 GitHub Trengding 日/周/月度榜单前列。

全部 Commits 数量从 3.7k 增长至 7.6k，过去一年新提交代码量超越了以往多年累加总和。

从这些数据中，我们可以感受到 2022 年是 Apache Doris 全面爆发的一年，各个维度数据指标几乎都有了 100% 的增长。这一年的努力也使 Apache Doris 成为了全球大数据和数据库领域最为活跃的开源社区之一，上方 GitHub Contribution 增长趋势图更是证明了这一点。而这一切，正是由社区所有的用户和开发者共同创造的。

另外值得纪念的是，在 2022 年 6 月， Apache Doris 迎来了开源以来最重要的里程碑之一，正式从 Apache 孵化器毕业、成为了 Apache 顶级项目。

开源用户规模

得益于社区成立的专职工程师团队，为 Apache Doris 社区用户提供义务的技术支持，2022 年我们在用户连接与沟通方面变得更加顺畅，可以更直面用户、去倾听用户真实的声音。

在过去的一年里，Apache Doris 已经在互联网、金融、电信、教育、汽车、制造、物流、能源、政务等数十个行业应用落地，尤其是在以海量数据著称的互联网行业。在中国市值或估值排行前 50 的互联网公司中，有 80% 企业在长期使用 Apache Doris 来解决自身业务中的数据分析问题，其中包含了百度、美团、小米、腾讯、京东、字节跳动、网易、新浪、360、米哈游、知乎等头部知名企业。

在全球范围内，Apache Doris 已经得到了超过 1000 家企业用户的认可，并且这一数字仍在快速增长中。这 1000 多家企业用户中，绝大多数与社区有着直接联系，并通过各种方式参与到社区建设中来。他们中的许多企业用户也参与到本次 Doris Summit 的议题分享中，将自身基于真实业务场景的实践经验分享给大家。

版本更新迭代

如果说过去版本将使用和运维的简易性作为第一追求的话，那么 2022 年发布版本则是在性能、稳定性、易用性等多方面特性的全面进化。

4 月份社区发布了自开源以来的首个 1 位版本—— Apache Doris 1.0，在 1.0 版本中，意义非凡的向量化执行初次与大家见面，标志着 Apache Doris 开始迈入极速数据分析时代。

6 月份发布的 1.1 版本，我们对向量化引擎进行了进一步完善和优化，并将其作为正式功能默认开启。与此同时，社区建立了 LTS 版本发布机制，以每月发布一个 3 位版本的速度，对 1.1 版本进行快速地 Bug 修复和功能优化，力求满足更多社区用户在稳定性方面的高要求。

在综合考虑版本迭代节奏和用户需求后，我们决定将众多新特性在 1.2 版本中发布。同时期社区的稳定性和质量保障工作也取得了显著的成效，测试 Case 得到了极大程度地丰富，并在 Master 分支上构建了流水线。通过一系列质量手段，Apache Doris 的代码质量和稳定性得到进一步提升，这也使得版本发布有着更加严格的准出标准。

12 月初 1.2 版本正式面世。这一版本的发布不仅使查询性能有了近十倍的提升，同时我们还推出了过去半年时间里研发的诸多重磅功能，包括 Unique Key 模型 Merge-on-Write 的数据更新模式、支持无缝对接多种数据湖的 Multi-Catalog 多源数据目录、Java UDF 、Array 数组类型和 JSONB 类型等，让 Apache Doris 在更多数据分析场景具备了更强的适应性和可能性。

我们也针对系统稳定性进行了大量的工作，一方面，利用 SQL Smith 等自动化测试工具以及各个知名开源项目的测试用例，构建了数以百万计的测试用例集；另一方面，通过社区准入流水线和完善的回归测试框架，保证了代码合入的质量。因此1.2 版本不论从功能、性能还是稳定性方面，都是一次厚积薄发后的全面进化，也是对所有开发者在 2022 年辛苦付出的最好回报。

核心特性演进

核心特性方面，社区的研发力量主要围绕四个方面开展工作，分别是性能、实时性、半结构化数据支持与 Lakehouse。

查询性能提升。从 1.0 版本面世到 1.2 版本发布，Apache Doris 在性能方面取得了极为显著的成绩。在单表场景上，Apache Doris 荣登 Clickhouse 公司推出的 Clickbench 数据库性能榜单，并取得了前三名的优秀成绩。在多表关联场景上，得益于向量化执行引擎及各种查询优化技术，相对 2021 年底发布的 0.15 版本，Apache Doris 在 SSB 和 TPC-H 等标准测试数据集下均取得了数倍乃至数十倍的性能提升。这一系列性能方面的优化，已经成功让 Apache Doris 跻身全球数据库性能最优阵列中！

实时场景优化。在 1.2 版本中，我们在原有 Unique Key 数据模型上实现了Merge-On-Write 的数据更新方式，查询性能在高频更新时有 5-10 倍的提升，实现了在可更新数据上的低延迟实时分析体验。另外还实现了轻量 Schema Change 功能，对于数据的加减列不再需要转换历史数据，可通过 Flink CDC 等工具快速便捷地同步上游事务数据库中的 DML 或 DDL 操作，使数据同步工作能够更加流畅统一。

半结构化数据支持。目前 Apache Doris 支持了 Array 和 JSONB 类型，其中 Array 类型不仅能更方便地存储复杂的数据结构，还可以通过 Array 函数满足用户行为分析等场景的业务需求。而 JSONB 是一种二进制 JSON 存储方式，它不但比纯文本 Text JSON 的访问性能快 4 倍，同时也有更低的内存消耗。通过 JSONB 可以方便地导入各种 JSON 格式的日志数据结构，并能取得优异的查询效率。这也是 Apache Doris 在日志分析领域所做的探索之一。

Lakehouse。在最新发布的 1. 2 版本中，我们引入了全新的 Catalog 概念，正式将 Apache Doris 迈入湖仓一体时代。通过简单的命令便可以方便地连接到各自外部数据源并自动同步元数据，实现统一的分析体验。通过 Native Format Reader、延迟物化、异步 IO、数据预取等多项针对外部数据源的性能优化，并充分利用自身的高性能执行引擎和查询优化器，在对外表访问性能上，Apache Doris 可以达到 Trino/Presto 的 3- 5 倍、Hive 的 10-100 倍。

2023 RoadMap

承前而启后，2023 年，Apache Doris 社区在以上几方面特性持续完善的同时，也将开启更多有意义的工作。全年的 RoadMap 以及明年 Q1 的具体计划，可以参考以下的全景图：

稳定的版本发布和迭代速度对于开源软件至关重要。在 2023 年，我们将以每季度一个 2 位版本的节奏，开始 Apache Doris 2.x 版本的迭代。同时，针对每个 2 位版本，我们也将以每月一个 3 位版本的速度进行功能维护和优化。

从功能角度来看，后续研发工作将会围绕以下几个主要方向展开：

高性能

高性能是 Apache Doris 不断追求的目标，过去一年在 Clickbench、TPC-H 等公开测试数据集上的优异表现，已经证明了其在执行层以及算子优化方面做到了业界领先。未来我们也会不断优化各个场景下的性能表现，回馈用户极速的数据分析体验，具体包括：

更复杂SQL性能提升： 2022 年我们已经启动全新查询优化器的设计与开发，而这一成果在 2023 年一季度就将与大家见面。全新查询优化器提供了丰富的规则模型，实现了更智能的代价选择，可以更高效地支撑复杂查询，能够完整执行 TPC-DS 全部 99 个SQL。同时全新查询优化器还具备全查询场景的自适应优化，便于用户在面对不同分析负载和业务场景时都获得一致性的使用体验。

更高的点查询并发：高并发一直是 Apache Doris 所擅长的场景，而 2023 年我们将会进一步加强这一能力，通过 Short-Circuit Plan、Prepare Statement、Query Cache 等一系列技术，实现单机数万 QPS 的超高并发支持，并具备随集群规模的拓展进而线性提升并发的能力。

更灵活的多表物化视图：在过去版本中，通过强一致的单表物化视图，Apache Doris 加速了固定维度数据的分析效率。而全新的多表物化视图将会解耦 Base 表与 MV 表的生命周期，通过异步刷新和灵活的增量计算方式，满足多表关联以及更复杂 SQL 的预计算加速需求，这一特性将在接下来的 2023 年第一季度与大家见面！

高性价比

成本和效率对企业而言是赢得市场竞争的关键，对数据库而言亦是如此。过去 Apache Doris 凭借在易用性方面的诸多设计帮助用户大幅节约了计算与存储资源成本，后续我们也会引入一系列云原生能力，在不影响业务效率的同时进一步降低成本，具体包括：

更低的存储成本：我们将探索与云上对象存储系统和文件系统的结合，帮助用户进一步降低存储成本，包括更完善的冷热数据分离能力，将冷数据智能转移至更廉价的对象存储或文件系统中。结合单一远程副本、冷数据 Cache 以及冷热智能转换等技术，保证业务查询效率不受影响的同时实现存储成本大幅降低，这一功能将于 2023 年第一季度发布。

更弹性的计算资源：剥离存储与计算状态，引入仅用于计算的 Elastic Compute Node 。由于不存储数据，弹性计算节点具备更加快速的弹性伸缩能力，便于用户在业务高峰期进行快速扩容，进一步提升在海量数据计算场景（如数据湖分析）的分析效率，这一功能已经处于最终调试阶段，即将与大家见面。后续我们还将通过对集群内存和 CPU 运行指标的监控和自动策略配置，实现自动的节点扩缩容（Auto-scaling）。

混合负载

随着用户规模的极速扩张，越来越多的用户将 Apache Doris 用于构建企业内部的统一分析平台。这一方面需要 Apache Doris 去承担更大规模的数据处理和分析，另一方面也需要 Apache Doris 同时去应对更多分析负载的挑战，从过去的实时报表和 Ad-hoc 等典型 OLAP 场景，扩展到 ELT/ETL 、日志检索与分析等更多场景的统一。为了能更好适配这些场景，许多工作已经进入紧锣密鼓的研发中，并将于 2023 年陆续与大家见面，具体包括：

更灵活的 Pipeline 执行引擎* *：**与传统的火山模型相比，Pipeline 模型无需手动设置并发度，可以实现不同管道之间的并行计算，充分利用多核的计算能力，实现更灵活的执行调度，提升在混合负载场景下的综合性能表现。

Workload Manager：在性能提升的同时，也亟需完善的资源隔离和划分的能力。我们将会基于 Pipeline 执行引擎实现更细粒度和更灵活的负载管理、资源队列以及共享隔离等功能，兼顾多种混合负载场景下的查询性能与稳定性。

轻量级容错：轻量级容错能力也是我们后续持续完善的地方，既能利用 MPP 的高效率又能对错误进行容忍，以更好适应用户在 ETL/ELT 场景的挑战。

函数兼容与多语言UDF：与此同时，后续也将支持 Hive/Trino/Spark 函数的兼容性以及多语言的 UDF，来帮助用户更灵活地进行数据加工，也可以更方便地从其他数据库系统迁移到 Apache Doris。

多模数据分析

在过去 Apache Doris 更多是是擅长于结构化数据分析，随着对半结构化、非结构化数据分析需求的增加，从 1.2 版本起我们增加了 Array 和 JSONB 类型以实现数据的 Native 支持，后续版本仍将持续加强这一能力，为日志分析场景提供性价比更高、性能更强的解决方案，具体包括：

更丰富的复杂数据类型* *：**除 Array/JSONB 类型以外，2023 年第一季度我们将增加对 Map/Struct 类型的支持，包括高效写入、存储、分析函数以及类型之间的相互嵌套，以更好满足多模态数据分析的支持。后续将支持更加丰富的数据类型，包括 IP、GEO 地理信息等数据类型，并会探索在时序数据场景的高效数据分析。

更高效的文本分析算法：对于文本数据，我们将引入更多的文本分析算法，包括自适应 Like、高性能子串匹配、高性能正则匹配，Like 语句的谓词下推、Ngram Bloomfilter 等，同时基于倒排索引实现全文检索能力，在日志分析场景提供比 ES 更高性能和性价比的分析能力。这些功能都已经处于就绪阶段，将在 2023 年初与大家见面。

动态 Schema 表：传统数据库在设计之初 Schema 是静态的，Schema 变更时需要执行 DDL ，而这一操作往往具有阻塞性。在越来越多的现代数据分析场景中，表结构会随时间推移而变化，因此我们引入了 Dynamic Table，可以根据数据写入自动适应 Schema ，不再需要执行 DDL，由过去的人工干预数据结构进化为数据自驱动，极大提升了灵活数据分析的便捷性。这一功能将在 2022 年第一季度正式发布。

Lakehouse

随着数据湖技术的发展，分析性能成为发挥数据湖效用、挖掘数据价值最大的掣肘。基于一款简单易用和高性能的查询分析引擎在数据湖之上构建分析服务，成为新的技术趋势。在过去一年，通过在数据湖上的诸多性能优化、结合自身的高性能执行引擎和查询优化器以及，Apache Doris 实现了数据湖上极速易用的分析体验，性能较 Presto/Trino 有 3-5 倍的提升。在 2023 年，我们将会继续完善这一能力，具体包括：

更简易的数据对接：在 1.2 版本中我们发布了 Multi-Catalog，支持了多种异构数据源的元数据自动映射与同步，实现了数据湖的无缝对接，后续将对 Delta Lake 的支持以及 Iceberg、Hudi 等更多数据格式的支持。

更完整的数据湖能力支持：提供数据湖上数据的增量更新与查询，还会支持将分析结果写回数据湖、外表写入内表，实现数据分析流程的全闭环。同时还将支持多版本 Snapshot 读取和删除，并进一步在 Apache Doris 为数据湖数据提供物化视图。

实时性与存储引擎优化

数据价值会随着时间推移而降低，因此实时性对于高时效性要求的用户而言至关重要。在 1.1 版本中我们在 Compaction 和 Flink 实时写入方面进行了诸多优化，同时 1.2 版本的 Merge-on-Write 数据更新模式进一步使 Apache Doris 在实时更新与极速查询得以统一。2023 年我们将会持续强化对存储引擎的优化，具体包括：

更稳定的数据写入：通过一系列 Compaction 操作和批量数据写入方面的优化，节省资源开销，降低写放大问题，并结合全新的内存管理框架提升写入过程的内存稳定性，进而提升系统稳定性。

更完善的数据更新支持：过去部分列更新是通过 Agg 模型上的 Replace_if_not_null 来实现的，后续我们将会增加 Unique Key 模型上的部分列更新支持，并完整实现 Delete、Update、 Merge 等数据更新的操作。

更统一的数据模型：当前 Apache Doris 的三种数据模型在各个场景均有丰富的应用，后续我们将尝试统一现有几种数据模型，使用户在使用体验上更加统一。

易用性和稳定性

除了功能方面的丰富与完善，更简单、更易用、更稳定同样也是 Apache Doris 一直追求的目标，2023 年我们将在以下几方面出发，让用户具有更简易和放心的使用体验：

简化建表：目前 Apache Doris 在建表时分区已经支持了时间函数，后续我们将进一步消除 Bucket 设置，帮助用户最大程度简化建表建模。

安全性：目前已经实现基于 RBAC 模型的权限管理机制，使用户权限更安全可靠；并对 ID-federation、行列级别权限，数据脱敏等进行了优化，后续将进一步完善。

可观测性： Profile 是定位查询性能问题的重要手段，后续我们将加强对 Profile 的监控并提供可视化 Profile 工具，帮助用户更快定位问题。

更好的 BI 兼容性和更完善的数据集成迁移方案：当前各 BI 工具可以通过 MySQL 协议连接到 Apache Doris，后续我们将对主流 BI 软件进一步适配，保证更佳的查询体验。随着 DBT、Airbyte 等新兴数据集成和迁移工具的兴起，越来越多用户使用此类系统将数据同步至 Apache Doris ，后续我们也会提供对此些系统的官方支持。

开启下一个十年！

或许有读者或听众还记得我在开头提的问题，对于 Apache Doris，十年意味着什么？

有两层含义，上一个十年和下一个十年。

上一个十年，是 Apache Doris 起源的十年。从诞生到开源、从默默无闻到被越来越多人熟知和使用，开源赋予了 Apache Doris 更加旺盛的生命力和创造力。

而下一个十年，则是一场新的旅程。

正如我在本次 Doris Summit 分享的主题，New Journey of Apache Doris。如果说过去 Apache Doris 更多是服务于在线报表场景和 Ad-hoc 分析的 OLAP 引擎的话，那么在所有社区和开发者的努力下，当前 Apache Doris 已经具备了更为广阔的定位，即极速、易用、实时、统一的多模分析型数据库。

这其中的统一，既包含了架构的统一、也包含了业务和数据的统一。用户可以通过 Apache Doris 构建多种不同场景的数据分析服务、同时支撑在线与离线的业务负载、高吞吐的交互式分析与高并发的点查询；通过一套架构实现湖和仓的统一、在数据湖和多种异构存储之上提供无缝且极速的分析服务；也可通过对日志/文本等半结构化乃至非结构化的多模数据进行统一管理和分析、来满足更多样化数据分析的需求。

这是我们希望 Apache Doris 能够带给用户的价值，不再让用户在多套系统之间权衡，仅通过一个系统解决绝大部分问题，降低复杂技术栈带来的开发、运维和使用成本，最大化提升生产力。

“我们已经出发了太久，以至于忘记了为什么出发。”

希望通过这一定位的转变迎接下一个十年的挑战，或许技术趋势会有变化，架构将会革新，但我们解决用户数据分析问题的初衷不会改变。

希望继续带着上一个十年出发的初心，开启下一个十年的旅程。

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
数据结构之哈希表 X同学的开始数据结构数据结构散列表
哈希表(散列表)出现的原因在顺序表中查找时，需要从表头开始，依次遍历比较a[i]与key的值是否相等，直到相等才返回索引i；在有序表中查找时，我们经常使用的是二分查找，通过比较key与a[i]的大小来折半查找，直到相等时才返回索引i。最终通过索引找到我们要找的元素。但是，这两种方法的效率都依赖于查找中比较的次数。我们有一种想法，能不能不经过比较，而是直接通过关键字key一次得到所要的结果呢？这时，
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本