SelectDB技术团队

腾讯音乐基于 Apache Doris + 大模型构建全新智能数据服务平台

当前，大语言模型的应用正在全球范围内引发新一轮的技术革命与商业浪潮。腾讯音乐作为中国领先在线音乐娱乐平台，利用庞大用户群与多元场景的优势，持续探索大模型赛道的多元应用。本文将详细介绍腾讯音乐如何基于 Apache Doris 构建查询高效、实时统一分析的 OLAP 引擎，使 OLAP 作为底层基建加强模型连接转化效率、结果输出准确率，最终将大模型 + OLAP 引擎结合为用户提供个性化、实时化、灵活化的智能数据服务平台。

腾讯音乐基于公司丰富的音乐内容资产，需要将歌曲库、艺人资讯、专辑信息、厂牌信息等大量数据进行统一存储形成音乐内容数据仓库，并通过产品工具为业务人员提供数据分析服务。在内容数仓搭建的过程中，我们的工作始终围绕降本增效为主要目的进行优化与迭代，希望在数据服务方面不断提升产品工具的开发与分析效率，同时在数仓架构方面能够有效减少架构成本与资源开销。

在传统数据服务中，我们为业务分析师提供了多种数据服务，包括 SQL 查询、固定看板、定制化的分析工具以及人工跑数。然而，在实际应用过程中仍然存在一定痛点：

SQL 查询平台 ：业务分析师根据需求进行 SQL 语句编写，对平台数据进行查询分析，每位业务人员都需要掌握 SQL，导致学习成本高、上手难度大。
固定看板（Dashboard） ：技术人员基于常规业务开发制作数据看板，虽然能够简化业务分析师查询的过程，但是看板制作成本高且灵活度低，当面对复杂的用户问题时，看板无法及时调整以满足需求变更。
定制分析工具： 基于特定的业务需求，技术人员需要定制化开发产品分析工具，整体开发成本过高，且单一的开发工具不具备通用性，随着工具数量增加，操作介面变得散乱，从而降低业务效率。
人工跑数： 当以上三个场景都无法满足业务需求时，业务分析师需要向技术人员提需求进行人工跑数，沟通成本过高、整体解决效率低下。

随着行业发展趋势，LLMs 大语言模型（LLMs - Large Language Models，以下统一简称为大模型）出现有效地解决了这些问题。当平台融入大模型后，平台用户输入的问题会进入大模型进行语义解析，自动转化为 SQL 语句触发 OLAP 引擎开启数据分析与查询。通过平台智能问答交互的方式，业务分析师不再需要依靠人工编写 SQL 提供查询分析结果，技术人员也不需要再制作过于固定或者过于定制化的产品工具。大模型 + OLAP 引擎结合的全新数据服务模式，不仅为平台用户提供了个性化、灵活表达、秒级回复的服务体验，还大幅降低了企业内部技术与业务学习成本，加速数据分析效率，实现多端入口统一、界面统一的平台构建。

本文将详细介绍腾讯音乐如何基于 Apache Doris 构建查询高效、实时写入且统一的 OLAP 分析引擎，使 OLAP 作为底层基建加强大模型与之连接转化的效率、结果输出的准确率，最终提供更智能化的问答交互服务，也希望通过这篇文章为有相关业务需求的公司提供不同视角和思路。

大模型 + OLAP ：开启数据服务平台新模式

在大模型 + OLAP 架构方案中，目前经典方案如下图所示，大模型充当中间层将用户输入的自然语言转化为 SQL 执行语句，OLAP 作为底层存储和数据处理的引擎，负责接受和执行从大模型发送过来的 SQL 语句，对数据进行预聚合、多维分析等操作，满足大规模数据集的查询分析需求。

然而，这种架构在实际落地过程中也面临一定挑战，例如语义理解的准确性、查询效率的优化、私域知识的理解等方面，具体如下：

复杂数据口径不统一： 大模型对于技术方面的词汇，如字段、行列、表等无法理解，相反对于业务方面的词汇，如公司收入情况、日活跃用户数量等能够提供有效翻译与转换。因此挑战之一是需要思考如何引导用户进入指标范围内提问，挑战之二是当用户存在对多种指标、多类指标查询时，需要考虑如何保持指标维度口径的统一、如何有效生成对应的指标计算公式。
模型处理效率较低： 现阶段大模型虽然支持交互能力，但推理速度较慢，需要花费十秒级以上响应，用户每增加一个问题输入，就需要花费更多等待时间，使服务质量降低。同时大模型整体按照 Token 收费，使用量增加时也会导致平台成本升高。
私域知识无法识别： 虽然大模型已经开展许多公开数据集的语言转换训练，但面对企业内部的大量专业术语仍无法很好地理解转化。以音乐内容数据库为例，大模型时常缺少对于某些冷门歌曲的认知，在问答过程中无法正确给出交互反馈，因此我们需要增强大模型对于私域知识的理解。
定制场景无法满足： 大模型主要依据自身数据集进行回答，会出现“知识幻觉”（输出缺乏依据的内容）问题，我们需要允许第三方插件的接入使大模型得以联网，让用户借助内部插件完成更定制化、更多样的任务。因此如何接入、匹配并触发组件功能是我们的重点优化目标。

面对经典方案中的落地难点，我们的总体解决思路是将以上四大挑战逐一拆解，通过组件叠加分阶段完善大模型 + OLAP 架构构建，最终实现全新的交互问答服务模式，接下来我们将介绍各阶段挑战对应的解决方案。

01 增加语义层：处理复杂数据问题

为了解决复杂数据处理问题，我们在大模型与 OLAP 中间增加 Semantic Layer（以下简称语义层）。

一方面语义层作为连接技术与业务之间的转换桥梁，能够将数据字段翻译为业务用户的术语，使业务知识作为额外的抽象层。通过语义层，业务分析师不需要在定义指标后存储于 OLAP 数仓中，能够直接在语义层中指定过滤条件，将所需指标筛选后生成 SQL 语句并在 OLAP 中进行字段查询。这意味着，业务分析师能够把多源数据按照需求定义成语义信息并形成语义标准，有效解决了多种指标、多类维度计算口径不统一的挑战。

另一方面语义层能够针对业务计算逻辑，进行语义加工、描述、关联和运算。语义层在过滤数据后，能够屏蔽由表关联所产生的复杂指标计算公式，将多表 Join 场景进行拆解、转化，形成较为简单的单表查询，以提升语义转化的准确性。

02 设定人工经验：处理模型效率问题

针对模型效率问题，我们的解决思路是对指标计算、明细查询、人群圈选等查询场景进行复杂度判定，将简单查询场景直接跳过大模型解析的步骤，进入底层 OLAP 进行处理分析，使大模型更加专注处理复杂查询场景。

为此，如上图所示我们在模型中添加人工经验判断。当业务分析师输入 “查询各大音乐平台收入”问题时，模型依据判定规则发现该场景只需要提供某个指标或几个维度即可完成，这时不需要将问题进入大模型解析，直接使用 OLAP 进行查询分析，能够有效缩短响应时间，提升结果反馈效率。此外，跳过大模型解析的步骤也能够节省 API 调用经费，解决平台使用成本升高的问题。

03 增加内容映射：处理私域知识问题

针对私域知识的问题，我们在大模型上游增加 Schema Mapper 、在外部建立业务知识库，将平台用户的问题与知识库进行连接，通过 Schema Mapper 判定是否存在部份文字能够与知识库内容匹配。如果匹配成功，大模型将进一步解析转化、OLAP 分析处理。Schema Mapper 与业务知识库的引入，有效解决了大模型对私域知识理解不足的问题，提升语言处理的效果。

目前，我们正在不断对 Schema Mapper 匹配准确性进行测试与优化，将知识库中的内容进行分类处理、字段评级等操作，同时将输入文本进行不同范围的内容映射（如全文本映射与模糊映射），通过映射结果来加强模型语义解析的能力。

04 插件接入：处理定制场景问题

定制化场景主要指代业务范围之外的查询需求，需要将音乐内容数据与法律、政治、金融、监管等方面信息结合提供问答服务。通过增加插件，使平台用户能够访问实时更新且无法包含在训练数据或业务知识库中的信息，以实现定制化交互。

由于插件类型不同，模型接入方式也会有所不同，常见的接入方式主要分为两种：

Embedding 本地文本接入： 该方式首先对本地文档进行向量化处理，通过语义向量搜索，找到本地文档中相关或者相似的词语进行匹配，之后将文档内容注入大模型解析窗口中生成答案。这种方式非常适合业务分析师希望将音乐内容数据库与最新政策等一类较为私有的文件结合完成查询需求。
ChatGPT 第三方插件接入： 每款插件具备对应的 Prompt 与调用函数。业务人员在安装某款插件之后，在与模型对话中可以通过 Prompt 词触发函数开启调用。目前第三方插件类型丰富，涉及行业广泛，能够有效增加多元场景的处理与响应能力。

超音数平台框架构思

根据上述大模型 + OLAP 的四大解决方案进行了方案整合，以此进行框架设计并将其命名为超音数平台。大模型主要作用于自然语言与 SQL 分析语句的连接与转化，OLAP 引擎则作为数据存储与查询分析的核心基建。

超音数平台对于业务流程如图所示，模型运转具体过程如下：

用户输入问题通过 Schema Mapper 检索，判定字段是否匹配与业务知识库。
如若匹配则跳过大模型解析步骤，直接利用知识库中的指标计算公式触发 OLAP 进行查询分析；如若不匹配则进入大模型，开启下一步判定。
大模型首先通过人工经验判定问题复杂度，简单查询将指定 OLAP 引擎直接分析，复杂查询则开启语义解析形成 DSL 语句。
DSL 语句通过语义层进一步过滤、拆解关联查询场景，生成简易单表 SQL 语句以触发 OLAP 数据处理与查询加速。
针对需要与外部信息结合的查询场景，大模型会判断是否调用第三方插件来辅助完成查询。

以“某首歌曲能否在综艺节目播出”为例，在经过检索匹配、语义解析后，大模型选择利用 OLAP 数据查询与第三方版权行业插件结合的方式进行回答，最终呈现结果由数仓中的歌曲信息与插件判定结果构成。

如今，业务分析师只需要在超音数平台中定义指标含义、维度类型即可直接开展自然语言的问答交互服务。同时还可以在平台中内置插件、丰富指标市场来拓展语义解析能力，完全覆盖了业务在常规与定制化场景下的查询需求。平台基于大模型 + OLAP 的模式加速业务分析效率，减少技术开发成本，向智能化、个性化、实时化的全新业务服务模式更近一步。

在这里希望可以与大家分享该开源项目，让更多人体验和学习大模型构建，也欢迎感兴趣的读者们共同参与大模型开发与建设。

超音数开源框架：https://github.com/tencentmusic/supersonic

超音数平台框架演进

在平台构建的过程中，OLAP 引擎作为整体架构的基建对 SQL 语句处理、数据存储分析、上游应用层的查询响应等有着至关重要的作用，我们希望通过架构升级以加强大模型到 OLAP 引擎的转化效率与结果输出准确性。

接下来我们将对比介绍 OLAP 早期架构与新一代架构在数据写入与查询两方面的差异，分享在架构演进过程中大模型 + OLAP 模型优化历程，最终助力超音数平台的构建，开启新一代的数据服务模式。

01 数据架构 1.0

我们初期的业务架构如上图所示，分为处理层、分析层、应用层三部份，用户文本在进入大模型之后解析为 SQL 语句使 OLAP 开始执行任务，具体的工作原理如下：

处理层：在 ODS- DWD- DWS 三层中将数据整合为不同主题的标签和指标体系之后，通过对 DWS 调度与采集所需字段，在 DWM 层将维度与指标数据加工成大宽表。
分析层：通过大宽表进入分析层，将数据导入 Clickhouse 与 Elasticsearch，其中 Clickhosue 主要负责维度与指标两类数据的查询加速，作为分析引擎为后续提供报表开发服务；Elasticsearch 主要负责维度数据处理，作为搜索/圈选引擎。
应用层：业务人员基于场景选取所需要的标签与指标，在应用层中创建数据集作为逻辑视图，同时可以二次定义衍生的标签与指标。

在实际业务使用中，早期架构的数据处理方式存在大宽表带来的数据延迟与存储浪费、多套组件导致架构冗余带来指标维度重复定义、学习与运维成本高等问题，具体如下：

数据延迟： 处理层不支持部分列表更新，DWS 层数据写入产生延迟后会造成大宽表的延迟，进而导致数据时效性下降。
运维成本高： 在处理层大宽表中维度数据量平均占一张大宽表的 50%，且在大部份情况下变化缓慢，这意味着每一张宽表的开发会将维度数据叠加，造成存储资源的浪费、维护成本增加；在分析层中存在多引擎使用的问题，查询 SQL 语句需要同时适配 Clickhouse 与 Elasticsearch 两个组件，增加人力成本，且两套组件也会加大运维难度，运维成本进一步升高。
架构冗余： 在应用层进行指标与维度定义时，导致相同数据会进行多次定义使各种指标、维度定义口径不一致，造成权限不可控，例如上图所示的 T1 （标签）与 M1 （维度）在应用层中，被不同数据集多次定义。

02 数据架构 2.0

基于以上问题，我们开始对架构进行改造升级，并在众多 OLAP 引擎中选择了 Apache Doris 来替换原有组件，主要因为 Apache Doris 具备以下核心优势：

实时导入： Apache Doris 能够支持海量业务数据的高吞吐实时写入，时效性可以做到秒级完成导入。
引擎统一： 支持 Multi-Catalog 功能，能够通过 Elasticsearch Catalog 外表查询，实现查询出口统一，查询层架构实现链路极简，维护成本也大幅降低。
查询分析性能： Apache Doris 是 MPP 架构，支持大表分布式 Join，其倒排索引、物化视图、行列混存等功能使查询分析性能更加高效极速。

在数据架构 2.0 版本中，数据架构保留处理层部份，主要升级分析层架构，并进行了语义层叠加：

分析层：引入 Apache Doris 替换 Clickhouse 组件，利用 Doris 的 Elasticsearch Catalog 功能对 Elasticsearch 外表进行查询，实现查询出口统一；
语义层：应用层不再需要创建数据集视图，直接通过语义层获取指标与标签内容执行查询任务，有效解决标签与指标口径问题。

03 数据架构 3.0

由于宽表开发过程中，维度数据一般变化较小、字符存储空间较大，且分析查询一般只需要查询最新的维度数据。在这种情况下，如果不断叠加维度数据制作宽表，会造成存储空间浪费的问题，同时查询响应速度也受到影响。

为了进一步提升架构性能，数据架构 3.0 主要将处理层中大宽表进行拆分，同时将分析层统一使用 Apache Doris 作为查询分析引擎：

处理层：按照业务分类在 DWM 中将大宽表拆分成缓慢维度表与指标表，使两类表在本地 Hive 中进行关联，通过 Hive 导入 Apache Doris 分析层中加速任务；
分析层：将关联数据表直接导入 Apache Doris 中，结合语义层暴露指标与维度以实现语义统一，用户只需要通过过滤条件就能够直接查询数据，得到所需要的结果。

04 数据架构 4.0

我们延续了 3.0 架构中分析层统一的优势，对处理层、分析层、语义层架构进一步优化，使查询性能显著提升：

分析层 + 处理层：数仓 DWD 层数据采用 Rollup 功能使事实表与维度表实时关联并创建多个视图进入 DWS 中。通过这种方式，分析层与处理层中的各类指标数据无需再重复定义，能够基于 Apache Doris 全部写入新建的 Rollup 视图中并利用GROUP BY将维度传入视图进行查询加速，直接对外暴露所需数据。
语义层：利用 Apache Doris 物化视图对指标与维度自定义口径，通过语义物化层进行查询加速，并将指标与维度通过 SUM 加工开发衍生标签与维度数据。
应用层：利用 Apache Doris 2.0 版本的倒排索引功能，对现有的索引结构进行丰富，满足了对知识库进行模糊查询、等值查询和范围查询等场景中的能力，进一步加速指标、维度查询响应速度。

数仓架构基于 Apache Doris 迭代升级，最终实现导入实时、引擎统一、查询高效的现代化湖仓 OLAP 引擎，简化架构链路的同时，有效解决大宽表中指标重复定义所带来的问题。在架构演进的过程，我们也积累许多关于 Apache Doris 性能优化经验，希望通过分享给读者们带来一些参考。

Apach Doris 性能优化实践

01 Colocate Join 宽表优化

在上文架构改造中我们提及，由于宽表开发会不断叠加字符数据，消耗存储空间，降低查询性能，因此我们充分利用了 Colocate Join 功能对宽表拆分、本地关联查询加速进行优化，具体过程如下：

指标大宽表：采用 Apache Doris 的 Aggregate Key 模型，使用增量的方式将数据覆盖写入；
缓慢维度表：主要通过 start_date 和end_date的设置进行表建设，同时利用 end_date 进行分区，当我们需要查询最新的维度数据时只需要将 end_date 设置为 ‘9999-12-31’ 即可。此外我们引用 Doris 2.0 版本中的写时合并，利用 Unique Key 模型进行维度数据聚合，使查询性能在该场景中得到很大的提升。
对外访问视图：在指标与维度表建设完成之后，利用 CREAT VIEW 提供统一对外访问视图，同时添加 end_date 条件，使视图保持最新数据的展示。通过这样的方式不仅能够大幅度降低查询的复杂性，还能够充分利用 Doris 特性实现查询加速。

02 Rollup 解决指标膨胀问题

宽表拆分为指标表与维度表后，我们发现每一次视图产生都需要定义多个指标，出现指标膨胀的情况。以“歌曲播放量结算”为例，当仅定义单一指标时，我们需要将各个平台 + 各类内容进行排列组合，使语义层定义很多指标数据，造成指标数量过多。此外这些指标都需要通过离线生产任务进行加工，并通过 Hive 导入至 Apache Doris 中，造成链路较长、加工维护比较困难。

平台指标：覆盖四大音乐平台，包括酷我、QQ 音乐、酷狗、K 歌
内容指标：包含歌曲、歌手、专辑以及厂牌等数据

为了有效解决指标膨胀问题，我们引入了 Doris Rollup 功能。如图所示，在 Doris Base 表数据基础之上，可以根据指定维度来创建任意多个 Rollup 视图并自动进行GROUP BY，实现各个平台与各类内容指标定义不重复、查询性能提升的目标。

03 物化视图实现查询加速

除了减少指标数量外，我们还希望能够衍生指标并且做到查询加速。在 Apache Doris 2.0 版本中我们采用了物化视图功能进行衍生指标的开发。目前，我们主要在单一维度表中单独地去查询自定义标签与维度，在定义复杂口径后自动的通过语义层物化任务。

如上图所示我们将指标 M1 、M2、M3 与维度 T1、T2、T3 分别进行定义，并通过 SUM 加工衍生标签，在加工完成之后创建物化视图加速查询。此外，在 Doris 后续 2.1 版本中还会支持多表创建物化视图，我们也非常期待使用该功能。

Apach Doris 导入性能调优实践

目前，腾讯音乐具有 90+ 数据来源表、 3000 + 维度和指标、导入数据量达到千亿级别，我们希望数仓能够支持大规模数据快速导入，且导入过程中保证数据写入的准确性。

导入链路如图所示，主要分为离线与实时两个部分，离线链路中指标表与变更维度表通过 Spark 进行批量导入，两类表利用 Flink 聚合形成宽表后写入；实时链路主要利用 Kafak 消息队列进行流式写入。最终，离线与实时两条链路利用 Flink 实时写入 Apache Doris 数仓中。

由于 Flink 聚合为攒批写入，如果出现写入任务失败，会导致数据丢失；同时，在聚合任务过多、字段过多的情况下存在 Compaction 不及时的情况，导致实时能力不可控；此外在加工宽表的过程中，也会造成重复写入的问题，无法保证数据写入准确性。

在 Apache Doris 2.0 版本发布后，我们引入了其全新功能 Flink Doris Connector 与 Doris Compaction，有效解决了 Flink 聚合引起的问题。

01 Flink Doris Connector 实现快写入

Flink Doris Connector 主要是依赖 Checkpoint 机制进行流式写入，同时该功能默认开启两阶段提交，保证写入过程中 Exactly Once 语义。值得注意的是，我们在引入最新版的 Flink Doris Connector 功能后，实现了从关系型数据库到 Apache Doris 的一键整库同步，承载了我们实际业务中千亿级别的实时并行写入，满足数据快写入与不丢不重的需求。

02 Doris Compaction 保证写入稳定性

为了解决 Flink 聚合引起的偶发性 Compaction 不及时问题，我们引入最新版的 Vertical Compaction 与 Segment Compaction 功能。

Vertical Compaction 功能优势： 在单次合并过程中，我们不需要再将所有的列读出，只需要加载部份列数据即可，这能极大减少合并过程中的内存占用问题，提高压缩的执行速度，实现在大宽表场景下的部份数据合并。
Segment Compaction 功能优势： 在单批次大数据量的导入场景下可以有效减少 Flink 写入过程中产生的 Segment 数量，且能够使合并和导入两个过程并行，避免增加导入时间。

如上图所示在引入 Doris Compation 功能后，在写入量增加 50 % 的情况下，Compaction Score 从平均 650 分降低至 80 分，技术人员不再需要担心夜间出现告警的情况，保证了整体链路的稳定性。

总结收益与展望

在引入 Apache Doris 后，数据架构围绕降本增效的目标，不仅在写查方面的性能得到大幅度提升，并且有效减少架构成本与资源开销，具体的收益如下：

极速查询分析： 通过 Apache Doris 的 Rollup、物化视图、倒排索引功能，由原来的分钟级查询时间达到现如今秒级毫秒级；
导入性能提升： 导入优化完成后，原本 3000+ 维度、指标数据的导入时间需要超过一天，现如今能够在 8 小时内完成导入，导入时间缩短至原来的 1/3，实现快速导入需求；更重要的是，Apache Doris 在保证数据快写入的同时，使数据能够不丢不重、准确写入；
链路极简与统一： Apache Doris 将查询与分析出口引擎统一，去除 Elasticsearch 集群使架构链路极简；
存储成本降低： 通过大宽表拆分的方式，使存储成本降低 30%，开发成本降低 40% 。

在未来，我们将进一步拓展使用 Apache Doris 湖仓一体功能，对 Hive、MySQL、数据湖等多源异构数据库进行网关统一，实现真正意义上的实时统一分析引擎。同时，尝试 CCR 跨集群数据同步功能，通过用户多集群的数据库表自动同步以提升在线服务数据的可用性。未来，我们也将在测试环节中验证读写负载分离以及多机房备份的性能效果。

目前，Apache Doris 社区已经公布了后续版本中将推出的存算分离全新架构，能够利用低成本的共享存储系统简化上层计算节点的复杂度，使架构带来巨大的成本经济优势。我们也希望能够进一步探索，基于 Apache Doris 本地高速缓存 + 共享存储系统的混合模式，在保障性能的同时降低系统存储开销。

最后，非常感谢 SelectDB 技术团队的积极响应与专业解答，希望通过这篇文章分享大语言模型在互联网业务中的应用，也欢迎更多人参与 Apache Doris 社区与超音数平台的开源框架构建。最后，我们也会持续参与社区活动，将相关成果贡献回馈社区，希望 Apache Doris 飞速发展，越来越好！

作者介绍：腾讯音乐大数据架构师张俊、罗雷

你可能感兴趣的:(apache,大数据,数据库,数据分析)

一种时序数据模式演化的跟踪与查询方法米朵儿技术屋智能科学与技术专栏分类学习数据挖掘
摘要在物联网与大数据应用蓬勃发展的背景下，各类感知设备产生海量的时序数据，设备管理软件版本的快速迭代导致时序数据的模式演化问题日益凸显.模式演化要求对数据模式进行版本管理，使数据进行模式变更时不产生信息损失，且支持对数据跨模式版本进行读写操作.结合流行的时序数据库管理系统，调研总结了各类数据库管理系统对模式演化的支持情况，对时序数据及其模式进行了形式化表述，对其模式演化的过程进行了分析，设计了一种
预约功能的知识整理 Bailey395 java servlet 数据库
前置知识如果项目为小程序的开发项目中：我们确定数据库中有的字段有:预约人姓名、手机号、家人名称、预约时间根据我们的经定一表必须要有的6个字段：主键、创建时间、修改时间、创建人、修改人、备注使用我们现在有的字段为：主键、预约人姓名、手机号、家人姓名、预约时间、创建时间、修改时间、创建人、修改人、备注预约的状态也有4种,具体如下:待报道预约成功后已完成取消过期所以，预约表中最终的表字段为：主键、预约人
FPGA在高速数据采集系统中的应用！！！ FPGA资料库 fpga开发 fpga verilog 物联网 stm32
FPGA（现场可编程门阵列）在高速数据采集系统中的应用非常广泛，主要得益于其并行处理能力、可编程性和高速接口特性。以下是FPGA在高速数据采集系统中的详细应用，以及一些具体例子：1.应用背景高速数据采集系统通常用于需要高采样率和大数据量处理的场合，如雷达信号处理、医疗成像、高速通信等。FPGA因其独特的硬件架构，能够有效处理高速数据流，因此在这些系统中扮演着关键角色。2.应用内容2.1数据采集接口
Python气象数据分析：风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、浅水模型、预测ENSO等小艳加油大气科学 python 人工智能气象机器学习
目录专题一Python和科学计算基础专题二机器学习和深度学习基础理论和实操专题三气象领域中的机器学习应用实例专题四气象领域中的深度学习应用实例更多应用Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Py
探索泰坦尼克号生存分类数据集：机器学习与数据分析的完美起点岑童嵘
探索泰坦尼克号生存分类数据集：机器学习与数据分析的完美起点【下载地址】泰坦尼克号生存分类数据集本仓库提供了一个经典的机器学习数据集——泰坦尼克号生存分类数据集。该数据集包含两个CSV文件：训练集和测试集。数据集主要用于训练和评估机器学习模型，以预测泰坦尼克号乘客的生存情况项目地址:https://gitcode.com/open-source-toolkit/35561项目介绍泰坦尼克号生存分类数
oracle goldengate from mongodb to oracle的实时同步夹心饼2024 数据库运维案例分享 oracle mongodb 数据库
oraclegoldengatefrommongodbtooracle的实时同步近期因公司项目需要，需要将mongodb数据同步到oracle数据库，由于第一次接触到mongodb数据库同步到Oracle的项目，故没有主动获取数据，而且让对方工程师把mongodb数据同步到我方的mongodb数据库，为此新建了一个mongodb数据库。我方工程师把mongodb数据库同步到doris数据仓库。考虑
【Python】Tkinter电器销售有限公司销售数据分析（源码）【独一无二】不争不抢不显不露 python 数据分析开发语言
一、设计要求该项目创建一个数据分析软件，利用Tkinter和Matplotlib构建图形用户界面（GUI），读取和分析美迪电器销售有限公司销售数据。用户可以通过界面选择月份查看数据详情、生成销量图表并计算月总销量和年总销量。二、设计思路2.模块引入首先引入了所需的模块，包括Tkinter（用于GUI创建和管理）、ttk（Tkinter主题化控件）、messagebox（用于弹出消息框）、panda
MDX语言的数据类型 BinaryBardC 包罗万象 golang 开发语言后端
MDX语言的数据类型详解引言MDX（多维表达式）是一种用于查询和操作多维数据集的查询语言，广泛用于数据分析和商业智能领域。MDX语言的设计旨在帮助用户高效地从多维数据库（如MicrosoftSQLServerAnalysisServices）中提取和分析数据。随着数据量的不断增加和数据结构的日益复杂，MDX提供了一种强大的方式来处理和分析这些多维数据。在MDX中，数据类型是理解和使用该语言的基础，
R语言的软件工程 BinaryBardC 包罗万象 golang 开发语言后端
R语言的软件工程1.引言随着数据科学的快速发展，R语言作为一种统计计算和图形绘制的编程语言，其在数据分析、可视化以及机器学习等领域的应用日益广泛。尽管R语言在数据处理上有其独特的优势，但要将其运用于大型项目和商业应用中，就需要遵循软件工程的原则。本篇文章将探讨R语言在软件工程中的应用，主要涵盖软件开发生命周期、代码规范、版本控制、测试和文档等方面。2.软件开发生命周期软件开发生命周期（SDLC）是
《数据库学习之旅：探索数据的奥秘》 2301_82161368 oracle 数据库
在当今数字化的时代，数据库已成为信息管理和处理的核心基础设施。通过对数据库的学习和实践，我获得了许多宝贵的经验和深刻的认识。数据库就如同一座巨大的数据城堡，它有着严谨的结构和规则，却又充满了无限的可能。一开始，理解数据库的基本概念和原理并非易事，但随着逐步深入的学习，我渐渐揭开了它神秘的面纱。关系型数据库的表结构设计让我体会到了数据规划的重要性。合理地划分表、确定字段以及建立正确的关联关系，能够极
StarRocks Awards 2024 年度贡献人物开源
在过去一年，StarRocks在Lakehouse与AI等关键领域取得了显著进步，其卓越的产品功能极大地简化和提升了数据分析的效率，使得"OneData，AllAnalytics"的愿景变得更加触手可及。虽然实现这一目标的道路充满挑战且漫长，但我们并不孤单，因为有一群社区伙伴与我们并肩作战。每一位贡献者的代码提交和每一次的布道，都在推动着StarRocks社区向前发展。为了表达对这些贡献者的深深感
图书管理数据库简单sql语句空心木、 sql
已知某图书管理数据库有如下表格：用户表user、部门表dept、角色表role、图书表book、图书分类表book_classify、图书借阅表book_borrow、还书表book_return、借阅预约表book_appoint、图书遗失表book_lose;用户表user、部门表dept、角色表role、图书表book、图书分类表book_classify、图书借阅表book_borrow、
数据库高可用方案-09-数据库的灾难恢复演练老马啸西风 database mysql 数据库 oracle
数据库数据高可用系列数据库高可用方案-01-数据库备份还原方案数据库高可用方案-02-多机房部署数据库高可用方案-03-主备等高可用架构数据库高可用方案-04-删除策略数据库高可用方案-05-备份与恢复数据库高可用方案-06-监控与报警数据库高可用方案-07-一致性校验数据库高可用方案-08-多版本管理数据库高可用方案-09-数据库的灾难恢复演练数据库的灾难恢复演练数据库的灾难恢复演练是确保数据库
数据库高可用方案-05-备份与恢复老马啸西风 database mysql 数据库 oracle
数据库数据高可用系列数据库高可用方案-01-数据库备份还原方案数据库高可用方案-02-多机房部署数据库高可用方案-03-主备等高可用架构数据库高可用方案-04-删除策略数据库高可用方案-05-备份与恢复数据库高可用方案-06-监控与报警数据库高可用方案-07-一致性校验数据库高可用方案-08-多版本管理数据库高可用方案-09-数据库的灾难恢复演练数据库的备份与恢复数据库备份与恢复是数据库管理中至关
数据库高可用方案-07-一致性校验老马啸西风 database mysql 数据库 oracle
数据库数据高可用系列数据库高可用方案-01-数据库备份还原方案数据库高可用方案-02-多机房部署数据库高可用方案-03-主备等高可用架构数据库高可用方案-04-删除策略数据库高可用方案-05-备份与恢复数据库高可用方案-06-监控与报警数据库高可用方案-07-一致性校验数据库高可用方案-08-多版本管理数据库高可用方案-09-数据库的灾难恢复演练数据库的数据一致性校验数据库的数据一致性校验是指确保
数据库高可用方案-03-主备等高可用架构老马啸西风 database mysql 数据库架构
数据库数据高可用系列数据库高可用方案-01-数据库备份还原方案数据库高可用方案-02-多机房部署数据库高可用方案-03-主备等高可用架构数据库高可用方案-04-删除策略数据库高可用方案-05-备份与恢复数据库高可用方案-06-监控与报警数据库高可用方案-07-一致性校验数据库高可用方案-08-多版本管理数据库高可用方案-09-数据库的灾难恢复演练主备高可用架构主备高可用架构（Master-Slav
Python mysql数据库连接池戴** Python
最近在写一个Python的文本分析,需要大量的读取数据库(千万级别mysql)并进行更新操作,运行着程序发现一个问题,过了一会儿程序就报错说链接已经满了,或者是端口不可重复使用,因此我在网上找到了一个连接池的代码用于解决这个问题,在此处贴出代码本身是有配置文件的,因为我觉得在我的项目中不必要所以就删除了#!/usr/bin/envpython#-*-coding:utf-8-*-importpym
深入了解Text2SQL开源项目（Chat2DB、SQL Chat 、Wren AI 、Vanna） m0_74823983 开源 sql 人工智能
深入了解Text2SQL开源项目（Chat2DB、SQLChat、WrenAI、Vanna）前言1.Chat2DB2.SQLChat3.WrenAI4.Vanna前言在数据驱动决策的时代，将自然语言查询转化为结构化查询语言（SQL）的能力变得日益重要。无论是小型创业公司还是大型企业，都希望能够更轻松地从海量的数据中挖掘出有价值的见解。然而，对于那些不熟悉SQL或者数据库架构的用户来说，直接编写复杂
应学短视频App数据库表设计文档 2401_89285805 数据库
|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:||1|id|int|10|0|N|Y||||2|username|varchar|20|0|N|N||||3|password|varchar|20|0|N|N|||ROPTABLEIFEXISTSadmin;CREATETABLEadmin(idintNOTNULLAUTO_INCREMENT,usernamevarcha
Mysql数据库和Sql语句 Jessica小戴数据库 mysql sql
数据库管理：sql语句：数据库用来增删改查的语句（重要）备份：数据库的数据进行备份主从复制、读写分离、高可用（重要）Mysql数据库和Sql语句一、Mysql数据库1、数据库：组织、存储、管理数据的仓库2、数据库的管理系统（DBMS）：实现对数据有效组织、管理和存取的系统软件3、数据库软件：mysql、oracle（大数据系统一般使用、大企业使用）、sql-server、MariaDB也是mysq
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽黑客鹏哥 linux 网络安全 web安全密码学 CTF夺旗赛
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
数据库管理语句分类旦沐已成舟数据库的日子数据库
1.SQL语句概述它是一种对关系型数据库中的数据进行定义和操作的语言，是大多数关系数据库管理系统所支持的工业标准语言。1.2SQL语句的分类分类说明涉及语句DDL数据定义语言create(创建)，alter（修改），delete（删除）等DCL数据控制语言grant（授权），revoke（权限回收），commit（提交），rollback（回滚）DML数据操作语言insert，delete，upd
【计算机视觉】人脸识别油泼辣子多加计算机视觉计算机视觉 opencv 人工智能
一、简介人脸识别是将图像或者视频帧中的人脸与数据库中的人脸进行对比，判断输入人脸是否与数据库中的某一张人脸匹配，即判断输入人脸是谁或者判断输入人脸是否是数据库中的某个人。人脸识别属于1：N的比对，输入人脸身份是1，数据库人脸身份数量为N，一般应用在办公室门禁，疑犯追踪；人脸验证属于1:1的比对，输入人脸身份为1，数据库中为同一人的数据，在安全领域应用比较多。一个完整的人脸识别流程主要包括人脸检测、
NAT静态原理NAT动态原理NAPT原理 aicc221016 计算机网络网络智能路由器
现网:环境dev开发环境，开发专用sit:测试环境。测试人员用的，需要的测试的代码，程序之类的都会在测试环境运行。pre:预生产环境。在版本最后上线之前会在预生产最后执行一遍。确保万无一失(狗头)运维，也有测试。prd:生产环境/现网:10运维人员。数据库3DBA数据库运维。100.00129.9999991201361.36私网访问公网的过程:百度192.168.233.10(主机ip)180.
家政招聘管理系统的设计与实现詹姆斯爱研究Java spring spring boot
摘要随着互联网技术的发展，搭建一个满足每个家庭对家政服务需求的人性化管理系统，不仅能为客户提供更广的查询求职者信息的服务，也为求职者提供了方便、快捷的应聘途径。求职者和招聘者可以在网上进行交流，招聘者和求职者也可以在系统中上传自己的要求和优势，不受时间可空间的局限。网上招聘与传统招聘相比范围更广，资源更丰富，可挑选机会多等优点。我的系统主要用Java编程语言和Oracle数据库作为基础开发的平台，
MPP（Massively Parallel Processing，大规模并行处理）架构唯心-fja 架构
MPP（MassivelyParallelProcessing，大规模并行处理）架构是一种数据库系统的设计模式，它允许数据处理任务在多个计算节点上并行执行。这种架构非常适合处理大规模数据集和执行复杂的查询操作。下面是一些关于MPP架构的关键概念和特点：MPP架构的特点并行处理：MPP架构的核心优势在于能够将数据处理任务分解并在多个节点上并行执行。每个节点都有自己的处理器、内存和本地存储，可以独立执
gaussdb大表查询性能慢的解决思路 _Evelyn 大数据 gaussdb
一、引言1.背景介绍数字化和智能化转型是经济发展的新动力。而面对国外对中国数据库市场的长期垄断，人们对于中国自研数据库的需求越来越普遍，高斯数据库成为许多企业的选择之一。在经营分析5G智慧加油站项目项目中，我接触到高斯数据库，并使用它来进行数据的存储和查询。高斯数据库是以PostgreSQL为内核进行开发的一款数据库产品，其具备了PostgreSQL的高并发特性，又具有很强的通用性，支持行和列两种
gds文件导出_GaussDB 200使用GDS服务导入导出数据 weixin_39576066 gds文件导出
GaussDB200支持将存在远端服务器上的TEXT、CSV和FIXED格式的数据导入到集群中。本文介绍使用GDS(GaussDataService)工具将远端服务器上的数据导入GaussDB200。环境如下表:1、准备源数据这里从PostgreSQL数据库中，使用copy命令导出一个csv格式的文件，如下：rhnschema=>copyrhnpackagefileto'/tmp/rhnpacka
mysql 用户名命名_MySQL命名、设计及使用规范《MySQL命名、设计及使用规范》 syzyzs mysql 用户名命名
数据库环境dev：开发环境，开发可读写，可修改表结构。开发人员可以修改表结构，可以随意修改其中的数据但是需要保证不影响其他开发同事。qa：测试环境，开发可读写，开发人员可以通过工具修改表结构。sim：模拟环境，开发可读写，发起上线请求时，会先在这个环境上进行预执行，这个环境也可供部署上线演练或压力测试使用。real：生产数据库从库(准实时同步)，只读环境，不允许修改数据，不允许修改表结构，供线上问
基于mybatis-plus实现的多租户架构叔叔很忙 java spring
整体概述多租户技术或称多重租赁技术，简称SaaS，是一种软件架构技术，是实现如何在多用户环境下（多用户一般是面向企业用户）共用相同的系统或程序组件，并且可确保各用户间数据的隔离性。多租户在数据存储上主要存在三种方案，独立数据库、共享数据库，独立Schema、共享数据库，共享Schema，共享数据表。独立数据库即一个租户一个数据库，这种方案的用户数据隔离级别最高，安全性最好，但成本较高。优点：为不同
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数