阿里云云栖号

滴滴基于 Flink 的实时数仓建设实践

随着滴滴业务的高速发展，业务对于数据时效性的需求越来越高，而伴随着实时技术的不断发展和成熟，滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这个业务为引子，从引擎侧、平台侧和业务侧各个不同方面，来阐述滴滴所做的工作，分享在建设过程中的经验。

1.实时数仓建设目的

随着互联网的发展进入下半场，数据的时效性对企业的精细化运营越来越重要，商场如战场，在每天产生的海量数据中，如何能实时有效的挖掘出有价值的信息，对企业的决策运营策略调整有很大帮助。

其次从智能商业的角度来讲，数据的结果代表了用户的反馈，获取结果的及时性就显得尤为重要，快速的获取数据反馈能够帮助公司更快的做出决策，更好的进行产品迭代，实时数仓在这一过程中起到了不可替代的作用。

1.1 解决传统数仓的问题

从目前数仓建设的现状来看，实时数仓是一个容易让人产生混淆的概念，根据传统经验分析，数仓有一个重要的功能，即能够记录历史。通常，数仓都是希望从业务上线的第一天开始有数据，然后一直记录到现在。但实时流处理技术，又是强调当前处理状态的一个技术，结合当前一线大厂的建设经验和滴滴在该领域的建设现状，我们尝试把公司内实时数仓建设的目的定位为，以数仓建设理论和实时技术，解决由于当前离线数仓数据时效性低解决不了的问题。

现阶段我们要建设实时数仓的主要原因是：

公司业务对于数据的实时性越来越迫切，需要有实时数据来辅助完成决策
实时数据建设没有规范，数据可用性较差，无法形成数仓体系，资源大量浪费
数据平台工具对整体实时开发的支持也日渐趋于成熟，开发成本降低

1.2 实时数仓的应用场景

实时 OLAP 分析：OLAP 分析本身就是数仓领域重点解决的问题，基于公司大数据架构团队提供的基于 Flink 计算引擎的 stream sql 工具，Kafka 和 ddmq (滴滴自研)等消息中间件，druid 和 ClickHouse 等 OLAP 数据库，提升数仓的时效性能力，使其具有较优的实时数据分析能力。
实时数据看板：这类场景是目前公司实时侧主要需求场景，例如“全民拼车日”订单和券花销实时大屏曲线展示，顺风车新开城当日分钟级订单侧核心指标数据展示，增长类项目资源投入和收益实时效果展示等。
实时业务监控：滴滴出行大量核心业务指标需要具备实时监控能力，比如安全指标监控，财务指标监控，投诉进线指标监控等。
实时数据接口服务：由于各业务线之间存在很多业务壁垒，导致数仓开发很难熟悉公司内全部业务线，需要与各业务线相关部门在数据加工和数据获取方面进行协作，数仓通过提供实时数据接口服务的方式，向业务方提供数据支持。

2. 滴滴顺风车实时数仓建设举例

在公司内部，我们数据团队有幸与顺风车业务线深入合作，在满足业务方实时数据需求的同时，不断完善实时数仓内容，通过多次迭代，基本满足了顺风车业务方在实时侧的各类业务需求，初步建立起顺风车实时数仓，完成了整体数据分层，包含明细数据和汇总数据，统一了 DWD 层，降低了大数据资源消耗，提高了数据复用性，可对外输出丰富的数据服务。

数仓具体架构如下图所示：

从数据架构图来看，顺风车实时数仓和对应的离线数仓有很多类似的地方。例如分层结构；比如 ODS 层，明细层，汇总层，乃至应用层，他们命名的模式可能都是一样的。但仔细比较不难发现，两者有很多区别：

与离线数仓相比，实时数仓的层次更少一些
从目前建设离线数仓的经验来看，数仓的数据明细层内容会非常丰富，处理明细数据外一般还会包含轻度汇总层的概念，另外离线数仓中应用层数据在数仓内部，但实时数仓中，app 应用层数据已经落入应用系统的存储介质中，可以把该层与数仓的表分离。
应用层少建设的好处：实时处理数据的时候，每建一个层次，数据必然会产生一定的延迟。
汇总层少建的好处：在汇总统计的时候，往往为了容忍一部分数据的延迟，可能会人为的制造一些延迟来保证数据的准确。举例，在统计跨天相关的订单事件中的数据时，可能会等到 00:00:05 或者 00:00:10 再统计，确保 00:00 前的数据已经全部接受到位了，再进行统计。所以，汇总层的层次太多的话，就会更大的加重人为造成的数据延迟。
与离线数仓相比，实时数仓的数据源存储不同
在建设离线数仓的时候，目前滴滴内部整个离线数仓都是建立在 Hive 表之上。但是，在建设实时数仓的时候，同一份表，会使用不同的方式进行存储。比如常见的情况下，明细数据或者汇总数据都会存在 Kafka 里面，但是像城市、渠道等维度信息需要借助 Hbase，MySQL 或者其他 KV 存储等数据库来进行存储。

接下来，根据顺风车实时数仓架构图，对每一层建设做具体展开：

2.1 ODS 贴源层建设

根据顺风车具体场景，目前顺风车数据源主要包括订单相关的 binlog 日志，冒泡和安全相关的 public 日志，流量相关的埋点日志等。这些数据部分已采集写入 Kafka 或 ddmq 等数据通道中，部分数据需要借助内部自研同步工具完成采集，最终基于顺风车数仓ods层建设规范分主题统一写入 Kafka 存储介质中。

命名规范：ODS 层实时数据源主要包括两种。

一种是在离线采集时已经自动生产的 DDMQ 或者是 Kafka topic，这类型的数据命名方式为采集系统自动生成规范为：cn-binlog-数据库名-数据库名 eg：cn-binlog-ihap_fangyuan-ihap_fangyuan
一种是需要自己进行采集同步到 kafka topic 中，生产的topic命名规范同离线类似：ODS 层采用：realtime_ods_binlog_{源系统库/表名}/ods_log_{日志名} eg: realtime_ods_binlog_ihap_fangyuan

2.2 DWD 明细层建设

根据顺风车业务过程作为建模驱动，基于每个具体的业务过程特点，构建最细粒度的明细层事实表；结合顺风车分析师在离线侧的数据使用特点，将明细事实表的某些重要维度属性字段做适当冗余，完成宽表化处理，之后基于当前顺风车业务方对实时数据的需求重点，重点建设交易、财务、体验、安全、流量等几大模块；该层的数据来源于 ODS 层，通过大数据架构提供的 Stream SQL 完成 ETL 工作，对于 binlog 日志的处理主要进行简单的数据清洗、处理数据漂移和数据乱序，以及可能对多个 ODS 表进行 Stream Join，对于流量日志主要是做通用的 ETL 处理和针对顺风车场景的数据过滤，完成非结构化数据的结构化处理和数据的分流；该层的数据除了存储在消息队列 Kafka 中，通常也会把数据实时写入 Druid 数据库中，供查询明细数据和作为简单汇总数据的加工数据源。

命名规范：DWD 层的表命名使用英文小写字母，单词之间用下划线分开，总长度不能超过 40 个字符，并且应遵循下述规则：realtime_dwd_{业务/pub}_{数据域缩写}_[{业务过程缩写}]_[{自定义表命名标签缩写}]

{业务/pub}：参考业务命名
{数据域缩写}：参考数据域划分部分
{自定义表命名标签缩写}：实体名称可以根据数据仓库转换整合后做一定的业务抽象的名称，该名称应该准确表述实体所代表的业务含义
样例：realtime_dwd_trip_trd_order_base

2.3 DIM 层

公共维度层，基于维度建模理念思想，建立整个业务过程的一致性维度，降低数据计算口径和算法不统一风险；
DIM 层数据来源于两部分：一部分是 Flink 程序实时处理ODS层数据得到，另外一部分是通过离线任务出仓得到；
DIM 层维度数据主要使用 MySQL、Hbase、fusion(滴滴自研KV存储) 三种存储引擎，对于维表数据比较少的情况可以使用 MySQL，对于单条数据大小比较小，查询 QPS 比较高的情况，可以使用 fusion 存储，降低机器内存资源占用，对于数据量比较大，对维表数据变化不是特别敏感的场景，可以使用HBase 存储。

命名规范：DIM 层的表命名使用英文小写字母，单词之间用下划线分开，总长度不能超过 30 个字符，并且应遵循下述规则：dim_{业务/pub}_{维度定义}[_{自定义命名标签}]：

{业务/pub}：参考业务命名
{维度定义}：参考维度命名
{自定义表命名标签缩写}：实体名称可以根据数据仓库转换整合后做一定的业务抽象的名称，该名称应该准确表述实体所代表的业务含义
样例：dim_trip_dri_base

2.4 DWM 汇总层建设

在建设顺风车实时数仓的汇总层的时候，跟顺风车离线数仓有很多一样的地方，但其具体技术实现会存在很大不同。

第一：对于一些共性指标的加工，比如 pv，uv，订单业务过程指标等，我们会在汇总层进行统一的运算，确保关于指标的口径是统一在一个固定的模型中完成。对于一些个性指标，从指标复用性的角度出发，确定唯一的时间字段，同时该字段尽可能与其他指标在时间维度上完成拉齐，例如行中异常订单数需要与交易域指标在事件时间上做到拉齐。

第二：在顺风车汇总层建设中，需要进行多维的主题汇总，因为实时数仓本身是面向主题的，可能每个主题会关心的维度都不一样，所以需要在不同的主题下，按照这个主题关心的维度对数据进行汇总，最后来算业务方需要的汇总指标。在具体操作中，对于 pv 类指标使用 Stream SQL 实现 1 分钟汇总指标作为最小汇总单位指标，在此基础上进行时间维度上的指标累加；对于 uv 类指标直接使用 druid 数据库作为指标汇总容器，根据业务方对汇总指标的及时性和准确性的要求，实现相应的精确去重和非精确去重。

第三：汇总层建设过程中，还会涉及到衍生维度的加工。在顺风车券相关的汇总指标加工中我们使用 Hbase 的版本机制来构建一个衍生维度的拉链表，通过事件流和 Hbase 维表关联的方式得到实时数据当时的准确维度

命名规范：DWM 层的表命名使用英文小写字母，单词之间用下划线分开，总长度不能超过 40 个字符，并且应遵循下述规则：realtime_dwm_{业务/pub}_{数据域缩写}_{数据主粒度缩写}_[{自定义表命名标签缩写}]_{统计时间周期范围缩写}：

{业务/pub}：参考业务命名
{数据域缩写}：参考数据域划分部分
{数据主粒度缩写}：指数据主要粒度或数据域的缩写，也是联合主键中的主要维度
{自定义表命名标签缩写}：实体名称可以根据数据仓库转换整合后做一定的业务抽象的名称，该名称应该准确表述实体所代表的业务含义
{统计时间周期范围缩写}：1d:天增量；td:天累计(全量)；1h:小时增量；th:小时累计(全量)；1min:分钟增量；tmin:分钟累计(全量)
样例：realtime_dwm_trip_trd_pas_bus_accum_1min

2.5 APP 应用层

该层主要的工作是把实时汇总数据写入应用系统的数据库中，包括用于大屏显示和实时 OLAP 的 Druid 数据库(该数据库除了写入应用数据，也可以写入明细数据完成汇总指标的计算)中，用于实时数据接口服务的 Hbase 数据库，用于实时数据产品的 MySQL 或者 Redis 数据库中。

命名规范：基于实时数仓的特殊性不做硬性要求。

3. 顺风车实时数仓建设成果

截止目前，一共为顺风车业务线建立了增长、交易、体验、安全、财务五大模块，涉及 40+ 的实时看板，涵盖顺风车全部核心业务过程，实时和离线数据误差<0.5%，是顺风车业务线数据分析方面的有利补充，为顺风车当天发券动态策略调整，司乘安全相关监控，实时订单趋势分析等提供了实时数据支持，提高了决策的时效性。

同时建立在数仓模型之上的实时指标能根据用户需求及时完成口径变更和实时离线数据一致性校验，大大提高了实时指标的开发效率和实时数据的准确性，也为公司内部大范围建设实时数仓提供了有力的理论和实践支持。

4. 实时数仓建设对数据平台的强依赖

目前公司内部的实时数仓建设，需要依托数据平台的能力才能真正完成落地，包括 StreamSQL 能力，数据梦工程 StreamSQL IDE 环境和任务运维组件，实时数据源元数据化功能等。

4.1 基于StreamSQL的实时数据需求开发

StreamSQL 是滴滴大数据引擎部在 Flink SQL 基础上完善后形成的一个产品。

使用 StreamSQL 具有多个优势：

描述性语言：业务方不需要关心底层实现，只需要将业务逻辑描述出来即可。
接口稳定：Flink 版本迭代过程中只要 SQL 语法不发生变化就非常稳定。
问题易排查：逻辑性较强，用户能看懂语法即可调查出错位置。
批流一体化：批处理主要是 HiveSQL 和 Spark SQL，如果 Flink 任务也使用 SQL 的话，批处理任务和流处理任务在语法等方面可以进行共享，最终实现一体化的效果。

StreamSQL 相对于 Flink SQL （1.9 之前版本）的完善：

完善 DDL：包括上游的消息队列、下游的消息队列和各种存储如 Druid、HBase 都进行了打通，用户方只需要构建一个 source 就可以将上游或者下游描述出来。
内置消息格式解析：消费数据后需要将数据进行提取，但数据格式往往非常复杂，如数据库日志 binlog，每个用户单独实现，难度较大。StreamSQL 将提取库名、表名、提取列等函数内置，用户只需创建 binlog 类型 source，并内置了去重能力。对于 business log 业务日志 StreamSQL 内置了提取日志头，提取业务字段并组装成 Map 的功能。对于 json 数据，用户无需自定义 UDF，只需通过 jsonPath 指定所需字段。
扩展UDX：丰富内置 UDX，如对 JSON、MAP 进行了扩展，这些在滴滴业务使用场景中较多。支持自定义 UDX，用户自定义 UDF 并使用 jar 包即可。兼容 Hive UDX，例如用户原来是一个 Hive SQL 任务，则转换成实时任务不需要较多改动，有助于批流一体化。

Join 能力扩展：

基于 TTL 的双流 join：在滴滴的流计算业务中有的 join 操作数据对应的跨度比较长，例如顺风车业务发单到接单的时间跨度可能达到一个星期左右，如果这些数据的 join 基于内存操作并不可行，通常将 join 数据放在状态中，窗口通过 TTL 实现，过期自动清理。
维表 join 能力：维表支持 HBase、KVStore、Mysql 等，同时支持 inner、left、right、full join 等多种方式。

4.2 基于数据梦工厂的 StreamSQL IDE 和任务运维

StreamSQL IDE：

提供常用的SQL模板：在开发流式 SQL 时不需要从零开始，只需要选择一个 SQL 模板，并在这个模板之上进行修修改改即可达到期望的结果
提供 UDF 的库：相当于一个库如果不知道具有什么含义以及如何使用，用户只需要在 IDE 上搜索到这个库，就能够找到使用说明以及使用案例，提供语法检测与智能提示
提供代码在线DEBUG能力：可以上传本地测试数据或者采样少量 Kafka 等 source 数据 debug，此功能对流计算任务非常重要。提供版本管理功能，可以在业务版本不断升级过程中，提供任务回退功能。

任务运维：任务运维主要分为四个方面

日志检索：Flink UI 上查询日志体验非常糟糕，滴滴将 Flink 任务日志进行了采集，存储在 ES 中，通过 WEB 化的界面进行检索，方便调查。
指标监控：Flink 指标较多，通过 Flink UI 查看体验糟糕，因此滴滴构建了一个外部的报表平台，可以对指标进行监控。
报警：报警需要做一个平衡，如重启报警有多类如 ( 机器宕机报警、代码错误报警 )，通过设置一天内单个任务报警次数阈值进行平衡，同时也包括存活报警 ( 如 kill、start )、延迟报警、重启报警和 Checkpoint 频繁失败报警 ( 如 checkpoint 周期配置不合理 ) 等。
血缘追踪：实时计算任务链路较长，从采集到消息通道，流计算，再到下游的存储经常包括 4-5个环节，如果无法实现追踪，容易产生灾难性的问题。例如发现某流式任务流量暴涨后，需要先查看其消费的 topic 是否增加，topic 上游采集是否增加，采集的数据库 DB 是否产生不恰当地批量操作或者某个业务在不断增加日志。这类问题需要从下游到上游、从上游到下游多方向的血缘追踪，方便调查原因。

4.3 基于数据梦工厂的实时数据源元数据化(meta化表)

将 topic 引入成实时表，metastore 统一管理元数据，实时开发中统一管理 DDL 过程。对实时数仓来说，通过元数据化，可以沉淀实时数仓的建设成果，使数仓建模能更好的落地。

目前数据梦工厂支持的元数据化实时数据源包括 Postgre、DDMQ、MySQL、Druid、ClickHouse、Kylin、Kafka。

5. 面临的挑战和解决方案思考

虽然目前滴滴在实时数仓建设方面已初具规模，但其面临的问题也不容忽视。

5.1 实时数仓研发规范

问题：为了快速响应业务需求，同时满足数仓的需求开发流程，迫切需要建设一套面向实时数据开发的规范白皮书，该白皮书需要涉及需求对接、口径梳理、数据开发、任务发布、任务监控、任务保障。

目前解决方案：目前由数据 BP 牵头，制定了一套面向实时数据指标的开发规范：

常规流程：需求方提出需求，分析师对接需求，提供计算口径，编写需求文档。之后由数仓 BP 和离线数仓同学 check 计算口径，并向实时数仓团队提供离线 Hive 表，实时数仓同学基于离线 Hive 表完成数据探查，基于实时数仓模型完成实时数据需求开发，通过离线口径完成数据自查，最终交付给分析师完成二次校验后指标上线。

口径变更--业务方发起：业务方发起口径变更，判断是否涉及到实时指标，数仓 BP 对离线和实时口径进行拉齐，向离线数仓团队和实时数仓团队提供更口口径和数据源表，实时数仓团队先上测试看板，验收通过后切换到正式看板

存在的不足：

当针对某个业务进行新的实时数据建设时，会有一个比较艰难的初始化过程，这个初始化过程中，会和离线有较多耦合，需要确定指标口径，数据源，并进行大量开发测试工作
在指标口径发生变更的时候，需要有一个较好的通知机制，目前还是从人的角度来进行判断。

5.2 离线和实时数据一致性保证

目前解决办法：由业务、BP、离线数仓共同保证数据源、计算口径与离线一致，数据加工过程，逐层与离线进行数据比对，并对指标结果进行详细测试，数据校验通过并上线后，根据离线周期进行实时和离线数据的校验。

待解决的问题：结合指标管理工具，保证指标口径上的一致性，扩展数据梦工厂功能，在指标加工过程中，增加实时离线比对功能，降低数据比对成本。

6. 未来展望：批流一体化

虽然 Flink 具备批流一体化能力，但滴滴目前并没有完全批流一体化，希望先从产品层面实现批流一体化。通过 Meta 化建设，实现整个滴滴只有一个 MetaStore，无论是 Hive、Kafka topic、还是下游的 HBase、ES 都定义到 MetaStore 中，所有的计算引擎包括 Hive、Spark、Presto、Flink 都查询同一个 MetaStore，实现整个 SQL 开发完全一致的效果。根据 SQL 消费的 Source 是表还是流，来区分批处理任务和流处理任务，从产品层面上实现批流一体化效果。

原文链接
本文为阿里云原创内容，未经允许不得转载。

MySQL事务实现原理巴里巴气 MySQL知识记录 mysql 数据库
目录MySQL事务介绍事务基础及其实现原理回滚日志MVCC多版本并发控制事务的特性多个事务同时执行出现的三种现象四种隔离级别及其实现原理尽量不要使用长事务MySQL事务介绍要保证⼀组数据库操作，要么全部成功，要么全部失败事务是在存储引擎层实现的,MySQL是支持多存储引擎的系统,不是所有的存储引擎都支持事务,目前最常用的存储引擎InnoDB是支持事务的事务基础及其实现原理回滚日志回滚日志是一种用于
仓颉编程语言：从入门到精通
为啥要瞅瞅仓颉这玩意儿？有一说一，现在的编程语言多得跟米一样，对吧？那一门新语言想火，没点绝活儿肯定不行。仓颉（Cangjie）这哥们儿，是华为搞出来的新玩意儿，静态编译的，主打的就是一个现代化、性能炸裂、安全感满满，而且天生就会搞并发。就凭这几点，已经有不少大佬开始关注了。这篇博客呢，就是你的“老司机”指南，带你把仓颉这车开得明明白白。不管你是刚上路的小白，还是开惯了Rust、Go、Java、N
MySQL 触发器中判断 NULL 值不生效？问题解析与解决方案
前言在MySQL数据库开发中，触发器是一个非常实用的功能，它能在数据表发生插入、更新或删除操作时自动执行指定的逻辑。但在实际使用中，很多开发者会遇到一个棘手的问题：当触发器中涉及NULL值判断时，预期的逻辑往往不生效。本文就来详细分析这一问题的原因，并提供具体的解决方案。一、问题现象：为什么NULL判断在触发器中“失灵”？先来看一个常见的错误示例。假设我们有一张user表，包含name（姓名）和a
如何使用Ora2Pg迁移Oracle数据库到openGauss openGauss小助手 openGauss技术分享数据库 oracle postgresql
Ora2Pg介绍Ora2Pg是一个将Oracle迁移至PostgreSQL的开源工具，通过连接Oracle数据库，自动扫描并提取其中的对象结构及数据，产生SQL脚本，通过手动或自动的方式将其应用到PostgreSQL。官方网站：https://ora2pg.darold.net/Ora2Pg优秀特性支持导出数据库绝大多数对象类型，包括表、视图、序列、索引、外键、约束、函数、存储过程等。提供PL/S
oracle pg 文件级迁移,从Oracle迁移到AntDB(二)-- ora2pg-对象和数据的导出导入
使用Ora2pg和psqlcopy方式进行数据迁移author:yafeishitags:AntDB,ora2pg,oracleAntDB:github_url,基于postgresql的高性能分布式数据库使用Ora2pg和psqlcopy方式进行数据迁移准备工作使用本文档的前提本文档指导如何使用ora2pg进行oracle到ADB的数据迁移，但是在参照本文档操作之前，有以下条件必须满足：-ADB
0.基本环境配置、数据库介绍 ersanshi055 生信小菜鸟生信基本知识 r语言生信分析
目录一、R与Rstudio的下载与安装二、R包安装与加载1.R包安装2.R包加载三、常用R包1.tidyverse2.ggplot2四、常用数据库1.GEO2.TGGA一、R与Rstudio的下载与安装介绍：Home-RDocumentation下载：R:CRAN:MirrorsRstudio：DownloadRStudio-PositR、Rstudio安装：根据指引安装，R和Rstudio比较占
TDengine 集群节点管理 TDengine （老段） TDengine SQL 手册 tdengine 数据库时序数据库大数据物联网 iotdb iot
简介组成TDengine集群的物理实体是dnode(datanode的缩写)，它是一个运行在操作系统之上的进程。在dnode中可以建立负责时序数据存储的vnode(virtualnode)，在多节点集群环境下当某个数据库的replica为3时，该数据库中的每个vgroup由3个vnode组成；当数据库的replica为1时，该数据库中的每个vgroup由1个vnode组成。如果要想配置某个数据库为
一场 6 点半开启的慢跑，是我们对八周年最真实的记录
今天，涛思数据八岁了。从2017年成立到现在，已经过去了整整八年。我们用一款开源时序数据库——TDengine，把中国团队的技术能力写进了全球开发者的代码库，也写进了越来越多行业用户的生产系统。八年时间，说长不长，说短也不短。我们经历了初创时的摸索，度过了技术路径尚未被验证的阶段，也一步步走到了今天这个节点：我们仍在奔跑，但不再孤身。这一次，我们选择用一条“慢跑”路线，回望这八年的路。详情关注TD
时序数据库 TDengine × SSRS：专为工业、能源场景打造的报表解决方案
每当听到“做报表”三个字，是不是内心都会先叹口气？尤其在工业、能源、制造等场景，面对那些结构固定、字段繁多、格式要求严苛的报表任务，用Excel手动拼，真的是既费时又容易出错。现在解决方案来了——时序数据库TDengine与SQLServerReportingServices（SSRS）已经完成无缝集成！高性能时序数据库+企业级报表平台，帮你用更少的操作、更高的效率，制作出更稳定、更规范的专业报表
Hutool TreeUtil快速构建树形数据结构 yifanghub 工具类 java
在管理菜单、部门结构等场景时，我们经常需要将数据库中的层级数据转换为树形结构。本文将通过Hutool的TreeUtil工具类，实现零递归快速构建树形结构。一、环境准备JDK1.8+SpringBoot2.xHutool5.8.16MySQL8.0二、数据准备--创建部门表CREATETABLE`sys_dept`(`id`intNOTNULLAUTO_INCREMENT,`dept_name`va
从0到1：SQL注入与XSS攻防实战——数据库安全加固全攻略小张在编程 sql xss 数据库
引言2023年某电商平台用户数据泄露事件中，黑客仅用一行username='OR'1'='1的登录输入，就拖走了百万用户信息；另一家社交网站更离谱，用户在评论区输入alert('xss')，竟让千万级用户的浏览器成了“提线木偶”。这些看似简单的攻击，为何能撕开企业安全防线？今天我们就来拆解SQL注入与XSS的“作案手法”，并给出一套可落地的数据库安全加固方案——毕竟，防住这两类攻击，能解决80%的
spring-data-jpa+spring+hibernate+druid配置
参考链接：http://doc.okbase.net/liuyitian/archive/109276.htmlhttp://my.oschina.net/u/1859292/blog/312188最新公司的web项目需要用到spring-data-jpa作为JPA的实现框架，同时使用阿里巴巴的开源数据库连接池druid。关于这两种框架的介绍我在这里就不多赘述。直接进入配置页面：spring的配置
新时代的开始，华为开源仓颉编程语言！
7月30日，华为即将开源自研的仓颉编程语言。仓颉这个名字很有意思。传说中的仓颉创造了汉字，开启了中华文明的文字时代。华为用这个名字，体现了对中华文化的致敬。从2020年开始研发，到去年首次亮相，再到现在的全面开源，华为用了5年时间。说起仓颉诞生的背景，不得不提到2019年后美国对华为的技术封锁。当时，华为在芯片、操作系统、软件生态等多个领域都面临"卡脖子"的困境。在这种情况下，华为选择了一条更艰难
识花APP：一键识别，开启植物探索之旅
在大自然的怀抱中，我们常常会被各种各样的花草所吸引，却不知道它们的名字和习性。识花APP正是这样一款能够帮助我们快速识别植物、了解植物知识的神奇工具。由上海原来信息科技有限公司研发的这款植物识别软件，以其强大的功能、简单的操作和丰富的植物数据库，成为了植物爱好者和自然探索者的得力助手。软件优势·拍照识花：1秒就能知道植物的名字和故事·分享美图：一键生成有诗词花语的植物美图·花语壁纸：精美壁纸天天上
【SpringBoot】Spring Boot 高并发优化终极指南，涵盖线程模型、JVM 调优、数据库访问、缓存策略等 15+ 核心模块夜雨hiyeyu.com java spring boot jvm spring java 后端性能优化系统架构
SpringBoot高并发优化终极指南，涵盖线程模型、JVM调优、数据库访问、缓存策略等15+核心模块一、线程模型深度调优（核心瓶颈突破）1.Tomcat线程池原子级配置2.异步任务线程池隔离策略二、JVM层终极调参（G1GC深度优化）1.内存分配策略2.GC日志分析技巧三、缓存策略原子级优化1.三级缓存架构实现2.缓存穿透/雪崩防护四、数据库访问极致优化1.连接池死亡参数配置2.分页查询深度优化
达梦数据库linux环境实时主备搭建过程张晓杰^.^ 数据库服务器网络
一.数据准备：1.安装单机1.1创建用户和组groupadd-g12349dinstalluseradd-u12345-gdinstall-m-d/home/dmdba-s/bin/bashdmdbapasswddmdba1.2创建文件dmsoft:存放DMInstall.bin和key/home/dmdba/dmdbms：存放数据库的安装目录/data:实例目录/data/dmarch:存放归档
[达梦数据库]达梦单节点安装
1环境配置1.1查看软硬件信息查看cpu信息：[root@localhost~]#lscpu[root@localhost~]#cat/proc/cpuinfo注意：特别是国产cpu，龙芯、飞腾查看内存信息：[root@localhost~]#free-m注意：数据库内存要至少1G，linuxswap分区一般是物理内存的1.5倍查看硬盘、分区信息[root@localhost~]#fdisk-l[
麒麟V10安装部署达梦数据库（单机版）熊娜丽莎的微笑数据库运维开发 linux
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言1.单机部署过程1.1部署规划1.2数据库软件安装及环境配置1.2.1操作系统配置1.2.2数据库软件安装1.3使用dminit工具初始化实例1.4注册服务并启动实例1.5登录数据库1.6归档配置1.7定制备份策略1.8数据库参数优化1.9配置sql日志1.10迁移信息统计查询总结前言麒麟V10安装部署达梦数据库单机安装的
CentOS 7系统设置MYSQL每天定时备份 AMING20220827 MySQL mysql 数据库 centos
目录一、MySQL定时备份数据设置定时定时任务脚本如果出现问题："mysqldump:commandnotfound"备份MySQL数据库步骤二、连接MySQL一、MySQL定时备份数据设置定时定时任务脚本1.修改/etc/my.cnf文件#vim/etc/my.cnf增加本机、用户名、密码vim/etc/my.cnf[client]host=localhostuser=你的数据库用户passwo
Django核心知识点详解：JSON、AJAX、Cookie、Session与用户认证 PythonicCC django json ajax
1.JSON数据格式详解1.1什么是JSON？JSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，具有以下特点：独立于语言，几乎所有编程语言都支持易于人阅读和编写易于机器解析和生成基于文本，比XML更简洁1.2JSON基本格式对象格式{"name":"rose","age":20}使用大括号{}包裹键值对形式，键必须用双引号包裹多个键值对用逗号分隔数组格式["j
达梦数据库（集群）使用命令行开启定时备份：除祢以外 java 数据库 servlet
声明：仅供技术参考非官方专业指导，如操作导致数据问题概不负责！！！达梦数据库（集群）使用命令行开启定时备份：登录需要自动备份的数据库进行备份任务创建（分为全量备份和增量备份）（1）定时自动全量备份初始化代理环境SP_INIT_JOB_SYS(1);每天全量备份callSP_CREATE_JOB('db_bak',1,0,'',0,0,'',0,'');callSP_JOB_CONFIG_START
Softhub软件下载站实战开发（四）：代码生成器设计与实现叹一曲当时只道是寻常 softHub python 低代码 mysql
文章目录Softhub软件下载站实战开发（四）：代码生成器设计与实现1.前言2.技术选型3.架构概览️3.1架构概览3.2工作流程详解4.核心功能实现⏳4.1配置管理系统4.2数据库表结构解析4.3模板渲染引擎4.4智能类型转换4.5动态文件生成4.6智能覆盖策略4.7运行5.附录ℹ️5.1生成器代码5.2后端模板5.3前端模板Softhub软件下载站实战开发（四）：代码生成器设计与实现1.前言在
Softhub软件下载站实战开发（十四）：软件收藏集设计叹一曲当时只道是寻常 softHub 前端 golang
文章目录Softhub软件下载站实战开发（十四）：软件收藏集设计引言：为什么我们需要收藏集功能？收藏集功能的核心价值1.资源整合与分类管理技术架构设计数据库设计核心接口设计后端实现详解1.收藏集服务层2.列表查询实现3.添加软件实现前端实现详解1.收藏集列表页面2.软件管理弹窗组件3.软件选择与添加逻辑Softhub软件下载站实战开发（十四）：软件收藏集设计前面几篇我们讲了软件管理相关实现，本篇我
Java程序设计（二十七）：基于SSM框架的OA办公自动化管理平台的设计与实现人工智能_SYBH 2025年java程序设计 java 数据挖掘开发语言 vue.js 后端人工智能 spring boot
1.项目概述办公自动化（OA，OfficeAutomation）管理平台是企业实现内部管理信息化的重要工具。本文提出并实现了一个基于Java的OA办公自动化管理平台。该平台基于SSM架构（Spring+SpringMVC+MyBatis），数据库采用MySQL，并通过HTML、CSS、JavaScript等技术实现用户界面。1.1平台功能简介平台提供了管理员、普通用户和部门三类角色，分别具有不同的
AI驱动的个人工作革命：基于DeepSeek构建全场景智能工作助理（含源代码+多应用场景） AI_DL_CODE DeepSeek深度应用人工智能 DeepSeek 个人智能助理 LangChain 任务自动化知识管理大模型应用
摘要：本文详细阐述基于DeepSeek大模型构建个人工作助理的完整技术方案，通过LangChain实现任务分解、知识检索与工具调用的智能协同。方案融合向量数据库、多模态交互与个性化学习算法，构建涵盖邮件处理、会议管理、文档生成等15大核心工作场景的自动化系统。文中提供可运行代码、完整部署指南及效能测试数据，实现邮件处理效率提升13倍、会议纪要生成时间缩短100%、任务安排错误率降低83%的显著优化
vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
构建安全密码存储策略：核心原则与最佳实践 weixin_47233946 信息安全安全
密码是用户身份认证的第一道防线，其存储安全性直接关系到用户隐私和企业信誉。近年来频发的数据泄露事件揭示了密码管理的关键性。本文将深入探讨从加密算法到系统性防护的完整密码存储方案，帮助开发者构建企业级安全防御体系。一、密码存储基本准则绝对禁止明文存储：即使采用数据库加密措施，直接存储用户原始密码仍存在不可逆泄露风险。运维人员权限滥用或备份文件泄露都可能成为突破口。加密≠安全：AES等对称加密存在密钥
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
FastAPI依赖注入：构建高可维护API的核心理念与实战源滚滚AI编程 fastapi log4j
依赖注入（DependencyInjection,DI）作为FastAPI的核心设计模式，通过解耦组件依赖关系、提升代码复用性和可测试性，已成为现代API开发的基石。本文将深入解析其工作原理、高级特性及企业级应用场景。一、依赖注入的核心价值解耦与模块化将数据库连接、认证逻辑等基础设施与业务逻辑分离，避免代码冗余。示例：路由函数无需手动创建数据库连接，通过Depends(get_db)自动注入[ci
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include