明月清风，良宵美酒

百度爱番番实时 CDP 建设实践

一、CDP 是什么
- 1.1 CDP 由来
- 1.2 CDP 定义
- 1.3 CDP 分类
二、挑战与目标
- 2.1 面临挑战
- - 2.1.1 业务层面
  - 2.1.2 技术层面
- 2.2 RT-CDP 建设目标
- - 2.2.1 关键业务能力
  - 2.2.2 先进技术架构
三、技术选型
- 3.1 身份关系存储新尝试
- 3.2 流式计算引擎选择
- 3.3 海量存储引擎取舍
- 3.4 规则引擎调研
四、平台架构
- 4.1 整体架构
- 4.2 核心模块
- 4.3 关键实现
- - 4.3.1 数据定义模型
  - 4.3.2 Identity Service
  - 4.3.3 实时存算
  - - 4.3.3.1 流计算
    - 4.3.3.2 实时存储
    - 4.3.3.3 分析增强
  - 4.3.4 实时规则引擎
  - 4.3.5 扩展
  - - 4.3.5.1 弹性集群
    - 4.3.5.2 全链监控
五、平台成果
- 5.1 资产数据化
- 5.2 高效支撑业务
- 5.3 架构先进
- - 5.3.1 实时高吞吐
  - 5.3.2 高扩展性
  - 5.3.3 高稳定性
六、未来展望

一、CDP 是什么

1.1 CDP 由来

CDP (Customer Data Platform) 是近些年时兴的一个概念。随着时代发展、大环境变化，企业在自有媒体增多的同时，客户管理、营销变难，数据孤岛问题也愈发严重，为了更好的营销客户，CDP 诞生了。纵向来看，CDP 出现之前主要经历了两个阶段：

1.CRM 时代，企业通过电话、短信、email 与现有客户和潜在客户的互动，以及执行数据分析，从而帮助推动保留和销售；

2.DMP 阶段，企业通过管理各大互联网平台进行广告投放和执行媒体宣传活动。

CRM、DMP、CDP 三个平台核心作用不同，但纵向来对比，更容易理解 CDP。三者之间在数据属性、数据存储、数据用途等方面都较大差异。

有几个关键区别如下：
CRM vs CDP

客户管理：CRM 侧重于销售跟单；CDP 更加侧重于营销。
触点：CRM 的客户主要是电话、QQ、邮箱等；CDP 还包含租户的自有媒体关联的用户账号
(例如，企业自己的网站、app、公众号、小程序)。

DMP vs CDP

数据类型：DMP 是匿名数据为主；CDP 以实名数据为主。
数据存储：DMP 数据只是短期存储；CDP 数据长期存储。

1.2 CDP 定义

2013 年 MarTech 分析师 David Raab 首次提出 CDP 这个概念，后来其发起的 CDP Institute 给出权威定义：packaged software that creates a persistent, unified customer database that is accessible to other systems。

这里面主要包含三个层面：

Packaged software：基于企业自身资源部署，使用统一软件包部署、升级平台，不做定制开发。
Persistent, unified customer database：抽取企业多类业务系统数据，基于数据某些标识形成客户的统一视图，长期存储，并且可以基于客户行为进行个性化营销。
Accessible to other systems：企业可以使用 CDP数据分析、管理客户，并且可以通过多种形式取走重组、加工的客户数据。

1.3 CDP 分类

CDP 本身的 C (Customer) 是指 all customer-related functions, not just marketing。面向不同场景也对应不同类型的 CDP，不同类别的 CDP 主要是功能范围不同，但是类别之间是递进关系。

主要分为四类：

Data CDPs：主要是客户数据管理，包括多源数据采集、身份识别，以及统一的客户存储、访问控制等。
Analytics CDPs：在包含 Data CDPs 相关功能的同时，还包括客户细分，有时也扩展到机器学习、预测建模、收入归因分析等。
Campaign CDPs：在包含 Analytics CDPs 相关功能的同时，还包括跨渠道的客户策略 (Customer
Treatments)，比如个性化营销、内容推荐等实时交互动作。
Delivery CDPs：在包括 Campaign CDPs 相关功能的同时，还包括信息触达 (Message
Delivery)，比如邮件、站点、APP、广告等。
Campaign CDPs、Delivery CDPs 两类较 Analytics CDPs 多出的功能，在国内更贴近 MA
(Marketing Automation，营销自动化)。本文所讲的 CDP 从提供的功能范围来说，属于 Analytics
CDPs。在爱番番也有专门的 MA 系统，本文的 CDP 为其提供数据支撑。

二、挑战与目标

2.1 面临挑战

随着营销 3.0 时代的到来，以爱番番私域产品来说，主要是借助强大的 CDP 为企业提供线上、线下数据的打通管理的同时，企业可以使用精细化的客户分群，进行多场景的增育活动 (比如自动化营销的手段，节假日促销通知，生日祝福短信，直播活动等等)。更重要的是，企业可以基于纯实时的用户行为进行更加个性、准确、及时的二次实时营销，帮助企业加温线索、促活客户，提升私域营销转化效果。那如何做好实时 CDP (Real-Time CDP，缩写为 RT-CDP) 驱动上层营销业务，面临诸多挑战。

2.1.1 业务层面

企业数据渠道多，数据形态各异

一个企业除了官网、文件、App、自有系统，还包括目前众多的企业自有媒体 (比如微信公众号、抖音企业号、百家号、各类小程序等) 等各种场景的数据结构不统一，如何高效接入企业数据到 RT-CDP？这也是成千上万的企业主们在客户数据融合的课题上亟需解决的系统化问题。

不同生态无法打通，无法 360 度洞察用户

数据分散导致难以识别唯一用户身份，无法建立全面且持续更新的用户画像，导致对用户的认知碎片化片面化，洞察不足。比如在实际营销场景下，企业期望对同时访问官网和其小程序的同一用户发放优惠券促活时，但因为一个人的行为以不同标识分散在各渠道数据中，无法进行跨渠道用户行为分析，也就无法实现企业诉求。

人群划分规则复杂

我们不同企业的业务是不同的，所以我们可以根据业务特点，为不同的客户打上个性化的标签，比如企业进行营销活动时，想给经过迭代旅程节点的用户、参与某个直播等等的打上不同场景的标签，这样才能对不同的人群进行细分，做更精细化的营销。

如何用一个平台服务好 B2B2C、B2C 两类企业，行业可借鉴经验少

爱番番的客户涉及多类行业，有的 B2C 的也有 B2B2C 的。相对于 B2C，B2B2C 的业务场景复杂度是指数级上升。在管理好 B、C 画像的同时，还要兼顾上层服务的逻辑里，比如身份融合策略、基于行为的圈选等。另外，在许多业务场景也存在很多业务边界不清晰的问题。

2.1.2 技术层面

全渠道实时精准识别要求高

当今时代一个客户行为跨源跨设备跨媒体，行为轨迹碎片化严重。如果企业想营销效果好，精准、实时识别客户、串联客户行为轨迹是重要前提。那如何在多源多身份中做到高性能的实时识别也是个很大挑战。

需要具有实时、低延迟处理海量数据的能力

现在客户可选择性多，意向度不明确，基于客户行为实时营销，以及基于客户反馈的实时二次交互是提高营销效果的关键，比如企业营销部门群发一个活动短信，客户点没点，点了有什么样进一步的动作，代表着客户不同的意向程度，企业营销、销售人员需要根据客户动作进行及时进一步的跟进。只有实时把握这些变化，才能更高效地促进营销活动的转化。如何实时处理海量数据驱动业务？

需要可扩展的架构

在多租户背景下，爱番番管理数千、万中小企业的海量数据。随着服务企业数量的不断增加，如何快速不断提升平台的服务能力，需要设计一个先进的技术架构。另外，如何做到高性能、低延迟、可伸缩、高容错，也是很大的技术挑战。

多租户特性、性能如何兼顾

爱番番私域产品是以 Saas 服务形式服务于中小企业，那一个具备多租户特性的 CDP 是一个基本能力。虽然中小企业客户一般十万、百万量级不等，但随着企业进行的营销活动的累增，企业的数据体量也会线性增长。对于中大企业来说，其客户量级决定了其数据体量增长速度更快。另外，不同企业对于数据查询的维度各异很难做模型预热。在此前提下，如何兼顾可扩展性、服务性能是个难题。

多样部署扩展性

CDP 目前主要以 Saas 服务服务于中小企业，但不排除后续支持大客户 OP 部署 (On-Premise，本地化部署) 的需求，如何做好组件选型支持两类服务方式？

2.2 RT-CDP 建设目标

2.2.1 关键业务能力

经过分析和业务抽象，我们觉得，一个真正好的 RT-CDP 需要做到如下几个关键特征：

灵活的数据对接能力：可以对接客户各种数据结构多类数据源的客户系统。另外，数据可以被随时访问。
同时支持 B2C 和 B2B 两类数据模型：面向不同的行业客户，用一套服务支撑。
统一的用户、企业画像：包含属性、行为、标签 (静态、动态 (规则) 标签、预测标签)、智能评分、偏好模型等等。
实时的全渠道身份识别、管理：为了打破数据孤岛，打通多渠道身份，是提供统一用户的关键，也是为了进行跨渠道用户营销的前提。
强大的用户细分能力 (用户分群)：企业可以根据用户属性特征、行为、身份、标签等进行多维度多窗口组合的用户划分，进行精准的用户营销。
用户的实时交互、激活：面对用户习惯变化快，实时感知用户行为进行实时自动化营销能力尤为重要。
安全的用户数据管理：数据长期、安全存储是数据管理平台的基本要求。

2.2.2 先进技术架构

明确平台业务目标的同时，一个先进的技术架构也是平台建设的目标。如何做到平台架构，我们有如下几个核心目标：

流数据驱动

在传统数据库、数据处理上，还主要是『数据被动，查询主动』。数据在数据库中处于静止状态，直到用户发出查询请求。即使数据发生变化，也必须用户主动重新发出相同的查询以获得更新的结果。但现在数据量越来越大、数据变化及时感知要求越来越高，这种方法已无法满足我们与数据交互的整个范式。

现在系统架构设计如下图，更倾向于主动驱动其他系统的架构，比如领域事件驱动业务。数据处理亦是需要如此：『数据主动、查询被动』。

举个例子，企业想找到访问过企业小程序的用户进行发短信时，两种分别如何做？

传统方式：先将用户数据存入存储引擎，在企业发短信之前再将查询条件转换成 SQL，然后去海量数据中筛选符合条件的用户。
现代方式：在用户数据流入数据系统时，进行用户画像丰富，然后基于此用户画像进行符不符合企业查询条件的判断。它只是对单个用户数据的规则判断，而不是从海量数据筛选。

流计算处理

传统的数据处理更多是离线计算、批量计算。离线计算就是 Data at rest，Query in motion；批量计算是将数据积累到一定程度，再基于特定逻辑进行加工处理。虽然两者在数据处理数据方式也有所不同，但是从根本上来说都是批量处理，天然也就有了延迟了。

流式计算则是彻底去掉批的概念，对流数据实时处理。也就是针对无界的、动态的数据进行持续计算，可以做到毫秒级延迟。在海量数据时代竞争激烈的今天，对企业洞察来说尤为如此，越快挖掘的数据业务价值越高。

一体化实践

批流一体

在大数据处理领域，存在两个典型的架构 (Lamda、Kappa、Kappa+)。Lamda 架构就是批计算、实时计算走两套计算架构，导致有时候有的相同逻辑开发两套代码，容易出现数据指标不一致，也带来了维护困难。Kappa、Kappa+ 架构是旨在简化分布式计算架构，以实时事件处理架构为核心兼顾批流两种场景。在大多数企业实际生产架构中还是两者混合较多，因为彻底的实时架构存在很多难点，比如数据存储、某些批计算更易处理的大窗口聚合计算等。

统一编程

统一数据处理编程范式是一个重要的编程选择，有两个原因：

1.在实际业务场景中，批、流处理依然是同时存在的。考虑到随着分布式数据处理计算发展，分布式处理框架也会推陈出新；

2.在各个公司，多个计算框架并用的情况还是普遍存在。

这样就可以提高编程灵活性，做到支持批、流场景数据处理作业开发，做到一套处理程序可以执行在任意的计算框架上，这样也利于后续平台切换更优秀的计算引擎。

可扩展为前提

这里主要是指架构的扩展性，一个具有扩展性的架构可以在稳定服务业务的同时合理控制资源成本，才能可持续支撑业务的快速发展。

算存分离

在如今海量数据的大数据时代，在不同场景下有时仅需要高处理能力，有时仅需要海量数据存储。传统存算一体架构，如果要满足两种场景，就需要高配置（多核、多内存、高性能本地盘等）服务节点，显然存在资源利用不合理，也会引发集群稳定性问题，比如节点过多导致数据分散，引发数据一致性降低等。算存分离的架构才符合分布式架构的思想，针对业务场景进行计算资源、存储资源的分别控制，实现资源合理分配。也利于集群数据一致性、可靠性、扩展性、稳定性等方面的能力保证。

动态伸缩

动态伸缩主要为了提高资源利用率，降低企业成本。实际业务中，有时候平台需要应对在业务平稳期短时间段内的流量 (实时消息量) 波峰波谷需要短期扩容，比如在各个重要节日大量企业同时需要做很多营销活动，导致消息量陡升；有时候随着爱番番服务的企业量不断增长，也会导致消息量线性增加，进而需要长期扩容。针对前者，一方面不好预见，另一方面也存在很高的运维成本。所以一个可以基于时间、负载等组合规则动态扩缩容的集群资源管理能力也是架构建设的重要考虑。

三、技术选型

没有万能的框架，只有合适的取舍。需要结合自身业务特点和架构目标进行合理选型。结合 RT-CDP 建设目标，我们做了如下几个核心场景的组件调研、确定。

3.1 身份关系存储新尝试

在 CDP 中跨渠道身份打通 (ID Mapping) 是数据流渠道业务的核心，需要做到数据一致、实时、高性能。

传统的 idmapping 是怎么做？

1.使用关系型数据库存储身份关系一般是将身份关系存成多表、多行进行管理。该方案存在两个问题：

数据高并发实时写入能力有限；
一般身份识别都需要多跳数据关系查询，关系型数据库要查出来期望数据就需要多次 Join，查询性能很低。

2.使用 Spark GraphX 进行定时计算一般是将用户行为存入 Graph 或者 Hive，使用 Spark 定时将用户行为中身份信息一次性加载到内存，然后使用 GraphX 根据交叉关系进行用户连通性计算。该方案也存在两个问题：

不实时。之前更多场景是离线聚合、定时对用户做动作；
随着数据量增加计算耗时会越来越高，数据结果延迟也会越来越高。

我们怎么做？

随着近几年图技术的发展，基于图解决业务问题的案例越来越多，开源图框架的产品能力、生态集成越来越完善，社区活跃度也越来越高。所以我们尝鲜基于图进行身份关系建模，借助图自然的多度查询能力进行实时身份判断、融合。

图框架对比

大家也可以结合最新的图数据库的排名走势，进行重点调研。另外，关于主流图库对比案例也越来越多，可以自行参考。在分布式、开源图数据库中主要是 HugeGraph、DGraph 和 Nebula。我们在生产环境主要使用了 DGraph 和 Nebula。因为爱番番服务都是基于云原生建设，平台建设前期选择了 DGraph，但后来发现水平扩展受限，不得不从 DGraph 迁移到 Nebula。

网上对 DGraph 和 Nebula 对比很少，这里简单说一下区别：

集群架构：DGraph 是算存一体的，其存储是 BadgerDB，go 实现的对外透明；Nebula 读写分离，但默认是 RocksDB存储 (除非基于源码更换存储引擎，也有公司在这么搞)，存在读写放大问题；
数据切分：DGraph 是基于谓词切分(可以理解为点类型)，容易出现数据热点，想支持多租户场景，就需要动态创建租户粒度谓词来让数据分布尽量均匀 (DGraph企业版也支持了多租户特性，但收费且依然没考虑热点问题)；Nebula 基于边切分，基于 vid 进行partition，不存在热点问题，但图空间创建时需要预算好分区个数，不然不好修改分区数。
全文检索：DGraph 支持；Nebula 提供 listener 可以对接 ES。
Query 语法：DGraph 是自己的一个查询语法；Nebula 有自身查询语法之外，还支持了 Cypher 语法 (Neo4j的图形查询语言)，更符合图逻辑表达。
事务支持：DGraph 基于 MVCC 支持事务；Nebula 不支持，其边的写事务也是最新版才支持的 (2.6.1)。
同步写：DGraph、Nebula 均支持异步、同步写。
集群稳定性：DGraph 集群更稳定；Nebula 的稳定性还有待提升，存在特定运算下偶发 Crash 的情况。
生态集群：DGraph 在生态集成更成熟，比如与云原生的集成；Nebula 在生态集成范围上更多样一些，比如nebula-flink-connector、nebula-spark-connector 等，但在各类集成的成熟度上还有待提升。

3.2 流式计算引擎选择

对于主流计算框架的对比，比如 Apache Flink、Spark Streaming、Storm，网上有很多资料，大家也请自行调研就好。

选择 Apache Flink 做为流批计算引擎

Apache Flink 是近几年发展很快的一个用于分布式流、批处理数据处理的开源平台。它是最贴合 DataFlow 模型实现的分布式计算框架。基于流计算进行高性能计算，具有良好的容错、状态管理机制和高可用能力；其他组件于 Flink 的集成也越来越多、也日趋成熟；所以选择我们 Apache Flink 做为我们的流批计算引擎。

选择 Apache Beam 做为编程框架

分布式数据处理技术不断发展，优秀的分布式数据处理框架也会层出不穷。Apache Beam 是 Google 在 2016 年贡献给 Apache 基金会的孵化项目，它的目标是统一批处理和流处理的编程范式，做到企业开发的数据处理程序可以执行在任意的分布式计算引擎上。Beam 在统一编程范式的同时也提供了强大的扩展能力，对新版本计算框架的支持也很及时。所以我们选择 Apache Beam 做为我们的编程框架。

3.3 海量存储引擎取舍

在 Hadoop 生态系统存储组件中，一般用 HDFS 支持高吞吐的批处理场景、用 HBase 支持低延迟，有随机读写需求的场景，但很难只使用一种组件来做到这两方面能力。另外，如何做到流式计算下的数据实时更新，也影响存储组件的选择。Apache Kudu 是 Cloudera 开源的列式存储引擎，是一种典型的 HTAP (在线事务处理/在线分析处理混合模式)。在探索 HTAP 的方向上，TiDB、OceanBase 均在此行列，只是大家起初侧重的场景不同而已，大家也可以对比一下。ApacheKudu 的愿景是 fast analytics on fast and changing data。从 Apache Kudu 的定位，如下图可见一斑：

结合我们的平台建设理念，实时、高吞吐的数据存储、更新是核心目标，在数据复杂查询、数据应用的 QPS 上不高 (因为核心的业务场景是基于实时流的实时客户处理)，再加上 Cloudera Impala 无缝集成 Kudu，我们最终确定 Impala + Kudu 做为平台的数据存储、查询引擎。

分析增强：Doris

基于 Impala + Kudu 的选型，在支持 OP 部署时是完全没有问题的，因为各个企业的数据体量、数据查询 QPS 都有限。这样企业只需要很简单的架构就可以支持其数据管理需求，提高了平台稳定性、可靠性，同时也可以降低企业运维、资源成本。但由于 Impala 并发能力有限 (当然在 Impala4.0 开始引入多线程，并发处理能力提升不少)，爱番番的私域服务目前还是以 Saas 服务为重，想在 Saas 场景下做到高并发下的毫秒级数据分析，这种架构性能很难达标，所以我们在分析场景引入了分析引擎 Doris。之所以选择 Doris，基于 MPP 架构的 OLAP 引擎。相对于 Druid、ClickHouse 等开源分析引擎，Doris 具有如下特点：

支持多种数据模型，包括聚合模型、Uniq 模型、Duplicate 模型；
支持 Rollup、物化视图；
在单表、多表上的查询性能都表现很好；
支持 MySQL 协议，接入、学习成本低；
无需集成 Hadoop 生态，集群运维成本也低很多。

3.4 规则引擎调研

实时规则引擎主要用于客户分群，结合美团的规则对比，几个引擎 (当然还有一些其他的URule、Easy Rules 等) 特点如下：

RT-CDP 中客户分群规则分类、组合多，规则计算复杂、算子多，时间窗口跨度大、甚至无窗口，业内没有一个能很好满足业务需求的开源规则引擎，所以我们选择了自研。

四、平台架构

4.1 整体架构

在爱番番私域产品中，主要分为两部分：RT-CDP 和 MA，两者叠加近似等同于 Deliver CDP 所包含的功能范围。本文所讲的 RT-CDP 所包含的功能范围等同于 Analytics CDPs，简单来讲，主要就是客户数据管理、数据分析洞察。

RT-CDP 也是就两部分功能进行拆分，主要包含五部分：数据源、数据采集、实时数仓，数据应用和公共组件，除公共组件部分是横向支撑外，其他四部分就是标准的数据对接到数据应用的四个阶段：

数据源：这里的数据源不仅包含客户私有数据，也包括在各个生态上的自有媒体数据，比如微信公众号、微信小程序、企微线索、百度小程序、抖音企业号、第三方生态行为数据等。
数据采集：大多中小企业没有研发能力或者很薄弱，如何帮助快速将自有系统对接到爱番番 RT-CDP是这层需要重点考虑的，为此我们封装了通用的采集 SDK 来简化企业的数据采集成本，并且兼容 uni-app等优秀前端开发框架。另外，由于数据源多种多样、数据结构不一，为了简化不断接入的新数据源，我们建设了统一的采集服务，负责管理不断新增的数据通道，以及数据加解密、清洗、数据转换等数据加工，这个服务主要是为了提供灵活的数据接入能力，来降低数据对接成本。
实时算存：在采集到数据后就是进行跨渠道数据身份识别，然后转换成结构化的客户统一画像。就数据管理来说，这层也包含企业接入到 CDP中的碎片客户数据，为了后续企业客户分析。经过这层处理，会形成跨渠道的客户身份关系图、统一画像，然后再通过统一视图为上层数据接口。另外，就是数仓常规的数据质量、资源管理、作业管理、数据安全等功能。
数据应用：这层主要是为企业提供客户管理、分析洞察等产品功能，比如丰富的潜客画像、规则自由组合的客户分群和灵活的客户分析等。也提供了多种数据输出方式，方便各个其他系统使用。
公共组件：RT-CDP服务依托爱番番先进的基础设施，基于云原生理念管理服务，也借助爱番番强大的日志平台、链路追踪进行服务运维、监控。另外，也基于完备的 CICD能力进行 CDP 能力的快速迭代，从开发到部署都是在敏捷机制下，持续集成、持续交付。

4.2 核心模块

简单来说，RT-CDP 实现的功能就是多渠道数据的实时、定时采集，然后经过数据中身份的识别 Identity 服务，再进行数据处理、数据进行数据映射、加工 (比如维度 Join、数据聚合、数据分层等)，然后进行结构化持久化，最后对外实时输出。

RT-CDP 主要划分为六大模块：采集服务、Connectors、Identity Service、实时计算、统一画像和实时规则引擎。上图就是从数据交互形式和数据流向的角度描绘了 RT-CDP 核心模块之间的交互。从左到右是数据的主流向，代表了数据进入平台到数据输出到和平台交互的外部系统；中间上侧是实时计算和 Identity Service、实时规则引擎和统一画像的双向数据交互。

下面结合数据处理阶段进行各个核心模块的功能说明：

数据源&采集

从数据源和 RT-CDP 数据交互方式上，主要分为实时流入和批次拉取。针对两种场景，我们抽象了两个模块：实时采集服务和Connectors。
实时采集服务：该模块主要是对接企业已有的自有媒体数据源，爱番番业务系统领域事件以及爱番番合作的第三方平台。这层主要存在不同媒体平台 API协议、场景化行为串联时的业务参数填充、用户事件不断增加等问题，我们在该模块抽象了数据 Processor & 自定义 Processor Plugin 等来减少新场景的人工干预。
Connectors ：该模块主要是对接企业的自有业务系统的数据源，比如 MySQL、Oracle、PG
等业务库，这部分不需要实时接入，只需按批次定时调度即可。这里需要解决的主要是多不同数据源类型的支持，为此我们也抽象了 Connector和扩展能力，以及通用的调度能力来支持。针对两种场景下，存在同一个问题：如何应对多样数据结构的数据快读快速接入？为此，我们抽象了数据定义模型(Schema)，后面会详细介绍。

数据处理

Identity Service：该模块提供跨渠道的客户识别能力，是一种精准化的 ID Mapping，用于实时打通进入 RT-CDP的客户数据。该服务持久化了客户身份相关关系图放在 Nebula 中，会根据实时数据、身份融合策略进行实时、同步更新Nebula，然后将识别结果填充到实时消息。进入CDP数据只有经过 Identity Service识别后才继续往后走，它决定了营销旅程的客户交互是否符合预期，也决定了 RT-CDP 的吞吐上限。
实时计算：该模块包含了所有数据处理、加工、分发等批流作业。目前抽象了基于 Apache Beam 的作业开发框架，尝试批流都在 Flink上做，但有些运维 Job 还用了 Spark，会逐渐去除。
统一画像：该模块主要是持久化海量的潜客画像，对于热数据存储在 Kudu 中，对于温、冷的时序数据定时转存到 Parquet中。潜客画像包括客户属性、行为、标签、所属客群、以及聚合的客户扩展数据等。虽然标签、客群是单独存在的聚合根，但是在存储层面是一致的存储机制。另外，标准
RT-CDP 还应该管理客户碎片数据，所以统一画像和数据湖数据如何交互是后续建设的重点。
统一查询服务：在 RT-CDP中，客户数据分散在图数据库、Kudu、增强的分析引擎和数据湖，但对用户来说只有属性、行为、标签、客群等业务对象，如何支持产品上透明使用？我们通过统一视图、跨源查询建设了此统一查询服务，该服务支持了Impala、Doris、MySQL、Presto、ES 等查询存储引擎以及API的跨源访问。
实时规则引擎：该模块主要是基于 Flink 提供实时规则判断，来支持圈群、基于规则的静态打标、规则标签等业务场景。

数据输出

数据输出已经支持多种方式，包括 OpenAPI、Webhook、消息订阅等。一方面，也方便企业获取 CDP融合后的潜客的实时行为，然后与自有的下游业务系统进行用户全链管理。另一方面为上层的 MA提供实时行为流驱动营销环路。这里特殊说明说明一下， MA的旅程节点中也需要很多实时规则判断，判断口径多样，有些在节点上做内存实现困难，所以 RT-CDP 也实现了可以为 MA提供实时判断结果的数据输出。

4.3 关键实现

4.3.1 数据定义模型

为什么需要 Schema？

前面提到企业的多个渠道的数据特征结构各异。再加上不同租户业务特点不同，企业需要数据自定义的扩展性。RT-CDP 为了两类问题需要具备数据结构灵活定义的能力来对接企业数据。

另外，RT-CDP 本身管理两类数据：碎片化客户数据和用户统一画像。对于前者来说，不需要关系数据内容本身，利用数据湖等技术即可为企业提供数据存储、查询、分析能力，是偏 Schemaless 的数据管理；对于后者来说，更多需要按不同维度组合查询、圈群、分析，本身需要结构化的数据管理。后者能否通过 Schemaless 的方式提供服务呢？罗列增删改查的场景，反证一下局限明显。

Schema 是什么？

Schema 是一个数据结构的描述，Schema 可以相互引用，可以对数据中字段以及字段类型、值进行约束，也可以自定义字段。企业可以用一个统一的规范快速接入、灵活管理自己的数据，比如企业可以根据自己的行业特性，抽象不同的业务实体、属性，再给不同的业务实体定义不同的 Schema。企业可以对业务实体有交集的信息抽离新 Schema，然后多个 Schema 引用这个新 Schema；也可以对每个 Schema自定义自己的业务字段。企业只需要按相应的 Schema 结构接入数据，就可以按特定的标准使用这些数据。

从这几个实体来说明 Schema 的特点，如下图：

Field：字段是最基本的数据单元，是组成 Schema 的最小粒度元素。
Schema：是一组字段、Schema的集合，它本身可以包含多个字段(Field)，字段可以自定义，比如字段名、类型、值列表等；也可以引用一个或多个其他 Schema，引用时也可以以数组的形式承载，比如一个Schema 里面可以包含多个 Identity 结构的数据。
Behavior：是潜客或企业的不同行为，本身也是通过 Schema 承载，不同的 Behavior 也可以自定义其特有的 Field。

在上图所示，爱番番 RT-CDP 在进行行业抽象后，已经内置了很多行业通用的 Schema，包括常见的 Identity、Profile、Behavior 等多类 Schema。在爱番番 RT-CDP 管理的统一潜客画像中，Identity、Profile、Tag、Segment 等都业务聚合根。为了支持好 B、C 两种数据模型还有一些 B 粒度聚合根存在。

Schema 如何简化数据接入？

这里需要先说一个 Dataset 的概念。Dataset 是通过 Schema 定义结构的一个数据集，企业对不同的数据源定义成不同的数据集。在数据源管理时，企业可以根据不同的数据集结构化导入的数据，一个数据集可以对应多个数据源，也可以对应一个数据源中的一类数据，一般后者使用较多。另外，一个数据集也可以包含多批次的数据，也就是企业可以周期性的按批次导入同一数据集数据。在数据接入时，如下图，针对不同的 Dataset，企业可以绑定不同的 Schema，每个 Schema 可以引用、复用其他子 Schema，然后经过 RT-CDP 的 Schema解析，自动将数据持久化到存储引擎，根据数据的定义不同，会持久化到不同数据表中。对应实时的客户行为也是通过定义不同的 Schema 来定义数据结构，然后进行持续的数据接入。

扩展：借助字段映射解决多租户无限扩列问题

存在的问题是什么？

爱番番 RT-CDP 是一个支持多租户的平台，但在多租户下，每个企业都有自己的业务数据，一般中小企业可能有几百上千个潜客的数据字段，对于 KA 字段量更多。CDP 做为 Saas 服务，如何在一个模型中支持如此多的字段存储、分析。一般可以无限扩列的引擎可以直接按租户 + 字段的方式打平。为了进行结构化实时存储，爱番番 CDP 选择了 Kudu，Kudu 官方建议单表不超过 300 列，最多也就支持上千列，那刚才的方式无法解决。

我们的解决方案是什么？

我们在租户隔离的前提下，采用字段复用的方式解决该问题。在介绍 Schema 模型时图里也有体现，在实际的 Profile、Event 表里都是 attr 字段。关键点就是：

事实表只做无业务含义的字段；
在数据接入、查询时通过业务字段 (逻辑字段) 和事实字段的映射关系进行数据转换后与前端、租户交互。

4.3.2 Identity Service

这个服务也可以称之为 ID Mapping。但相对于传统的 ID Mapping 来说，因为业务场景的不同，功能侧重也有所不同。传统意义的 ID Mapping 更多是广告场景的匿名数据的，基于复杂模型的离线和预测识别；CDP 中的 ID Mapping 是基于更精准的数据身份标识，进行更精准打通，更加要求打通率和实时性。
为此，我们设计了支持 B2B2C、B2C 两种业务的身份关系模型。在标准化租户数据接入后，基于不断接入的数据新增持续的身份关系图谱裂变。在功能层面，我们支持自定义身份类型以及身份权重，也支持针对不同身份租户自定义身份融合动作。另外，根据我们对行业分析，内置了常见的身份及融合策略，方便租户直接使用。

从架构层面，Identity Service (ID Mapping) 基于云原生 + Nebula Graph 搭建，做到了租户数据隔离、实时读写、高性能读写以及水平扩缩容。

云原生 + Nebula Graph

将 Nebula Graph 部署到 K8s 下，降低运维成本。我们主要是：

使用 Nebula Operator 自动化运维我们 k8s 下的 Nebula 集群；
使用 Statefulset 管理 Nebula 相关有状态的节点 Pod；
每个节点都是使用本地 SSD 盘来保证图存储服务性能。

优化读写

Identity Service 整体来说是一个读多写少的常见，但在新租户、拉新场景场景也都需要很高的写能力，读写性能需要兼顾。需要在做好并发锁的前提下优化读写：

设计好数据模型，尽量减少 Nebula 内部 IO 次数；
合理利用 Nebula 语法，避免 Graphd 多余内存操作；
查询上，尽量减少深度查询；更新上，控制好写粒度、降低无事务对业务的影响。

扩展：如何解决未登录时潜客打通问题

针对一个人多设备场景，单设备被多人使用的场景，我们采用离线矫正的方式进行打通。

4.3.3 实时存算

4.3.3.1 流计算

爱番番 RT-CDP 核心能力都是依托 Apache Flink + Kafka 实现。在实时流之上进行的流计算，做到毫秒的数据延迟。
核心数据流如上图，简化后主要包含如下几部分：

主要采集和格式化的数据，会统一发到 cdp-ingest 的 topic。
RT-CDP 有个统一的入口 Job (Entrance Job) 负责数据的清洗、校验、Schema解析以及身份识别等，然后根据租户属性进行数据分发。因为这是 RT-CDP 入口 Job，需要支持横向扩缩，所以这个作业是无状态 Job。
经过数据分发，会有不同的 Job群进行分别的数据处理、持久化，以及数据聚合等数据加工逻辑，一方面丰富潜客画像，另一方面为更多维度的潜客圈群提供数据基础。
最后会将打通的数据分发到下游，下游包括外部系统、数据分析、实时规则引擎、策略模型等多类业务模块，以便进行更多的实时驱动。

扩展 1：数据路由

为什么要做路由？

爱番番 RT-CDP 做为基础数据平台，不仅服务于百度之外的租户，也服务于百度内部甚至爱番番自己；不仅服务于中小企业，也服务于中大企业。对于前者，服务稳定性要求级别不同，如何避免内外部之间服务能力不相互影响？对于后者，不同规模企业潜客量不同，使用 RT-CDP 圈人群等耗时的资源也不同，如何避免资源不公平分配？

我们怎么做的？

针对上述问题，我们通过数据路由的机制解决。我们维护了一张租户和数据流 Topic 的映射关系，可以根据租户特性进行分流，也可以根据租户需求动态调整。然后在 Entrance Job 根据租户的映射关系进行数据分流，分发到不同资源配比的 Job 群进行分别的数据处理。做到了内外部分离，也可以根据租户个性化需求进行资源控制。

扩展 2：自定义 Trigger 批量写

在随机读写上，Kudu 的表现相对于 HBase 等还是相对差一些。为了做到数十万 TPS 的写能力，我们对 Kudu 写也做了一定逻辑优化。主要是自定义了 Trigger (数量 + 时间窗口两种触发)，在做到毫秒级延迟的前提将单条写改为一次策略的批量。

具体方案：在在批量数据满足 > N 条、或者时间窗口 > M 毫秒时，再触发写操作。

一般租户的一次营销活动，会集中产生一大批潜客行为，这其中包括系统事件、用户实时行为等，这种批量写的方式，可以有效提高吞吐。

4.3.3.2 实时存储

在 RT-CDP 主要包括三部分的数据：碎片化的租户数据、统一的潜客画像和离线分析数据。我们主要分类两个集群进行数据存储，一个集群存储潜客统一画像和具有时序属性的热数据，另一个集群存储冷数据和用于离线计算的数据。每个集群都集成了数据湖的能力。然后我们研发了统一的 Query Engine，支持跨源、跨集群的数据查询，对底层存储引擎透明。

扩展 1：基于数据分层增强存储

为什么需要分层？

完全基于 Kudu 存储数据的话，一方面成本较高 (Kudu 集群都要基于 SSD 盘搭建才能有比较好的性能表现)；另一方面在营销场景下更关注短时间段 (比如近一个月、三个月、半年等) 客户的实时行为变化，对于时间较久的历史数据使用频次很低。

分层机制

综合考量，也从节约资源成本角度，我们选择 Parquet 做为扩展存储，针对存储符合时间序列的海量数据做冷热分层存储。

根据数据使用频率，我们将数据分为热、温、冷三层。热数据，表示租户经常使用的数据，时间范围为三个月内；温数据，表示使用频率较低的数据，一般只用于个别客群的圈选，时间范围为三个月外到一年；冷数据，租户基本不使用的数据，时间范围为一年之外。为了平衡性能，我们将热、温数据存放在同一个集群，将冷数据放在另外集群 (和提供给策略模型的集群放在一个集群)。

具体方案：

在热、温、冷之上建立统一视图，上层根据视图进行数据查询。
然后每天定时进行热到温、温到冷的顺序性的分别离线迁移，在分别迁移后会分别进行视图的实时更新。

扩展 2：基于潜客融合路径的映射关系管理解决数据迁移问题

为什么需要管理映射？

潜客画像行为数据很多，也可能存在频繁融合的情况，如果在潜客融合时，每次都迁移数据，一方面数据迁移成本很高，另一方面，当潜客行为涉及温冷数据时，是无法进行删除操作的。业内针对类似情况，更多会有所取舍，比如只迁移用户仅一段时间的热数据，再往前的历史不做处理。这种解决方案并不理想。

映射管理机制

为此，我们换了种思路，通过维护潜客融合路径的方式方式解决该问题。

具体方案：

新增一张潜客融合关系表 (user_change_rela) 维护映射关系；
在融合关系表和时序表 (比如 event) 之上创建视图，做到对业务层透明。

针对融合关系表，我们做了一定的策略优化：不维护路径上的过程关系，而是只维护路径所有过程点到终点的直接关系。这样即便在潜客融合路径涉及过多潜客时，也不会过多增加关系查询的性能。

举个例子潜客发生两次融合 (affId=1001 先融合到 1002 上，再融合到 1003 上) 时的 user_change_rela 的数据变化情况，如下图：

4.3.3.3 分析增强

我们选择百度开源的 Apache Doris 做为数据增强的分析引擎，为爱番番拓客版提供客户洞察能力，比如旅程分析、人群、营销效果分析、裂变分析、直播分析等。

为了方便后续 OP 部署时可灵活去除，我们将 CDP 输出的数据做为增强分析的数据源，然后基于 Flink Job 做逻辑处理，比如清洗、维度 Join、数据打平等，最后采用 Apache Doris 贡献的 flink-doris-connector 将数据写入 Doris。

使用 connector 方式直接写 Doris 有两个好处：

使用 flink-doris-connector 往 Doris 写数据，比使用 Routine Load 方式少一次 Kafka。
使用 flink-doris-connector 比 Routine Load 方式在数据处理上，也能更加灵活。

Flink-doris-connector 是基于 Doris 的 Stream Load 方式实现，通过 FE redirect 到 BE 进行数据导入处理。我们实际使用 flink-doris-connector 时，是按 10s 进行一次 Flush、每批次最大可提交百万行数据的配置进行写操作。对于 Doris 来说，单批次数据多些不 flush 更频繁要友好。

扩展 1：RoutineLoad 和 Stream Load 区别

Routine Load 方式

它是提交一个常驻 Doris 的导入任务，通过不断的订阅并消费 Kafka 中的 JSON 格式消息，将数据写入到 Doris 中。

从实现角度来说，是 FE 负责管理导入 Task，Task 在 BE 上通过 Stream Load 方式进行数据导入。

Stream Load 方式

它利用流数据计算框架 Flink 消费 Kafka 的业务数据，使用 Stream Load 方式，以 HTTP 协议向 Doris 写入。

从实现角度来说，这种方式是框架直接通过BE将数据同步写入 Doris，写入成功后由 Coordinator BE 直接返回导入状态。另外，在导入时，同一批次数据最好使用相同的 label，这样同一批次数据的重复请求只会被接受一次，可以保证了 At-Most-Once。

4.3.4 实时规则引擎

在爱番番私域产品中，灵活的圈群能力是一个重要产品能力，如何基于潜客属性、身份、客户行为等维度进行复杂、灵活规则的实时分群？此处的实时规则引擎就是为此而生。就此功能本身来说，并不新颖，在 DMP 中就有类似能力。很多 CDP 和客户管理平台都也有类似能力，但如何在多租户、海量数据情况下，做到实时、高吞吐的规则判断是一个挑战。

在爱番番 RT-CDP 中，一方面租户数量大，Saas 服务前提如何支持多租户的高性能分群？另一方面，爱番番 RT-CDP 期望做到真正基于实时流的实时判断。因此，我们自研了基于多层数据的实时规则引擎。这里简单讲一下，后续会有单独文章介绍。

面临的问题是什么？

传统的实现方案主要是当租户实时或定时触发分群请求时，将规则翻译成一个复杂 SQL，临时从租户的潜客数据池中进行 SQL 查询。另外，一般都会在潜客上做一层倒排索引，在租户少或者 OP 部署时，数据查询速度也尚可接受。但在基于实时流实现规则引擎需要解决如下几个问题：

海量数据实时判断
窗口粒度数据聚合的内存占用问题
滑动窗口下的窗口风暴
无窗口规则的数据聚合问题
潜客数据变更后的窗口数据更新

实时规则引擎实现

和很多产品类似，爱番番的规则圈群也主要是两层 And/Or 的规则组合。结合规则的特点，我们主要分为如下图的几类规则：普通的属性运算 (P1、P2)、普通身份运算 (I1)、小窗口的行为判断 (E1)、大窗口的行为判断 (E2) 和无窗口的行为判断 (E3)。
为了规则灵活度和高效的数据处理能力，我们定义了一套规则解析算法。然后借助 Flink 强大的分布式计算能力和状态管理能力驱动实时规则引擎计算。上面已经说了流数据理念，这里结合一条潜客行为进来到实时规则判断来更直观说明数据在流中的实时填充，如下图：数据进来之后，先经过 Identity Service 补充身份 Ids，在经过数据 Job 补充潜客对应的属性信息，最后基于一个完整的潜客数据进行实时规则判断，最后将负责规则的潜客落入 Segment表。

另外，规则引擎是一个独立于 Segment 等业务对象的服务，可以支持圈群、打标签、MA 旅程节点等各个规则相关的业务场景。

4.3.5 扩展

4.3.5.1 弹性集群

爱番番借助云上能力，很好实现了资源的存算分离和动态伸缩。可以自定义灵活的资源扩缩策略，根据消息量情况进行资源增减，做到波峰时实时加大集群规模提供计算能力，波谷时缩减集群做到及时降本。
我们的集群主要分为四类节点：Master、Core、Task、Client。具体如上图。

Master 节点：集群管理节点，部署 NameNode、ResourceManager 等进程，并且做到组件故障时的自动迁移；
Core 节点：计算及数据存储节点，部署 DataNode、NodeManager 等进程；
Task 节点：计算节点，用来补充 core 节点的算力，部署 NodeManger等进程，该节点一般不用来存储数据，支持按需动态扩容和缩容操作；
Client 节点：独立的集群管控节点及作业提交节点。

4.3.5.2 全链监控

RT-CDP 在建设了完整的链路监控能力，能够实时发现集群、数据流问题，方便及时干预、处理，为租户提供更好的数据服务能力提供保证。也建设了全链的日志收集、分析能力，极大简化了服务问题排查成本。

具体如上图，我们依托爱番番强大的技术服务能力完成了跨平台的日志采集 & 报警和全链路的延时监控：

日志采集：基于爱番番贡献给 Skywalking 的 Satellite 收集全链路服务日志，支持了 K8s 下微服务的日志收集，也支持了Flink Job 的日志采集，做到一个日志平台，汇集全链服务日志。然后通过 Grafana 进行日志查询、分析；
服务指标采集：我们通过 PushGateway 将各个微服务，Apache Flink、Impala、Kudu等算存集群指标统一采集到爱番番 Prometheus，做到服务实时监控&报警。
全链路延时监控：我们也通过 Skywalking Satellite 采集 RT-CDP全链路的数据埋点，然后通过自研的打点分析平台进行延时分析，做到全链路数据延时可视化和阈值报警。

五、平台成果

5.1 资产数据化

基于 RT-CDP 解决企业数据孤岛问题，帮助企业将数据资产数字化、多方化、智能化、安全化。

多方化：集成一方数据，打通二方数据，利用三方数据，通过多方数据打通，实现更精准、深度的客户洞察。
数字化：通过自定义属性、标签、模型属性等将客户信息全面数字化管理。
安全化：通过数据加密、隐私计算、多方计算实现数据安全和隐私保护，保护企业数据资产。
智能化：通过智能模型不断丰富客户画像，服务更多营销场景。

5.2 高效支撑业务

灵活的数据定义能力

RT-CDP 在业务层面具备了灵活的数据定义能力，来满足企业的个性化需求：

丰富的自定义 API，用于可以自定义 Schema、属性、事件等不同场景的数据上报结构；
支持了身份类型自定义，方便企业根据自身数据特定指定潜客标识；
针对不同企业的不同结构的数据可以做到零开发成本接入。

服务于不同行业企业的多样营销

依托 RT-CDP 强大数据管理能力，爱番番营销产品已服务于法律、商务服务、教育培训、电子电工、机械设备、金融、健康美容、生活服务、房产家居、建筑建材、印刷包装、农林牧渔、物流运输、餐饮食品等数十个行业的数千家企业，帮助企业解决了很多营销难题。成功的企业案例不胜枚举。

5.3 架构先进

目前我们完成 RT-CDP1.0 的建设，并且在一些核心指标上都取得了不错的效果：

5.3.1 实时高吞吐

Identity Service 做到数十万 QPS 的关系查询，支持上万 TPS 的身份裂变。
实时计算做到了数十万 TPS 的实时处理、实时持久化，做到毫秒级延迟。
支持企业海量数据、高并发下毫秒级实时分析。
真正基于实时流数据实现规则判断，支撑了私域打标、实时规则判断、圈群等多个实时业务场景，让营销毫秒触达。

5.3.2 高扩展性

平台架构存算分离，可水平扩展：

基于云原生 + Nebula 搭建了，可动态伸缩的图存储集群；
借助云上能力，搭建了存算分离的弹性伸缩的存算集群；
计算集群动态伸缩，节约企业资源成本。

5.3.3 高稳定性

各个模块、各个集群稳定性指标长期维持在 99.99% 以上。

六、未来展望

业务层面：更多贴近行业的中台能力

平台目前在业务支撑上已经具备了比较好的定义能力。下一步将结合重点服务的企业行业，内置更多行业业务对象，进一步简化企业数据接入成本。
在 B2B2C 数据模型上做更多业务尝试，更好服务 ToB 企业。

业务层面：更丰富的 AI 模型

RT-CDP 已经为企业提供了智能化的潜客评分能力，支持企业灵活定义评分规则。在AI时代，我们将继续丰富更多的AI模型来帮助企业管理、洞察、营销客户。

架构层面：更智能化的治理、运维

目前 Flink 作业还是基于 Yarn 管理资源、基于 API、脚本方式流程化操作 (比如涉及到 CK 的操作)
作业监控通过如流、短信、电话报警。后续我们将作业管理、运维上做更多尝试，比如基于 K8s 管理 Flink 作业、结合如流的Webhook 能力完善作业运维能力等。
在流数据驱动下，数据处理机制的变化让数据治理、数据检查变得更有挑战。为了提供更可靠的数据服务，还有很多工作要做。

架构层面：湖仓一体到智能湖仓

国内互联网公司已经有不少数据湖技术实践案例，确实可以解决一些原有数仓架构的痛点，比如数据不支持更新操作，无法做到准实时的数据查询。我们目前也在做 Flink 和 Iceberg/Hudi 集成的一些尝试，后续会逐步落地。

你可能感兴趣的:(大数据技术栈,百度,big,data,flink,大数据,架构)

JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口去发现同类优质开源项目:https://gitcode.com/在开源项目中，寻找一款能够提升开发效率、简化流程的工具是每个开发者的追求。今天，我们要介绍的这款开源项目EasyCwmp，正是为了帮助开发者深入了解源码架构，掌握核心接口实现，从而加速项目开发进程。以下是关于EasyCwmp源码分析与接口实现详解的项目推荐文章。项目
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
零信任落地难题：安全性与用户体验如何两全？粤海科技君安全零信任终端安全网络安全 iOA
在零信任架构的实施过程中，平衡安全性与用户体验是企业数字化转型的核心命题。这一挑战的本质在于：既要通过「永不信任，持续验证」的安全机制抵御新型攻击，又要避免过度验证导致的效率损耗。一、矛盾根源：安全与体验的天然张力零信任的“永不信任”原则，本质上要求对每一次访问都进行动态评估，但这与用户对“便捷、流畅”的诉求存在天然冲突。例如：频繁的身份验证（如每次登录都需短信验证码）会打断工作节奏，某制造企业统
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
android中百度定位、城市选择列表，右侧字母展示
好久好久没光顾过自己空空的博客了，做项目的时候都是逛着别人的博客急着把功能实现，近来闲下来了总结总结。这个城市选择功能也是当时做项目急着实现从哪找来的框架不记得了，然后改改用到项目中来的。非常感谢提供最初源码的博主，主要的区别是添加了搜索功能、定位功能，把以前的操作本地数据库sqlite的部分，改为操作对assest文件的操作，封装的有百度地图定位方法、可删除的edittext。百度地图的key需
JVM与Spring Boot核心解析 AIHacksCash Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Flutter——数据库Drift开发详细教程之迁移(九) 怀君 flutter flutter 数据库
迁移入门引导式迁移配置用法例子切换到make-migrations开发过程中手动迁移迁移后回调导出模式导出架构下一步是什么？调试导出架构的问题修复这个问题架构迁移助手自定义分步迁移转向逐步迁移手动生成测试迁移编写测试验证数据完整性在运行时验证数据库模式迁移器API一般提示迁移视图、触发器和索引复杂的迁移更改列的类型更改列约束删除列重命名列合并列添加新列入门Drift通过严格的架构确保查询类型安全。
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
Kubernetes自动扩缩容方案对比与实践指南浅沫云归后端技术栈小结 kubernetes autoscaling devops
Kubernetes自动扩缩容方案对比与实践指南随着微服务架构和容器化的广泛采用，Kubernetes自动扩缩容（Autoscaling）成为保障生产环境性能稳定与资源高效利用的关键技术。面对水平Pod扩缩容、垂直资源调整、集群节点扩缩容以及事件驱动扩缩容等多种需求，社区提供了HPA、VPA、ClusterAutoscaler、KEDA等多种方案。本篇文章将从业务背景、方案对比、优缺点分析、选型建
老系统改造增加初始化，自动化数据源配置（tomcat+jsp+springmvc）
老系统改造增加初始化，自动化数据源配置一、前言二、改造描述1、环境说明2、实现步骤简要思考三、开始改造1、准备sql初始化文件2、启动时自动读取jdbc文件，创建数据源，如未配置，需要一个默认的临时数据源2.1去掉spingmvc原本配置的固定dataSource，改为动态dataSource2.2代码类，这里是示例，我就不管规范了，放到一起2.2.1DynamicDataSourceConfig
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
基于Python的智能公示信息监控爬虫系统开发实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言音视频搜索引擎 scrapy
摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在