傅一平

蚂蚁数据分析平台的演进及数据分析方法的应用

正文开始

分享嘉宾：杨军 蚂蚁金服高级技术专家

编辑整理：兴金朝

内容来源：DataFun Talk《数据分析平台：平台演进及数据分析方法应用》

出品社区：DataFun

大家好，今天主要分享数据分析平台的平台演进以及我们在上面沉淀的一些数据分析方法是如何应用的。

具体分以下四部分：

Part1：主要介绍下我所在的部门，数据平台部主要是做什么的，大概涉及到哪些业务，在整个数据流程当中数据平台部负责哪些东西；

Part2：既然我们讲数据分析平台，那么数据分析是什么样的，数据分析领域是什么样的；

Part3：蚂蚁现在的数据分析平台是怎么来的，是怎么演进到最新版本，在最新版本3.0里面有一些技术详解；

Part4：既然有了数据分析平台，那么数据分析能帮我们干什么，讲了一个具体在工程上应用的case。

Part1：数据平台部介绍

第一，数据平台部的介绍，首先从整个数据流程开始讲解，数据流程的开始从数据采集与传输，这里面涉及到比如说在线的RDS，OB这些是在线业务数据库；日志，比如是在线应用，机器上打的那些文件日志；还有一些消息，在线应用写的一些消息；还有一些文件，外面的文件。经过数据采集，数据同步，进入到我们的数仓体系里面，这里面数据同步可能有很多，比如DB的日志解析同步DRC、日志文件的解析、采集SRS，然后有一些通用的同步工具DataX。

第二，在数据存储与计算里面，从下往上看上图，第一是比较多的、传统的批量计算，就像ODPS，Spark，还有最新的一些框架，比如Ray，Ray在蚂蚁变种就是Raya。第二块就是实时流计算，业界有比如storm，JStorm，蚂蚁有Kepler，Spark Streaming这些东西。第三在这之上是垂直的，有一些机器学习的场景，有PAI，有TersonFlow这样的东西在里面。第四，在这个体系里用户接触最多的是一站式数据研发平台和一站式AI研发平台，分别是面向数仓、AI两个体系去做的。

最后，在存储与计算完成以后就要面向应用场景，面向最后的消费者，这中间的应用，比如说有报表展示，数据分析（今天我们着重讲数据分析这一块），还有一些挖掘预测，就是做算法，做模型，还有一些数据决策，就是把数据作为在线决策，这就是整个数据流。

数据平台部在这里面着重的是偏后面，就是数据存储与计算以及数据应用与消费这两个东西。下面着重介绍两个环节，数据平台部有哪些业务。

这张图可是一个业务架构，就是数据平台部涉及到哪些业务，总共我们分为3层，我们把我们数据平台部在做的一个东西叫做数据操作系统，我们有两块，一个是数据操作系统内核，一个是用户接触到的软件。还有是外面有哪些场景。

数据操作系统的内核：

1、基础框架：基础框架里面有什么东西，为什么有他，比如说多环境适配，因为我们整套数据平台的解决方案是对外输出的，有公有云环境，有专有云环境，这些环境底下的基础设施都不一样，比如说包括租户和账户体系，权限体系，流程体系，审批流这类东西，所以正是通过基础框架搭我们底层的环境。最主要目的其实是提供一些我们上层数据应用的通用能力以及把底层的数据环境的差异给屏蔽掉。

2、核心能力：

① 数据安全：数据安全就会涉及到数据资产的分类、分级。不同类别的资产，他的安全等级是不一样的，他在安全里面需要有权限的话，他的审批策略是不一样的，这是数据安全这一块，可能还涉及一些比如脱敏，我们消费端接触到这些数据怎么脱敏；

② 隐私保护：隐私保护更偏重，比如说隐私保护还有一个叫法是数据安全、数据合规，我们想要做什么事情，就是我们要去透明化的看到各个公司数据流通，比如有哪些数据，这些数据的安全等级是什么样的，涉及到用户哪些数据；

③ 数据质量：主要是在我们数据研发过程当中，数据周期从发布到线上调度，调度完了怎么去做数据质量的监测，检测完了以后，比如说我们做离线调度的时候最重要的一个就是数据产出时效，所以有一个基线。这都是怎么去保障我们任务的基线；

④ 元数据中心：元数据中心大家都知道，因为我们下面有各种各样不同的引擎，有Spark，有ODPS，有MySQL这些东西，怎么去把它当中的数据统一的元数据中心；

⑤ 数据治理：数据治理的逻辑就是配合数据质量把我们现有的数据给盘清楚。

3、数据引擎

① 任务执行与调度引擎：我们在做ETL的时候大多数都是这种任务执行与调度；

② 数据科学引擎：数据科学引擎主要是做分析，做业务洞察这一类，今天的数据业务平台可能更多的就是依赖于数据科学引擎，后面会详细介绍；

③ 决策服务引擎：决策引擎比如说给大家举一个场景，芝麻分大家都知道，那首先假如我有一个业务在线上，在线上做策略的时候，或者给大家看不同的页面的时候，不同的芝麻分的等级看到的页面或者等级是不一样的，这种东西是需要数据决策的，或者直白的来说，是需要这个人的芝麻分，这个通过统计数据服务会去配一个决策规则，相当于这里的决策引擎里面支持一种决策的DSL配置，简单来讲就是if……else……,if…else……,能够配置这样一套规则后，给在线业务场景提供服务，这是决策服务引擎。整个数据内核就这么多东西。

数据操作系统的桌面：

在这之上我们建了面向用户的数据工作台主要包括：

① 外部数据采集平台：因为我们有很多数，比如口碑，口碑的交易量的涨跌有一个很关键的因素，天气，所以我需要外部天气数据，所以这是外部数据采集平台；

② 资产管理平台：和这里面元数据中心是对等的，我们需要把我们体系内所有的数据规范化管理起来，在我们的研发流程里面他就必须到这个数据资产管理平台里面去把他这一次要建的表规范化下来；

③ 数据研发平台：数据研发平台就要支持多引擎、批流合一，我们写一个统一的SQL，它可以切换到批ODPS调动，也可以切换到实时，切换到比如我们体系内的Kepler，切换到Spark Streaming上去做调度，这是数据研发平台要做的事情。他就可能依赖于任务执行调度引擎；

④ 数据分析平台：它主要做一些多维分析和自助的多维分析，还做一些智能的业务洞察；

⑤ 数据决策平台：为在线业务提供数据能力。然后就是数据实验平台，实验概念就是A/B实验，我今天切一个算法，可以在这上面切1%的流量到这个算法，另外1%的流量到这个老算法对比。对比他们的效果、显著度。做一些置信区间的分析，来看看这个算法的效果，因为这里面实验涉及到的概念就是，同样这一个算法切1%，如果一个效果是98%，一个是95%，如果没经过科学检验的话，没办法说明98%的三个点到底是样本误差导致的，还是说就是我这个算法，所以说实验平台解决这个问题。

在这之上有一些垂直场景的服务，比如说蚂蚁的数据产品对外透出的一些端的能力，能够在移动端去看我们的数据。

第二块有一些垂直的解决方案，比如说人群画像平台、位置服务。

第三块是开发者中心，主要是应对一个场景叫开放。

这就是从数据操作系统内核到数据系统桌面，再到数据业务场景。数据平台部业务大概的范畴是这样的。

Part2：数据分析领域简介

数据分析这个词大家都讲了很多，那数据分析到底怎么样呢，其实我们身边有很多数据分析的例子，给大家举一个例子，然后再来看看数据分析体系化结构怎么样。

数据分析阶段包括：

① 描述型分析阶段；

② 诊断型分析阶段；

③ 预测型分析阶段；

④ 指导型分析阶段。

指导性分析的话，他可能会有两条路径，第一条他是决策辅助，它告诉你要来做什么，具体要不要做你来做决策，最后再去产生行动，还有一种比如在线的机器学习，我可以让机器自动切换参数，做一些效果的提升，下面这一步就是机器自动了。所以说数据分析的不同阶段不同层次，人工参与的会越来越少，机器参与的会越来越多，但是它的价值越来越大，复杂度越来越高，就是从马后炮到构建再到稳健。就是这么一个过程，这就是我们理解的数据分析。这个领域是这样的，所以说数据分析不是简单的四个字。

Part3：数据分析平台

说完数据分析以后，给大家介绍一下蚂蚁的数据分析平台，它的演进历史以及最新3.0版本的里面有哪些东西。

说到数据平台的诞生，就要说到传统数据分析，它存在的矛盾有：

① 报表需求易变；

② 流程需求落地周期会长；

③ 开发资源瓶颈（技术排期长）。

有了这个矛盾以后，数据分析平台13年的时候出了一个1.0版本，可以认为是一个报表工具，展现层可以自助拖拽，比如说封装维度和度量这两个概念，把什么字段拖到维度，把什么字段拖到度量，然后把数据查出来，就是通过展现层去生成一个查询，最后把查询转换成SQL到下面数据源里去查。但是那时候大部分数据在一个比较慢的ODPS，性能用户接受不了，还有一个就是权限模块。1.0版本大家可以理解成一个简单的报表工具，他的查询能力这些都不是很完备。

1.0版本以后，存在的矛盾有：

① 分析功能不足；

② 分析性能不足；

③ 数据能力与业务工作台是分裂。

这个情况下，我们做了2.0，2.0版本黄色的部分是新加的一些东西：

① 数据集：我是为了支撑一些更复杂的分析模型。可以做一些星型模型，雪花模型，做关联数据集；

② 多维分析：这一块专门做了Mondrian，用MDX这种语言做多维分析；

③ 系统的自动加速：其实就是把它从以前的数据RDS，只要它引入到数据集里面。只要它数据集一变，我就把它同步到ODPS，这一步是加速，所以说在查询的时候，如果他已经加速了，我就把它路由到上一个数据源里面去；

④ 开放：最早的开放比较简单，就比如说iframe嵌入，或者说数据查询接口，就这两种能力，iframe嵌入就可以把他做的报表嵌入到自己的业务工作台里面去，不用离开他的平台。还有查询，查询开放给他，就可以更容易组装他的流程。因为iframe嵌入只能整页嵌入。

这就是数据分析平台14年到16年的2.0，14年到16年我们其实都是在这张图上去做的迭代，去丰富了很多能力，包括邮件订阅的能力应对周报月报的一些场景。

在这之后，结合前面我们对数据分析的理解，其实我们想去重新定义一下分析洞察。

在17年的时候，我们去做这件事情。从描述型分析到诊断型分析到预测再到指导。这张图里我们还处在描述型分析这一块使用，我们就分析下我们的用户到底是怎么样的。

横向分成三段，客户能力分层，到他是什么角色，到他的能力。我们把数据分析平台用户分成两类，一类是B端业务方做数据分析的人，一类是C端看数据分析结果并做决策的人。

1、场景应用层

2、通用层

① 可视化：用户自己定义自己的可视化组件；

② 分析算法：自定义分析算法的算子；

③ 分析洞察解决方案：更大范围的把这些分析原始的算法包装成一个分析流程。

3、中台核心能力

① 协作；

② 查询路由；

③ 科学计算引擎；

④ 不同引擎的连接器；

⑤ 智能预计算；

⑥ 智能同步。

下面可能会把数据分析平台中间偏技术的会详细细化一部分。他的核心能力有哪些，主要看下面这一块。

1、开放服务门面，无论是SDK，API还是DSL，在这里面数据科学平台里面最主要的是有一门最主要的数据分析语言，这门数据分析语言包涵数据分析能力，包含算法能力，他可以调一个算法的算子，把一个SQL结果去调一个算法的算子，调完算法的算子再去做多维分析。有了数据分析语言之后，我们会在数据科学平台里面提供一些能力，比如说轻加工能力，多维分析能力，科学分析能力，还有复合分析能力，在之后是运行，运行后我要去把他用语言表达出来的分析过程路由到下面引擎去执行，把执行过程做优化，然后能适配到多维引擎。

2、核心能力

在这之下有三块核心能力：

① 智能同步中心：智能同步中心最大的目的或者说解决的最大的问题，就是尽可能的在用户访问数据之前把他加速到快的数据源里面去，如果慢的话，他看到的是老数据，他来我平台访问，他看到的是我昨天加速过去的数据，所以智能同步中心是解决这个问题；

② 智能预计算：我们发现我们有许多报表，因为报表拖出来的东西是固化的，昨天来看和今天来看只是日期不一样，所以说我们会提前帮他做一些预计算，预先帮他算好存到那里；

③ 执行引擎：执行引擎是需要把上面语言适配，一些高级分析能够在这里执行，然后多个源数据引擎往上面去适配，后面数据分析平台的核心能力是基于这几个关键字。第一个是智能的，这里面一个是我们对象提供的数据分析方法论是智能，另一个就是我们在这里面有一些工程能力；第二个是自服务，我们希望用户在平台上是自己服务自己的；第三个是端到端，我希望用户无论做什么事情，他需要数据能力，不用跳到其他地方去，他能够一站式解决问题；第四个是嵌入式，就是能够赋能到各个业务平台，这是数据分析核心能力里面的四个关键字，接下来就是一些基础细节，主要讲这一层的东西。

第一个是查询，就是在数据分析平台里面一个查询怎么执行下去的呢，首先我们查询的场景有很多，比如说可视化、智能增强分析、智慧人群，这些查询模型统一翻译成数据分析平台的一个叫基于Dataset的Logical Plan。在这个Logical Plan里面依赖数据集元数据、行级权限（同样一个数据集，不同的人来看只能看到不同的行，这是行级权限）。

在这之后基于数据集的元数据翻译成基于表的逻辑执行计划Table Logical Plan, 基于表的Logical Plan，我们拿到表的元数据，再往后翻译，因为一份数据大家可以看到，加速的过程可能会把一份数据加速到不同的引擎。原因是因为他应对的分析场景不一样，有的引擎可以很快的支持多维分析的可视化，有的引擎可以支持智能增强分析，所以一份数据用到多个引擎，在这里Table Logical Plan翻译成DataSource Logical Plan，就是具体某一个元选定了，这里可能有一些缓存、加速路由、预计算路由，还有规则和功能。

选出来多个数据源以后，经过一个代价模型，选出最优的数据源把它执行下去。代价模型里面考虑的因素比较多，比如查询特征，这一次group by了多少字段，这些字段的维度计数是怎么样的，有多少个count，distinct。第二数据特征，就是数据分布是什么样的，第三还有一些用户特征，比如蚂蚁的高管优先级更高一些，会给他一些执行比较快的引擎。

这样选择一个最优的数据源以后，会有一层抽象，我们会对DataSource进行SPI抽象，这里面具备MetaData元数据、连接能力、执行能力、方言转换能力、具备权限控制能力，这个方言就是说同样一个查询，MySQL语法，ODPS语法或者说是hive语法是完全不一样的，所以方言转换就是同一个语言到各种语言的适配。

有了这一层SPI抽象以后，我们会去适配很多Plugins，Plugins可以动态加载进来，只要Plugins加载进来，我们就支持这个数据源的查询，最终把这个查询执行掉，这就是数据分新平台整个查询的过程。

刚才提到了加速，就是同步，在3.0里面我们叫智能同步，刚才给大家说了智能同步能解决什么问题。我尽可能快的在用户访问之前把数据加速到正确的引擎，为什么要加速到正确的引擎，因为这张表上有不同的分析诉求，比如说他有多维分析，有高级分析，或者要做一些算法模型，那不同的引擎才能支持不同的场景，什么时候触发呢，可能用户自己触发，也可能定时任务触发，还有数据变化，不管是元数据还是数据变化了。

之后要做同步校验，可能有一些用量控制，有一些用户权限控制，校验过以后会经过一个智能策略，智能策略就一件事情，把场景和策略做匹配，比如说VIP场景（刚才说的高管）；还有查询特征功能场景，看看这张表上都有哪些查询特征，比如他做多维分析查询还是做算法；还有查询特征，查询特征什么意思呢，比如说他经常用某一个字段做where条件，经常group by一个字段，那应对的一些策略有VIP报表，我为了保证高管用户，我会把一张表加速到多个元数据，可能把一张表加速到多个目的地表，在同一个元里给它建不同的深度格式，举个例子比如说用户表，第一用户表经常做多维分析，第二它经常被用来join，这是个很常见的用uid跟交易表去做join，那用户表我同步过去的时候就会有一表多目的地，首先同步一份基础的能够做多维分析的，同步一份按照uid散列的，提前按照uid散列后我的join效率更高，同样交易这张表也会提前按照uid散列，所以这就是一表多目的地。还有表结构优化，比如同步到MySQL，发现他经常小数据量，比如说20万、100万以下这种数据量，我会把他同步到MySQL里面去，我发现他的查询特征经常用某一个字段做where，我在这个字段上建上索引，这就是表结构优化，这里面可能和查询路由差不多，有查询特征，数据分布，这个数据源支持什么样的特征，有了这些以后，会设置一些同步优先级。

同步优先级在一个分布式队列里面去排队被执行掉，最后一步就是同步任务执行，就是两层东西，一个是同步源，就是同步哪里，还有就是同步到哪里，同步目标，在SPI抽象以后跟前面查询思路是类似的，回去实现很多Plugins，就可以从这里同步到那里，这是智能同步的技术详解。

最后一块就是之前提到的智能预计算， Kylin大家都听说过，最早我们借鉴了麒麟的思想，第一数据分析平台里面做了很多报表，这些报表是明显可固化的；第二数据分析平台里面有很多表被大家公共用到，一个业务部门都有很多人，这些表会被大家公用，在做拖拽的过程中有很多分析也是重合的，所以引用了预计算。

预计算整个过程是怎样的，比如第一步我会去做信息采集，信息采集来自于几个部分，比如说报表结构，定义的数据集结构，比如定义表和表做join分析，第三是历史查询，历史的拖拽。有了这些以后我去提取特征，提取特征就有维度，就有普通度量，distinct度量，还有表/子查询，是哪张表，是哪个子查询，他的筛选条件是什么，他的耗时是什么。有了这些特征以后，我会去做一个叫立方体的概念，就是Cube Design，这个过程我们去设计立方体，设计立方体逻辑很简单，就是把同表同子查询的这些维度度量建成一棵树，这是最细维度的，细粒度比如说group by 4个字段，我可以汇总到group by三个字段、两个字段，或者说我可以汇总成group by两个字段，一个字段的结果，这样建成一个Cube。建成一棵树以后并不是说这一个树的所有节点都帮他算，因为维度组合是算不过来的，所以去做一些Cube Planner，去做一些剪枝，哪些规则我不要，比如说基于规则，比如说耗时已经小于三秒或者已经小于一秒了，我就不帮你建了，因为你的引擎已经能满足你了，还有做一些贪心算法，做一些优化怎么做才能让这树的收益达到最高。之后就要做物理构建了，物理构建是一样的，在蚂蚁下面引擎设都涉及到多引擎，我们都是要做这一层，在我们三个核心技术细节都会看到SPI抽象，但在这个SPI框里面是不一样的。这里构建引擎的SPI有增量构建，全量构建，有单点构建，也有城市构建，还有快速构建，这些不同的能力。有这些能力以后，比如说ODPS，Spark这两个，去做最终构建，这样构建以后去查询路由的时候，就会路由到已经经过智能预计算中心的元数据去做路由，路由到一个最优的，已经计算好的。最优的一般都是group by 最少的那个，智能预计算就是这个。

下面这一排是针对上面的最近的例子，前面讲的数据平台的核心能力以及几个点的技术细节，有了这些以后我们数据平台有一些结果。

Part4：数据分析应用

数据分析平台有了这些技术以后，他到底能帮助我们做什么，或者说如果用数据分析平台来帮助我他的套路是什么样的，举个例子就是数据分析驱动数据分析平台技能优化，这是一个用数据分析来驱动工程上优化的例子，首先第一步看看问题是什么。

不同的人都期望提升到秒级，还有个别报表查询要90秒，这就是走的0DPS这种查询，很慢达到了分钟级，所以说大家抱怨就是RT的问题，用户的期望是达到秒级，但我们知道就像稳定性一样，实际情况是不可能100%达到秒级的，总有一些异常情况和考虑不到的地方，这是问题，我们要解决这个RT。

接下来我们要解决一个问题，要让这个问题可衡量，我要能够度量它这也便于优化他，也知道解决到什么程度了，第二块就要定义指标。

指标就如刚才说的，我们没办法做到100%，所以我们定义指标有一两个，一个是体验指标，一个是底线指标，体验指标就是查询RT在一秒内要达到占比98%，底线指标就是RT在10秒内占比100%，因为10秒这种界限我们还是有信心的。为什么叫体验指标，这其实和大部分用户相关的，他能感受到，为什么要有底线指标，那少部分人随着平台用户量的增长也会把平台拖死，他每天都来麻烦你，随着用户量的增长找你的人也会越来越多，所以说有一个底线指标。那这里涉及到定义一个指标，一个好的指标应该简单易懂，一个好的指标应该是个比率，好的指标可以指导行为改变。

我们要依赖业务流程和物理架构来进行分解，这是我对数据分析平台做了一个简化，从可视化到服务端再到数据查询语言，这部分是请求链路视角，横向是逻辑模块视角，比如有哪些可能的数据源，查询一列要经过那些过程，有了这个认知以后我们对它进行数据抽象。

分解后要用数学的方式进行抽象，其实刚才上面那一张图可以看到，有缓存，有预计算，有RDS，有不同引擎，有了这些引擎以后我把我一秒内占比的RT拆解为这个公式，分母就是总的查询量，分子就是一秒内的查询量，一秒内的查询量我可以按照引擎去拆，拆完以后每一个引擎都代表他一秒内的引擎次数，X1一直到X8，都是不同元的一秒内查询次数，当某一个元确定以后，我又可以按照链路去拆，比如说预计算我经过了什么链路，比如说先进来处理行级权限，接下来处理预计算路由，然后是查询数据源，就是这个逻辑，有了这个抽象以后，我们就可以去做数据分析。

这是我们的抽象，抽象以后我们把我们的数据拿出来。比如说选定某一个元，我去看他的统计直方图，横轴是耗时，就是找问题的耗时，纵轴是他的次数，他一秒内有多少次，两秒内有多少次，很明显有了这个图以后我们很容易看出一些东西，图中有间次的地方先圈出来，比如我现在就想解决这一段（波峰），解决这拨人，我就先把这里圈出来，去做多维分析，然后去找到原因，找到原因以后，如果我把这个地方优化掉，对我的总指标能提升多少，比如一秒内占比，十秒内占比，我是能预估出来这个地方优化对我总指标能提升多少，这个过程大家可以发现为什么看总指标的提升，因为我们人力总是有限的，我要去评估ROI产出比，肯定是投入小对这个指标先做。

举个例子，就这个过程当中，这个间次我们先把他圈出来以后，发现有一个数据源（我们内部叫ADS），发现这个ADS这个次数最多，在这区间ADS达到了900多次，我们把这个圈出来看他其他的漏洞，我发现在下钻一个维度，下钻query_mode查询类型是怎样的，我发现count_distinct占比92%，也就是导致这一段的原因是ADS这个源的count_distinct不行。这其实最终找到了这个原因，之后我们判断一下这一个点对我们整个慢查询的性能有多少，整体慢查询能占到20%~30%的样子，也就是说我只要把这个优化，对我整体指标能够提升20%~30%，这可能就是经过刚才这个思路找到的具体优化，这只是其中一个。

总结一下就是数据分析要做出一些东西的话，他的套路就是这样的，先要问题定义，你要解决什么问题，然后你要衡量这个问题（指标定义），彼得德鲁克曾说过，没有很好的度量，就没有办法增长，所以说我们得先定义出来，定义出来如果你只有这个指标，你什么也不能干，只能做个监控，只能用它来印证你的想法，所以说我们要去进行数学抽象，从一些业务链路上，从一些系统模块上去做一些抽象，抽象好了以后去看有没有相应的数据（采集数据），有了数据以后去做分析，无论是描述型分析、诊断型分析还是预测型分析，运用分析方法去找到原因，然后去决策并行动。这个过程里面比较难的，当然做决定是比较难的，一是你要对这个业务领域有很强的理解，第二你要判断数据分析的结果到底符不符合业务理解。第二难就是数据抽象这一块，这一块要你对业务有很深的认知，无论从链路上还是从模块上，如果你解决工程问题，你就要对系统有认知，如果你解决业务问题，要对链路有很强的认知，这就是数据分析应用模式，总结下来就是这样的套路。

美团外卖实时数仓建设实践

数据湖与数据仓库的根本区别，在于前者是“市场经济”，而后者是“计划经济”

深入浅出亚马逊AWS数据湖

我被“非结构化数据包围了”，请求支援！

收藏！一张图帮你快速建立大数据知识体系

数据仓库、数据湖、流批一体，终于有大神讲清楚了！

如何打造一个顶尖的精确营销系统？

干货 | 携程机票数据仓库建设之路

从数仓到数据中台，谈技术选型最优解

从离线数据仓库到实时数据仓库的演进

相伴十六载，讲讲我和数据仓库的故事（二）

相伴十六载，讲讲我和数据仓库的故事（一）

大数据架构如何做到流批一体？

美团点评基于 Flink 的实时数仓平台实践

“做好大数据测试，我是认真的！”

辨析BI、数据仓库、数据湖和数据中台内涵及差异点(建议收藏)

一文读懂非关系型数据库（NoSQL）

如何深入浅出的理解数据仓库建模？

痛苦与变革，如何避免大数据PaaS平台建设中的这些“坑”？

中国电信的“天翼大数据飞龙平台”长啥样？

论道数据仓库维度建模和关系建模

解读云栖大会的《阿里巴巴数据服务产品开发及大数据体系》

一个传统企业大数据发展的编年史

一个业务化的大数据PaaS平台启示录

为什么选择这样的大数据平台架构？

我们需要什么样的ETL?

一只传统企业大数据平台团队的绽放！

看上去很美, 谈谈阿里云的大数据平台「数加」

大数据运维的思考

浙江移动大数据平台践行之路（上）

浙江移动大数据平台践行之路（下）

你可能感兴趣的:(数据仓库,大数据,编程语言,人工智能,数据分析)

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Tomcat：Java Web应用的幕后英雄互联网动态分析 tomcat
在当今数字化浪潮中，Java作为一门成熟且广泛应用的编程语言，支撑着无数企业级应用和互联网服务的稳定运行。而在JavaWeb开发领域，Tomcat无疑是一个举足轻重的存在，它宛如一位默默耕耘的幕后英雄，为众多Web应用提供了可靠的运行环境。Tomcat的起源与发展Tomcat的故事始于1999年，当时SunMicrosystems（后被Oracle收购）与Apache软件基金会合作，旨在为Java
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【亲测免费】 Mamba：快速跨平台的包管理器林梦雅
Mamba：快速跨平台的包管理器项目基础介绍和主要编程语言Mamba是一个用C++重新实现的Conda包管理器。它旨在提供比传统Conda更快的包管理和依赖解析速度。Mamba的核心部分使用C++编写，以确保高效性和性能。同时，Mamba也使用了Python和其他一些辅助语言来实现其功能。项目核心功能Mamba的核心功能包括：快速依赖解析：利用libsolv库进行高效的依赖解析，这是RedHat、
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
什么是ORM？它如何简化后端开发？破碎的天堂鸟学习教程数据库
什么是ORM？ORM（对象关系映射，Object-RelationalMapping）是一种编程技术，用于解决面向对象编程语言与关系型数据库之间的数据转换问题。其核心是将数据库中的表结构映射为程序中的类和对象，使开发者能够以操作对象的方式操作数据库，而非直接编写SQL语句。具体而言：映射机制：数据库表→编程语言中的类（如User类对应users表）表字段→类的属性（如username字段对应Use
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
2023高薪前端面试题（二、前端核心——Ajax）
原生AjaxAjax简介Ajax全程为AsynchronousJavaScript+XML，就是异步的JS和XML通过AJAX可以在浏览器中向服务器发送异步请求，最大的优势是：无刷新获取数据，实现局部刷新Ajax是一种用于创建快速动态网页的技术AJAX不是新的编程语言，而是一种将现有的标准组合在一起使用的新方式Ajax的应用场景页面上拉加载更多数据列表数据无刷新分页表单项离开焦点数据验证搜索框提示
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
用Python做数据分析之数据统计学掌门 Python 数据分析大数据 python 数据分析人工智能
接下来说说数据统计部分，这里主要介绍数据采样，标准差，协方差和相关系数的使用方法。1、数据采样Excel的数据分析功能中提供了数据抽样的功能，如下图所示。Python通过sample函数完成数据采样。2、数据抽样Sample是进行数据采样的函数，设置n的数量就可以了。函数自动返回参与的结果。1#简单的数据采样2df_inner.sample(n=3)3、简单随机采样Weights参数是采样的权重，
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =