阿里云云栖号

阿里CCO：基于 Hologres 的亿级明细 BI 探索分析实践

CCO是Chief Customer Officer的缩写，也是阿里巴巴集团客户体验事业部的简称。随着业务的多元化发展以及行业竞争的深入，用户体验问题越来越受到关注。CCO体验业务运营小二日常会大量投入在体验洞察分析中，旨在通过用户的声音数据结合交易、物流、退款等业务数据，洞察发现消费者/商家体验链路上的卡点问题并推进优化，带给消费者和商家更好服务体验。

以今年3月为例，通过统计日志数据发现，共有80+业务同学提交了22000+个Query，都是围绕着用户心声和业务数据的多维度交叉分析，如果按照每个Query小二平均投入10分钟进行编写、执行、检查等操作来计算的话，共计投入458工作日，也就意味着这80+业务同学人均每个月至少有1周的时间全部投入在数据处理、运行上。业务侧大量的洞察分析诉求也使得体验洞察的数字化和智能化能力建设势在必行，我们需要有能支持到业务复杂场景Ad-hoc查询的数据能力和产品能力。

通过对数据产品的不断迭代，我们采用Hologres+FBI支撑CCO体验小二所有数据探索需求，月均50亿+明细数据聚合查询秒级返回，支持100+业务小二大促、日常的体验运营洞察分析，助力业务小二单次洞察分析提效10倍以上，解放业务同学的生产力。在文本中，我们也将会介绍CCO数据洞察产品基于Hologres在BI查询场景的最佳实践。

体验洞察各阶段方案演变

结合业务，我们梳理了当前CCO体验洞察数据应用的几个特点：

数据覆盖场景广。覆盖了从用户浏览、下单、支付、发货物流到售后退款等全链路的业务场景，数据涉及范围广。
数据量较大。如交易类数据（亿级/日）、退款类数据（千万级/日）。
实时时效以及多时间窗口对比诉求。如大促活动期间实时对用户Top求助场景是否异常的判断，涉及多种窗口（环比、同比、历史同时段、活动期同时段等）对比，来进行影响面评估和预警布防。
数据监控周期长。如大促期间的售后情况洞察，因为售后期较长，往往会锁定大促周期的订单，观察后续N天的退款、纠纷数据变化。数据需刷新的周期长。
大量的快照类特征诉求。如分析用户咨询时刻的交易状态、物流状态等特征分布，用以分析用户求助的真实诉求。

因此在整体数据方案落地的过程中，如何快速响应业务不断变化的需求，同时考虑业务上的数据特点，选择相对稳定且高可用的方案是我们需要面对的问题。这里主要经历了三个阶段。

阶段一：预计算聚合Cube（MOLAP）+ADB加速查询

这个阶段还未支持实时的洞察能力，采用的方式是比较常规的预计算聚合Cube结果集，即在MaxCompute侧将所需要的交叉维度指标预计算好，形成一个ADS层的聚合指标结果宽表，通过外表或者DataX工具将聚合结果写入到OLAP引擎加速查询。此阶段CCO较为主流的OLAP引擎选型主要是ADB、MySQL等。这种方案在应对较少且相对稳定的维度和指标组合时较为适用，因为结果已经预计算好，只需要针对结果表进行简单聚合计算，ADB也提供了稳定的查询加速能力。以下为整体数据链路结构的简单示意图：

但是随着业务场景的更加复杂化，存在的问题也极为明显：

灵活度差，扩展成本高。当业务上要增加新维度或指标时，需要在MaxCompute应用层多层添加逻辑、修改表结构并且需要回刷数据，数据的扩展成本十分高。
数据量易爆炸。因为预计算的结果集最细粒度是所有维度的枚举值交叉，只要某几个维度枚举值比较多的话，交叉后的数据量就会存在大幅膨胀的可能，甚至膨胀到交叉后远大于明细数据量级的情况。
行业回刷成本高。因为维度特征预计算好的原因，类似淘系行业调整等较为常见的因素带来的回刷无法避免。每一次行业调整，为了保证行业的准确性，都会需要一次全量的回刷。
UV类去重指标无法精确计算。遇到UV等需要去重计算的指标，因为预计算按照维度最细组合计算，再次聚合的时候不可避免会出现结果膨胀，无法精确的实现去重计算。
数据回流时间长。离线数据通过Shell脚本操作外表或者DataX同步任务方式回流ADB，在数据量较大的时候同步时间长，并且在回流高峰的时候，因为槽位资源打满，容易频繁出现任务超时、出错，甚至库抖动等问题，维护成本较高。

阶段二：实体ID轻度汇总事实表+维度表关联查询

这个阶段实时化洞察已经在很多场景有较强的诉求，故需要同时结合实时链路来考虑方案。方案一不适合实时链路的建设，主要在于预计算的多维汇总宽表难以确定PK，一旦维度组合发生变化，PK需要重新定义，无法稳定的支持upsert/update操作。

所以在这个阶段主要针对扩展性灵活性等问题重新设计了方案。主要的思路是不做维度的预计算，而是抽取洞察场景内事实表的实体对象ID，构建基于这些实体对象ID的轻度汇总DWS指标层，然后将DWS指标事实表和实体对象的DIM表直接写入到OLAP引擎，在数据服务或者FBI数据集这一层直接join查询。

以共享零售为例，业务的本质是买家下单，货从卖家流转到买方。这里的参与的对象有商品、商家、买家、骑手等，我们构建以商品ID+商家ID+买家ID+骑手ID的联合主键，计算在这个主键下的各业务模块的指标汇总事实表，然后利用OLAP引擎的强大的交互分析能力直接关联事实表和维表做多维分析查询。数据链路结构的简单示意图如下：

这种方案对比方案一解决了扩展性问题，提升了灵活度，维度的扩展只需要简单调整维表即可，遇上行业的调整甚至无需做任何处理；同时PK稳定，也能支持到实时upsert。但也因为数据展现端关联查询逻辑复杂，性能上对OLAP引擎要求较高。存在的问题可以总结为以下几点：

大数据量下性能较差。数据应用端大量的join操作，尤其PK不相同无法走Local Join，在数据量较大的场景如淘系业务里，性能难以支持。
UV类去重指标无法精确计算。本质上指标值依然是预计算，所以维度上再聚合时仍然会出现膨胀，不能精确计算去重值。
部分特征维度无法支持。业务的洞察诉求越来越精细全面，交易特征、物流特征等一些属性以及快照类数据，在这个方案中难以支持，如订单的预售的类型、是否直播订单等。
实时离线对比窗口难实现。实时指标有较强的多时段不同点位的窗口对比诉求，当遇到当天XX小时同环比历史同时段这类需求时，当前方案难以实现，预计算各种时长打点的历史数据也不现实。

阶段三：基于Hologres明细宽表的即席查询

为了能支持到更加丰富的场景以及支持到实时离线联邦查询下灵活的窗口应用，我们方案的考虑方向转向为不再做指标的预计算，直接将明细数据写入到OLAP引擎，在数据集/数据服务等服务层直接关联DIM表即席查询。同样这对OLAP引擎的性能要求极高，CCO在去年实时架构升级之后，参见CCO x Hologres：实时数仓高可用架构再次升级，双11大规模落地，借助Hologres列存强大的OLAP能力及实时离线联邦查询能力使该方案落地变为可能。

没有最好的方案，只有在对应场景下做出取舍后相对适用的方案。在这个阶段，我们牺牲了一定的查询性能，选择了对场景支持更丰富、实时离线联邦查询以及扩展灵活度更支持更佳的方案。当然在淘系这类较大数据量的业务场景中，我们也做了一定的优化和取舍。如在实际处理中，对于相对稳定的维度我们在MaxCompute/Flink处理写入了明细，只对于行业类目等这类易调整且相对敏感的维度直接在数据集/数据服务关联查询。

三种方案对比：

场景	方案一：预聚合	方案二：轻度汇总	方案三：明细即席查询
查询性能（较大数据量）	较好	一般	一般
维度支持	支持丰富但数据量易爆炸	支持范围固定	维度支持丰富
扩展性	较差	好	较好
去重计算	存在膨胀	存在膨胀	可精确计算
实时离线联邦查询窗口对比	不支持	不支持	灵活支持
行业回刷	需要回刷	无需回刷	无需回刷

Hologres+FBI一体化体验洞察数据实践

结合CCO体验业务在数据洞察应用场景中数据量大、周期长、链路范围广、维度特征多、实时离线对比窗口及快照特征诉求多等需求特点，我们利用Hologres+FBI的各种特性不断在实践中设计优化整体的解决方案。从数据应用诉求来说，用户可以接受一定时间的返回延迟，涉及较大数据量读写但同时查询QPS较低，因而我们选择牺牲一定的查询RT，选择使用基于Hologres明细的即席查询的方案，整体流批两条链路结构如下：

如上所示，整体的方案是相对典型的Lambda结构：

在实时的链路中，我们读取各主题的实时公共层Holo Binlog或者TT/MQ消息，利用Flink的流处理能力，通过查询持久化存储的Hologres维表补齐模型所需的字段，同时通过事件触发的消息，查询维表/HSF接口完成状态快照的采集，构建成ADS/MDS明细宽表，写入到Hologres分区表的当日实时分区。
在离线的链路中，我们读取各主题的公共层及维表，以及T日实时采集的快照信息，在T+1日构建离线的ADS/MDS明细宽表，通过MaxCompute外表方式Batch写入到Hologres表的各历史分区。为了保证T日分区在T+1日的无感切换，我们会通过中间表rename的方式保证瞬间切换。
在上游应用时通过搭建FBI数据集或数据服务，提供查询Hologres明细表的即席查询能力，支持多维交叉分析、大数据量下的去重计算、实时离线联邦查询等OLAP场景。

以下为我们针对上面提到的前阶段数据使用存在的各种问题，在实践应用中的一些详细的技术方案。

表设计、Table Group及索引选择

表设计

主要查询场景是基于明细按时间范围的OLAP查询，数据规模单日分区超数十亿，同时也需要按天更新回刷数据，所以Hologres表的属性选择上，是列存+业务主键PK+日期分区表。

Table Group设置

Table Group的设置一般根据使用场景、数据量大小、Join频次综合考虑。需要关联的表放入同一个Table Group，通过Local Join减少数据的Shuffle，可极大提升查询效率。

Shard Count根据数据量选择合适的大小。Shard数过小数据的读写会存在瓶颈，而Shard数过大会导致日常固定的开销以及查询启动的开销增大造成浪费，大量的Shard数过大的表同时启动查询也容易给集群的负载造成压力，影响使用性能。目前体验洞察实践中，日增量亿级的交易类明细结果Shard Count设置为128，退款、咨询求助等日增量千万左右的明细表Shard Count设置为32。

索引设置

Hologres提供了Distribution Key、Clustering Key、Segment Key、Bitmap Columns等一系列的索引方式对表进行优化，合理的使用各类索引，可以大幅提升使用性能。分布建Distribution Key只能是PK或PK的部分字段，选择基于PK来设定；对于商家、类目、行业等经常用在Filter和Range场景的字段，我们对应的设置了聚簇索引Clustering Key。而对于大量的二分类的维度特征以及枚举较少的字段，如是否直播订单、商家分层等，我们对应设置了位图索引Bitmap Columns等。

BEGIN;
CREATE TABLE "public"."ads_case_di" 
(
 "date_id" TEXT NOT NULL,
 "case_id" INT8 NOT NULL,
 "industry_name"  TEXT NOT NULL, 
 "seller_id"    INT8 NOT NULL,
 "seller_nick"  INT8 NOT NULL,
 "is_presale_order" TEXT,
 "is_live_order"    TEXT,
  XXX ,
 PRIMARY KEY ("date_id","case_id")
)
PARTITION BY LIST (date_id);
CALL SET_TABLE_PROPERTY('"public"."ads_case_di"', 'orientation', 'column');
CALL SET_TABLE_PROPERTY('"public"."ads_case_di"', 'segment_key', '"date_id"');
CALL SET_TABLE_PROPERTY('"public"."ads_case_di"', 'clustering_key', '"industry_name","seller_nick"');
CALL SET_TABLE_PROPERTY('"public"."ads_case_di"', 'bitmap_columns','"is_presale_order","is_live_order"');
CALL SET_TABLE_PROPERTY('"public"."ads_case_di"', 'dictionary_encoding_columns', '"industry_name","seller_nick","is_presale_order","is_live_order"');
CALL SET_TABLE_PROPERTY('"public"."ads_case_di"', 'time_to_live_in_seconds', '17280000');
COMMIT;

T+1分区覆盖方案

在Flink作业定义Hologres Sink表时，需要配置`partitionRouter`和`createPartTable`参数来保证流作业数据Sink到实时的分区以及在路由不到分区时自动创建分区。

partitionRouter = 'true' 
createPartTable = 'true'

Holo的分区表是子母表结构，子表的当日分区作为流作业的Sink表，T+1及之前的分区为离线任务Batch写入，在每天上午离线任务调度结束数据生成后覆盖实时作业写入的数据。而在T+1的离线数据写入的时候，如何避免写入时出现空分区或者查询抖动，目前的方案是批写入临时子表然后rename并挂载到母表，可以瞬间完成T+1分区的数据切换，避免影响应用端使用体验。以下以某个表示例。

BEGIN;
--线上表分区子表，如果不存在分区，就创建该分区
create table if not exists ads_tb_di_${bizdate} partition of ads_tb_di
  for values in ('${bizdate}');
--批数据写入的中间表子表
create table if not exists ads_tb_di_batch_${bizdate} partition of ads_tb_di_batch
  for values in ('${bizdate}');
  
--解除线上表依赖关系
ALTER TABLE ads_tb_di DETACH PARTITION ads_tb_di_${bizdate};
--解除中间表依赖关系
ALTER TABLE ads_tb_di_batch DETACH PARTITION ads_tb_di_batch_${bizdate};
--名称互换
ALTER TABLE ads_tb_di_${bizdate} RENAME to ads_tb_di_temp_${bizdate};
ALTER TABLE ads_tb_di_batch_${bizdate} RENAME to ads_tb_di_${bizdate};
--挂依赖
ALTER TABLE ads_tb_di ATTACH PARTITION ads_tb_di_${bizdate} FOR VALUES in ('${bizdate}');
--删除临时批表
drop TABLE ads_tb_di_temp_${bizdate};
commit;

FBI的Velocity语法和Fax函数裁剪SQL优化查询

在BI的使用上，我们选择FBI（阿里集团内部的一款BI分析产品）。目前FBI一个组件只支持一个数据集，为了支持多维交叉分析应用，我们比较常见的方案是在数据集SQL中将所有可能用到的表拼接起来以备查询。但实际的即席查询场景中，用户选择的指标和维度可能只使用到了数据集中的部分表，如果全量查询数据集，会造成浪费同时也会影响查询性能。

结合FBI的 Velocity语法和Fax函数等特性配置动态查询可以实现根据用户的选择动态路由裁剪，在数据集中如下使用Velocity语法添加判断语句，在扩展指标中配置动态查询的参数。这里的${tableindexorder} == 'order' 代表交易明细表，数据量较大。

在实际的即席查询场景中，如用户只选择了“纠纷介入率”这类指标和维度，和交易数据没有关系，那么最终执行的query将不会命中${tableindexorder} == 'order' 这个分支下的SQL，借此实现对数据集SQL的裁剪，从而避免了每次查询都全量执行整体数据集，可以根据实际使用场景按照“不使用则不查询”的原则提升查询效率。

实时离线联邦查询灵活窗口对比

大促场景下实时离线联邦查询的诉求十分常见，尤其当前时间点位同环比历史同期时段点位这类对比需求，目前基于明细宽表的即席查询架构更加灵活高效。首先离线部分无需再进行预计算，尤其如果对比点位比较细的话，如5分钟、10分钟这类窗口点位的对比，那离线需要预计算准备的数据较为复杂，数据量也十分大。另外对于活动当天退款量、退款金额的累计趋势这类很常规的诉求的实现，也不再需要通过Flink计算每个点位的数值，再通过窗口函数进行聚合。直接对关键时间字段增加打点字段，一个简单的窗口函数即可完成累计趋势图的绘制。比如以下为一个10分钟窗口累计趋势的示例：

select  date_id
        ,create_time_10min ---10分钟向后打点
        ,rfd_cnt --当前时间窗口退款量
        ,rfd_amt --当前时间窗口退款金额
        ,sum(rfd_cnt) over(partition by date_id order by create_time_10min asc) as total_rfd_cnt --累计退款量
        ,sum(rfd_amt) over(partition by date_id order by create_time_10min asc) as total_rfd_amt---累计退款金额
from    (
            select  date_id
                    ,create_time_10min
                    ,count(*) rfd_cnt
                    ,sum(refund_real_amt) as rfd_amt
            from    ads_tb_di
            where   date_id in ('20201111','20211111') --大促当天和历史同比
            group by date_id
                     ,create_time_10min
        ) t
;
--create_time_10min 这里是对退款发起时间的打点字段，等同于replace(substr(FROM_UNIXTIME(UNIX_TIMESTAMP(case_create_time) - (UNIX_TIMESTAMP(case_create_time)% (10 * 60)) + (10 * 60)),12,5),':','')

Hologres动态分区回刷

由于采用了Hologres分区表的设计方式，当遇到需要同时回刷多个历史分区的情况时，由于Hologres分区是子母表结构且不支持向母表Insert数据，这里实现动态回刷多分区这类场景相对麻烦一些，Hologres当前不支持程序块脚本，一般需要通过python/perl等脚本来进行对分区子表的循环操作。在这里我们采用DataWorks的控制节点配置用以相对简单的实现对Hologres分区表的动态回刷。

UV类去重计算优化

在体验洞察的场景里，有着大量的去重计算的诉求，比如咨询万笔订单求助量等这类指标，咨询场景中会话量的计算大多是基于非主键列的计算，在目前这种基于明细的查询下，虽然避免了预计算结果集上聚合数据值膨胀的情况，但大量的distinct操作极其影响性能。因而应对去重计算，在不同场景下我们做了些不同的优化方案选择。

重要场景精确计算&长缓存周期

在首屏核心指标块这类重要的呈现场景，比如万单求助量、小蜜发起量等重要观测指标的大数概览统计，因为指标的精确性要求，我们会使用distinct去重计算，这类指标数量不多，也因为不涉及下钻分析只是概览统计，对于离线场景可以在FBI等展示端设置较长的缓存周期，查询命中缓存的概率较高，可以一定程度的减少distinct带来的性能影响。

高频维度场景使用RoaringBitmap高效去重

对于行业、类目等这一类重要并且高频被使用到的的维度场景，并且这些维度对计算的精度也有着较高的诉求，为了保证去重计数查询的性能，我们利用Hologres的RoaringBitmap的数据压缩和去重特性在较大数据量下进行计算。因为RoaringBitmap本质上还是做了一层预聚合计算，如果维度太多粒度太细数据量也会膨胀的比较厉害，为了保证优化的效果，这里我们选取部分重要维度，结合前文提到的FBI Velocity语法判断，当查询的维度命中在RoaringBitmap基础聚合的维度范围时，通过RoaringBitmap快速返回结果。RoaringBitmap去重示例如下：

CREATE EXTENSION IF NOT EXISTS roaringbitmap; --创建roaringbitmap extention

-----创建映射表，用以映射去重字段serv_id到32位int类型
    BEGIN;
 CREATE TABLE public.serv_id_mapping (
     serv_id text NOT NULL,
     serv_id_int32 serial,
     PRIMARY KEY (serv_id) 
 );
CALL set_table_property('public.serv_id_mapping', 'clustering_key', 'serv_id');
CALL set_table_property('public.serv_id_mapping', 'distribution_key', 'serv_id');
CALL set_table_property('public.serv_id_mapping', 'orientation', 'column');
COMMIT;

-----创建基础聚合结果表
BEGIN;
CREATE TABLE ads_tb_roaringbitmap_agg (
    date_id text NOT NULL,  --日期字段
    bu_type text,
    industry_name text,
    cate_level1_name text,
    cate_level2_name text, 
    cate_level3_name text, 
    uid32_bitmap roaringbitmap, -- 去重计算结果计算
  primary key(bu_type, industry_name,cate_level1_name,cate_level2_name, cate_level3_name, date_id)--查询维度和时间作为主键，防止重复插入数据
);
CALL set_table_property('public.ads_tb_roaringbitmap_agg', 'orientation', 'column');
CALL set_table_property('public.ads_tb_roaringbitmap_agg', 'clustering_key', 'date_id');
CALL set_table_property('public.ads_tb_roaringbitmap_agg', 'event_time_column', 'date_id');
CALL set_table_property('public.ads_tb_roaringbitmap_agg', 'distribution_key', 'bu_type,industry_name,cate_level1_name,cate_level2_name,cate_level3_name');
end;

--------将映射表里没有的serv_id写入进去
WITH
     serv_ids AS ( SELECT serv_id  FROM ads_xxx_crm_serv_total_chl_di WHERE date_id = '${bizdate}' GROUP BY serv_id )
    ,new_serv_ids AS ( SELECT a.serv_id  FROM serv_ids a LEFT JOIN serv_id_mapping b ON (a.serv_id = b.serv_id) WHERE b.serv_id IS NULL )
INSERT INTO serv_id_mapping SELECT  serv_id
FROM    new_serv_ids
;

------按照聚合条件聚合后插入roaringbitmap聚合结果表
WITH
    aggregation_src AS( SELECT date_id,bu_type, industry_name,cate_level1_name,cate_level2_name, cate_level3_name, serv_id_int32 FROM ads_xxx_crm_serv_total_chl_di a INNER JOIN serv_id_mapping b ON a.serv_id = b.serv_id WHERE a.date_id = '${bizdate}' )
INSERT INTO ads_tb_roaringbitmap_agg 
SELECT   date_id
        ,bu_type
        , industry_name
        ,cate_level1_name
        ,cate_level2_name
        ,cate_level3_name
        ,RB_BUILD_AGG(serv_id_int32)
FROM    aggregation_src
where cate_level3_name is not null 
and   bu_type is not null 
GROUP BY date_id 
        ,bu_type
        , industry_name
        ,cate_level1_name
        ,cate_level2_name
        ,cate_level3_name
;

-------执行查询，RB_CARDINALITY 和 RB_OR_AGG 聚合计算
SELECT  bu_type
        , industry_name
        ,cate_level1_name
        ,cate_level2_name
        ,cate_level3_name
        ,RB_CARDINALITY(RB_OR_AGG(serv_id32_bitmap)) AS serv_cnt ---去重计算结果字段
FROM    ads_tb_roaringbitmap_agg
WHERE   date_id = '${bizdate}'
GROUP BY bu_type
        , industry_name
        ,cate_level1_name
        ,cate_level2_name
        ,cate_level3_name;

多维交叉分析使用近似计算

而对于大多数维度场景，对去重并不是要求100%精确，使用Hologres自身的APPROX_COUNT_DISTINCT近似计算，去重精度误差可达1%以内，在可接受范围内且不会大幅影响查询性能。同时可如下通过调整精度参数来控制计算的精确度，但也会相应的增加计算开销，实测默认参数值17就可以达到较好的去重精度。

set hg_experimental_approx_count_distinct_precision = 20;

同时Hologres 1.3版本也支持了UNIQ函数，跟count distinct是一样的语义，但是计算效率更高，更节省内存，后续我们将会使用。

快照采集及持久化离线存储

前文提到了CCO侧体验洞察分析存在大量的快照类特征诉求，比如用户咨询时刻的货物状态、物流节点等，这类快照对分析用户求助、退款时候的真实的境况和诉求及其重要。而这类快照在各类系统中不太可能都有业务埋点，因此需要数据侧去加工得到对应的数据。这类快照数据如果通过批任务处理存在的主要问题是无法精准的获取快照状态，比如咨询时的物流节点，通过离线ETL处理需要比对咨询时间和物流各节点的时间卡先后顺序得出当时的节点状态，对节点的枚举是否全面要求极高，并且处理复杂程度也较高。

因此，通过实时的消息结合实时更新的持久化存储的维表或线上接口来生成快照类数据是较为合适的方案，以咨询时订单状态的实现为例，我们接入咨询创建的TT/MQ，发生咨询之后去查询对应订单维表或者TC接口，返回的数据写入当天的实时分区，在T+1日我们通过Hologres的外表导出的功能，将T日实时写入的这类快照状态字段从Hologres导出到MaxCompute做持久化离线存储，在批任务的链路里离线分区的快照类字段可JOIN这份数据产出，同时也可以用以后续的数据回刷、业务洞察分析。

--回写至MaxCompute
INSERT INTO ads_holo_imp_di_foreign --外表，映射ODPS表ads_xxx_holo_imp_di
        ( 
           date_id               
          ,serv_id 
          ,xxx
        )
SELECT   date_id               
         ,serv_id   
         ,xxx
FROM ads_total_chl_di
WHERE date_id= '${bizdate}';

业务效果

一体化体验洞察于本年初上线，目前主要支持在淘系退款、咨询万求等场景的实时多维交叉分析、智能异常检测，月均50亿+数据量级下的聚合查询基本均能在秒级返回，支持到100+业务小二大促、日常的体验运营洞察分析，助力业务小二单次洞察分析提效10倍以上。

双11大促期间（11.1-11.20），一体化洞察提交执行的Query数为66w+，假设50%的Query为有效查询，同样按照每个Query小二过去平均需要投入10分钟进行编写、执行、检查等操作来计算，共计节省了6875人日，当然如果没有对应的数据/产品能力，小二受限于SQL技能以及开发成本也不会产生这么多查询，但也侧面反映了一体化洞察对小二们工作效率的有力提升。

未来方向和思考

流批一体化

由于目前上游依赖的中间层离线和实时模型还不能完全统一，整体的数据架构还是比较传统的Lambda架构，需要维护离线、实时两套任务，开发、任务运维的成本较高，并且实时、离线数据存在一定的差异。当然从一套代码实现原先流批两条链路的的角度来说，目前基于Hologres的架构下存储统一、计算统一的前提都是具备的，后续我们主要推进DWD中间层的模型统一，完成一体化体验洞察整体数据架构流批一体。

数据集服务管理

为了整体快速上线，目前仍有大量的FBI数据集直连Hologres库而非托管在数据服务平台。因而数据集的监控、压测、慢查询的预警优化等没法依托数据服务平台的能力纳入统一管理，为了保障数据的稳定性、高可用性，后续需要将体验洞察的所有数据集依托服务平台集中管控。

作者：张乃刚（花名：隽驰)，CCO数据开发

原文链接

本文为阿里云原创内容，未经允许不得转载。

你可能感兴趣的:(大数据,人工智能,数据库,云计算,阿里云)

Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
#千锋逆战班郭燕学习的一天开启郭千岁呗
在千锋"逆战"学习云计算第17天加油努力会有好结果复习昨天知识中国加油！武汉加油！千峰加油!我自己加油！
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
阿里云服务器4核8G配置购买及价格类文章汇总（10篇）阿里云最新优惠和活动汇总
阿里云服务器4核8G配置如何购买？价格是多少？4核8G配置的阿里云服务器可以通过云服务器产品页购买也可以通过阿里云活动去下单购买，一般通过活动购买的用户比较多，但是不同实例规格的阿里云服务器价格不一样，带宽不同价格也不一样，本文为大家汇总了10篇关于阿里云服务器4核8G配置购买教程文章和价格类文章，分为购买类文章和价格类文章，以供大家参考如何购买阿里云服务器4核8G配置和最新优惠价格是多少。阿里云
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts