wzy0623

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（五）

五、快照
前面实验说明了处理维度的扩展。本节讨论两种事实表的扩展技术。
有些用户，尤其是管理者，经常要看某个特定时间点的数据。也就是说，他们需要数据的快照。周期快照和累积快照是两种常用的事实表扩展技术。
周期快照是在一个给定的时间对事实表进行一段时期的总计。例如，一个月销售订单周期快照汇总每个月底时总的销售订单金额。
累积快照用于跟踪事实表的变化。例如，数据仓库可能需要累积（存储）销售订单从下订单的时间开始，到订单中的商品被打包、运输和到达的各阶段的时间点数据来跟踪订单生命周期的进展情况。用户可能要取得在某个给定时间点，销售订单处理状态的累积快照。
下面说明周期快照和累积快照的细节问题。

1. 周期快照
下面以销售订单的月底汇总为例说明如何实现一个周期快照。
首先需要添加一个新的事实表。下图中的模式显示了一个名为month_end_sales_order_fact的新事实表。

该表中有两个度量值，month_order_amount和month_order_quantity。这两个值是不能加到sales_order_fact表中的，原因是，sales_order_fact表和新的度量值有不同的时间属性（数据的粒度不同）。sales_order_fact表包含的是每天一条记录。新的度量值要的是每月的数据。使用下面的脚本建立month_end_sales_order_fact表。

USE dw;   
  
CREATE TABLE month_end_sales_order_fact (  
    order_month_sk INT COMMENT 'order month surrogate key', 
    product_sk INT COMMENT 'product surrogate key', 
    month_order_amount DECIMAL(10,2) COMMENT 'month order amount', 
    month_order_quantity INT COMMENT 'month order quantity'
)
CLUSTERED BY (order_month_sk) INTO 8 BUCKETS      
STORED AS ORC TBLPROPERTIES ('transactional'='true');

建立了month_end_sales_order_fact表后，现在需要向表中装载数据。月底销售订单事实表的数据源是已有的销售订单事实表。month_sum.sql文件用于装载月底销售订单事实表，该文件内容如下。

-- 设置变量以支持事务    
set hive.support.concurrency=true;    
set hive.exec.dynamic.partition.mode=nonstrict;    
set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;    
set hive.compactor.initiator.on=true;    
set hive.compactor.worker.threads=1;  

USE dw;  

SET hivevar:pre_month_date = add_months(current_date,-1);  

delete from month_end_sales_order_fact 
 where month_end_sales_order_fact.order_month_sk in
 (select month_sk 
    from month_dim 
   where month = month(${hivevar:pre_month_date}) 
     and year = year(${hivevar:pre_month_date}));
 
insert into month_end_sales_order_fact
select b.month_sk, a.product_sk, sum(order_amount), sum(order_quantity)
  from sales_order_fact a,
       month_dim b,
       order_date_dim d  -- 视图
 where a.order_date_sk = d.order_date_sk
   and b.month = d.month
   and b.year = d.year
   and b.month = month(${hivevar:pre_month_date}) 
   and b.year = year(${hivevar:pre_month_date})
 group by b.month_sk, a.product_sk ;

每个月第一天，在每天销售订单定期装载执行完后，执行此脚本，装载上个月的销售订单数据。为此需要修改Oozie的工作流定义。
（1）修改工作流作业配置文件
修改后的workflow.xml文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<workflow-app xmlns="uri:oozie:workflow:0.1" name="regular_etl">
    <start to="fork-node"/>
    <fork name="fork-node">
        <path start="sqoop-customer" />
        <path start="sqoop-product" />
        <path start="sqoop-sales_order" />
    </fork>

    <action name="sqoop-customer">
        <sqoop xmlns="uri:oozie:sqoop-action:0.2">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <arg>import</arg>
            <arg>--connect</arg>
            <arg>jdbc:mysql://cdh1:3306/source?useSSL=false</arg>
            <arg>--username</arg>
            <arg>root</arg>
            <arg>--password</arg>
            <arg>mypassword</arg>
            <arg>--table</arg>
            <arg>customer</arg>
            <arg>--hive-import</arg>
            <arg>--hive-table</arg>
            <arg>rds.customer</arg>
            <arg>--hive-overwrite</arg>            
            <file>/tmp/hive-site.xml#hive-site.xml</file>
            <archive>/tmp/mysql-connector-java-5.1.38-bin.jar#mysql-connector-java-5.1.38-bin.jar</archive>
        </sqoop>
        <ok to="joining"/>
        <error to="fail"/>
    </action>
	<action name="sqoop-product">
        <sqoop xmlns="uri:oozie:sqoop-action:0.2">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <arg>import</arg>
            <arg>--connect</arg>
            <arg>jdbc:mysql://cdh1:3306/source?useSSL=false</arg>
            <arg>--username</arg>
            <arg>root</arg>
            <arg>--password</arg>
            <arg>mypassword</arg>
            <arg>--table</arg>
            <arg>product</arg>
            <arg>--hive-import</arg>
            <arg>--hive-table</arg>
            <arg>rds.product</arg>
            <arg>--hive-overwrite</arg>            
            <file>/tmp/hive-site.xml#hive-site.xml</file>
            <archive>/tmp/mysql-connector-java-5.1.38-bin.jar#mysql-connector-java-5.1.38-bin.jar</archive>
        </sqoop>
        <ok to="joining"/>
        <error to="fail"/>
    </action>
    <action name="sqoop-sales_order">
        <sqoop xmlns="uri:oozie:sqoop-action:0.2">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <command>job --exec myjob_incremental_import --meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop</command>
            <file>/tmp/hive-site.xml#hive-site.xml</file>
            <archive>/tmp/mysql-connector-java-5.1.38-bin.jar#mysql-connector-java-5.1.38-bin.jar</archive>
        </sqoop>
        <ok to="joining"/>
        <error to="fail"/>
    </action>

    <join name="joining" to="hive-node"/>

    <action name="hive-node">
        <hive xmlns="uri:oozie:hive-action:0.2">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node> 
            <job-xml>/tmp/hive-site.xml</job-xml>
            <script>/tmp/regular_etl.sql</script>
        </hive>
        <ok to="decision-node"/>
        <error to="fail"/>
    </action>

    <decision name="decision-node">
       <switch>
         <case to="month-sum">
             ${date eq 20}
         </case>
         <default to="end"/>
       </switch>
    </decision>

    <action name="month-sum">
        <hive xmlns="uri:oozie:hive-action:0.2">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <job-xml>/tmp/hive-site.xml</job-xml>
            <script>/tmp/month_sum.sql</script>
        </hive>
        <ok to="end"/>
        <error to="fail"/>
    </action>

    <kill name="fail">
        <message>Sqoop failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
    </kill>
    <end name="end"/>
</workflow-app>

在该文件中增加了一个decision-node，当date参数的值等于20时，执行month_sum.sql文件后结束，否则直接结束。之所以这里是20是为了测试。month_sum.sql文件中用的是add_months(current_date,-1)取上个月的年月，因此不必要非得1号执行，任何一天都可以。这个工作流保证了每月汇总只有在每天汇总执行完后才执行，并且每月只执行一次。工作流DAG如下图所示。

（2）修改协调作业配置文件
修改后的coordinator.xml文件内容如下：

<coordinator-app name="regular_etl-coord" frequency="${coord:days(1)}" start="${start}" end="${end}" timezone="${timezone}" xmlns="uri
:oozie:coordinator:0.1">
    <action>
        <workflow>
            <app-path>${workflowAppUri}</app-path>
            <configuration>
                <property>
                    <name>jobTracker</name>
                    <value>${jobTracker}</value>
                </property>
                <property>
                    <name>nameNode</name>
                    <value>${nameNode}</value>
                </property>
                <property>
                    <name>queueName</name>
                    <value>${queueName}</value>
                </property>
                <property>
                    <name>date</name>
                    <value>${date}</value>
                </property>
            </configuration>
        </workflow>
    </action>
</coordinator-app>

在该文件中增加了一个date属性，用于向workflow.xml文件传递date参数的值。

（3）修改协调作业属性文件
修改后的job-coord.properties文件内容如下：

nameNode=hdfs://cdh2:8020
jobTracker=cdh2:8032
queueName=default
oozie.use.system.libpath=true
oozie.coord.application.path=${nameNode}/user/${user.name}
timezone=UTC
start=2016-07-20T01:30Z
end=2020-12-31T01:30Z
workflowAppUri=${nameNode}/user/${user.name}

该文件中只修改了start和end属性的值以用于测试。

（4）部署工作流和协调作业

hdfs dfs -put -f coordinator.xml /user/root/  
hdfs dfs -put -f /root/workflow.xml /user/root/  
hdfs dfs -put -f /etc/hive/conf.cloudera.hive/hive-site.xml /tmp/  
hdfs dfs -put -f /root/mysql-connector-java-5.1.38/mysql-connector-java-5.1.38-bin.jar /tmp/  
hdfs dfs -put -f /root/regular_etl.sql /tmp/
hdfs dfs -put -f /root/month_sum.sql /tmp/

（5）运行协调作业进行测试

oozie job -oozie http://cdh2:11000/oozie -config /root/job-coord.properties -run -D date=`date +"%d"`

通过命令行的-D参数传递date属性的值，date为当前日期数，执行时是20号。
到了9点半工作流开始运行，等执行完全成功后，month_end_sales_order_fact表中有了2016年6月销售订单汇总的两条数据，如下图所示。

order_month_sk的值为198，使用下面的查询可以确认对应的年月是2016年6月。

select year,month from month_dim where month_sk=198;

2. 累积快照
本小节说明如何在销售订单上实现累积快照。
该累加快照跟踪五个销售订单的里程碑：下订单、分配库房、打包、配送和收货。这五个里程碑的日期及其各自的数量来自源数据库的销售订单表。一个订单完整的生命周期由五行描述：下订单的时间一行，订单商品被分配到库房的时间一行，产品打包的时间一行，订单配送的时间一行，订单客户收货的时间一行。每个里程碑各有一个状态：N为新订单，A为已分配库房，P为已打包，S为已配送，R为已收货。源数据库的sales_order表结构必须做相应的改变，以处理五种不同的状态。

（1）修改数据库模式
执行下面的脚本修改数据库模式。

-- MySQL
USE source;  
-- 修改销售订单事务表  
ALTER TABLE sales_order  
  CHANGE order_date status_date datetime  
, ADD order_status VARCHAR(1) AFTER status_date  
, CHANGE order_quantity quantity INT;  

-- 删除sales_order表的主键  
alter table sales_order change order_number order_number int not null;  
alter table sales_order drop primary key;  
 
-- 建立新的主键
alter table sales_order add id int unsigned not null auto_increment primary key comment '主键' first;
 
-- Hive
-- rds.sales_order并没有增加id列，原因有两个：
-- 1. 该列只作为增量检查列，不用存储
-- 2. 不用再重新导入所有数据
use rds;
alter table sales_order
change order_date status_date timestamp comment 'status date';
alter table sales_order
change order_quantity quantity int comment 'quantity';
alter table sales_order
add columns (order_status varchar(1) comment 'order status');

USE dw;  
-- 事实表增加八列
alter table sales_order_fact rename to sales_order_fact_old;
create table sales_order_fact
(
  order_sk int comment 'order surrogate key',
  customer_sk int comment 'customer surrogate key', 
  product_sk int comment 'product surrogate key',
  order_date_sk int comment 'order date surrogate key', 
  allocate_date_sk int comment 'allocate date surrogate key',
  allocate_quantity int comment 'allocate quantity',
  packing_date_sk int comment 'packing date surrogate key',
  packing_quantity int comment 'packing quantity',
  ship_date_sk int comment 'ship date surrogate key',
  ship_quantity int comment 'ship quantity',
  receive_date_sk int comment 'receive date surrogate key',
  receive_quantity int comment 'receive quantity',
  request_delivery_date_sk int comment 'request delivery date surrogate key',
  order_amount decimal(10,2) comment 'order amount',
  order_quantity int comment 'order quantity'
)
CLUSTERED BY (order_sk) INTO 8 BUCKETS  
STORED AS ORC TBLPROPERTIES ('transactional'='true'); 
insert into sales_order_fact 
select order_sk,
       customer_sk,
       product_sk,
       order_date_sk,
       null,
       null,
       null,
       null,
       null,
       null,
       null,
       null,
       request_delivery_date_sk,
       order_amount,
       order_quantity
  from sales_order_fact_old;
drop table sales_order_fact_old;
  
-- 建立四个日期维度视图  
CREATE VIEW allocate_date_dim (allocate_date_sk, allocate_date, month, month_name, quarter, year, promo_ind) 
AS 
SELECT date_sk,
       date,
       month,
       month_name,
       quarter,
       year,
       promo_ind
  FROM date_dim ;
  
CREATE VIEW packing_date_dim (packing_date_sk, packing_date, month, month_name, quarter, year, promo_ind) 
AS  
SELECT date_sk,
       date,
       month,
       month_name,
       quarter,
       year,
       promo_ind
  FROM date_dim ;
  
CREATE VIEW ship_date_dim (ship_date_sk, ship_date, month, month_name, quarter, year, promo_ind) 
AS  
SELECT date_sk,
       date,
       month,
       month_name,
       quarter,
       year,
       promo_ind
  FROM date_dim ;
  
CREATE VIEW receive_date_dim (receive_date_sk, receive_date, month, month_name, quarter, year, promo_ind) 
AS  
SELECT date_sk,
       date,
       month,
       month_name,
       quarter,
       year,
       promo_ind
  FROM date_dim ;

修改后的数据仓库模式如下图所示。

对源数据库的修改如下：把order_date列改名为status_date，添加了名为order_status的列，并把order_quantity列改名为quantity。正如名字所表示的，order_status列用于存储N，A，P，S或R之一。它描述了status_date列对应的状态值。如果一条记录的状态为N，则status_date列是下订单的日期。如果状态是R，status_date列是收货日期。对数据仓库的修改如下：给现有的sales_order_fact表添加四个数量和四个日期代理键，要加的新列是allocate_date_sk、allocate_quantity、packing_date_sk、packing_quantity、ship_date_sk、ship_quantity、receive_date_sk、receive_quantity。还要在日期维度上使用数据库视图角色扮演生成四个新的日期代理键。

（2）重建Sqoop作业
使用下面的脚本重建Sqoop作业，因为源表会有多个相同的order_number，所以不能再用它作为检查字段，将检查字段改为id

last_value=`sqoop job --show myjob_incremental_import --meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop | grep incremental.last.value | awk '{print $3}'`
sqoop job --delete myjob_incremental_import --meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop  
sqoop job \
--meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop \
--create myjob_incremental_import \
-- \
import \
--connect "jdbc:mysql://cdh1:3306/source?useSSL=false&user=root&password=mypassword" \
--table sales_order \
--columns "order_number, customer_number, product_code, status_date, entry_date, order_amount, quantity, request_delivery_date, order_status" \
--hive-import \
--hive-table rds.sales_order \
--incremental append \
--check-column id \
--last-value $last_value

（3）修改定期装载regular_etl.sql文件
需要依据数据库模式修改定期装载的HiveQL脚本，修改后的脚本如下所示。

-- 设置变量以支持事务    
set hive.support.concurrency=true;    
set hive.exec.dynamic.partition.mode=nonstrict;    
set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;    
set hive.compactor.initiator.on=true;    
set hive.compactor.worker.threads=1;    
    
USE dw;    
      
-- 设置SCD的生效时间和过期时间    
SET hivevar:cur_date = CURRENT_DATE();    
SET hivevar:pre_date = DATE_ADD(${hivevar:cur_date},-1);    
SET hivevar:max_date = CAST('2200-01-01' AS DATE);    
      
-- 设置CDC的上限时间    
INSERT OVERWRITE TABLE rds.cdc_time SELECT last_load, ${hivevar:cur_date} FROM rds.cdc_time;    
    
-- 装载customer维度    
-- 设置已删除记录和地址相关列上SCD2的过期，用<=>运算符处理NULL值。    
UPDATE customer_dim     
   SET expiry_date = ${hivevar:pre_date}      
 WHERE customer_dim.customer_sk IN      
(SELECT a.customer_sk     
   FROM (SELECT customer_sk,    
                customer_number,    
                customer_street_address,    
                customer_zip_code,    
                customer_city,    
                customer_state,    
                shipping_address,    
                shipping_zip_code,    
                shipping_city,    
                shipping_state    
           FROM customer_dim WHERE expiry_date = ${hivevar:max_date}) a LEFT JOIN     
                rds.customer b ON a.customer_number = b.customer_number     
          WHERE b.customer_number IS NULL OR     
          (  !(a.customer_street_address <=> b.customer_street_address)    
          OR !(a.customer_zip_code <=> b.customer_zip_code)    
          OR !(a.customer_city <=> b.customer_city)    
          OR !(a.customer_state <=> b.customer_state)    
          OR !(a.shipping_address <=> b.shipping_address)    
          OR !(a.shipping_zip_code <=> b.shipping_zip_code)    
          OR !(a.shipping_city <=> b.shipping_city)    
          OR !(a.shipping_state <=> b.shipping_state)    
          ));     
    
-- 处理customer_street_addresses列上SCD2的新增行      
INSERT INTO customer_dim    
SELECT    
    ROW_NUMBER() OVER (ORDER BY t1.customer_number) + t2.sk_max,    
    t1.customer_number,    
    t1.customer_name,    
    t1.customer_street_address,    
    t1.customer_zip_code,    
    t1.customer_city,    
    t1.customer_state,    
    t1.shipping_address,    
    t1.shipping_zip_code,    
    t1.shipping_city,    
    t1.shipping_state,    
    t1.version,    
    t1.effective_date,    
    t1.expiry_date    
FROM      
(      
SELECT      
    t2.customer_number customer_number,    
    t2.customer_name customer_name,    
    t2.customer_street_address customer_street_address,    
    t2.customer_zip_code customer_zip_code,    
    t2.customer_city customer_city,    
    t2.customer_state customer_state,    
    t2.shipping_address shipping_address,    
    t2.shipping_zip_code shipping_zip_code,    
    t2.shipping_city shipping_city,    
    t2.shipping_state shipping_state,    
    t1.version + 1 version,    
    ${hivevar:pre_date} effective_date,      
    ${hivevar:max_date} expiry_date      
 FROM customer_dim t1     
INNER JOIN rds.customer t2      
   ON t1.customer_number = t2.customer_number       
  AND t1.expiry_date = ${hivevar:pre_date}      
 LEFT JOIN customer_dim t3     
   ON t1.customer_number = t3.customer_number     
  AND t3.expiry_date = ${hivevar:max_date}      
WHERE (!(t1.customer_street_address <=> t2.customer_street_address)    
   OR  !(t1.customer_zip_code <=> t2.customer_zip_code)    
   OR  !(t1.customer_city <=> t2.customer_city)    
   OR  !(t1.customer_state <=> t2.customer_state)    
   OR  !(t1.shipping_address <=> t2.shipping_address)    
   OR  !(t1.shipping_zip_code <=> t2.shipping_zip_code)    
   OR  !(t1.shipping_city <=> t2.shipping_city)    
   OR  !(t1.shipping_state <=> t2.shipping_state)    
   )    
  AND t3.customer_sk IS NULL) t1      
CROSS JOIN      
(SELECT COALESCE(MAX(customer_sk),0) sk_max FROM customer_dim) t2;    
    
-- 处理customer_name列上的SCD1    
-- 因为hive的update的set子句还不支持子查询，所以这里使用了一个临时表存储需要更新的记录，用先delete再insert代替update    
-- 因为SCD1本身就不保存历史数据，所以这里更新维度表里的所有customer_name改变的记录，而不是仅仅更新当前版本的记录    
DROP TABLE IF EXISTS tmp;    
CREATE TABLE tmp AS    
SELECT    
    a.customer_sk,    
    a.customer_number,    
    b.customer_name,    
    a.customer_street_address,    
    a.customer_zip_code,    
    a.customer_city,    
    a.customer_state,    
    a.shipping_address,    
    a.shipping_zip_code,    
    a.shipping_city,    
    a.shipping_state,    
    a.version,    
    a.effective_date,    
    a.expiry_date    
  FROM customer_dim a, rds.customer b      
 WHERE a.customer_number = b.customer_number AND !(a.customer_name <=> b.customer_name);      
DELETE FROM customer_dim WHERE customer_dim.customer_sk IN (SELECT customer_sk FROM tmp);      
INSERT INTO customer_dim SELECT * FROM tmp;    
    
-- 处理新增的customer记录     
INSERT INTO customer_dim    
SELECT    
    ROW_NUMBER() OVER (ORDER BY t1.customer_number) + t2.sk_max,    
    t1.customer_number,    
    t1.customer_name,    
    t1.customer_street_address,    
    t1.customer_zip_code,    
    t1.customer_city,    
    t1.customer_state,    
    t1.shipping_address,    
    t1.shipping_zip_code,    
    t1.shipping_city,    
    t1.shipping_state,    
    1,    
    ${hivevar:pre_date},    
    ${hivevar:max_date}    
FROM      
(      
SELECT t1.* FROM rds.customer t1 LEFT JOIN customer_dim t2 ON t1.customer_number = t2.customer_number      
 WHERE t2.customer_sk IS NULL) t1      
CROSS JOIN      
(SELECT COALESCE(MAX(customer_sk),0) sk_max FROM customer_dim) t2;    
    
-- 重载PA客户维度    
TRUNCATE TABLE pa_customer_dim;      
INSERT INTO pa_customer_dim      
SELECT      
  customer_sk      
, customer_number      
, customer_name      
, customer_street_address      
, customer_zip_code      
, customer_city      
, customer_state      
, shipping_address      
, shipping_zip_code      
, shipping_city      
, shipping_state      
, version      
, effective_date      
, expiry_date      
FROM customer_dim      
WHERE customer_state = 'PA' ;     
    
-- 装载product维度    
-- 设置已删除记录和product_name、product_category列上SCD2的过期    
UPDATE product_dim    
   SET expiry_date = ${hivevar:pre_date}      
 WHERE product_dim.product_sk IN      
(SELECT a.product_sk     
   FROM (SELECT product_sk,product_code,product_name,product_category     
           FROM product_dim WHERE expiry_date = ${hivevar:max_date}) a LEFT JOIN     
                rds.product b ON a.product_code = b.product_code     
          WHERE b.product_code IS NULL OR (a.product_name <> b.product_name OR a.product_category <> b.product_category));    
    
-- 处理product_name、product_category列上SCD2的新增行      
INSERT INTO product_dim    
SELECT    
    ROW_NUMBER() OVER (ORDER BY t1.product_code) + t2.sk_max,    
    t1.product_code,    
    t1.product_name,    
    t1.product_category,    
    t1.version,    
    t1.effective_date,    
    t1.expiry_date    
FROM      
(      
SELECT      
    t2.product_code product_code,    
    t2.product_name product_name,    
    t2.product_category product_category,        
    t1.version + 1 version,    
    ${hivevar:pre_date} effective_date,      
    ${hivevar:max_date} expiry_date      
 FROM product_dim t1     
INNER JOIN rds.product t2      
   ON t1.product_code = t2.product_code      
  AND t1.expiry_date = ${hivevar:pre_date}      
 LEFT JOIN product_dim t3     
   ON t1.product_code = t3.product_code     
  AND t3.expiry_date = ${hivevar:max_date}      
WHERE (t1.product_name <> t2.product_name OR t1.product_category <> t2.product_category) AND t3.product_sk IS NULL) t1      
CROSS JOIN      
(SELECT COALESCE(MAX(product_sk),0) sk_max FROM product_dim) t2;    
    
-- 处理新增的product记录    
INSERT INTO product_dim    
SELECT    
    ROW_NUMBER() OVER (ORDER BY t1.product_code) + t2.sk_max,    
    t1.product_code,    
    t1.product_name,    
    t1.product_category,    
    1,    
    ${hivevar:pre_date},    
    ${hivevar:max_date}    
FROM      
(      
SELECT t1.* FROM rds.product t1 LEFT JOIN product_dim t2 ON t1.product_code = t2.product_code      
 WHERE t2.product_sk IS NULL) t1      
CROSS JOIN      
(SELECT COALESCE(MAX(product_sk),0) sk_max FROM product_dim) t2;    
    
-- 装载order维度，
-- 前一天新增的销售订单号   
INSERT INTO order_dim    
SELECT    
    ROW_NUMBER() OVER (ORDER BY t1.order_number) + t2.sk_max,    
    t1.order_number,    
    t1.version,    
    t1.effective_date,    
    t1.expiry_date    
  FROM    
(    
SELECT    
    order_number order_number,    
    1 version,    
    status_date effective_date,    
    '2200-01-01' expiry_date    
  FROM rds.sales_order, rds.cdc_time     
 WHERE order_status = 'N' AND entry_date >= last_load AND entry_date < current_load ) t1    
CROSS JOIN      
(SELECT COALESCE(MAX(order_sk),0) sk_max FROM order_dim) t2;    
    
-- 装载销售订单事实表 
-- 前一天新增的销售订单   
INSERT INTO sales_order_fact    
SELECT    
    order_sk,    
    customer_sk,    
    product_sk,    
    e.order_date_sk,
    null,
    null,
    null,
    null,
    null,
    null,
    null,
    null,
    f.request_delivery_date_sk,
    order_amount,    
    quantity    
  FROM    
    rds.sales_order a,    
    order_dim b,    
    customer_dim c,    
    product_dim d,    
    order_date_dim e,  
    request_delivery_date_dim f,  
    rds.cdc_time g    
 WHERE 
    a.order_status = 'N'
AND a.order_number = b.order_number    
AND a.customer_number = c.customer_number    
AND a.status_date >= c.effective_date    
AND a.status_date < c.expiry_date    
AND a.product_code = d.product_code    
AND a.status_date >= d.effective_date    
AND a.status_date < d.expiry_date    
AND to_date(a.status_date) = e.order_date   
AND to_date(a.request_delivery_date) = f.request_delivery_date   
AND a.entry_date >= g.last_load AND a.entry_date < g.current_load ;    

-- 处理分配库房、打包、配送和收货四个状态
DROP TABLE IF EXISTS tmp;
CREATE TABLE tmp AS
select t0.order_sk order_sk,
       t0.customer_sk customer_sk,
       t0.product_sk product_sk,
       t0.order_date_sk order_date_sk,
       t2.allocate_date_sk allocate_date_sk,
       t1.quantity allocate_quantity,
       t0.packing_date_sk packing_date_sk,
       t0.packing_quantity packing_quantity,
       t0.ship_date_sk ship_date_sk,
       t0.ship_quantity ship_quantity,
       t0.receive_date_sk receive_date_sk,
       t0.receive_quantity receive_quantity,
       t0.request_delivery_date_sk request_delivery_date_sk,
       t0.order_amount order_amount,
       t0.order_quantity order_quantity
  from sales_order_fact t0,
       rds.sales_order t1,
       allocate_date_dim t2,
       order_dim t3,
       rds.cdc_time t4
 where t0.order_sk = t3.order_sk
   and t3.order_number = t1.order_number and t1.order_status = 'A' 
   and to_date(t1.status_date) = t2.allocate_date
   and t1.entry_date >= t4.last_load and t1.entry_date < t4.current_load;

DELETE FROM sales_order_fact WHERE sales_order_fact.order_sk IN (SELECT order_sk FROM tmp); 
INSERT INTO sales_order_fact SELECT * FROM tmp;

DROP TABLE IF EXISTS tmp;
CREATE TABLE tmp AS
select t0.order_sk order_sk,
       t0.customer_sk customer_sk,
       t0.product_sk product_sk,
       t0.order_date_sk order_date_sk,
       t0.allocate_date_sk allocate_date_sk,
       t0.allocate_quantity allocate_quantity,
       t2.packing_date_sk packing_date_sk,
       t1.quantity packing_quantity,
       t0.ship_date_sk ship_date_sk,
       t0.ship_quantity ship_quantity,
       t0.receive_date_sk receive_date_sk,
       t0.receive_quantity receive_quantity,
       t0.request_delivery_date_sk request_delivery_date_sk,
       t0.order_amount order_amount,
       t0.order_quantity order_quantity
  from sales_order_fact t0,
       rds.sales_order t1,
       packing_date_dim t2,
       order_dim t3,
       rds.cdc_time t4
 where t0.order_sk = t3.order_sk
   and t3.order_number = t1.order_number and t1.order_status = 'P' 
   and to_date(t1.status_date) = t2.packing_date
   and t1.entry_date >= t4.last_load and t1.entry_date < t4.current_load; 
   
DELETE FROM sales_order_fact WHERE sales_order_fact.order_sk IN (SELECT order_sk FROM tmp); 
INSERT INTO sales_order_fact SELECT * FROM tmp;

DROP TABLE IF EXISTS tmp;
CREATE TABLE tmp AS
select t0.order_sk order_sk,
       t0.customer_sk customer_sk,
       t0.product_sk product_sk,
       t0.order_date_sk order_date_sk,
       t0.allocate_date_sk allocate_date_sk,
       t0.allocate_quantity allocate_quantity,
       t0.packing_date_sk packing_date_sk,
       t0.packing_quantity packing_quantity,
       t2.ship_date_sk ship_date_sk,
       t1.quantity ship_quantity,
       t0.receive_date_sk receive_date_sk,
       t0.receive_quantity receive_quantity,
       t0.request_delivery_date_sk request_delivery_date_sk,
       t0.order_amount order_amount,
       t0.order_quantity order_quantity
  from sales_order_fact t0,
       rds.sales_order t1,
       ship_date_dim t2,
       order_dim t3,
       rds.cdc_time t4
 where t0.order_sk = t3.order_sk
   and t3.order_number = t1.order_number and t1.order_status = 'S' 
   and to_date(t1.status_date) = t2.ship_date
   and t1.entry_date >= t4.last_load and t1.entry_date < t4.current_load;
   
DELETE FROM sales_order_fact WHERE sales_order_fact.order_sk IN (SELECT order_sk FROM tmp); 
INSERT INTO sales_order_fact SELECT * FROM tmp;

DROP TABLE IF EXISTS tmp;
CREATE TABLE tmp AS
select t0.order_sk order_sk,
       t0.customer_sk customer_sk,
       t0.product_sk product_sk,
       t0.order_date_sk order_date_sk,
       t0.allocate_date_sk allocate_date_sk,
       t0.allocate_quantity allocate_quantity,
       t0.packing_date_sk packing_date_sk,
       t0.packing_quantity packing_quantity,
       t0.ship_date_sk ship_date_sk,
       t0.ship_quantity ship_quantity,
       t2.receive_date_sk receive_date_sk,
       t1.quantity receive_quantity,
       t0.request_delivery_date_sk request_delivery_date_sk,
       t0.order_amount order_amount,
       t0.order_quantity order_quantity
  from sales_order_fact t0,
       rds.sales_order t1,
       receive_date_dim t2,
       order_dim t3,
       rds.cdc_time t4
 where t0.order_sk = t3.order_sk
   and t3.order_number = t1.order_number and t1.order_status = 'R' 
   and to_date(t1.status_date) = t2.receive_date
   and t1.entry_date >= t4.last_load and t1.entry_date < t4.current_load;
   
DELETE FROM sales_order_fact WHERE sales_order_fact.order_sk IN (SELECT order_sk FROM tmp); 
INSERT INTO sales_order_fact SELECT * FROM tmp;

-- 更新时间戳表的last_load字段    
INSERT OVERWRITE TABLE rds.cdc_time SELECT current_load, current_load FROM rds.cdc_time;

3. 测试
（1）新增两个销售订单

USE source;  
/***        
新增订单日期为2016年7月20日的2条订单。    
***/      
SET @start_date := unix_timestamp('2016-07-20');      
SET @end_date := unix_timestamp('2016-07-21');   
SET @request_delivery_date := '2016-07-25';     
DROP TABLE IF EXISTS temp_sales_order_data;      
CREATE TABLE temp_sales_order_data AS SELECT * FROM sales_order WHERE 1=0;       
      
SET @order_date := from_unixtime(@start_date + rand() * (@end_date - @start_date));      
SET @amount := floor(1000 + rand() * 9000);    
SET @quantity := floor(10 + rand() * 90);    
INSERT INTO temp_sales_order_data VALUES (1, 1, 1, 1, @order_date, 'N', @request_delivery_date, @order_date, @amount, @quantity);      
      
SET @order_date := from_unixtime(@start_date + rand() * (@end_date - @start_date));      
SET @amount := floor(1000 + rand() * 9000);      
SET @quantity := floor(10 + rand() * 90);    
INSERT INTO temp_sales_order_data VALUES (2, 2, 2, 2, @order_date, 'N', @request_delivery_date, @order_date, @amount, @quantity);         

INSERT INTO sales_order      
select null,
       (@order_number:=@order_number + 1) + 128,
       customer_number,
       product_code,
       status_date,
       order_status,
       request_delivery_date,
       entry_date,
       order_amount,
       quantity
  from temp_sales_order_data t1,(select @order_number:=0) t2
 order by t1.status_date;        
    
COMMIT ;

（2）设置cdc_time的日期

use rds;
INSERT OVERWRITE TABLE rds.cdc_time SELECT '2016-07-20', '2016-07-21' FROM rds.cdc_time;

将regular_etl.sql文件中的SET hivevar:cur_date = CURRENT_DATE();行改为SET hivevar:cur_date = '2016-07-21';

（3）执行定期装载脚本

./regular_etl.sh

（4）查询sales_order_fact表里的两个销售订单，确认定期装载成功

use dw;
select b.order_number,
       c.order_date,
       d.allocate_date,
       e.packing_date,
       f.ship_date,
       g.receive_date
  from sales_order_fact a
 inner join order_dim b on a.order_sk = b.order_sk
  left join order_date_dim c on a.order_date_sk = c.order_date_sk
  left join allocate_date_dim d on a.allocate_date_sk = d.allocate_date_sk
  left join packing_date_dim e on a.packing_date_sk = e.packing_date_sk
  left join ship_date_dim f on a.ship_date_sk = f.ship_date_sk
  left join receive_date_dim g on a.receive_date_sk = g.receive_date_sk
 where b.order_number IN (129 , 130);

查询结果如下图所示，只有order_date列有值，其它日期都是NULL，因为这两个订单是新增的，并且还没有分配库房、打包、配送或收货。

（5）添加销售订单作为这两个订单的分配库房和/或打包的里程碑

USE source;  

SET @start_date := unix_timestamp('2016-07-21');      
SET @end_date := unix_timestamp('2016-07-22');   
SET @mid_date := unix_timestamp('2016-07-21 12:00:00');
SET @request_delivery_date := '2016-07-25';     
DROP TABLE IF EXISTS temp_sales_order_data;      
CREATE TABLE temp_sales_order_data AS SELECT * FROM sales_order WHERE 1=0;       
      
SET @order_date := from_unixtime(@start_date + rand() * (@mid_date - @start_date));   
select order_amount,quantity into @amount,@quantity from sales_order where order_number=129;
INSERT INTO temp_sales_order_data VALUES (1, 129, 1, 1, @order_date, 'A', @request_delivery_date, @order_date, @amount, @quantity);      
      
SET @order_date := from_unixtime(@mid_date + rand() * (@end_date - @mid_date));      
INSERT INTO temp_sales_order_data VALUES (2, 129, 1, 1, @order_date, 'P', @request_delivery_date, @order_date, @amount, @quantity);         

SET @order_date := from_unixtime(@start_date + rand() * (@end_date - @start_date));   
select order_amount,quantity into @amount,@quantity from sales_order where order_number=130;
INSERT INTO temp_sales_order_data VALUES (3, 130, 2, 2, @order_date, 'A', @request_delivery_date, @order_date, @amount, @quantity);

INSERT INTO sales_order      
select null,
       order_number,
       customer_number,
       product_code,
       status_date,
       order_status,
       request_delivery_date,
       entry_date,
       order_amount,
       quantity
  from temp_sales_order_data
 order by entry_date;

COMMIT ;

（6）修改cdc_time的日期

use rds;
INSERT OVERWRITE TABLE rds.cdc_time SELECT '2016-07-21', '2016-07-22' FROM rds.cdc_time;

将regular_etl.sql文件中的SET hivevar:cur_date = CURRENT_DATE();行改为SET hivevar:cur_date = '2016-07-22';

（7）执行定期装载脚本

./regular_etl.sh

（8）查询sales_order_fact表里的两个销售订单，确认定期装载成功

use dw;
select b.order_number,
       c.order_date,
       d.allocate_date,
       e.packing_date,
       f.ship_date,
       g.receive_date
  from sales_order_fact a
 inner join order_dim b on a.order_sk = b.order_sk
  left join order_date_dim c on a.order_date_sk = c.order_date_sk
  left join allocate_date_dim d on a.allocate_date_sk = d.allocate_date_sk
  left join packing_date_dim e on a.packing_date_sk = e.packing_date_sk
  left join ship_date_dim f on a.ship_date_sk = f.ship_date_sk
  left join receive_date_dim g on a.receive_date_sk = g.receive_date_sk
 where b.order_number IN (129 , 130);

查询结果如下图所示。第一个订单具有了allocate_date和packing_date，第二个只具有allocate_date。

（9）添加销售订单作为这两个订单后面的里程碑：打包、配送和/或收货。注意四个日期可能相同。

USE source;  

SET @start_date := unix_timestamp('2016-07-22');      
SET @end_date := unix_timestamp('2016-07-23');   
SET @mid_date := unix_timestamp('2016-07-22 12:00:00');
SET @request_delivery_date := '2016-07-25';     
DROP TABLE IF EXISTS temp_sales_order_data;      
CREATE TABLE temp_sales_order_data AS SELECT * FROM sales_order WHERE 1=0;       
      
SET @order_date := from_unixtime(@start_date + rand() * (@mid_date - @start_date));   
select order_amount,quantity into @amount,@quantity from sales_order where order_number=129 limit 1;
INSERT INTO temp_sales_order_data VALUES (1, 129, 1, 1, @order_date, 'S', @request_delivery_date, @order_date, @amount, @quantity);      
      
SET @order_date := from_unixtime(@mid_date + rand() * (@end_date - @mid_date));      
INSERT INTO temp_sales_order_data VALUES (2, 129, 1, 1, @order_date, 'R', @request_delivery_date, @order_date, @amount, @quantity);         

SET @order_date := from_unixtime(@start_date + rand() * (@end_date - @start_date));   
select order_amount,quantity into @amount,@quantity from sales_order where order_number=130 limit 1;
INSERT INTO temp_sales_order_data VALUES (3, 130, 2, 2, @order_date, 'P', @request_delivery_date, @order_date, @amount, @quantity);

INSERT INTO sales_order      
select null,
       order_number,
       customer_number,
       product_code,
       status_date,
       order_status,
       request_delivery_date,
       entry_date,
       order_amount,
       quantity
  from temp_sales_order_data
 order by entry_date;

COMMIT ;

（10）修改cdc_time的日期

use rds;
INSERT OVERWRITE TABLE rds.cdc_time SELECT '2016-07-22', '2016-07-23' FROM rds.cdc_time;

将regular_etl.sql文件中的SET hivevar:cur_date = CURRENT_DATE();行改为SET hivevar:cur_date = '2016-07-23';

（11）执行定期装载脚本

./regular_etl.sh

（12）查询sales_order_fact表里的两个销售订单，确认定期装载成功

use dw;
select b.order_number,
       c.order_date,
       d.allocate_date,
       e.packing_date,
       f.ship_date,
       g.receive_date
  from sales_order_fact a
 inner join order_dim b on a.order_sk = b.order_sk
  left join order_date_dim c on a.order_date_sk = c.order_date_sk
  left join allocate_date_dim d on a.allocate_date_sk = d.allocate_date_sk
  left join packing_date_dim e on a.packing_date_sk = e.packing_date_sk
  left join ship_date_dim f on a.ship_date_sk = f.ship_date_sk
  left join receive_date_dim g on a.receive_date_sk = g.receive_date_sk
 where b.order_number IN (129 , 130);

查询结果如下图所示。第一个订单号为129的订单，具有了全部日期，这意味着订单已完成（客户已经收货）。第二个订单已经打包，但是还没有配送。

（13）还原
将regular_etl.sql文件中的SET hivevar:cur_date = DATE_ADD(CURRENT_DATE(),2);行改为SET hivevar:cur_date = CURRENT_DATE();

你可能感兴趣的:(基于Hadoop生态圈的数据仓库实践 —— 进阶技术（五）)

Redis集群的高可用架构及维护 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2019年，随着云计算、微服务架构和容器技术的流行，NoSQL数据库和缓存技术越来越受到企业应用需求的关注。Redis集群作为一款开源内存键值存储数据库，在高性能、易用性等方面都给予了开发者更高的满意度。但在实际生产环境中运行Redis集群却并不容易，如何保证Redis集群的高可用、可靠性和持久化一直是很多公司关心的问题。本文将从以下两个角度出发，分析Redis
云计算的概念与特点：开启数字化时代的新篇章 ivwdcwso 运维云计算
在当今数字化时代，云计算（CloudComputing）已经成为推动技术创新和业务转型的核心力量。无论是大型企业、中小型企业，还是个人用户，云计算都为其提供了高效、灵活和经济的解决方案。本文将深入探讨云计算的概念及其核心特点，帮助读者全面了解这一革命性技术。©ivwdcwso(ID:u012172506)一、云计算的概念云计算是一种基于互联网的计算模式，通过将计算资源（如服务器、存储、网络、数据库
python模块os和 importlib实战指南 ivwdcwso 开发运维 python 服务器运维开发 devops
os和importlib是Python中两个非常强大的模块，分别用于与操作系统交互和动态导入模块。本文将通过实际代码示例，展示如何在实际项目中使用这两个模块，帮助你更好地理解它们的用途和应用场景。©ivwdcwso(ID:u012172506)1.os模块实战os模块主要用于与操作系统交互，例如读取环境变量、操作文件路径、执行系统命令等。以下是os模块的常见实战场景。1.1读取环境变量在开发中，我
Django 日志配置实战指南 ivwdcwso django 数据库 sqlite python 开发
日志是Django项目中不可或缺的一部分，它帮助我们记录应用程序的运行状态、调试信息、错误信息等。通过合理配置日志，我们可以更好地监控和调试应用程序。本文将详细介绍如何在Django项目中实现日志文件分割、日志级别控制以及多环境日志配置，并结合最佳实践和代码示例，帮助你全面掌握Django日志的使用。1.日志级别概述Python的日志模块定义了以下日志级别（从低到高）：DEBUG：详细的调试信息，
优雅驾驭 TryParse：技巧与实战全攻略东百牧码人 c#数据结构
一、引言在编程的世界里，数据类型的转换是我们经常会遇到的操作。而TryParse方法作为一种安全、高效的类型转换方式，在许多编程语言中都有着广泛的应用，比如C#、Java等。它能够帮助我们在将字符串转换为其他数据类型时，避免因格式不正确而引发的异常，使我们的程序更加健壮和稳定。今天，咱们就来聊聊如何优雅地使用TryParse，让你的代码既简洁又高效，展现出编程的艺术之美。二、TryParse基础解
跨境电商都爱的AI图片视频翻译工具，究竟是啥 ssk521125 人工智能大数据 ai
家人们，做跨境电商的都知道，语言真的是一道大坎！要把咱的商品图文、宣传视频推向全球市场，不懂当地语言可不行。找人工翻译吧，价格贵不说，效率还不高。自己用那些免费的基础翻译软件，翻译出来的内容要么生硬，要么根本不准确，简直没法用。就在大家为这个问题头疼的时候，一款神秘的翻译工具在跨境电商圈里火了起来，好多跨境电商从业者都对它赞不绝口，到底是啥工具这么厉害呢？今天我就给大家好好扒一扒！风车AI翻译官网
浏览器中实现3D全景浏览 snawy three.js 全景图 WebGL
如果你用过网页版的百度地图，你大概3D全景图浏览是一种怎样的酷炫体验：在一个点可以360度环顾周围的建筑、景色，当然也可以四周移动，就像身临其境。科普全景图共分为三种：①球面全景图利用一张全景图围成一个球，自身位置位于球体内。由于图片是矩形，所以最上和最下的缝合处很明显就能够看得出来。球面全景图是最接近人眼的构建模式，若利用多个立面构建，拼接方法繁琐，性能消耗高。因此，本文介绍的是上述通过一张全景
java设计模式-创建型模式-建造者模式 shuair java设计模式 java 设计模式建造者模式
java设计模式-创建型模式-建造者模式场景举例根据表名、每页条数、偏移量等属性进行拼接组装，并且根据不同的数据库类型生成不同的sql脚本观察Lombok@Builder注解生成的代码源码packagexin.yangshuai.basic01.gof23.builder;importlombok.Builder;@BuilderpublicclassDatabaseSqlLombok{/***数
django使用踩坑经历 AI航海家(Ethan) Django python 后端框架 django sqlite 数据库 postgresql
DRF使用drf获取序列化后的idvisitor_serializer=VisitorSaveSerializer(data={…})ifvisitor_serializer.is_valid():visitor=visitor_serializer.save()visitor_id=visitor.pkpostgrepsql踩坑django使用postgrepsql，使用聚合函数如:sum等，被
Three.js学习笔记(一) hzxwonder three.js webgl three.js
Three.js学习笔记(一)1.四大组建1.场景任何要显示的东西，放在场景的任何位置一个页面可以有多个场景实现方式THREE.Scene=function()2.相机浏览器中所能看到的东西，就是由相机拍摄出来。即将相机能看到的内容显示在浏览器画面上分类1.透视相机近大远小+灭点2.正投影相机远处和近处一样大，也称正交相机参数THREE.PerspectiveCamera=function(fov
GOCI-L2可以指定变量和日期批量下载一休哥※ 数据集下载 windows 数据库数据集 GOCI
下载数据集运行批量下载脚本按需修改代码注意修改时间修改需要的变量zip下载结果实现批量下载GOCI-II数据集标记 GOCI-II数据集下载脚本运行批量下载脚本数据集网站：https://kosc.kiost.ac.kr/gociSearch/list.nm?menuCd=11&lang=ko&url=gociSearch&dirString=/COMS/GOCI/L2/有批量下载数据集的需求，
华为OD机试常见类型题目的C++ 代码实现（二）请向我看齐 c和指针华为od c++开发语言
最长公共子序列（LCS）#include#includeusingnamespacestd;//函数功能：计算两个序列的最长公共子序列的长度//参数seq1：第一个序列//参数seq2：第二个序列intlongestCommonSubsequence(vector&seq1,vector&seq2){intm=seq1.size();intn=seq2.size();//创建二维动态数组dp，用于
leetCode热门100题——3.最长连续序列 Bin二叉 leetcode 算法数据结构 java
目录题目描述分析方法：从最小数开始遍历思路代码时间复杂度题目描述给定一个未排序的整数数组nums，找出数字连续的最长序列（不要求序列元素在原数组中连续）的长度。请你设计并实现时间复杂度为O(n)的算法解决此问题。示例1：输入：nums=[100,4,200,1,3,2]输出：4解释：最长数字连续序列是[1,2,3,4]。它的长度为4。示例2：输入：nums=[0,3,7,2,5,8,4,6,0,1
Django WSGI 异步处理和多线程的实战指南 penmily django python
1.DjangoWSGI的架构和工作原理Django作为Python编程语言中最受欢迎的web框架之一，其WSGI（WebServerGatewayInterface）支持为应用的扩展性和性能优化提供了基础。本章将介绍DjanogWSGI架构的基本组成，阐述其工作原理，并分析它是如何使得Django应用能够与各种web服务器进行交互的。1.1WSGI架构的组成WSGI是Python的一种协议，定义
QT笔记——QComboBox 繁缕怀夕 QT qt 学习开发语言
文章目录一、概要二、基础函数三、基础应用1、内容居中显示一、概要本文章主要记录，在实际开发运行中，有关“QComboBox”相关的基础应用。二、基础函数函数名描述setCurrentIndex(intnum)设置当前选项的索引currentIndex()const获取当前选中项目的索引。如果没有选中任何项目，则返回-1currentText()const获取当前选中项目的文本––count()co
Qt笔记——QLineEdit 繁缕怀夕 QT qt 开发语言
QT零基础——QLineEdit1、QLineEdit类1.1、常用成员函数1.2、常用信号2、QLineEdit功能实现1、QLineEdit类//根据学习实践进度–程序更新1.1、常用成员函数成员函数说明clear()清空LineEdit中的文本内容text()const获取LineEdit的当前文本内容setText(constQString&)设置LineEdit的文本内容setText(
激光线扫标定和相机标定：中高级C++程序员与计算机视觉工程师的指南 m0_57781768 数码相机 c++计算机视觉
激光线扫标定和相机标定：中高级C++程序员与计算机视觉工程师的指南简介在计算机视觉和机器人领域，激光标定和相机标定是实现高精度测量和检测的关键技术。激光线扫标定和相机标定在许多应用中都是必不可少的，如自动驾驶、工业检测、三维重建等。本文将详细介绍激光线扫标定和相机标定的基本概念、实现细节以及常见问题的解决方案。目标读者为中高级C++程序员和计算机视觉工程师，文章将提供详细的技术细节和代码示例，确保
改进候鸟优化算法之二：基于混沌映射的候鸟优化算法（MBO-CM）搏博算法人工智能 r语言开发语言算法策略模式
基于混沌映射的候鸟优化算法（MigratingBirdsOptimizationbasedonChaoticMapping，MBO-CM）是一种结合了混沌映射与候鸟优化算法（MigratingBirdsOptimization，MBO）的优化方法。一、候鸟优化算法（MBO）简介候鸟优化算法是一种自然启发的元启发式算法，由Duman等人于2011年（也有说法为2012年）提出。该算法模拟候鸟在迁徙过
Github上最热门的11个Java开源项目你会了吗 Java小叮当项目 Github 项目 java 程序员 IT
前言4月份GitHub上最热门的Java开源项目排行已经出炉啦，一起来看看吧！1JimuReport（地址见文末）这是一款免费的数据可视化工具，报表与大屏设计！类似于excel操作风格，在线拖拽完成报表设计！功能涵盖:报表设计、图形报表、打印设计、大屏设计等，永久免费！2dolphinscheduler（地址见文末）ApacheDolphinScheduler是一个可视化的分布式大数据工作流任务调
QT笔记——实现窗体自适应 lion_cxq QT qt
我们想要所有的控件都随窗口的大小改变而改变。第一种方法：思路：1.我们需要获取到所有的控件m_Widget=this->findChildren(QString(),Qt::FindDirectChildrenOnly);2.我们需要知道所有控件的位置以及大小3.重写resizeEvent事件protected:voidresizeEvent(QResizeEvent*event);4.获取主窗口
Cesium 中那些改变视角的方法，带你彻底了解 cesium 相机 WebGIS小智 Cesium高阶教学 cesium camera flyto 三维开发
对于cesium的初学者来讲，相机是不可饶过的一部分知识，这篇文章我们就来彻底的玩一下cesium里的相机。首先要搞清楚一个问题，cesium视角的变动不止一个方法可以完成哦，viewer本身就是有flyTo的方法的。不过viewer的flyTo和camera的flyTo还是有些区别的。首先viewer的flyTo的参数及用法如下：viewer.flyTo(target,options)这里面的t
three.js+WebGL踩坑经验合集总目录 iloveas2014 webgl three.js
(1):THREE.Line无故消失的元凶(2):3D场景被相机裁切后，被裁切的部分依然可以被鼠标碰撞检测得到（射线检测）目录更新中...
CSS学习笔记9——定位position green_pine_ CSS css 学习笔记前端 html
CSS定位可以让盒子自由的在某个盒子内移动位置或者固定屏幕中某个位置，并且可以压住其他盒子定位组成定位=定位模式+边偏移定位模式用于指定一个元素在文档中的定位方式边偏移决定了该元素的最终位置定位模式通过position属性来设置值语义static静态定位relative相对定位absolute绝对定位fixed固定定位边偏移属性：top、bottom、left、right属性示例描述toptop:
Mysql事务隔离级别及其底层原理阿狸远翔 mysql 数据库
理解事务隔离级别MySQL是一种常用的关系型数据库管理系统，它支持事务的概念和隔离级别。事务隔离级别是指在并发环境下，数据库系统如何处理不同事务之间的相互干扰和冲突。MySQL提供了四种事务隔离级别，分别是读未提交（ReadUncommitted）、读已提交（ReadCommitted）、可重复读（RepeatableRead）和串行化（Serializable）。每种隔离级别都有不同的特点和适用
修改 Go 版本后不生效？深入排查与解决方案阿狸远翔 golang 开发语言后端
Mac修改Go版本后不生效？深入排查与解决方案问题背景在使用Mac开发时，我们经常需要切换不同版本的Go语言环境。通过工具goenv设置全局版本后，执行goversion却发现版本未改变：goenvversionssystem*1.19.13(setby/Users/xxx/.goenv/version)goversiongoversiongo1.21.3darwin/amd64#实际版本与预期不
Python-Django 开源项目实战指南贾蕙梅Wayne
Python-Django开源项目实战指南python-djangoOpenTracinginstrumentationfortheDjangoframework项目地址:https://gitcode.com/gh_mirrors/py/python-django项目介绍Python-DjangoOpenTracing扩展是由OpenTracing社区贡献的一个开源项目，专为Django框架设计
JS中window.dispatchEvent的原理和使用初识匹马夕阳 javascript 前端开发语言
window.dispatchEvent是JavaScript中用于触发事件的一个方法，它允许开发者在DOM（文档对象模型）中触发特定的事件。这对实现自定义事件或者将事件传递给其他组件或部分的应用非常有用。文章目录使用场景具体代码示例步骤1：创建自定义事件步骤2：触发事件步骤3：监听事件步骤4：集成到页面解释使用场景示例：跨组件通信ModuleA：触发事件ModuleB：监听事件优势注意事项总结使
go module的Mac配置和使用 abcnull #Golang go module golang goland 后端
介绍go1.11后新增的功能，是一个新型的包管理工具，之前的包管理工具govender，godep都是基于GOPATH，vender目录的，modules是在gopath后一套新的包管理方式，也是目前推荐使用的包管理方式本文是在已经配置好了GOPATH的前提下，具体怎么配置GOPATH可以参考网络环境变量配置启用module配置使用module来进行依赖包管理，下面几种方式可以只选用一种，现在官方
linux常用命令及其用法整理银月流霜 Linux linux 运维服务器
文章目录帮助和信息文件与目录查看文件及内容处理文件与目录权限管理查看系统信息搜索文件网络操作命令磁盘与文件系统用户管理用户信息文件压缩及解压缩Linux内置命令系统管理与性能监视命令关机/重启/注销和查看系统信息的命令任务/进程管理帮助和信息man查看命令手册用法：man[命令名]示例：manls（查看ls命令的手册）info显示命令信息（通常比man更详细）用法：info[命令名]示例：info
70.在 Vue 3 中使用 OpenLayers 拖拽实现放大区域的效果（DragZoom）吉檀迦俐 OpenLayers vue.js 前端 javascript openlayers
引言在现代Web开发中，地图功能已经成为许多应用的重要组成部分。OpenLayers是一个功能强大的开源地图库，支持多种地图源和交互操作。Vue3是一个流行的前端框架，以其响应式数据和组件化开发著称。本文将介绍如何在Vue3中集成OpenLayers，并实现拖拽放大区域的效果（DragZoom）。实现效果按住Shift键，使用鼠标左键圈选区域，地图会自动放大到选中的区域。支持地图的拖拽、缩放等基本
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag