MetabaseCN

Metabase学习教程：模型-2

事实表分析引擎

如何根据实际分析用例为事实表建模。

目标数据建模是为了快速（用于处理查询的引擎），以及容易（针对编写这些查询的人）的获取数据。

大多数数据仓库实践是为了强调速度。分析引擎（一个术语 popularized by dbt，有时也会捆绑到术语中全栈分析)是为可用性数据建模的过程。即使这不是你所说的，无论何时当你需要把一个策展数据集，一个分段或指标，或仪表板与他人协同，都可以实践分析引擎。

本教程将向您展示如何将分析引擎方法应用于数据仓库更具体地说，对于一种称为事实数据表.

介绍

维度表包含一个时间点的数据快照，例如在工作日结束时，您拥有的部分完成的杯子的数量。

| time | total mugs |

|---------------------|------------|

| 2022-08-16 17:30:00 | 3            |

事实数据表包含一个历史信息，比如你一天喝咖啡的速度。

| time | mug | coffee remaining |

|---------------------|----------|------------------|

| 2022-08-16 08:00:00 | 1 | 100% |

| 2022-08-16 08:01:00 | 1 | 0% |

| 2022-08-16 09:00:00 | 2 | 100% |

| 2022-08-16 12:00:00 | 3 | 100% |

| 2022-08-16 12:30:00 | 3 | 99% |

| 2022-08-16 17:30:00 | 3 | 98% |

事实表和维度表依据星型模型（或密切相关的雪花模型)在数据仓库中组织信息。

如果出现以下情况，您可能需要构建事实表：

您的数据源（生成数据的系统，如应用程序数据库）只存储当前信息快照，方法是将其保存在前一个快照上。
你正在创建一个支持嵌入式分析的数据集为您的客户。独立的事实表非常适合自助分析，因为它们可以覆盖广泛的用例不依赖连接。

但是在我们开始之前，让我们在你每天的咖啡因总量中再加一杯，我们还有很多要做的！

| time | total mugs |

|---------------------|------------|

| CURRENT_TIMESTAMP() | n+1 |

概述

在本教程中，我们将使用维度表account，例如从CRM中获取的维度表。让我们假设一下account维度表存储客户的当前状态，当前状态由应用程序更新。

这个account表如下所示：

| id | country | type | status |

|------------------|-------------|------------|-----------|

| ab7a61d256fc8edd | New Zealand | Advertiser | Inactive  |

第1部分：设计事实表

基于account，我们需要考虑人们可能会问的关于客户帐户随时间变化的分析问题。自从account表包含status字段，我们可以回答以下问题：

每个月新增多少个账户？
每月有多少客户流失（变为不活跃）？
客户群的流失率是多少？

第2部分：实现事实表

从数据存储在account创造fact_account，我们将编写一个SQL脚本：

初始化fact_account今天的account数据。
获取中的行的快照account（假设它被另一个系统更新）。
比较每天的account中的历史数据快照fact_account.
在中插入新行fact_account对于自前一天快照后更改的每个帐户。

第3部分：使用常见用例测试事实表

为了检查我们的事实表在实践中是否有用，我们将使用Metabase设置它，并尝试回答我们所有的三个示例分析问题。

第4部分：改进事实表性能

本教程的最后一节将让您了解在扩展事实表以容纳更多历史记录（和更多问题！）时迭代它的外观。

如何遵循本教程

如果您想将下面的步骤应用于您自己的数据，我们建议您使用由源系统定期更新的维度表，以及您选择的数据库或数据仓库.

在本教程中，我们将使用Metabase伙伴驱动程序Firebolt进行测试。Firebolt是一个数据仓库，它使用了slightly modified SQL DDL将数据加载到旨在使查询运行更快的格式.

如果您跟随自己的数据，您的SQL语法可能与示例代码不完全匹配。有关更多信息，请查看常用SQL方言参考指南.

设计事实表

基本事实图式

首先，对于事实表我们要起草一份架构，我们称之为fact_account。将架构放在如下表所示的可视引用中可以更容易地验证fact_account将支持我们想要进行的查询（即人们想要回答的分析问题）。对于新手来说，可视参考也可以作为以后的有用资源fact_account.

在本例中，我们将保留account。如果需要省略任何列，则可以通过数据模型页在Metabase中。与在开始时从模式中排除太多列相比，在Metabase中隐藏列的破坏性更小，因为每次需要恢复列时，我们都必须重新生成架构。

我们还将包括一个名为更新时间指示向表中插入行的时间戳。在实践中，更新时间可用于估计对帐户进行更改的日期或时间。

此添加基于以下假设：account属性可以更改，除了ID。例如，给定帐户的状态可以从活跃的到不活动，或类型账户的合伙人到广告主.

基本fact_account模式示例

|-----------------|-----------|--------------------------------------------------------------|---------------------------------------------------|

| updated_at      | datetime  | The date a row was added to the table                        |                                                   |

更好的事实模式

为了检查模式的可用性，我们将为我们的一个分析问题编写一个伪SQL查询：

-- How many new accounts have been added each month?

WITH new_account AS (

SELECT

id,

MIN(updated_at) AS first_added_at -- Infer the account creation date

FROM

fact_account

GROUP BY

)

SELECT

DATE_TRUNC('month', first_added_at) AS report_month,

COUNT(DISTINCT id) AS new_accounts

FROM

new_account

GROUP BY

report_month;

当前的fact_accountschema需要一个额外的步骤来获取（或估计）每个帐户的“创建”时间戳（在这种情况下，估计对于已经处于活动状态的帐户是必要的）之前我们开始保留历史）。

如果我们只需在fact_account架构。但是添加列将增加表的复杂性（某人理解和查询它所需的时间），以及SQL脚本的复杂性（更新表所需的时间）。

帮助我们决定是否值得在fact_account架构中，我们将考虑创建时间戳是否可以用于有关帐户的其他类型的分析问题。

帐户的创建时间戳也可用于计算：

账户的年龄。
重要事件发生的时间（如客户流失或停止活动所需的天数）。

这些指标可以应用于有趣的用例，比如减少客户流失或计算贷款价值比，所以这可能是值得的fact_account.

我们将添加列is_first_record使我们的模式保持流线型。此列将标记与事实数据表中帐户的最早条目相对应的行。

如果您计划创建一个事实表以简化自助服务（例如事实表包含通常在维度表中捕获的信息），您还可以为is_latest_record。此列将帮助用户筛选fact_account对于当前数据（除了历史数据），以便他们可以使用同一个表快速回答问题，例如：“到目前为止，我们有多少活跃账户？”。

使用此约定可以使查询速度变慢，但在首次推出自助服务时更容易采用（因此人们不必记住事实表和维度表之间的连接）。

更好的fact_account架构

|-----------------|-----------|---------------------------------------------------------------------|---------------------------------------------------|

| ... | ... | ... | |

| is_latest_record| boolean   | TRUE if this is the most current record in the table for a given id |                                                   |

初始化事实表

为了实现事实模式，我们将从创建一个空的fact_account用于存储account表快照随时间变化。

我们使用的是Firebolt数据仓库，因此我们将从Firebolt控制台。我们将选择SQL工作区>新脚本，并写下：

-- Create an empty fact_account table in your data warehouse.

CREATE FACT TABLE IF NOT EXISTS fact_account

(

id varchar

status varchar

country varchar

type varchar

updated_at timestamp

is_first_record boolean

is_latest_record boolean

);

注意Firebolt的DDL包括FACT关键字（可以在标准SQL DDL中排除它）。

如果您正在使用用于接收数据的同一个SQL脚本创建事实表，那么可以遵循注释良好的SQL脚本模板从导入脚本可折叠右侧边栏上的按钮。

接下来，我们将填充fact_account包括往来账户表中的所有信息。可以在创建事实表的同一个SQL脚本中包含以下语句：

-- Put an initial snapshot of data from "account" into "fact_account".

-- Add "quality of life" columns to make the data model nicer to work with.

INSERT INTO fact_account (

SELECT

CURRENT_TIMESTAMP() AS updated_at,

is_first_record = TRUE,

is_latest_record = TRUE

FROM

        account);

增量加载事实表

更新fact_account使用来自的常规快照account，我们将编写另一个SQL脚本到：

查询account对于数据的当前快照。
将当前数据与中最近更新的数据进行比较fact_account.
将行插入fact_account对于自上次快照以来已更改的记录。

您将需要使用以下工具在数据仓库之外保存和调度此SQL脚本，类似dbt或 Dataform。有关详细信息，请查看Transforming data中ETL、ELT和反向ETL教程的一节。

-- Add the latest snapshot from the account table.

-- This assumes that account is regularly updated from the source system.

INSERT INTO fact_account

SELECT

is_first_record = TRUE

FROM

account

WHERE

id = id

AND CURRENT_TIMESTAMP() <> updated_at ();

-- Update the rows from the previous snapshot, if applicable.

WITH previous_snapshot AS (

SELECT

id,

ROW_NUMBER() OVER (PARTITION BY id ORDER BY updated_at DESC) AS row_number

FROM

fact_account

WHERE

is_first_record = TRUE)

UPDATE

fact_account fa

SET

is_latest_record = FALSE

FROM

previous_snapshot ps

WHERE

    ps.row_number = 2;

用常见用例测试事实表

这是我们所期待的fact_account在它开始填充每日快照之后account:

|------------------|-----------|------------|-----------|---------------------|-----------------|------------------|

| ced40b3838dd9f07 | Chile     | Advertiser | Test      | 2022-07-02 06:22:34 | TRUE            | TRUE             |

现在，我们可以将事实表放入Metabase，看看它如何回答示例分析问题：

每个月新增多少个账户？
每月有多少客户流失（变为不活跃）？
客户群的流失率是多少？

设置Metabase

如果尚未使用Metabase设置数据库，则可以在几分钟内完成设置：

下载并安装Metabase，或注册Metabase云免费试用.
添加数据库用你的事实表。

如果您使用Firebolt遵循本教程，则需要使用用户名和密码登录Firebolt控制台，以及数据库名称（列在控制台主页上）。

在Metabase主页的右上角，单击新的>问题.

新帐户

假设我们想知道上个月新增的账户总数。

这种结果适用于自助式用例，例如：

“静态数字”可视化.
进度条可视化，根据目标数字衡量上个月的新客户。

人们可以自助使用Metabase的“过去一个月新增账户”等指标查询编辑器使用以下步骤：

去新的>问题.
选择fact_account作为起始数据。
从选择要查看的度量，选择不同值的数目>ID.
从过滤器按钮，单击是第一个记录然后选择“Is”（默认设置），值为“True”。
从过滤器按钮，单击状态选择“不是”，值为“测试”。
点击上次更新时间然后选择“上个月”。

或者，它们可以从任何sql编辑器（包括Metabase）中自助提供相同的值SQL编辑器)使用如下代码片段：

SELECT

COUNT(DISTINCT id) AS new_accounts

FROM

fact_account

WHERE

is_first_record = TRUE

AND status <> "Test"

    AND DATE_TRUNC('month', updated_at) = DATE_TRUNC('month', CURRENT_TIMESTAMP) - INTERVAL '1 MONTH';

客户流失

除了增加到我们业务中的新客户，我们还希望跟踪流失的流失客户。这一次，我们不会把结果局限于上个月的数据，而是会得到这样的月度汇总表：

| report_month | churned_accounts |

|--------------|------------------|

| 2022-05-01 | 23 |

| 2022-06-01 | 21 |

| 2022-07-01   | 16               |

这种结果可以帮助人们自我服务：

柱状图或折线图在客户流失为每一个报告月份.
“趋势”可视化以显示客户流失数量的百分比变化，每月一次。
保存的问题或模型可以连接到上的其他表报告月份。这使人们能够使用客户流失列输入其他列的计算在中找不到的fact_account.

人们可以从Metabase的“月度流失账户”汇总表中自助服务查询编辑器通过以下步骤：

去新的>问题.
选择fact_account作为起始数据。
从选择要查看的度量，选择不同值的数目>ID.
从选择要分组的列，选择更新时间：月.
单击过滤器按钮。
点击状态然后选择是的.

他们还可以从任何SQL编辑器（包括Metabase的SQL编辑器)使用如下查询：

SELECT

DATE_TRUNC('month', updated_at) AS report_month,

COUNT(DISTINCT id) AS churned_accounts

FROM

fact_account

WHERE

    status = 'inactive';

高级用例：队列表

队列表是最复杂的用例之一，它可以由设计良好的事实表提供支持。这些数据表测量周转率作为客户年龄的函数，并可用于识别特别成功或不成功的客户组。

我们希望得到这样的结果：

| age | churned_accounts | total_accounts | churn_rate |

|-----|------------------|----------------|------------|

| 1 | 21 | 436 | = 21 / 436 |

| 2 | 26 | 470 | = 26 / 470 |

| 3   | 18               | 506            | = 18 / 506 |

由于这是一个高级用例，我们将重点向您展示fact_account表可以更改为队列表。这些步骤可以在Metabase中通过创建一系列基于另一个的保存的SQL问题来完成。

创建一个保存的问题first_added_month和churned_month对于每个帐户：

样品结果

| id | first_added_month | churned_month |

|------------------|---------------------|---------------------|

| 941bfb1b2fdab087 | 2022-02-01 | null |

| dbb64fd5c56e7783 | 2022-05-01 | 2022-07-01 |

| 67aae9a2e3dccb4b | 2022-07-01          | null                |

SQL代码段

SELECT

id,

CASE WHEN is_first_record = TRUE

THEN DATE_TRUNC('month', updated_at)

END AS first_added_month,

CASE WHEN status = 'inactive'

THEN DATE_TRUNC('month', updated_at)

ELSE NULL

END AS churned_month

FROM

     fact_account;

将步骤1中保存的问题连接到每月有一行的列中。您可以在SQL中通过生成一个序列（或者可以使用数据仓库中的现有表）来实现这一点。注意月份的连接条件。

样例结果

| id | first_added_month | churned_month | report_month | age | is_churned |

|------------------|-------------------|---------------|--------------|-----|------------|

| dbb64fd5c56e7783 | 2022-05-01 | 2022-07-01 | 2022-05-01 | 1 | FALSE |

| dbb64fd5c56e7783 | 2022-05-01 | 2022-07-01 | 2022-06-01 | 2 | FALSE |

| dbb64fd5c56e7783 | 2022-05-01        | 2022-07-01    | 2022-07-01   | 3   | TRUE       |

SQL代码段

WITH date_series AS (

SELECT

FROM

GENERATE_SERIES('2022-01-01'::date, '2022-12-31'::date, '1 month'::interval) report_month

)

SELECT

age,

CASE WHEN s.churned_month = d.report_month

THEN TRUE ELSE FALSE

END AS is_churned

FROM

step_1 s

FULL JOIN date_series d

ON d.report_month >= s.first_added_month

AND (d.report_month <= s.churned_month

         OR d.report_month <= CURRENT_TIMESTAMP::date);

步骤2的结果现在可以从查询编辑器聚合到最终结果（您可以使用自定义列计算流失率）。

样例结果

| age | churned_accounts | total_accounts | churn_rate |

|-----|------------------|----------------|------------|

| 1 | 21 | 436 | = 21 / 436 |

| 2 | 26 | 470 | = 26 / 470 |

| 3   | 18               | 506            | = 18 / 506 |

SQL代码段

SELECT

age,

COUNT(DISTINCT CASE WHEN is_churned = TRUE

THEN id END) AS churned_accounts,

COUNT(DISTINCT CASE WHEN is_churned = FALSE

THEN id END) AS total_accounts,

churned_accounts / total_accounts AS churn_rate

FROM

step_2

GROUP BY

     age;

提高事实表性能

一旦生产中有了一个工作事实表，我们就要注意它是如何扩展的：

该表将使用更多历史记录进行更新。
更多的人开始对表并行运行查询。

假设客户流失逻辑变得非常流行，因此fact_account成为许多下游仪表板和聚合的依赖项（和瓶颈）。

为了提高事实表查询的性能，我们需要根据客户流失计算中最常用的列来预先计算聚合。

在SQL数据库中，有几种方法可以做到这一点：

添加索引中最常用的列分组依据声明。
创建视图汇总（预聚合）数据。

在我们的Firebolt数据仓库中，我们可以使用聚合索引。定义聚合索引会告诉Firebolt引擎在SQL查询请求对给定列应用某个聚合时，创建应引用的其他表（在幕后），而不是主事实表。

聚合索引也可以包含在SQL脚本中，用于初始化和加载事实表（但更容易选择正确的在您有机会观察人们在实践中如何使用该表之后的索引）。

下面是一个Firebolt聚合指数的示例，它有助于加快不同报告期内累积和当前流失账户的计数：

CREATE AGGREGATING INDEX IF NOT EXISTS churned_accounts ON fact_account

(

updated_at,

DATE_TRUNC('day', updated_at),

DATE_TRUNC('week', updated_at),

DATE_TRUNC('month', updated_at),

DATE_TRUNC('quarter', updated_at),

COUNT(DISTINCT CASE WHEN status = 'inactive' then id end),

COUNT(DISTINCT CASE WHEN status = 'inactive' AND is_latest_record = TRUE then id end)

);

Metabase中文社区

你可能感兴趣的:(可视化,Metabase,BI,Metabase,bi,可视化,大数据)

Vue 中的日期格式化实践：从原生 Date 到可视化展示！！！小丁学Java 产品资质管理系统 vue.js 前端 javascript ts
Vue中的日期格式化实践：从原生Date到可视化展示在数据可视化场景中，日期时间的格式化显示是一个高频需求。本文将以一个邀请码关系树组件为例，深入解析Vue中日期格式化的核心方法、性能优化和最佳实践，并配合Mermaid流程图直观展示处理流程！一、️核心方法：原生Date对象处理代码实现privateformatDate(dateString:string|null):string{if(!dat
OpenLayers集成天地图服务开发指南喆星时瑜 WebGIS #天地图 OpenLayers GIS 天地图 WebGIS HTML 地图地图API
以下是一份面向GIS初学者的OpenLayers开发详细教程，深度解析代码：一、开发环境搭建1.1OpenLayers库引入ol.css：包含地图控件、图层等可视化样式ol.js：OpenLayers核心功能库推荐使用固定版本号（如v7.3.0）确保稳定性1.2地图容器设置.map{//设置地图控件显示尺寸height:95vh;width:95vw;}使用视口单位(vh/vw)实现响应式布局保留
新手如何使用 Milvus 巴依老爷coder 数据库 milvus 向量数据库数据库
一文带你入门Milvus：详细指南新手如何使用Milvus：详细指南一、Milvus简介主要特点应用领域二、安装Milvus安装DockerCompose基于DockerCompose安装Milvus服务端安装attu-可视化界面工具三、快速入门安装PythonSDK连接数据库方式1方式2（方式1的封装）数据库操作核心概念集合操作数据操作插入数据精准查询数据-get条件查询数据-query查询数据
TCP与UDP 就很对 tcp/ip udp 单片机
TCP与UDPudpudpudp_ser.cudp_cli.cudp_cpudp_cp_serudp_cp_cliudp_chatudp_chat_serudp_chat_clitcptcptcp_sertcp_clibin_tcp_protocolbin_tcp_protocol_serbin_tcp_protocol_clihttp_weamultiioblockioblock_fifo_re
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Docker-部署ES和Kibana 相逢太短，莫等茶凉 docker elasticsearch mac
资料kibana和elasticserch兼容性表https://www.elastic.co/cn/support/matrix#matrix_compatibilityMac系统安装需要版本支持linux/arm64，需要两个都要支持有arm64，有些es支持，kibana不支持。ps:dockerpullelasticsearch出现elasticsearch:latestnotfound，
centos 7 安装docker-compose
1.下载docker-compose#官方推荐（太慢）curl-L"https://github.com/docker/compose/releases/download/1.26.2/docker-compose-$(uname-s)-$(uname-m)"-o/usr/local/bin/docker-compose#国内（更快）curl-Lhttps://get.daocloud.io/do
Docker 数据持久化核心：挂载（Mounts）与卷（Volumes）的区别与选择指南 z2637305611 docker 容器运维
Docker容器默认是无状态的——这意味着容器停止后，其内部生成的数据也会随之消失。为了持久化保存数据或在容器间共享数据，Docker提供了两种主要机制：挂载（Mounts）和卷（Volumes）。理解它们的区别并正确使用，是优化Docker应用架构的重要一步。一、挂载（Mounts）1.什么是挂载？挂载（通常指BindMounts）允许将宿主机上的目录或文件直接映射到容器内部，提供了一种直接访问
docker避免容器中的内容被挂载的空目录覆盖(比如nginx的html目录) dockervolume
我有一个镜像jb:1.0，镜像中/jb下有一些内容需要挂载到宿主机来dockervolumecreatejb_volumedockerrun--namejb-v/home/dcw/data:/data--mountsource=jb,target=/jb-itdjb:1.0如果想修改宿主机中的内容可以通过下面命令找到挂载的内容在宿主机的位置dockerinspectjbimage.png
【赵渝强老师】达梦数据库的数据库对象数据库信创
达梦数据库中包含各种数据库对象，主要分为两大类型：基本数据库对象和复杂数据库对象。下面分别进行介绍。视频讲解如下：https://www.bilibili.com/video/BV1HwffYXEu5/?aid=113888909595...一、基本数据库对象常见的基本数据库对象有：表、索引、视图、序列、同义词等。之所以叫做基本数据库对象是因为这些对象直接使用一条DDL（DataDefinitio
GIS三维可视化进阶：Three.js集成Cesium引擎实现全球地形LOD与OGC标准服务调用贝格前端工场 javascript 开发语言 ecmascript
Three.js与Cesium引擎基础介绍Three.js是一款基于JavaScript的开源三维图形库，它提供了丰富的API用于创建和操作三维场景、物体、材质等。在Web端的三维可视化领域应用广泛，因其能够在浏览器中高效渲染复杂的三维模型和场景，大大降低了开发人员创建三维交互内容的门槛。通过简单的代码，即可实现如创建三维几何体（立方体、球体等）、为物体添加材质（如纹理材质、光照材质）以及设置相机
Python中手动实现进制转换棉猴 Python 进制转换十进制二进制十六进制八进制
在《Python中进制转换》中提到可以使用bin()、oct()、int()和hex()等函数编程实现数字间的进制转换。除了编程实现进制转换外，还可以通过手动实现。1手动实现二进制数转换为十进制可以通过“填空法”手动将二进制数转换为十进制数，例如将二进制数“0b1101”转换为十进制数的方法如图1所示。“填空法”可以归纳为四个步骤：首先“画空格”，接下来“写次方”，然后“填数字”，最后“列算式”。
关于pytorch3d的安装诚威_lol_中大努力中人工智能 pytorch 人工智能 python
更新1：2025_2_04今天发现，原来的pytorch3d不见了，在我的aaa1环境中。重新安装，我发现最好用的还是去github下载最新的pytorch3d的zip，unzip之后，进去pipinstall-e.然后安装成功！1、参考文章1：windows安装PyTorch3D详细指南-哔哩哔哩(bilibili.com)这篇文章巨好2、参考文章2：pytorch3d/INSTALL.mdat
Docker 数据卷与文件挂载 huingymm docker 容器运维
Docker数据卷与文件挂载的区别与管理指南在Docker中，数据卷（Volume）和文件挂载（BindMount）是两种常用的数据持久化方式。它们的主要目的是将容器内的数据保存到主机上，以便在容器重启或删除后数据不会丢失。本文将详细介绍数据卷和文件挂载的区别、使用方法以及管理技巧。目录数据卷与文件挂载的区别数据卷的使用创建数据卷挂载数据卷查看数据卷删除数据卷文件挂载的使用挂载主机目录挂载单个文件
Python调用WPS进行文档转换PDF及PDF转图片 IT孔乙己 python 开发语言后端
这里是利用WPS进行转换，要先安装WPS。安装依赖pipinstallpypiwin32代码#!/usr/bin/python#-*-coding:UTF-8-*-importosimportwin32com.clientdefConvertByWps(sourceFile,targetFile):ifnotos.path.exists(sourceFile):print(sourceFile+"
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
hive服务启停脚本热爱技术的小陈大数据 hive 大数据 hadoop
hive.sh#!/bin/bashHIVE_LOG_DIR=$HIVE_HOME/logs#创建日志目录if[!-d$HIVE_LOG_DIR]thenmkdir-p$HIVE_LOG_DIRfi#检查进程是否运行正常,参数1为进程名,参数2为进程端口functioncheck_process(){pid=$(ps-ef2>/dev/null|grep-vgrep|grep-i$1|awk'{p
以光盘读写系统演示面向对象设计的原则与方法 CoderIsArt C++11 设计模式面向对象
面向对象设计（OOD）是软件开发中的核心方法，强调通过对象、类、继承、封装和多态等概念来构建系统。以下是面向对象设计的原则、方法及常用技术手段：一、面向对象设计原则（SOLID原则）单一职责原则（SRP,SingleResponsibilityPrinciple）一个类应只有一个职责，即只负责一项功能。优点：提高类的内聚性，降低耦合性，便于维护和扩展。开放-封闭原则（OCP,Open-Closed
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
【Pandas】pandas Series plot.box liuweidong0802 Pandas Series pandas 信息可视化数据分析
Pandas2.2SeriesPlotting方法描述Series.plot([kind,ax,figsize,…])用于绘制Series对象的数据可视化图表Series.plot.area([x,y,stacked])用于绘制堆叠面积图（StackedAreaPlot）Series.plot.bar([x,y])用于绘制垂直条形图（VerticalBarPlot）Series.plot.barh
自动驾驶系统的车辆动力学建模：自行车模型与汽车模型的对比分析赛卡自动驾驶自动驾驶数学建模 python numpy matplotlib 算法
在自动驾驶系统的车辆动力学建模中，自行车模型（BicycleModel）和更复杂的汽车模型（如双轨模型或多体动力学模型）各有其适用场景和优缺点。以下是两者的详细对比及选择原因解析：1.模型定义与核心差异特性自行车模型复杂汽车模型（如双轨模型）简化假设将四轮车辆简化为两轮（前轮转向，后轮驱动）考虑四轮独立运动、悬架系统、轮胎侧偏特性自由度2-3自由度（位置x,y，航向角θ）6+自由度（含横向、俯仰、
VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
rabbitmq笔记 java
消息可靠性rabbitmq向消费者投递消息后，有可能会丢失，有可能会重复投递。比如：投递过程网络故障消费者收到消息后宕机消费者接收到消息后处理不当导致异常...rabbitmq需要做的事：机制消费者确认机制消费者处理成功后需要通知发幂等性幂等性指同一个业务，执行一次或多次对业务状态的影响是一致的例如唯一消息id业务状态判断但是数据的更新往往不是幂等的，所以需要确保幂等性确保幂等性方法有两种方案唯一
my.ini mysql_怎么修改mysql的my.ini文件周海棣 my.ini mysql
步骤：1、查找my.ini位置，可通过windows服务所对应mysql启动项，查看其对应属性->可执行文件路径，获取my.ini路径。"D:\MySQL\MySQLServer5.5\bin\mysqld"--defaults-file="D:\MySQLData\my.ini"MySQL552、编辑my.ini中对应datadir改前：datadir="D:\MySQLData\data\"改
一文读懂Python列表（5）跟着杰哥学Python python
列表让你能够在一个地方存储成组的信息，其中可以只包含几个元素，也可以包含数百万个元素，列表是新手可直接使用的最强大的Python功能之一。一、列表是什么1.列表由按顺序排列的元素组成，用[]表示列表，用逗号分隔元素2.举例：bicycles=['trek','cannondale','redline','specialized']二、列表的索引1.第一个列表元素的索引为0，而不是12.举例：三、访
大佬都在用的桑基图到底怎么做？告诉你个最简单的方法永洪科技 python
桑基图，即桑基能量分流图，也叫桑基能量平衡图。因1898年MatthewHenryPhineasRiallSankey绘制的“蒸汽机的能源效率图”而闻名，此后便以其名字命名为“桑基图”。桑基图常被用于能源损耗情况、材料成分分析、金融数据可视化；追踪用户状态；追踪跑票、变动、迁移；追踪人口流动情况等等业务场景，表现分配、归类、变化、流动情况。桑基图好在哪？它是一种特定类型的流图，图中延伸的分支的宽度
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
mysql笔记 m0_67015473 mysql 笔记
mysql日志分析错误日志日志默认开启，查询showvariableslike“%error_log%”，日志存在于/var/log/mysqld.log二进制日志日志默认开启，记录所有的DDL(Create等)和DML(insert等)，但不包括数据查询（SELECT、SHOW)语句作用：灾难时的数据恢复mysql的主从复制查询showvariableslike“%log_bin%”，日志存在于
【地图 Map3d】——2 花花 Show Python pyecharts—从0到精通信息可视化数据分析 python
解锁数据可视化的魔法钥匙——pyecharts实战指南在这个数据为王的时代，每一次点击、每一次交易、每一份报告背后都隐藏着无尽的故事与洞察。但你是否曾苦恼于如何将这些冰冷的数据转化为直观、吸引人的视觉盛宴？欢迎来到《pyecharts图形绘制大师班》在这里，你将不再受限于单调的表格和图表，而是学会如何运用pyecharts这一强大的Python数据可视化库，将复杂的数据转化为令人惊叹的交互式图形。
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一