HikZ.919

数据仓库理论篇

数据仓库Data Warehouse - 数仓是一种思想，数仓是一种规范，数仓是一种解决方案

数据仓库之父Bill Inmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合，用于支持管理者的决策过程。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持。数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。

主题是一个抽象概念，简单地说就是与业务相关的数据的类别，每一个主题基本对应一个宏观的分析领域。数据仓库则是辅助人们分析数据的设计

数据处理方式

数据处理大致可以分为两大类：

联机事务处理OLTP（On-Line Transaction processing）
联机分析处理OLAP（On-Line Analytical Processing）

OLTP（联机事物处理）

面向于业务(事务)的,主要用于捕获数据,主要对数据进行CURD操作,存储最近业务使用数据,交互性强,存储数据量较小。并且满足三范式。

OLAP(联机分析处理)

面向于主题的,主要用于数据分析,对数据进行查询操作,存储过去既定发生过的数据(历史数据),交互性弱但存储数据量比较大可以进行复杂的聚合计算

数据建模

数据建模指的是对现实世界各类数据的抽象组织（就是对数据的一种抽象管理方式），确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。

将经过系统分析后抽象出来的概念模型转化为物理模型

ER模型（关系）

用实体加关系描述的数据模型

特点：规范性较好，冗余度小，但不适合分析数据
遵循三范式：

- 列不可再分
- 所有的列必须依赖于主键
- 如果有部分列不依赖于主键，就将这些列重新构建一张表 
优点：

规范性较好，冗余小，数据集成和数据一致性方面得到重视

缺点：

需要全面了解企业业务、数据和关系；实施周期非常长，成本昂贵；对建模人员的能力要求也非常高。

维度建模

以分析决策的需求构建模型，主要完成用户如何快速完成分析需求冗余度比较高

维度建模中的重要概念：

事实表:
     事实表就是对应主题的表，一般事实表都是由一坨主键聚集而成 
    表中的每行数据代表一个业务事件  数据非常大定时更新，不保留历史数据
    事实表中的每行：具有可加性的数值型的度量值  与维表相连接的外键 通常有两个或两个以上外键:
    事务型事实表   周期型快照事实表   累积型快照事实表
维度表:
     在分析事实表时，结合了其它表来进行分析，这个其他表就是维度表，是时间的辅助描述信息
    一般是对事实的描述信息，一张表对应世界中一个对象或概念
    选择业务 > 定义粒度 > 选择维度 > 确定事实                
度量值:
    度量值是对一次行为的度量 实时发生的对应的一些数据记录 （如一个事件的个数，金额等）

维度建模表分类

在维度建模中，将度量称为“事实” ，将环境描述为“维度”。
例：今天张三买了一瓶两块的矿泉水
在这里：”今天“、“张三”、“买”、”矿泉水“是维度，“一瓶”，“两块”是事实

维度表

维度表概念:

维度是维度建模的基础和灵魂。在维度建模中，将度量称为“事实”，将环境描述为“维度”，维度是用于分析事实所需要的多样环境。

例如，在分析交易过程时，可以通过买家、卖家、商品和时间等维度描述交易发生的环境。
维度所包含的表示维度的列，称为维度属性。维度属性是查询约束条件、分组和报表

标签生成的基本来源，是数据易用性的关键。

例如，在查询请求中，获取某类目的商品、正常状态的商品等，是通过约束商品类目属性和商品状态属性来实现的；统计淘宝不同商品类目的每日成交金额，是通过商品维度的类目属性进行分组的；我们在报表中看到的类目、BC类型（B指天猫，C指集市）等，都是维度属性。

所以维度的作用一般是查询约束、分类汇总以及排序等。
维度表特征

维度表的范围很宽（具有多个属性、列比较多）

跟事实表相比，行数较少，（通常小于10万条）

内容相对固定

辅助我们分析事实数据，维度的列成为维度的属性，这些也是将要分析数据的重点特征维度表的范围很宽，有可能将多维的数据叠加到一起。方便计算和事实表相比行数比较少--商品内容相对固定

维度表设计原则

1.维度属性尽量丰富,为数据使用打下基础上游维度丰富，下游计算才会灵活

2.给出详实的、有意义的文字描述

3.区分数值型属性和事实

4.沉淀出通用的维度属性，为建立一致性维度做好铺垫

5.退化维度(DegenerateDimension) 去除表与表之间的关联数据，直接替换成指定数据
6.缓慢变化维(Slowly Changing Dimensions)
维度的属性会随着时间变化
    a直接覆盖原来的值
    b拉链表增加三列（有效日期，截止日期，行标识）
    c增加属性列
7.冗余维度.

把常用的维度冗余到事实表

维度设计方法

有则选择，无则创建 -选择或创建维度

选择主维度表

确定相关维度

确定维度属性

第一个阶段是从主维表中选择维度属性或生成新的维度属性

第二个阶段是从相关维表中选择维度属性或生成新的维度属性

维度设计高级主题

维度整合
- 垂直整合
  - 存储的是相同的数据集，但是存储在不同的表中
- 水平整合
  - 判断数据是否交叉（重复）去重
  - 没有交叉就将信息放在一张表中，需要保留原来的主键信息
水平拆分
- 可以按照类别或类型进行细分
垂直拆分
- 反规范化处理
- 常用为主，较少为辅

事实表

事实表概念

事实表中的每行数据代表一个业务事件。“事实”表示的是业务事件的度量值（可以统计次数、个数、金额等）

粒度: 这个事件发生的一个频度[天- 小时- -分钟] 用什么来衡量？

度量值: 一个变化的数值

可加:页面的PV可以根据时间维度区划维度用户分类维度

半可加:有些维度可以累加，有些维度不可以累加

不可加:空气湿度23.5%及格率0.75 相对维表来说，通常事实表要细长得多,行的增加速度也比维表快很多。

事实表设计原则

原则1:尽可能包含所有与业务过程相关的事实

原则2:只选择与业务过程相关的事实

原则3:分解不可加性事实为可加的组件

原则4:在选择维度和事实之前必须先声明粒度

原则5:在同-个事实表中不能有多种不同粒度的事实---年级班级学校

原则6:事实的单位要保持一致--- 元角分

原则7:对事实的null值要处理

原则8:使用退化维度提高事实表的易用性

事实表设计方法

选择业务过程以及确定事实表类型

比如淘宝的订单流转的业务过程有四个：创建订单，买家付款，卖家发货，买家确认收货

明确了业务过程后，根据具体业务需求来选择与维度建模有关的业务过程。

比如买家付款这个业务过程，那么事实表应只包括买家付款这一个业务过程的单事务事实表总而言之就是选择了哪些业务过程，那么所建立的事实表应为包含了所有业务过程的累积快照事实表

声明粒度

粒度声明非常重要，尽量选择最细级别的原子粒度，以确保事实表的应用具有最大的灵活性比如一次购物车下单，一个父订单可能是购物车，一个子订单是每个商品的订单，那么订单事实表选择子订单粒度

确定维度

完成粒度声明意味着声明了主键，对应的维度组合就可以确定了应该选择能够清楚描述业务过程的维度信息例如订单事实表，粒度为子订单，相关的维度有卖家、买家、商品，收货人，时间等维度

确定事实

应该选择与业务过程有关的所有事实，且事实的粒度要和声明的粒度一致，比如在淘宝订单付款事务事实表中，同粒度的事实有子订单分摊的支付金额、邮费、优惠金额等

冗余维度

大数据的事实表设计中，冗余尽可能多的维度让下游方便使用，减少连表数量

事实表分类

事务型事实表：一次操作即可完成(有一条记录就做一条记录) 如一笔订单一笔支付记录
周期型快照事实表：定时更新实时数据保留固定时间间隔的数据如每周销售额
累积型快照事实表：需要多次操作才能完成如送快递从发出到签收经过多次时间更新才能完成

数据组织类型

维度建模按数据组织类型划分可分为星型模型、雪花模型、星座模型。

星型模型

是一种多维的数据关系，它由一个事实表（Fact Table）和一组维表（Dimension Table）组成。每个维表都有一个维作为主键，所有这些维的主键组合成事实表的主键。事实表直接来连接维度表，维度表不再分；查询效率高，数据冗余性也高。

雪花模型

他是有一个或多个维表没有直接连接到事实表上，而是通过其他维表连接到事实表上。事实表直接连接主维度表，主维度表连接子维度表。冗余性低、灵活度高、查询效率低。

星座模型

多个事实表共享维度表，类似多个星型模型连在一起,减少中间的维表，增加数仓的容量。

模型的选择跟数据和需求有关，跟设计无关，按实际需求选择

维度建模步骤

选择业务处理过程 > 声明粒度 > 选择维度 > 确定事实选
选择业务：选择感兴趣的业务线，如下单，支付，退款，活动。
声明粒度：一行代表信息：一条订单？一天的订单？一周的订单？选择最小粒度
确认维度：维度退化：谁。什么时间什么地点
确认事实：度量值：如个数，件数，金额

数据仓库分层

数仓分层原因：
    空间换时间：通过预处理来提升用户效率
    增加扩展性：不分层，当源业务系统的规则发生变化会影响整个数据清洗
    分层管理：通过数据分层简化数据清洗过程，将复杂的工作分成多个步骤

数仓分层优点：
    清晰数据结构  方便数据血缘追踪  减少重复开发  把复杂问题简单化  屏蔽原始数据的异常

原始数据层ODS
	从各个地方抽取来的源数据 进行简单分类
数据仓库层DW
	从ODS层获取的数据按照主题建立各种数据模型
数据服务层ADS
	生成具体的报表 供使用者进行分析

阿里数仓进化史

ETL

概念：

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。

抽取(Extract) 、
- 将各个系统中的数据统- -汇聚到ODS过程-买菜
清洗转换(Transform)
- 清洗掉脏数据，无效数据,对敏感数据空值进行转换
加载 (Load)
- 将操作之后的数据载入到DW中

五大模块：
数据抽取、数据清洗、库内转换、规则检查、数据加载。
各模块可灵活进行组合，形成ETL处理流程。

ETL工具

加载策略

系统日志分析方式：
    通过分析数据库自身的日志来判断变化的数据。
    
触发器方式：
    直接进行数据加载利用增量日志表进行增量加载
    
时间戳方式：
    在源表上增加一个时间戳字段，系统中更新修改表数据的时候，同时修改时间戳字段的值。
    
全表比对方式：
    全表比对即在增量抽取时，ETL 进程逐条比较源表和目标表的记录，将新增和修改的记录读取出来。

源系统增量（delta）数据直接或者转换后加载：
    日常的 ETL 更新中，还会遇到目标表的数据来源来自于多张源表，通过关键字段的拼接进行更新操作。
    如果多张源表都有时间戳字段，可以利用时间戳进行增量更新，另外还可以采用全表比对的方式进行增量更新。

常见概念描述

数据仓库: 数据仓库是一个功能概念,历史数据的集合体.使用维度建模.存储介质为分布式文件系统日常倾向于OLAP
数据集市: 数据集市是一个结构概念,小型的数据仓库,多个数据集可以组成数据仓库面向对象的业务和对应的主题---教务医务图书
数据孤岛: 业务系统之间各自为政、相互独立造成的数据孤岛,体现在业务不集成流程不互通、数据不共享。在大数据中要打破孤岛，实现数据共享
数据湖-数据洋--数据水洼: 数据湖是一种数据存储理念，存储企业各种各样的原始数据的大型仓库,包括结构化、非结构、二进制图像、音频、视频等等。 HUDI --- Detal Lake
数据中台: 数据中台是一个逻辑概念,使数据对内优化管理提高业务，对外可以数据合作价值释放
宽表窄表:
- 宽表：字段比较多的数据库表，方便我们计算
- 窄表：减少了数据的冗余度，相对来说数据就少

大数据架构

互联网大数据平台

大数据平台由上到下，可分为三个部分：数据采集、数据处理、数据输出与展示。

Lambda架构

优点：
- 它具有很好的灵活性和可扩展性，也对硬件故障和人为失误有很好的容错性。批处理层(Batch Layer)速度处理层(Speed Layer)响应查询的服务层(Serving Layer) 数仓的分层主要是应用于批处理操作，速度处理一般操作很少分层直接计算出最后的结果
缺点：
- 架构师需要维护两个复杂的分布式系统，井且保证他们逻辑上产生相同的结果输出到服务层中。 -般情况下要维护两套代码，当业务发生变化，实时和离线的计算代码都需要重新编写

Kappa架构

速度处理层(Speed Layerf响应查询的服务层(Serving Layer) 每次开启一个新的业务从0开始计算，当新的计算的数据虽达到老的计算的数据量，就用新的结果

Flume

Flume概述

Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

Flume：是一个数据采集工具；可以从各种各样的数据源（服务器）上采集数据传输（汇聚）到大数据生态的各种存储系统中（Hdfs、hbase、hive、kafka）；

Flume使用场景

线上数据一般主要是落地（存储到磁盘）或者通过socket传输给另外一个系统，这种情况下，你很难推动线上应用或服务去修改接口，实现直接向kafka里写数据，这时候你可能就需要flume这样的系统帮你去做传输。

Flume的体系架构

Client（客户端）：Client生产数据，运行在一个独立的线程。

Event（事件）：一个数据单元，消息头和消息体组成。（Events可以是日志记录、 avro 对象等。）

Flow（流）： Event从源点到达目的点的迁移的抽象。

Agent（代理）：一个独立的Flume进程(一个Agent就是一个进程)，包含组件Source、 Channel、 Sink。（Agent使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。）

Source（源）：数据收集组件。（source从Client收集数据，传递给Channel）

Channel（通道）：中转Event的一个临时存储，保存由Source组件传递过来的Event，将数据退送给sink端。（Channel连接 sources 和 sinks ，这个有点像一个消息队列。）

Sink（存储）：从Channel中读取并移除Event，将Event传递到持久化系统或者FlowPipeline中的下一个Agent（如果有的话（Sink从Channel收集数据，运行在一个独立线程。）

selector（选择器）：作用于source端，然后决定数据发往哪个目标

interceptor（拦截器）：flume允许使用拦截器拦截数据，允许使用拦截器链，作用于source和sink阶段

Flume的组件详解

Flume特性

复杂流动：Flume允许用户进行多级流动到最终目的地，也允许扇出流（一到多）、扇入流(多到一)的流动和故障转移、失败处理。

Flume优点

当收集数据的速度超过将写入数据的时候，也就是当收集信息遇到峰值时，这时候收集的信息非常大，甚至超过了系统的写入数据能力，这时候，Flume会在数据生产者和数据收容器间做出调整，保证其能够在两者之间提供平稳的数据。

Flume的管道是基于事务，保证了数据在传送和接收时的一致性.

Flume是可靠的，容错性高的，可升级的，易管理的，并且可定制的（可以根据生产需要自行定义一个数据来源端或者终点端）。

除了日志信息，Flume同时也可以用来接入收集规模宏大的社交网络节点事件数据，比如 Facebook、Twitter、电商网站如亚马逊等。

支持多路径流量，多管道接入流量，多管道接出流量，上下文路由等。

Flume执行流程

1 Source 接受数据

2 Channel Processor（通道处理器）处理 Event

3 Channel Processor 将 Event 传递给 interceptor链对 Event 进行过滤操作

4 过滤完之后再把 Event 发送回 Channel Prodessor

5 Channel Processor把 Event 发送给Channel selectors

6 Channel selector返回Event 属于哪个Channel

7 根据第6步返回的结果，将Event发送到指定的Channel

8 SinkProcessor从Channel中拉去数据

9 最后把数据Sink出去

Flume事务

推送事务流程

doPut: 把批数据写入到临时缓冲区putList

doCommit: 检查Channel容量是否足够，如果容量足够则把putList里的数据发送到Channel

doRollBack:如果Channel容量不够，则把数据回滚到putList
拉取事务流程

doTake:把数据读取到临时缓冲区takeList

doCommit:检查数据是否发送成功，成功的话，则把event从takeList中移除

doRollBack:如何发送失败，则把takeList的数据回滚数据到Channel
可靠

只有当sink接收到，数据落地完成的信息之后，才会将数据从通道中删除。

事件在每个代理上的一个通道中上游。然后将事件传递到流中的下一个代理或终端存储库（如HDFS）。仅将事件存储在下一个代理程序的通道或终端存储库中之后，才将其从通道中删除。这就是Flume中单跳消息传递语义如何提供流的端到端可靠性的方式。

数据传输的方式不是byte，而是一个个的event Flume使用事务性方法来确保事件的可靠传递。源和接收器分别在事务中封装存储在通道中或由通道提供的事务中提供的事件的存储/检索。这确保了事件集在流中从点到点可靠地传递。在多跳流的情况下，来自上一跳的接收器和来自下一跳的源均运行其事务，以确保将数据安全地存储在下一跳的通道中。
可恢复

当数据丢失了，只有从存储在磁盘的方式，才能将数据找回事件在通道中上演，该通道管理从故障中恢复。Flume支持持久的文件通道，该通道由本地文件系统支持。还有一个内存通道可以将事件简单地存储在内存队列中，这虽然速度更快，但是当代理进程死亡时，仍保留在内存通道中的任何事件都无法恢复。

你可能感兴趣的:(hadoop,Flume,数据库,数据分析)

Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
centos7安装 mysql5.7(安装包) heiPony linux mysql mariadb centos mysql
一.卸载centos7自带数据库查看系统自带的Mariadbrpm-qa|grepmariadbmariadb-libs-5.5.44-2.el7.centos.x86_64卸载rpm-e--nodepsmariadb-libs-5.5.44-2.el7.centos.x86_64删除etc目录下的my.cnfrm/etc/my.cnf二.检查mysql是否存在(有就卸载,删除相关文件)rpm-q
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
什么是OA系统？使用OA系统对企业有哪些好处？
OA系统（OfficeAutomationSystem），即办公自动化系统，是将现代化办公和计算机网络功能结合起来的一种新型的办公方式。是现代企业管理中一种重要的信息化工具，它通过计算机技术、网络技术和数据库技术等手段，实现企业内部办公流程的自动化和信息化管理。使企业的信息交流更加顺畅，办公流程更加高效，从而提高企业的运营效率和管理水平。一、主要功能1.文档管理文档存储与检索：OA系统可以集中存储
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Flutter——数据库Drift开发详细教程(七) 怀君 flutter flutter 数据库
目录入门设置漂移文件入门变量数组定义表支持的列类型漂移特有的功能导入嵌套结果LIST子查询Dart互操作SQL中的Dart组件类型转换器现有的行类Dart文档注释结果类名称支持的语句自定义SQL类型定义类型使用自定义类型在Dart中在SQL中方言意识支持的SQLite扩展json1fts5地缘垄断自定义查询带有生成的api的语句自定义选择语句自定义更新语句入门Drift提供了一个dart_api来
android中百度定位、城市选择列表，右侧字母展示
好久好久没光顾过自己空空的博客了，做项目的时候都是逛着别人的博客急着把功能实现，近来闲下来了总结总结。这个城市选择功能也是当时做项目急着实现从哪找来的框架不记得了，然后改改用到项目中来的。非常感谢提供最初源码的博主，主要的区别是添加了搜索功能、定位功能，把以前的操作本地数据库sqlite的部分，改为操作对assest文件的操作，封装的有百度地图定位方法、可删除的edittext。百度地图的key需
Flutter——数据库Drift开发详细教程之迁移(九) 怀君 flutter flutter 数据库
迁移入门引导式迁移配置用法例子切换到make-migrations开发过程中手动迁移迁移后回调导出模式导出架构下一步是什么？调试导出架构的问题修复这个问题架构迁移助手自定义分步迁移转向逐步迁移手动生成测试迁移编写测试验证数据完整性在运行时验证数据库模式迁移器API一般提示迁移视图、触发器和索引复杂的迁移更改列的类型更改列约束删除列重命名列合并列添加新列入门Drift通过严格的架构确保查询类型安全。
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
《Python星球日记》第35天：全栈开发（综合项目） Code_流苏 Python星球日记编程项目实战 Python全栈开发 Django Flask 后端开发博客系统
名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）专栏：《Python星球日记》，限时特价订阅中ing目录一、全栈开发概述1.全栈开发的优势2.全栈开发技能组合二、博客系统项目需求分析1.功能需求2.技术栈选择3.项目结构规划三、数据库设计1.实体关系分析2.Django模型设计四、后端开发1.Django项目创建2.视图
Spring 声明式事务：从原理到实现的完整解析 Code季风 Spring详解 spring 数据库后端开发语言 java spring boot
在后端开发中，事务管理是保证数据一致性的核心机制。尤其是在复杂业务场景下，一个操作可能涉及多步数据库操作，任何一步失败都需要回滚到初始状态。Spring的声明式事务通过AOP思想，将事务管理从业务逻辑中剥离，让开发者更专注于核心业务。本文将结合实际实现，详解声明式事务的核心机制和设计思路。一、为什么需要声明式事务？在讨论实现之前，我们先明确一个问题：为什么要用声明式事务，而不是手动编写事务代码？假
【Android】安卓四大组件之内容提供者（ContentProvider）：从基础到进阶 m0_59734531 Android android Java ContentProvider 安卓四大组件
你手机里的通讯录，存储了所有联系人的信息。如果你想把这些联系人信息分享给其他App，就可以通过ContentProvider来实现。。一、什么是ContentProvider‌ContentProvider‌是Android四大组件之一，负责实现‌跨应用程序的数据共享与访问‌，通过统一接口封装数据存储细节，提供标准化操作方式。其中主要功能包括：数据抽象层：将应用内部的数据（如SQLite数据库、文
400多个免费在线编程与计算机科学课程 zhufafa 基础理论课程理论计算机基础免费
来源：medium作者：DhawalShah五年前，麻省理工学院和斯坦福大学等学校首先向公众开放免费的在线课程。如今，全球有700多所学校创造了数以千计的免费在线课程。从入门到精通系列，是作者通过ClassCentral的课程数据库整理的400多个免费在线课程的简介和链接（来源于ClassCentral，一个在线课程搜索引擎），根据课程难度分为入门、进阶和高阶三大类，每门课程还有星级评分（统计自C
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
AnythingLLM教程系列之 12 AnythingLLM 上的 Ollama 与 MySQL+PostgreSQL 知识大胖 NVIDIA GPU和大语言模型开发教程 mysql postgresql 数据库 anythingllm ollama
简介一款全栈应用程序，可让您将任何文档、资源或内容转换为上下文，任何LLM都可以在聊天期间将其用作参考。此应用程序允许您选择要使用的LLM或矢量数据库，并支持多用户管理和权限。本文将介绍如何在AnythingLLM上将Ollama与MySQL+PostgreSQL连接起来。系列文章如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI应用程序，可以执行RAG、A
AnythingLLM教程系列之 09 AnythingLLM 支持自定义音频转录提供程序知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 anythingllm llm
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
AnythingLLM教程系列之 04 AnythingLLM 允许您以正确的格式导出聊天日志，以构建 GPT-3.5 和 OpenAI 上其他可用模型的微调模型（教程含安装步骤）知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 ai anythinllm llama
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
Java实习模拟面试之安徽九德 —— 面向对象编程、Spring框架与数据库技术详解培风图南以星河揽胜 java面试 java 面试 spring
关键词：Java实习生、模拟面试、安徽九德、SpringBoot、MySQL、Redis、面向对象编程、团队协作一、前言作为一名计算机相关专业的学生，想要顺利进入一家互联网公司或软件开发企业实习，技术面试是必须面对的一道门槛。本文将带你走进一场真实的Java实习生模拟面试场景，以“安徽九德”公司为背景，围绕其发布的招聘岗位要求，进行一次全方位的技术面试演练。本次模拟面试涵盖以下核心知识点：Java
Spring Boot基础小李是个程序 spring boot 后端 java
5.SpringBoot配置解析5.1.基础服务端口：server.port=8080（应用启动后监听8080端口）应用名称：spring.application.name=Chat64（注册到服务发现等场景时的标识）5.2.数据库连接（MySQL）URL：jdbc:mysql://localhost:3306/ai-chat（连接本地3306端口的ai-chat数据库，含时区、编码等参数）驱动：
Docker初识：mysql8主从复制（单向）- 主从搭建扩展知识滴水可藏海 #mysql 数据库
主从服务（master-slave）新学习到的知识。1、全库同步与部分同步上回书说到Docker初识：mysql8主从复制（单向）的配置都是针对全库配置的。但是实际上并不需要针对全库做备份，只需要对一些特别重要的库或者表来进行同步。例如information_schema等。可以通过配置文件中的一些属性指定需要针对哪些库或者哪些表记录binlog。Master配置：#需要同步的二进制数据库名bin
在拉卡拉分账功能中实现实时更新，需结合异步回调通知和数据库事务来确保数据一致性。以下是具体实现方案肥仔全栈开发拉卡拉支付 php 拉卡拉支付三方支付
一、实时更新的核心逻辑依赖拉卡拉分账回调拉卡拉分账完成后会主动推送回调通知（类似支付回调），需监听该回调并更新订单分账状态。数据库事务保障分账金额更新、状态变更等操作需放在事务中，避免部分失败导致数据不一致。二、代码实现1.分账回调处理接口（监听拉卡拉分账结果推送，实时更新数据库）//文件：application/api/controller/Notify.phppublicfunctionlak
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
Android开发中RxJava的使用与原理你过来啊你 android rxjava
RxJava是ReactiveExtensions在JVM上的实现，专为处理异步事件流和基于观察者模式的编程而设计。在Android开发中，它极大地简化了异步操作（如网络请求、数据库访问、UI事件处理）的管理、组合和线程调度，有效解决了回调地狱问题。一、RxJava核心概念Observable(可观察者)：数据源或事件源。它负责发出数据项(onNext)或事件（成功完成onComplete/发生错
MySQL数据库访问（C/C++）敲上瘾 MySQL数据库 mysql 数据库 c++c语言数据库开发数据库架构
访问数据库的方式：命令行：使用命令行输入SQL指令直接访问。需记忆命令和SQL语法，对新手不友好。正因如此推荐新手使用该方式访问，能倒逼学习者对SQL语法的记忆，并对MySQL更深入理解。图形化界面访问：使用图形化界面工具，如：DBeaver、DataGrip、Navicat、HeidiSQL（MySQL）、MySQLWorkbench。特点：有语法提示，可以直接对数据手动增删改。编程接口：在编写
MySQL多表关系详解六七_Shmily 数据库 mysql android 数据库
MySQL中的多表关系是关系型数据库设计的核心，它描述了不同表之间数据如何相互关联。合理设计表关系是构建高效、无冗余、易于维护的数据库模式的关键。MySQL主要支持三种基本的多表关系：1.一对一关系(One-to-OneRelationship)概念：表A中的一条记录最多只与表B中的一条记录相关联，反之亦然。实现方式：共享主键：表B的主键同时也是指向表A主键的外键。这是最严格的实现，确保绝对的一对
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi