只会写demo的程序猿

大数据中台架构以及建设全流程二（Daas层设计）

背景

面临问题解决方案

数仓架构演进

离线数仓架构

案例

Lambda数仓架构

案例

问题点

Kappa数仓架构

架构选型

数仓整体架构（图片来自网络）

数仓分层架构（图片来自网络）

主题域划分

维度建模

需求标准化

维度及指标规范管理

指标管理流程图

数仓建库表规范

字段规范

实时数仓

实时数仓1.0

缺点：

实时数仓2.0

实时数仓3.0

数据地图

血缘关系

数据湖

离线数仓痛点

实时数仓痛点

数据湖vs数仓

写实模式和读诗时模式

基于数据湖数仓架构

数据湖的未来

数据湖技术选型

背景

1：数据存在孤岛，烟囱式开发。导致指标混乱，重复开发，数据冗余。

2：数据分布在不同数据库或者所有都杂在一起，层次不清晰。

3：数据没有沉淀，很多时候重复计算导致数据冗余

4：定义不规范，没有统一规范。

这个时候数仓就应运而生。

面临问题解决方案

表命名逻辑不清晰逻辑分层（约定表名）

数据孤岛，烟囱式开发维度建模（主题域划分，沉淀中间结果）

找表难数据地图（查看表，元数据，数据血缘关系）

指标定义混乱，存在重复指标字典（命名规范管理，统一口径规则） DB表全量同步，效率低下增量表（设计拉链表，订阅Binlog日志）

各部门自建数仓共享数仓（共享DW层，自建DM层）

数仓架构演进

经典数仓架构----------------------->1990年提出的数仓概念

随着数据量急速增多演变如下

离线大数据架构-------------------->互联网时代数据量爆炸，且诞生了很多大数据工具

随着实时需求的增加演变如下

lambda架构------------------------->在原有功能上增加了实时的功能

因为业务需求以及希技术栈统一演变如下

kappa架构---------------------------->流批一体，业务核心转向实时

离线数仓架构

核心就是通过离线方式将数据导入数仓中。数据处理方式常用的就是MR，HSql，SparkSql以及一些集成组件比如DataX，kettle，Sqoop等。

案例

Lambda数仓架构

案例

问题点

1：同样的需求开发维护两套代码逻辑，批和流两套逻辑代码都需要开发和维护，并且需要维护合并的逻辑，需同时上线。

2：资源浪费，同样的计算逻辑计算两次，整体资源占用会增多。

3：数据具有二义性：两套计算逻辑，实时数据和批量数据容易对不上。准确性难以分辨，且不好排查。

Kappa数仓架构

Lambda架构解决了实时性的问题，随着业务的发展，很多业务都以实时性为主，再加上Flink等引擎的成熟，为了解决Lamdba架构的问题，提出了Kappa架构。

Lambda vs Kappa

架构选型

实际上大部分公司还是会采用Lambda架构，并不是很多任务需要很实时，而且有些财力人力不支持。

数仓整体架构（图片来自网络）

数仓分层架构（图片来自网络）

1、ods：操作数据层（Operational Data Store），脏数据清理，加密数据等，全量数据存储。

2、dwd：明细数据层（Data Warehouse Detail），维度合并实时表，提高明细表易用性。稳定的维度可以选择退化，异变的选择不退化。或者只保留维度组件采用星型模型。

3、dwm：中间层层（Data Warehouse Middle），可有可无，根据实际情况创建。存储中间过程数据。

4、dws：汇总数据层（Data Warehouse Summary），数据大宽，构建公共指标体系。

5、ads：应用数据层（Application Data Store）个性化产品指标数据

6、dim，维度数据层

主题域划分

可以按照如下方式划分2主题域

负责人:xxx 时间:2021-xx-xx xx xx
	业务主题数据主题		全平台	中台	表单	小程序	App	...
张三	交易	新增卖家	√	√	√	√	√
		新增买家	√	√	√	√	√
		交易额	√	√	√	√	√
李四	用户	注册用户	√	√		√	√
李四	用户	活跃用户	√	√			√
王五	产品	设备		√	√
		物料		√	√
		备件		√	√

维度建模

strep1：数据调研，需求分析（确定业务模块，数据域。比如用户域，产品域，交易域）

strep2：构建维度*事实总线矩阵（明确业务过程（业务总做，比如点检，保养，开关机，商品场景下的下单，支付等），业务过程与维度之间关系）

step3：维度*事实模型设计（构建dw事实明细表，DM主题明细）

step4：明确统计指标

原子指标=业务过程+度量比如登陆人数，支付订单数，执行开关机操作人数

派生指标=时间周期+修饰词+原子指标，比如最近七天全平台登陆人数，最近一天执行开关机操作人数。最近一个月App端登陆人数

step5：Ads层指标结果表设计，一般在关系型数据库或者Nosql数据库等查询比较快的DB

维度总线矩阵构建方式如下

负责人:xxx 时间:2021-xx-xx xx xx	一致性维度
	维度数据域*业务过程		省市区	销售渠道	性别	行业分类	...
张三	设备	开关机	√	√		√	√
		点检	√	√		√	√
		保养	√	√		√	√
李四	用户	注册用户	√	√		√	√
李四	用户	活跃用户	√	√		√	√
王五	产品	设备	√	√		√
		物料	√	√		√
		备件	√	√		√

需求标准化

标准化流程

维度及指标规范管理

派生指标=时间周期+修饰词+原子指标

举个栗子：过去一个月App端登录用户数 = 过去一个月（时间周期）+App端+登陆人数

日期周期：派生指标的日期聚合粒度；如：当天，过去7天，过去30天，其中以「当天」最为普遍

修饰词：用于对原子指标的修饰，包含对业务的修饰、场景修饰等；如：阿里、手机、回收都属于

修饰词

原子指标：指标的最细颗粒度描述，规则为：业务动作+度量值；如：支付+订单数=支付订单数

指标管理流程图

数仓建库表规范

如果数据量非常大，每一层表很多。则根据数仓分层建库，比如dw_公司名_dim，dw_公司名_dwd，dw_公司名_ods。每一层一个库。

如果表并不多，其实也可以把所有层的放到一个库里面。根据表明区别层级。

业务规范	数据模型层次	数据库名字	含义	物理表命名规范	数据存储格式	样例
业务数据	ODS	dw_xxx_ods	数据贴源层，数据从各业务数据库来。保持不变	ods_数据源_更新方式_时间粒度	Text	ods_mysql_inc_1d/ods_mysql_full_1d
数据仓库	DWD	dw_xxx_dwd	经过etl后的基础事实明细表	dwd_数据源_业务过程_更新方式_时间粒度如果是多数据源聚合而得 dwd_业务过程_更新方式_时间粒度	Parquet+snappy	dwd_msql_login_inc_1d
	DWM	dw_xxx_dwm	根据业务主题分析的中间过程表	dwm_业务主题_更新方式_时间粒度
	DIM	dw_xxx_dim	维度字典	dim_维度类型_更新方式_时间粒度	Text	dim_city_full_1d
数据集市	DWS	dw_xxx_dws	按数据/主题专题进行分析的轻度汇总数据	dws_业务主题域_业务过程_更新方式_时间粒度	Parquet+snappy	dws_eqp_check_full_1d(设备主题，维修过程)
数据产品	ADS	dw_xxx_ads	数仓提供给业务方使用的数据，可直接同步dws层也可以再通过dws聚合而来	ads_业务主题域/数据主题域_业务过程_更新方式_时间粒度	Text/Parquet	ads_运营数据分析_full_30d

字段规范

实时数仓

实时数仓1.0

缺点：

1：Kafka无法支持海量数据存储

2：Kafka无法支持Olap查询

3：Kafka无法像离线数据那样维护血缘关系

4：Kafka无法支持数据更新删除

实时数仓2.0

数据实时跟离线各走各只是数据全部统一落地到数据湖（常用技术栈比如Hudi）中，一次性解决了1.0的所有缺点。还能自动合并小文件节省存储空间。

实时数仓3.0

3.0跟20其实就是统一了技术栈，流批一体，使用flink或者sparkstreaming都可以。

好处是Sql统一，技术栈统一。

数据地图

在进行大数据治理时候，当然希望能够通过筛选，查询得到数据表的分类，建表语句，字段类型，血缘关系详细信息等。要做这么一个管理界面，其实是从建表源头时候就要控制通过页面建表，能够获取表的所有基础信息以及字段信息。

血缘关系

使用开源组件atlas来做，介绍文章如下

数据治理之元数据管理的利器——Atlas入门宝典 - 独孤风 - 博客园 (cnblogs.com)。

如果想要自研也可以，其实做血缘其实就是知道表与表之间关系，是如何转化得来的。核心其实就是拦截解析任务sql进行解析，但是挺麻烦，有开源的为什么不用开源的呢。

数据湖

前面不论离线数仓还是实时数仓，都存在一些问题。

1：技术栈不统一:

2：想要纯实时就数据无法更新修改，且无法存储大量数据:

3：不支持非结构化数据，依赖etl过程处理成结构化。（实际上有些数据当时并不知道该怎么用，只是想留存下来以后使用）比如日志，音频，图片。

离线数仓痛点

1：字段变更后，历史数据涉及到重跑覆盖。利用数据湖的读诗时模式可以解决

2：lambda架构数仓merge成本太高需使用额外uperset存储，不同存储之间涉及数据打通

3：实时分支里面，kafka无法保留海量数据，基于历史数据分析不好做。

实时数仓痛点

数仓方案1.0

痛点：没有模型，数据不能复用，浪费资源

数仓2.0

优点：数据模型可复用，整体延迟低。

痛点：kafka无法存储海量数据，默认存储7天，且无法基于中间层模型进行分析。

数据湖vs数仓

数据湖

1:数据价值无需提前明确

2：数据存储之后才需要定义schema

3：存储原始数据，可存储结构化，半结构化数据

4：低成本开销获得容量扩展

5：敏捷简单数据集成，支持编程框架

6：灵活构建，成本低，可复用资产

数仓

1：数据价值必须提前明确

2：数据存储之前必须定义好schema

3：只存储清洗后数据，结构化数据

4：中等成本开销能获得较大容量扩展

5：仅能支持统计，报表以及传统bi

6：重量级构建，时间成本高。

写实模式和读诗时模式

写时模式----------------->数据在写入前需定义好Schema，数据都按照schema写入。

读时模式----------------->数据在写入时候不需要定义schema，在需要时候再定义schema使用。有点类似dataframe

所以数据湖可以无成本修改schema，同一套数据不同的schema。

基于数据湖数仓架构

数据湖的未来

事务支持

企业内部许多数据管道通常会并发读写数据。对ACID事务的支持确保了多方并发读写数据时的一致性问题

•Schema enforcement and governance(模式实施和治理)

未来能更好的管理元数据，schema管理和治理，不让数据湖变成沼泽地

•BI支持

Lakehouse可以直接在源数据上使用BI工具

•开放性

使用的存储格式是开放式和标准化的（如parquet），并且为各类工具和引擎，包括机器学习和Python/R库，提供API，

以便它们可以直接有效地访问数据

•支持从非结构化数据到结构化数据的多种数据类型

•支持多种工作负载

包括数据科学、机器学习以及SQL和分析

•端到端流

为了构建Lake house，需要一个增量数据处理框架，例如Apache Hudi。

数据湖技术选型

市面上目前常规的有三个数据湖技术组件

开源产品对比

产品热度

一般来说Hudi比较流行。

使用案例

使用Apache Spark和Apache Hudi构建分析数据湖 - 知乎

数据查询平台

当我们有了数仓，以及在开发和使用数仓过程中我们需要对数据进行查询，校验，使用。总不能每次都打开shell界面进去查询，这样不便于权限管理以及展示。

所以我们需要一个平台提供给各部门使用，能够查看HDFS文件，sql查询数仓，Hive元数据查询。

目前市面上常用的组件有Hue

gethue.com（测试页面）

界面如下

该组件基本满足日常需求，且功能很丰富满足大部分公司使用。

但是也有一些缺点

1：没有汉化版本

2：功能过多，使用成本高

3：HDFS不支持中文

4：HDFS个别压缩文件格式不支持浏览

5：HDFS查询不支持高可用

6：HiveSql不支持高可用

7：SparkSql不支持高可用

8：Hive和sparkSql元数据未打通

需要基于Hue进行二次开发

【laravel+redis】分布式锁的实现起灵人 php laravel redis laravel redis php
laravel官方支持“原子锁”，并且说“要使用这个功能，应用必须使用memcached、dynamodb、redis、database或array缓存驱动作为应用默认的缓存驱动，此外，所有服务器必须和同一台中央缓存服务器进行通信”。前半句不多解释，后半句也强调了laravel的原子锁不负责在集群架构中保障故障转移期间的数据安全性。我贴一下laravel的源码看一下它是怎样用redis实现的分布式
Supervisor 入门指南一篇就够 —— 安装、项目配置与常见报错速查逻极 python 开发工具笔记 python 运维工具开发 supervisor
Supervisor入门指南一篇就够——安装、项目配置与常见报错速查一、Supervisor是什么在服务器进程管理中，Supervisor是一款用Python编写的进程守护与管理工具。它的核心功能是将普通的命令行进程转变为后台daemon进程，并且在进程因意外情况退出时，能够自动将其重启，保证进程的持续运行。在实际应用中，它常出现在多层架构里。比如在Nginx→Gunicorn/Django→Su
失业程序员的逆袭：从代码渣到百万架构师金牌学霸就业规划人生规划职业规划能源软件开发职场和发展职业规划就业指导
职业规划分析：30岁离异失业程序员的重启之路核心优势分析：技术根基扎实：211计算机本科+多年开发经验（假设5年+）行业适配性强：IT领域存在大量技术迁移机会危机意识觉醒：失业状态激发转型动力关键挑战：年龄焦虑（30+求职竞争）职业空白期解释技术更新迭代压力分阶段职业发展路径（3年规划）阶段时间核心目标具体行动方案重启期1-3个月快速就业+心理建设-主攻中大型企业维护型岗位-每天4小时LeetCo
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
推客系统小程序开发实战：2025年技术架构与实现细节 wx_qutudy java 推客小程序开发推客系统
引言在电商生态竞争日益激烈的2025年，推客系统作为私域流量运营的核心工具，其技术实现效率与合规性已成为企业增长的关键指标。本文基于实际开发经验，深度解析推客系统小程序的技术选型、架构设计与核心功能实现，旨在为开发者提供可复用的技术方案。一、技术选型：多端统一开发框架的深度实践1.1前端框架选型对比在2025年主流框架对比中，Taro3.6.31展现出显著优势：跨平台能力：支持微信/支付宝/百度小
计算机毕设——高校在线学习平台
随着教育信息化改革不断推进，传统教学模式逐渐暴露出诸多弊端，例如资源分散、互动匮乏、教学反馈滞后等。如何借助现代Web技术构建一个功能完善、稳定高效的教学平台，成为许多高校面临的重要课题。本文将从我的毕业设计项目《在线学习平台》出发，分享一个完整在线教育平台的设计与开发过程，涵盖技术选型、系统架构、核心模块实现以及系统测试等内容，适合对SpringBoot+Vue全栈开发感兴趣的同学学习参考。一、
2018-06-28 tree 便利显示 lazyTai
image.png//rendertree.jsconstpaddingLeft={paddingLeft:10}functionrenderChildren(data,datasource,props){returnMap(data,item=>{return{renderChildren(datasource[item.key],datasource,props)}})}//rendertre
MySQL(147)如何进行跨平台迁移？辞暮尔尔-烟火年年 mysql adb 数据库
跨平台迁移涉及将数据库从一个操作系统或平台迁移到另一个，例如从Windows迁移到Linux，或从不同架构的硬件之间进行迁移。这个过程比同平台迁移更加复杂，需要特别注意数据库的兼容性、数据编码、文件路径等问题。以下是一步一步的指导，详细介绍如何进行跨平台数据库迁移。一、准备工作1.确认源与目标平台源平台：当前运行数据库的操作系统和硬件平台。目标平台：新的操作系统和硬件平台。2.安装数据库软件在目标
2024年圈子社交APP源码开发：仿小红书垂直社区小程序搭建详解宠友信息 IM即时通讯 APP源码社交APP源码小程序微信 java uni-app spring boot 微服务
目录核心功能模块及技术解析多平台适配与技术架构结语在社交网络迅速发展的今天，垂直社交平台逐渐成为主流。特别是类似小红书的圈子社交应用，它们不仅为用户提供了一个分享和交流的空间，还满足了特定群体的个性化需求。2024年您可以打造一个深度互动、功能丰富的垂直社区。本文将详细描述如何基于这些技术构建社交平台，并结合相关的技术术语和代码片段。演示下载地址：社交源码_语音聊天软件_即时通信软件-社交软件-宠
用项目说话：我的React博客构建成果与经验复盘 Pan Zonghui 移动端 react 项目总结 react.js 前端前端框架
这是一个基于React19+TypeScript+Vite构建的现代化博客系统，采用了最新的前端技术栈和工程化实践。项目不仅实现了完整的博客功能，更在架构设计、性能优化、开发体验等方面体现了企业级应用的标准。成品展示个人博客链接地址：https://pzhdv.cnpc端页面展示首页分类页面关于我文章详情页面移动端技术栈选择与分层设计技术栈选择核心框架与工具React19.1.0:最新版本的Rea
从零开始学 Linux：循序渐进的学习指南我爱学嵌入式 Linux基础 linux 服务器
Linux作为一款开源、稳定且安全的操作系统，在服务器领域、嵌入式开发、云计算等场景中占据着举足轻重的地位。对于程序员、运维工程师或IT爱好者而言，掌握Linux技能已成为一项核心竞争力。但面对命令行界面和复杂的系统架构，很多初学者往往感到无从下手。本文将为你梳理一条清晰的Linux学习路径，助你从入门到精通。一、明确学习目标：为什么学Linux？学习Linux前需明确目标，不同目标对应不同的学习
从零开发推客小程序系统：完整技术方案与实战经验 wx_ywyy6798 小程序推客小程序开发推客系统开发微信小程序推客小程序推客系统推客分销系统开发
一、推客小程序的市场价值社交电商爆发式增长背景推客模式的优势：低成本获客、用户裂变小程序作为推客系统载体的天然优势二、技术架构设计text1.前端技术栈：-微信小程序原生开发/uni-app跨平台方案-自定义分享组件开发-可视化数据看板实现2.后端技术选型：-Node.js/PHP/JavaSpringBoot等后端框架对比-高性能分销关系链存储方案-佣金结算系统的设计要点3.数据库设计：-用户层
基于 MySQL 8.0.40 MGR 与 ProxySQL 的高可用集群部署实践 derek2026 部署实践 mysql 数据库
构建高可用MySQL8.0.40集群：MGR+ProxySQL实战指南一、部署架构图流量路径：应用→ProxySQL（DNS解析ProxySQLIP）→MySQLMGR集群二、环境准备1.系统要求**操作系统:**CentOS7.x服务器配置3台节点（建议最小配置：4核CPU/8GB内存/100GB磁盘）网络互通（关闭防火墙或开放端口：3306,33081,6032,6033节点规划节点1:192
后台管理系统登录思路大鼻子的四色鸳鸯笔记
一般来说我们不管是做后台管理，还是做普通项目，必不可少的其实就是登录。那么登录又是怎么实现的呢？废话不多说，上代码。首先我们把登录接口封装在一个文件里，如果这个接口有必备的参数，我们就得传参，然后在登录页引入调用。其次就是我们在登录页写登录框信息，这时候就需要接收接口必备的参数，那具体怎么接呢？先在data里设置两个放置参数的空数组。然后在登录信息框中外围prop接收，然后在信息框上v-model
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
Transformers基础组件—Datasets 小蒋的学习笔记 python 人工智能机器学习
目录datasets基本使用加载在线数据集加载数据集合集中的某一项任务按照数据集划分进行加载查看数据集数据集划分数据选取与过滤数据映射保存与加载加载本地数据集直接加载文件作为数据集加载文件夹内全部文件作为数据集通过预先加载的其他格式转换加载数据集通过自定义加载脚本加载数据集DatasetwithDataCollatordatasets基本使用fromdatasetsimport*加载在线数据集da
智界R7智驾功能和性能评价 TheWanderers 智能驾驶智界
一、智驾行车能力标题硬件配置与系统架构感知硬件：Max/Ultra版搭载1个192线激光雷达、3个毫米波雷达（含1个4D成像雷达）、12个超声波雷达、11个高清摄像头（含前向800万像素双目+鱼眼镜头）。Pro版未配备激光雷达，但保留3个毫米波雷达和10个摄像头。核心算法：HUAWEIADS3.0系统，基于端到端架构，整合感知、决策与控制模块，支持全场景目标识别（如非标准障碍物、夜间行人）。算力支
使用什么工具测试昇腾 NPU卡的性能和使用情况 alankuo 人工智能
测试昇腾NPU卡的性能和使用情况可以借助华为提供的官方工具和第三方工具。以下是常用的工具及其功能介绍：1.CANN工具链（华为昇腾计算架构）CANN（ComputeArchitectureforNeuralNetworks）是昇腾AI处理器的基础软件平台，提供以下核心工具：AtlasDeviceManager(ADM)系统级监控工具，支持可视化管理集群和设备。功能：实时监控NPU温度、功耗、利用率
5万人流挤地铁如何追踪？陌讯算法实战FPS飙升300%
开篇痛点在智慧城市安防场景中，传统视觉算法常面临“三难困境”：低光照漏检率飙升（夜间误报率超30%）、人群遮挡ID切换混乱（MOTA指标＜50%）、硬件资源吃紧（1080P视频流处理＞200ms）。某省会交警平台曾反馈：“雨雾天车牌识别准确率骤降至65%，追踪目标平均5分钟丢失1次”。技术解析：动态多目标蒸馏网络陌讯视觉算法创新性融合多任务蒸馏架构与时空注意力机制，攻克复杂场景泛化难题。核心公式创
c#:TCP服务端管理类妮妮学代码 c#tcp/ip java
TCP客户端连接多个服务端的类1.架构图2.创建TCP客户端与服务端通信的工具类注：TcpClientAsyncTool类中是客户端连接服务端的，TcpClient实质是Server，套用服务端连接客户端的，使用过程中自行修改名称，本案例暂未修改。连接使用异步操作，其余为同步执行的。publicclassTcpClientAsyncTool{privateTcpClient_tcpClient;p
GitLab系列2 GitLab Workhorse weixin_34326558 git 运维前端 ViewUI
GitLabWorkhorse上一回介绍了GitLab的基础功能和架构，但还没具体讲解用户的请求是怎么被处理的，只是将各个组件的功能职责介绍了一遍，本节将简单介绍gitlab-workhorse的功能首先回顾一下：GitLab利用Nginx将前端的http/https请求代理至gitlab-workhorse，gitlab-workhorse再将请求转发至UnicornWeb服务器。默认情况下gi
Python FastAPI 与传统 Web 框架的性能对比 Python编程之道 python fastapi 前端 ai
PythonFastAPI与传统Web框架的性能对比关键词：FastAPI、性能对比、Web框架、异步编程、Python、Django、Flask摘要：本文深入探讨了FastAPI与传统PythonWeb框架（如Django和Flask）在性能方面的差异。我们将从架构设计、请求处理模型、并发能力等多个维度进行对比分析，并通过基准测试数据展示实际性能差异。文章还将提供代码示例和性能优化建议，帮助开发
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
APatch - 新一代Android内核Root解决方案
项目简介APatch是一款创新的Android内核级Root解决方案，具有以下核心特点：基于内核补丁技术实现Root权限管理支持类似Magisk的模块系统(APM)提供内核模块功能(KPM)，允许向内核注入任意代码兼容Android内核版本3.18-6.1仅支持ARM64架构设备APatch依赖于KernelPatch核心引擎，其UI界面和模块系统部分代码源自KernelSU。功能特性核心功能内核
自己开发I2C Bootloader -上位机开发篇 EE工程师嵌入式系统 python stm32 单片机
上位机脚本开发在芯片原厂大部分工程师选择的脚本语言依然是Python,Python有哪些开发优势这里就不再讨论了，这里我们只陈述一下上位机的开发环境，作者的开发环境是VSCode+Anaconda。脚本内容也没有什么好说的，一看就懂，比较简单。唯一值得提醒的是本项目的上位机开发需要多注意*Write_DataBytes_To_Serial_Port(self,DataBytes):*函数的实现
FunASR Paraformer-zh：高效中文端到端语音识别方案全解
项目简介FunASR是阿里巴巴达摩院开源的端到端语音识别工具箱，集成了多种语音识别、语音活动检测（VAD）、说话人识别等模块。其中paraformer-zh和paraformer-zh-streaming是针对中文语音识别任务优化的端到端模型，分别适用于离线和流式场景。Paraformer采用并行Transformer架构，兼具高精度和低延迟，广泛应用于智能客服、会议转写、语音助手等场景。主要特点
《从零构建大模型》系列（21）：从头实现GPT模型——构建文本生成引擎
本文将带你从零构建类GPT模型：通过实现层归一化、前馈网络和Transformer块等核心组件，打造一个完整的文本生成模型架构，为后续训练奠定基础。目录一、GPT模型架构全景图1.1模型组件分解1.2GPT-2模型规格二、层归一化实现2.1为什么需要层归一化？2.2层归一化实现代码三、前馈神经网络实现3.1GPT中的前馈结构编辑3.2GELU激活函数3.3完整前馈网络实现四、Transformer
头盔识别误报率高？陌讯YOLOv7优化方案实测准确率达99%！
开篇痛点：算法失效的致命时刻在智慧交通领域，电动车头盔识别长期面临三大痛点：漏检危机：行人遮挡、雨天反光导致传统算法漏检率高达15%（某头部车企实测数据）误报泛滥：相似物体（背包、安全帽）误识别率超20%实时性缺陷：开源模型在1080P视频流中处理延时＞200ms，无法满足实时预警需求技术解析：陌讯算法三重创新架构graphTDA[双路输入]-->B[多尺度特征融合模块]B-->C[空间注意力机制
Atlas 读写分离子牙
1.AtlasAtlas是由Qihoo360,Web平台部基础架构团队开发维护的一个基于MySQL协议的数据中间层项目。它是在mysql-proxy0.8.2版本的基础上，对其进行了优化，增加了一些新的功能特性。360内部使用Atlas运行的mysql业务，每天承载的读写请求数达几十亿条。下载地址https://github.com/Qihoo360/Atlas/releases注意：1、Atla
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

大数据中台架构以及建设全流程二（Daas层设计）

背景

面临问题 解决方案

数仓架构演进

离线数仓架构

案例

Lambda数仓架构

案例

问题点

Kappa数仓架构

架构选型

数仓整体架构（图片来自网络）

数仓分层架构（图片来自网络）

主题域划分

维度建模

需求标准化

维度及指标规范管理

指标管理流程图

数仓建库表规范

字段规范

实时数仓

实时数仓1.0

缺点：

实时数仓2.0

实时数仓3.0

数据地图

血缘关系

数据湖

离线数仓痛点

实时数仓痛点

数据湖vs数仓

写实模式和读诗时模式

基于数据湖数仓架构

数据湖的未来

数据湖技术选型

数据查询平台

你可能感兴趣的:(数仓,big,data,架构,hadoop)

面临问题解决方案