大数据v

终于有人把数据仓库讲明白了

作者：彭锋宋文欣孙浩峰

来源：大数据DT（ID：hzdashuju）

数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合，用于支持管理决策过程。数据仓库的主要功能如下：

建立公司业务数据模型；
整合公司数据源，让清洗和治理之后的数据成为业务数据的唯一事实；
支持进行细粒度的、多维的分析，帮助高层管理者或者业务分析人员做出商业战略决策；
为更高一层的数据服务、机器学习应用提供主要的历史数据来源。

数据仓库的发展已有近40年的历史，但是它在大数据平台出现之前主要处理的是关系型数据库中的数据（这里称之为传统数据仓库）。在大数据出现之后，数据仓库承担的任务并没有变，但是其建设方式、建设内容和技术架构都发生了很大的变化。本文将对此做个简单介绍。

与ODS一般保存支持业务运营的当前数据不同，数据仓库记录的是业务数据的历史及汇总数据。在很多系统中，ODS对应的持久性数据存储也叫作贴源数据层，其意义都是一样的：从业务系统中采集的不作修改的OLTP操作数据集。ODS除了作为OLTP数据的导入区之外，也可以处理一些分析需求。表10-2对二者进行了简单对比。

▼表10-2 ODS和数据仓库的对比

01 数据建模方式

关于数据仓库中的建模，已经有很多介绍传统数据仓库的书详细介绍过，因此这里只做简单介绍。

数据仓库的模型分为三层：概念模型、逻辑模型和物理模型。

概念模型将业务抽象出来，实现对实际业务的数字化描述。
逻辑模型将概念模型进行结构化的设计，使其能够用于后续的分析和管理。
物理模型将逻辑模型映射到实际的物理存储上，例如数据库、表的设计。

一般数据仓库中的建模工作主要在于逻辑模型层，常见的有实体关系（ER）建模和维度（dimensional）建模两种方式。

实体关系建模使用实体加关系的3NF模型来描述企业业务架构。值得注意的是，业务系统（OLTP）里的3NF模型一般针对某个具体的业务流程，而数据仓库（OLAP）里的3NF模型一般针对企业全局的实体和关系抽象，强调数据的汇聚整合和一致性治理。

被誉为“数据仓库之父”的Bill Inmon比较倡导实体关系建模。例如，Teradata为金融业设计的FS-LDM（Financial Services Logical Data Model）就是一个典型的实体关系模型（见图10-2），它将常见的金融活动抽象和总结为10个主题以及它们之间的关系，这10个主题是当事人、产品、协议、事件、资产、财务、机构、地域、营销和渠道。

▲图10-2 Teradata FS-LDM

实体关系建模的好处是符合3NF，数据冗余少，容易进行数据整合和治理。但是不推荐将这种方式用于基于大数据的数据仓库建模，因为其建设周期长，设计者必须深刻了解企业的全局业务之后才能设计和实施，且其不能很好地支持业务的快速变化。

维度建模由数据仓库和商务智能领域的权威专家Ralph Kimball提出，其核心思想是从业务分析决策的需求出发构建模型。

具体来讲，就是将需要分析的业务流程的基本信息（如一次交易的交易ID、客户ID、门店ID、货物ID、交易时间、交易金额）记录在事实表中，而将与此业务流程相关的通用信息（如客户信息、门店信息、货物信息）记录在维度表中。

与实体关系建模不同，维度建模一般使用星型模型或者雪花模型，会有一定的数据冗余（例如在同一次交易中的多个货物记录中，交易ID、客户ID、门店ID等可能会重复），也不符合3NF，但它是我们在为数据中台建设数据仓库时更推荐的建模方式，因为相比实体关系建模，它具有以下优势：

比较直观和便于理解，一条事实表中的记录就可以还原一个业务流程的大部分信息；
处理复杂的查询效率较高，无须做大量会占用很多计算资源的join操作；
能够快速支持业务的变化和扩展，可以方便地添加新的业务模型及维度，而无须考虑复杂的依赖关系；
可以快速实施和见效，可以有针对性地选择业务场景落地然后再逐渐扩展。

02 数据仓库建设的层次

理论上，基于Hadoop的数据仓库建设有多种分层方法：有的体系中没有专门的数据湖，而把ODS归为数据仓库的一部分，有的体系中把数据集市也归为数据仓库的一部分，还有的体系中把维度数据单独算作一层。虽然分层方法不一，但是一般的数据仓库建设过程和思路在原理上都是类似的。

在本文中，我们将数据仓库的建设简单分为数据湖、数据仓库和数据集市三层，其中，数据仓库层可以进一步分为明细数据层（DWD，也称基础数据层）和数据汇总层（DWS，也称通用数据层）。此外，我们使用统一的维度数据表和元数据/主数据管理系统，如图10-3所示。

▲图10-3 数据仓库层次

下面介绍一下数据仓库里各个层次的主要功能、数据模型以及主要数据处理方式。

值得注意的是，很多数据仓库系统都可以根据自己的实际情况来组织这些层次的功能，比如，由于使用专门的原始明细数据层会多占用很多空间，很多实际项目就将数据湖中的ODS稍微扩展一下，而不专门设置原始明细数据层；也有系统干脆就把ODS规划到数据仓库的范畴。

还有，虽然数据集市通常是与数据仓库区分开的，以显示其面向具体业务、直接使用的特征（所以一般称之为应用数据集市），但是数据仓库的建设一般都会包括数据集市。其实这个名称是什么并不重要，关键是要理解每一层承担的工作和设计原则。

1. 原始数据

一般按照业务域组织业务数据的原始明细历史记录。有时这一层直接由ODS承担，如单独设置了这一层，其数据模型基本与ODS一致，再加上一些数据处理需要的统一扩展字段，例如入库时间、更新时间、处理批次等。

有时会在这一层进行名称、代码的标准化，例如表名的统一规范、表名的去重处理，以及一些简单的维度表合并和代码转换等。这些数据既可以按增量组织，根据年、月、日进行分区，也可以进行全量组织，每天存储一个最新的全量快照。

2. 明细数据

将原始明细数据根据业务规则进行各种数据清洗处理，包括ID转换、字段合并、脏数据处理、维度数据标准化、脱敏处理、数据质量检测等。

这一层的数据模型需要将主数据和维度数据模型确定下来，例如用户、产品、交易等主数据及其标准维度，并将原始数据通过ETL执行前期处理，将结果数据存储到相应的清洗明细表里。

一般这一层还负责将一些非结构化数据（日志、埋点数据）解析和治理转换成结构化的明细表，例如将服务器日志解析成用户访问明细表等。绝大部分的数据治理工作都发生在这一层，这一层的工作量也是最大的。

这一层的数据的ID、维度数据值已经标准化和经过验证，将被作为数据分析的主要基础，其清洗和处理的逻辑比较复杂，在处理中出现错误时往往需要重新计算。因此，血缘、版本、变更管理对这一层数据的有效管理是很关键的。

3. 汇总数据

汇总数据是在清洗的明细数据基础上生成的细粒度的汇总聚合结果。这一层的数据模型一般就是根据业务需求按照星型模型或者雪花模型建设的最细粒度的汇总，所以基本上就把数据仓库的分析功能确定了。

例如，如果要按渠道（channel）、用户性别（gender）、年龄（age）、收入水平（income）、产品品类（category）、广告引流（referer）来查询产品的销售情况，那么就要有一个专门的汇总事实表来处理这个查询，其命名类似于sales_by_channel_gender_age_income_category_referer。

这个表名中包含了涉及的每个维度的每一个可能的取值组合，且细化到每天或每小时的销售额。每一个字段里的维度值都是标准的ID，对应到相应维度表中的取值。

数据仓库的建模就主要发生在这一阶段，数据仓库分析的限制就是这里建立的数据模型的能力。

例如，在上面的模型里，我们可以使用细粒度数据的聚合来回答sales_by_channel（上月在淘宝上的销售额）+sales_by_referer（昨天百度广告带来的销售额）这样的聚合查询（roll up），也可以回答“昨天35岁以上高收入男性通过百度广告在淘宝上购买3C产品的销售额”这种下钻查询（drill down）。

但是，如果我们再加一个维度，例如地区（region），这个模型就不能支持了。这时我们需要修改模型，重新计算。

对于这种情况，有一种思路是，可不可以事先把所有的维度都加进去？这种思路的主要问题在于数据条目会随维度组合数目的增加而迅速增长。

如果有50个维度，每个维度有100个可能的取值，那么一条销售记录就可能产生5000条汇总记录，在实际工作场景中可能会更多。除了数据量巨大、ETL任务耗时长之外，这样的方案在做聚合查询的时候效率也很低。

这种高维组合数据一般称为数据立方体（Data Cube），其生成和计算问题有两个传统的解决办法。

其一，根据业务需求人工确定最常用的组合，例如，上面的表可以分为sales_by_channel_gender_age_income_referer_region和sales_by_channel_category_referer_region，如果业务部门有其他组合，可以使用即席计算来算一下，但无法做到实时交互了。
其二，使用Kylin这样的预计算和动态规划的Cube Planner。

4. 数据集市

这一层一般包含业务部门按照业务域建立的特定主题的汇总表，反映了业务运行的状况。数据集市中的数据主要来源于汇总数据事实表，但是近年来也有不少人通过数据分析或机器学习应用直接从数据湖生成数据集市报表，毕竟汇总明细表受限于事先的设计。

与汇总数据事实表不同，数据集市的数据表包含直接体现业务属性的字段，比如数据集市中的客户订单统计表包含地区名称和商品名称（但不一定包含地区编码和商品编码）。

这是因为数据集市中的数据表往往会被直接输入可视化的BI工具中进行进一步的分析，地区和商品这些维度字段都会直接采用名称来直观表示其业务属性，以省去查询时的join操作。

例如前面的销售汇总表可能会生成一个名为sales_by_channel_referer_region的数据集市报告，供市场部门监测广告在各个渠道和市场中的表现。

数据集市中的数据一般都是数据应用的数据来源，比如我们前面提到的可视化BI工具可以以图表的方式呈现数据集市中的数据，或者以数据立方体（多维数据）的方式对数据集市中的数据进行多维度分析（比如上卷、钻取、切片、切块等操作）。

03 数据仓库中的数据治理

数据仓库中的数据治理以解决实际业务问题为导向，以提升数据资产的管理水平和使用效率为目标，并以元数据为驱动，连接数据标准管理、数据质量管理、数据安全管理各个阶段，形成统一、完善、覆盖数据全生命周期的数据治理体系。数据仓库中的数据治理主要针对以下问题。

第一，数据分散、杂乱，无法理解。很多企业业务线众多，数据源分散，且各系统间无法打通，成为信息孤岛；数据收集标准不相同，数据零散地存储在各个业务系统中，难以形成全局数据联动。
第二，数据收集渠道单一，模式落后，效率低，成本高。业务增长带来数据增长，传统数据管理模式难以应对大数据增长。从渠道上来说，传统数据收集渠道单一、落后、偏线下化；从方式上来说，很多企业收集信息的手段仍停留在手工收集阶段，效率低、成本高且造成数据不匹配。
第三，数据标准不统一，缺乏分析工具，数据难运用。一方面，数据标准不统一导致整合困难，难以进行全局联动；另一方面，缺乏数据分析工具，仅靠数据专业人才难以满足企业需求，且难以看到数据的实时变化及价值。这两方面的因素导致难以真正实现数据驱动业务发展，提升运营管理水平。
第四，系统落后，难以满足数据管理需求，存在数据风险隐患。在数据井喷式增长的当下，众多企业未能跟上随数据增长而变化的需求，难以满足监管要求，同时存在数据隐患及风险问题。

为了解决以上问题，数据治理一般需要提供以下功能组件。

元数据管理：通过统一的元数据管理满足各类用户的数据资源使用需求，实现数据资产的可视化管理。
数据质量管理：通过数据质量控制方法，使得数据的采集、存储和使用符合相关的质量要求。
数据安全管理：保证数据不因偶然或恶意的原因而遭到破坏、更改或泄露，还包括数据访问权限控制、数据安全服务、数据访问审计等。
数据标准管理：为数据标准提供系统工具支撑，包括标准管理、标准展示、标准监控等功能。
元数据管理接口：提供元数据查询、数据加解密、数据资产注册接口和SSO接口。
数据管理门户：包括数据资产查询以及数据质量、数据安全、元数据和数据标准集成门户等。

在数据治理的过程中，我们一般需要解决数据采集、数据标准、数据组织和转换、数据使用等问题。这里我们主要介绍数据标准和数据质量的有关工作。

数据标准是指保障数据内外部使用和交换的一致性和准确性的规范性约束。数据标准一般包括三个要素：标准分类、标准信息项（标准内容）和相关公共代码（如国别代码、邮政编码）。

数据标准通常可分为基础类数据标准和指标类数据标准。

基础类数据标准一般包括数据维度标准、主数据标准、逻辑数据模型标准、物理数据模型标准、元数据标准、公共代码标准等。
指标类数据标准一般分为基础指标标准和计算指标（又称组合指标）标准。基础指标一般不含维度信息，且具有特定业务和经济含义，计算指标通常由两个以上基础指标计算得出。

数据标准管理是指制定和实施数据标准的一系列活动，其中的关键活动有：

理解数据标准化需求；
构建数据标准体系和规范；
规划制定数据标准化的实施路线和方案；
制定数据标准管理办法和实施流程要求；
建设数据标准管理工具，推动数据标准的执行落地；
评估数据标准化工作的开展情况。

数据标准管理的目标是通过制定和发布统一的数据标准，结合制度约束、系统控制等手段，确保企业大数据平台数据的完整性、有效性、一致性、规范性和开放性，为数据资产管理活动提供参考依据。

很多行业监管机构都会组织发布行业数据标准。例如，中国银保监会于2018年5月发布了《银行业金融机构数据治理指引》，绝大部分银行在建设大数据平台或数据中台的时候，必须了解这个数据标准中的内容，并将其融入数据中台的建设中。

那么，怎样才算将数据标准融入数据中台的建设中了呢？

一般来说，就是将数据标准中所描述的数据必须遵守的规则，比如数据取值范围、数据项之间的关系和局限，都用代码表现出来，然后系统持续对需要管理的数据集运行这些检查代码（也有直接修补的代码），如果出问题就报错。这样就保证了数据系统中的数据符合规范。

很多时候，达到这些标准的要求并不需要直接编写代码，而可以使用专门的数据治理工具的DSL来配置数据质量规则。

因为数据标准的编写与行业结合紧密，而且通常有专门的数据治理工具来实施这些数据质量的工作，这里就不展开了。

04 数据清洗

数据治理工作中有一个很重要的步骤是数据清洗。数据清洗有两个目的：一是解决数据质量问题，二是让数据更适合做挖掘。数据清洗的结果是对各种脏数据进行相应的处理，得到标准、干净、连续的数据，供数据统计、数据挖掘等使用。数据的质量问题一般包括下面几种情况。

数据不完整，例如患者的属性中缺少性别、籍贯、年龄等。
数据不唯一，例如不同来源的数据出现重复的现象。
数据不权威，例如同一个指标出现多个来源的数据，且数值不一样。
数据不合法，例如获取的数据与常识不符，如年龄大于150岁。
数据不一致，例如不同来源的不同指标实际内涵是一样的。

处理数据质量问题一般有以下方法。

数据完整性：直接补齐数据。没有办法直接补齐的，通过其他信息补全，例如使用身份证件号码推算性别、籍贯、出生日期、年龄等。还可以通过前后数据补全，例如时间序列缺数据，可以使用前后的均值；如果缺的数据较多，可以使用平滑等处理。
数据唯一性：去除重复记录，只保留一条。可以按数据库主键去重，也可以按规则去重。编写一系列规则，对重复情况复杂的数据进行去重，例如对于不同渠道来的客户数据，可以通过相同的关键信息进行匹配，合并去重。
数据的权威性：对不同渠道设定权威级别，用最权威的那个渠道的数据。
数据的合法性：设定强制合法规则，凡是不在此规则范围内的，强制设为最大值，或者判为无效并剔除。例如，字段类型合法规则中，日期字段格式为year-month-day；字段内容合法规则中，性别属于男、女或未知。
数据的一致性：建立数据体系，包含但不限于指标体系（度量）、维度（分组、统计口径）、单位、频度、数据。

让数据更适合做数据挖掘的方法一般有如下几种。

降低高维度数据的维度：一般采用主成分分析法和随机森林法。
处理低维度数据：通过汇总、平均、加总、取最大值、取最小值、离散化、聚类、自定义分组等方法来抽象。
处理无关和冗余信息：剔除无关的和冗余的字段。
处理多指标数值：对多指标数值进行归一化，例如取最大/最小值、取均值等。

关于作者：彭锋，智领云科技联合创始人兼CEO。武汉大学计算机系本科及硕士，美国马里兰大学计算机专业博士，主要研究方向是流式半结构化数据的高性能查询引擎，在数据库顶级会议和期刊SIGMOD、ICDE、TODS上发表多篇开创性论文。2011年加入Twitter，任大数据平台主任工程师、公司架构师委员会大数据负责人，负责公司大数据平台及流水线的建设和管理。

宋文欣，智领云科技联合创始人兼CTO。武汉大学计算机系本科及硕士，美国纽约州立大学石溪分校计算机专业博士。曾先后就职于Ask.com和EA（电子艺界）。2016年回国联合创立智领云科技有限公司，组建智领云技术团队，开发了BDOS大数据平台操作系统。

孙浩峰，智领云科技市场总监。前CSDN内容运营副总编，关注云计算、大数据、人工智能、区块链等技术领域，对云计算、网络技术、网络存储有深刻认识。拥有丰富的媒体从业经验和专业的网络安全技术功底，具有超过15年的企业级IT市场传播、推广、宣传和写作经验，撰写过多篇在业界具有一定影响力的文章。

本文摘编自《云原生数据中台：架构、方法论与实践》，经出版方授权发布。

延伸阅读《云原生数据中台：架构、方法论与实践》

点击上图了解及购买

转载请联系微信：DoctorData

推荐语：前Twitter大数据平台主任工程师撰写，融合硅谷与国内经验，全面讲解云原生数据中台架构、选型、方法论、实施路径，国内外专家联袂推荐。

划重点????

干货直达????

机器人与人工智能的关系，终于有人讲明白了
Flink的设计与实现：集群资源管理
10本书，帮你看清未来的科技趋势
什么是知识图谱？有哪些典型应用？终于有人讲明白了

更多精彩????

在公众号对话框输入以下关键词

查看更多优质内容！

PPT | 读书 | 书单 | 硬核 | 干货 | 讲明白 | 神操作

大数据 | 云计算 | 数据库 | Python | 爬虫 | 可视化

AI | 人工智能 | 机器学习 | 深度学习 | NLP

5G | 中台 | 用户画像 | 1024 | 数学 | 算法 | 数字孪生

据统计，99%的大咖都关注了这个公众号

????

你可能感兴趣的:(数据仓库,大数据,编程语言,python,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号