Yale曼陀罗

CDA备考学习学习笔记——基础知识篇（一）

CDA备考学习——基础知识点（一）

一、数据分析的基础概念
- 1.1 什么是数据分析?
- 1.2 数据分析的分类？
- 1.3 EDIT数字化模型
二、数据分析师职业道德与行为准则
- 2.1 职业道德
- 2.2 行为准则
三、大数据立法、安全、隐私
- 3.1 原则
- 3.2 隐私与安全
- 3.3 国外的相关法律
- 3.4 我国的相关法律
四、数据结构、表结构
- 4.1 表格结构
- - 4.1.1 表格结构数据特征
  - 4.1.2 表格结构数据获取方法
  - 4.1.3 表格结构数据使用方法
  - - 4.1.3.1 单元格的引用方法
    - 4.1.3.2 表格结构数据查询方法
    - 4.1.3.3 函数
    - 4.1.3.4 用查询函数进行查找
    - 4.1.3.5 表格结构数据的计算方法——直接计算
    - 4.1.3.6 表格结构数据的计算方法——函数计算
- 4.2 表结构
- - 4.2.1 表结构数据，以及事实表和维度表
  - 4.2.2 表结构数据特征
  - 4.2.3 表结构数据获取方法
  - 4.2.4 表结构数据使用方法
  - - 4.2.4.1 表结构数据的横向合并
    - 4.2.4.2 表结构数据的纵向合并
    - 4.2.4.3 表结构数据的汇总
    - 4.2.4.4 数据分析的业务意义

一、数据分析的基础概念

1.1 什么是数据分析?

简单来说，数据分析就是利用数据来理性思考和决策的过程。

1.2 数据分析的分类？

数据分析（Data Analysis）：是以数据为分析对象，以探索数据内的有用信息为主要途径， 以解决业务需求为最终目标 。
数据挖掘（Data Mining）：是一个跨学科的计算机科学分支，它是用人工智能、机器学习、统计学和数据库的交叉方法 在相对较大型的数据集中发现模式 的计算过程。

1.3 EDIT数字化模型

EDIT数字化模型 的定义：

业务运行探索（E）：探索关注企业各项业务的 运行状态 、各项指标是否合规以及各项业务的 具体数据 情况等等。
问题根原因诊断（D）：当业务指标偏离正常值时，采用定性和定量相结合的方式，在中、微观层面 定位和分析问题 。
业务策略指导（I）：当确定获客群体后，我们就需要考虑下如何指定业务策略指导。根据知识库、策略库、流程模板可以便捷地制定 优化策略 。
智能算法工具（T）：算法架构是EDIT数字化模型的 发动机 ，服务于价值经营、客群运营、全面质量管理、全面风险管理等各个方面。

EDIT数字化模型 的各个字母的全称及作用：

Exploration（探索）：指标体系；
Diagnosis（诊断）：性质分析法，数量分析法；
Instruction（指导）：知识库，策略库，流量模板；
Tool（工具）：数据模型，算法模型，优化模型；

二、数据分析师职业道德与行为准则

对于我们数据分析师，在价值观（开放、创新、分享）的基础上，同样有更高的职业道德操守与行为准则，需要我们每一位数据分析师都遵守。

2.1 职业道德

职业道德：

将数据产权、用户利益和机构利益 置于个人利益之上 ，保护数据资产的 安全性 ，遵循数据的 真实性、可靠性 ，禁止技术欺诈、数据造假、非法交易，损害用户和机构利益。
保持和加强自身职业道德操守以及同行的操守。不参与任何违法行为 ，包括但不限于：

偷窃、欺骗、腐败、挪用或贿赂；
不使用或滥用他人的产权 ，包括数据资产、知识产权；
不参与诽谤或侮辱；
不宽恕或帮助他人参与违法行为 。

2.2 行为准则

行为准则：

如果说数据分析师的职业导则操守告诉我们**什么不应该做，什么应该做** 。那么数据分析师的行为准则告诉了我们 怎么去做 。

专业、审慎、高效地完成各项数据分析的业务流程：

全面了解业务背景、痛点、需求 ，做出分析建议，与团队充分沟通，确定合理的业务指标，获取符合要求的原数据。
保持工具与算法的前沿性、实用型、高效性。根据也无需要，选择合理的工具、平台、系统及算法 。
不断 迭代并优化 业务指标与数据模型。
撰写专业可视化报告，逻辑清晰展示项目成果，并 做出具有商业价值的建议 。
尊重契约，按时按质完整 交付工作成果，并对相关数据、代码、结果进行保密。
履行后期义务与责任 。完整交付结果后，对客户须进行后期解答、咨询、维护等服务；对机构业务须进行后续跟进、优化、指导建议等工作。

三、大数据立法、安全、隐私

3.1 原则

有关数据隐私与安全的立法，是一个单独的、严谨的领域，而且内容庞杂。同学们千万不要去背诵相关法条，而是要掌握数据安全法的 立场与原则 ，然后去分析相关 实际问题 。

3.2 隐私与安全

隐私是一种个人的权利，即我的个人信息不被滥用，不被他人知道的权利。
安全是一种机制，即为了确保隐私权得到保护而设立的一种机制。
首先明确个人权利，然后设置机制取保护权利。

3.3 国外的相关法律

欧盟的《通用数据保护条例》General Data Protection Regulation，简称GDPR。
其核心目标是将个人数据保护深度嵌入组织运营，真正将抽象的保护理论转化为实实在在的行为实践。

GDPR：

企业在收集用户的个人数据之前，必须向用户说明：

将收集用户的哪些信息；
收集到的信息将如何进行存储；
存储的信息会如何使用；
企业的联系方式。

用户享有的权利有：

数据访问权；
被遗忘权；
限制处理权；
数据携带权。

3.4 我国的相关法律

保护公民个人数据信息安全已写入刑法（《中华人民共和国刑法修正案（九）》）

中华人民共和国网络安全法：

网络运营者收集、使用个人信息必须符合合法、正当、必要原则；
网络运营收集、使用公民个人信息的目的明确原则和知情同意原则；
公民个人信息的删除权和更正权制度。

2020年6月28日-30日，《中华人民共和国数据安全法》迎来初次审议。

确立数据分级分类管理以及风险评估，检测预警和应急处置等数据安全管路各项基本制度；
明确开展数据活动的组织、个人的数据安全保护义务，落实数据安全保护责任；
坚持安全与发展并重，锁定支持促进数据安全与发展的措施；
建立保障政务数据安全和推动政务数据开放的制度措施。

四、数据结构、表结构

4.1 表格结构

4.1.1 表格结构数据特征

数据类别：结构化数据和非结构化数据

1. 结构化数据：常见的表格结构数据生产的上下游关系如下图所示。

表格结构数据层级：

对象间的父子级关系：

父级→子级： 一个父级对象下包含多个不同子级对象；
子级→父级： 一个子级对象只能属于某一个特定的父级对象；

例如：省份与城市、月份与日期

表格结构数据的数据类型：

单元格的格式属性：

4.1.2 表格结构数据获取方法

1. 从企业后台数据库系统获取：

2. 从后台数据库系统获取数据流程：对应流程图如下所示。

需求中的业务描述部分应尽量准确、详细、易懂；
需求中的数据使用部分的描述应尽量做到条理清晰、逻辑严谨、细节描述要详细；
需求描述结束后需要确认数据库管理人员听懂并且理解了需求内容；
向数据库管理人员询问获取数据的方案，与数据库管理人员一起逐一核对方案细节。

3. 前端操作平台获取数据：

4. 从企业外部渠道获取数据：

CSV格式文件与TXT格式文件的样例：

4.1.3 表格结构数据使用方法

4.1.3.1 单元格的引用方法

单元格的引用方法：

引用统一工作表内单元格值：通过=“列号+行号”定位单元格；
引用单元格值：通过“=表名！+列号+行号”定位单元格；

单元格区域值的引用方法：

4.1.3.2 表格结构数据查询方法

表格结构数据查询方法：

4.1.3.3 函数

函数：

函数构成五部分：

“=”：等号的意义是告诉计算机，我从现在开始要使用函数进行计算了。是对计算机进行的函数使用宣言；
函数表达式：函数表达式由函数名以及括号两部分构成，不同函数表达式代表不同的函数功能；
参数：进行函数计算时参照的计算依据；
操作符：有特殊意义的字符；
返回值：使用函数进行计算的目的就是为了得到计算结果，计算结果就是返回值。

4.1.3.4 用查询函数进行查找

用查询函数进行查找：

4.1.3.5 表格结构数据的计算方法——直接计算

表格结构数据的计算方法——直接计算：

直接计算：使用运算符连接单元格或单元格区域进行计算。

4.1.3.6 表格结构数据的计算方法——函数计算

表格结构数据的计算方法——函数计算：

函数计算：使用函数对单元格及单元格区域值进行计算并返回计算结果。

4.2 表结构

4.2.1 表结构数据，以及事实表和维度表

表结构数据：以字段或记录作为数据的引用、操作及计算的基本单位的数据。

字段：整列数；
记录：整行数；
维度：业务角度；
度量：业务行为结果；
维度字段：文本型；
度量字段：数值型；

事实表及维度表：

维度表：只包含维度信息的表；
事实表：既包含维度信息又包含度量信息的表；

4.2.2 表结构数据特征

1. 以字段或记录作为数据的引用、操作及计算的基本单位的数据。

2. 所有字段记录行数相同；

表结构数据的正确格式应满足：方形结构、记录行数相同、存在空值、处理缺失值。

处理缺失值：根据数据类型以及生成信息重要程度的不同，使用不同方法处理缺失值。
$\quad$
1. 文本型字段：

影响不大：以选择不进行处理，或者也可以用其他没有实际业务含义的文本字符对缺失值进行替换；

影响大：招业务人员进行确认后替换，或者与业务人员核实后删除。
$\quad$

2. 数值型字段：
综合考虑该数值型字段所代表的度量意义以及针对该数值型字段进行汇总计算的方式来最终决定对缺失值的具体处理方法。

3. 一个表中有且只有一个主键；

确定主键的方法：

如果直接对数据库中的数据表进行操作，可以通过SQL语句确认数据表的主键字段；

如果间接在其他数据分析平台使用表结构数据（数据源是数据库中的数据表，使用时将数据源数据导入其他平台使用），可以找原数据库中数据表的设计者咨询主键信息，或是直接查看数据表设计者留下的设计资料来对主键字段进行确认；

通过对数据表的业务意义进行分析，推测主键字段后在用物理手段确认推测的主键字段中的记录值是都能够满足“非空”、“不重复”的要求来对主键字段进行确认。

4.2.3 表结构数据获取方法

【应用】表格结构数据，【引用】表结构数据；

关系型数据库管理系统： 关系型数据库管理系统的主要任务是企业业务数据的存储、检索、访问与共享。

商业智能系统BI： 用于为企业决策者快速提供完整、准确、深入的数据分析结果，帮助企业决策者实现商业洞察。

ETL功能： 将数据从数据源经过抽取（Extract）、清洗转换（Transform）之后加载（Load）到数据仓库。

数据仓库（DW）： 用来存储分析所需要的不同数据源上的所有相关数据信息。

OLAP： 连接信息孤岛、创建多维数据模型。

4.2.4 表结构数据使用方法

4.2.4.1 表结构数据的横向合并

表结构数据的横向合并： 将不同表中的字段信息合并到同一个表中使用。

表结构数据的横向合并的主要特点：

1. 通过公共字段匹配：

2. 左表与右表、连接方向：

3. 对应关系：

4. E-R图：

4.2.4.2 表结构数据的纵向合并

表结构数据的纵向合并： 多表中记录信息合并到同一个表中进行使用的合并方式称为纵向合并。

4.2.4.3 表结构数据的汇总

数据透视： 对零散数据进行汇总分析。

维度： 业务观测角度；
度量： 业务行为结果；
汇总计算规则： 衡量业务行为结果好坏程度的测量仪。

维度筛选度量、度量被维度筛选

汇总计算规则：

4.2.4.4 数据分析的业务意义

数据分析的业务意义： 数据分析师连接零散数据与人类认知间的桥梁。

数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
hive血缘关系之输入表与目标表的解析 zxfBdd hive 大数据治理大数据
接了一个新需求：需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩，那咱就动手吧。血缘关系是数据治理的一块，其实有专门的第三方数据治理框架，但考虑到目前的线上环境已经趋于稳定，引入新的框架无疑是劳民伤财，伤筋动骨，所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表，最后会形成一张表与表之间的链路图。这个东西的好处就是有助于仓库人员梳理业务，后面可能还会做字段之间的血
影响数据分析导致数据建模错误！你可能都没发觉的几个小细节丨程序之道丨
如果你有一个目标，想获得所有这些数据的可操作的见解，并一直在收集。那么，你如何确定模型的数据，以便实际上可以获得这些见解，并回答你的业务问题?你的计划。当规划阶段不充分或不完全，其结果是可怕的。那么分析和性能、数据完整性和安全性的问题接踵而至，将会使日常的维护和发展的成本达到了不必要的水平。避免常见的建模错误1.开始实施时没有明确的行动计划当涉及到的分析，如数据仓库或Elasticube建模数据资
从零到一建设数据中台 - 架构概览我码玄黄从零到一建设数据中台架构数据中台中台架构
数据中台功能架构概览数据中台相关名词解释1.数据仓库：数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。因此，其重点在于数据的集合。数据仓库可使用维度建模方法论从业务过程中抽象出通用维度与度量，组成数据模型，为决策分析提供通用的数据分析能力。数据仓库重在建数据，而数据中台则将建、治、管、服放到同样的高度，数据仓库只是数据中台的一个子集。用一个蔬菜储存的例子来简
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
离线数仓VS实时数仓 james二次元数据仓库数据仓库大数据
离线数据仓库（OfflineDataWarehouse）和实时数据仓库（Real-timeDataWarehouse）的实施有一些相似之处，但也存在显著的差异。以下是两者在几个关键方面的对比：相同点：数据集成：都需要从多个数据源提取、转换和加载数据（ETL/ELT）。都需要处理数据清洗、去重和规范化，以保证数据的一致性和准确性。数据建模：都需要进行数据建模，设计数据仓库的星型或雪花模型，定义事实表
数仓建模之维度表&指标表锵锵锵锵~蒋数据研发数据仓库数据研发
在数据仓库中，维度和指标是两个重要的概念。维度（Dimension）：维度是一种描述业务过程中各种属性的方法，用于对业务过程进行分析和归类。维度包括时间、地点、人员、产品、客户等各种业务属性，是数据分析的基础。指标（Measure）：指标是衡量业务过程效果的标准，是数据分析的重要指标。指标包括数量、金额、时间、比率、百分比等，用于衡量业务过程的各种结果。在数据仓库中，通常会使用维度表和指标表来进行
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
mysql整体架构描述问道飞鱼数据库相关技术 mysql 架构数据库
文章目录数据库架构示意图1.连接层2.服务层3.存储引擎层4.文件系统层5.系统层主要特性数据库文件格式InnoDB存储引擎文件类型及用途MyISAM存储引擎文件类型及用途其他文件类型文件内容示例表结构文件示例(`.frm`)InnoDB数据文件示例（`.ibd`）MyISAM数据文件示例（`.MYD`）SQL脚本文件示例（`.sql`）数据库内存结构示意图MySQLServer层面的内存结构In
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
一文说清什么是数据仓库数据分析小兵数据中台系列 spark 大数据分布式数据分析数据挖掘数据仓库
01数据仓库的概念数据仓库的概念可以追溯到20世纪80年代，当时IBM的研究人员开发出了“商业数据仓库”。本质上，数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。目前对数据仓库（DataWarehouse）的标准定义，业界普遍比较认可的是由数据仓库之父比尔·恩门（BillInmon）在1991年出版的“BuildingtheDataWarehouse”（《建立数据仓库》）一书中所提
美团点评酒旅数据仓库建设实践大数据金猫数据仓库
美团点评酒旅数据仓库建设实践：https://tech.meituan.com/2017/05/26/hotel-dw-layer-topic.html
大数据平台--调度系统小瓶盖的猪猪侠
调度系统是数据仓库的重要组成部分，也是每个银行或公司一个基础软件或服务，需要在全行或全公司层面进行规划，在全行层面统一调度工具和规范，由于数据类系统调度作业较多，交易类系统批量优先级高，调度系统的整体架构如下：调度中心对调度批次和作业进行创建、管理、监控，它负责所有批量作业的调度和编排；在整个作业过程中，作业之间关系分为触发，依赖和互斥。1、触发触发关系表示一个作业完毕后，生成另一个作业的控制文件
数据库，数据仓库，数据湖，湖仓一体到底是什么区别大数据小尘数据库数据仓库 spark
昨天结束的一场面试，面试官问了下我对数据仓库和数据湖的理解，根据之前的理解我说了下数据湖是数据仓库某些时候的缓存，然后面试官反问说我确定这个用词对吗？没理解到位，所以去了解之后再整体输出下我自己的理解。先说下上面的答案，数据仓库和数据湖可以是互相独立存在的，不存在谁是谁的缓存一说，但是如果涉及到湖仓一体的时候，数仓是结构化的数据访问入口，而底层的数据湖是可以作为数仓的底层的存储支持。要了解各个概念
第八章外部数据和数据仓库晨磊的微博
[TOC]第八章外部数据和数据仓库8.0概述外部数据：产生于企业外部系统的数据（非企业内部系统）外部数据典型来源：商报、新闻、研究报告、分析报告等外部数据不能自由导入，需要统一进入仓库原因1：自由导入容易丢失源信息原因2：自由导入数据难以再次使用8.1数据仓库中的外部数据外部数据：出现没有固定频率，不便永久监控完全没有规则，必须格式化不可预测，任何时候可能来自于任何数据源8.2元数据和外部数据元数
分布式数据库架构：从单实例到分布式，开发人员需及早掌握？我爱娃哈哈 MySQL实战分布式数据库架构数据库
现在互联网应用已经普及，数据量不断增大。对淘宝、美团、百度等互联网业务来说，传统单实例数据库很难支撑其性能和存储的要求，所以分布式架构得到了很大发展。而开发人员、项目经理，一定要认识到数据库技术正在经历一场较大的变革，及早掌握好分布式架构设计，帮助公司从古老的单实例架构迁移到分布式架构，对自己在职场的竞争力来说，大有益处。一、什么是分布式数据库？Wiki官方对分布式数据库的定义为：Adistrib
数据仓库系列篇之基本概述小学僧来啦数据仓库数据仓库数据库大数据
@Author:Spinach|GHB@Link:http://blog.csdn.net/bocai8058文章目录前言什么是数据仓库数据仓库与数据库的区别为什么要建立数据仓库及数仓平台的优势为什么要建立数据仓库大数据数仓平台的特点或优势数据仓库和数据集市的关系前言通过收集资料、个人经验总结整理了【数据仓库系列篇】，有不足之处多多包涵，可参考如下：《数据仓库系列篇之基本概述》《数据仓库系列篇之分
数据域VS主题域陈吉俊 spark 大数据分布式
数据域和主题域是数据仓库中两个重要的概念，他们在数据仓库建设和数据分析中扮演着不同的角色，两者有着明显的区别。数据域：以业务系统的角度，对业务过程进行归纳，抽象出来的数据域。它是自下而上的，通常在完成业务系统数据调研后就可以进行数据域的划分。数据域更侧重于从业务数据的角度进行划分，确保数据的完整性和准确性。主题域：从数据分析应用的角度进行划分的，通常是联系较为紧密的数据主题的集合。主题域是自上而下
MySQL数据库运维：深度解析与实践指南野老杂谈数据库 mysql 运维
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：+V:LAF20151116进行更多交流学习⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。⭐
Hive的优势与使用场景傲雪凌霜，松柏长青后端大数据 hive hadoop 数据仓库
Hive的优势Hive作为一个构建在Hadoop上的数据仓库工具，具有许多优势，特别是在处理大规模数据分析任务时。以下是Hive的主要优势：1.与Hadoop生态系统的紧密集成Hive构建在Hadoop分布式文件系统(HDFS)之上，能够处理海量数据并进行分布式计算。它利用Hadoop的MapReduce或Spark来执行查询，具备高度扩展性，适合大数据处理。2.支持SQL-like查询语言(Hi
大数据面试题：说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？蓦然_ 大数据面试题 hive 大数据开发面试题大数据面试
1、为什么要使用Hive？Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。大多数数据仓库应用程序都是使用关系数据库进行实现的，并使用SQL作为
DBA职责萧木易 mysql 数据库 dba oracle
一、DBA技术1、作为一个DBA，你必须要精通SQL命令、各种数据库架构、数据库管理和维护、数据库调优，必要的时候，还需要为开发人员搭建一个健壮、结构良好、性能稳定的数据库环境。2、数据库是构建在操作系统之上的，你还需要精通系统技术。当然，完全不必要学习系统管理员那样高深的技术理论。3、你还需要掌握服务器硬件、软件技术理论。便于数据库基于服务器问题出现的时候，能够及时提出解决方案。4、还要理解数据
梧桐数据库（WuTongDB）：存算分离和存算一体架构的分布式数据库技术分析鲁鲁517 梧桐数据库数据库架构分布式梧桐数据库
摘要：随着数据量的不断增长和对数据处理性能的要求越来越高，分布式数据库技术成为了数据存储和处理的重要解决方案。存算分离和存算一体是两种常见的分布式数据库架构，它们在数据存储和计算方面有着不同的特点和优势。本文将对存算分离和存算一体架构的分布式数据库技术进行分析，比较它们的优缺点，并探讨它们在不同场景下的应用。一、引言在大数据时代，数据的存储和处理成为了企业面临的重要挑战。传统的单机数据库已经无法满
hive序列生成_Hive实现自增列的两种方法 weixin_39559804 hive序列生成
多维数据仓库中的维度表和事实表一般都需要有一个代理键，作为这些表的主键，代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列，但它也有一些对自增序列的支持，通常有两种方法生成代理键：使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数(UDF)。用row_number()函数生成代理键INSERTOVERWRITETABLEmy_hive
数据仓库之【商品订单数据数仓】10：数据可视化工具：Zeppelin安装部署、Zeppelin使用做一个有趣的人Zz hadoop hive 数据仓库 hive big data
一、数据可视化数据可视化这块不是项目的重点，不过为了让大家能有一个更加直观的感受，我们可以选择一些现成的数据可视化工具实现。咱们前面分析过，想要查询hive中的数据可以使用hue，不过hue无法自动生成图表。所以我们可以考虑使用Zeppelin针对一些复杂的图表，可以选择定制开发，使用echarts、finebi组件实现。二、Zeppelin安装部署注意：不要使用Zeppelin0.8.2版本，这
关于Apache Hive 和 Apache Iceberg [听得时光枕水眠] apache hive hadoop
ApacheHive和ApacheIceberg都是大数据生态系统中的重要工具，但它们解决的问题和扮演的角色有所不同。我们可以用大白话来比喻它们之间的关系：ApacheHive可以想象成一个“数据仓库超市”，它的货架上摆满了各种商品（数据），并且提供了一个购物车（HiveQL，一种类SQL语言），让你可以方便地从这些商品中挑选你想要的，进行购买（查询）。Hive主要负责将Hadoop的数据组织成表
【GaussDB(DWS)】数仓部署架构与物理结构分析若兰幽竹 GaussDB DWS gaussdb
数仓架构与物理结构分析一、部署架构二、物理结构三、测试验证一、部署架构华为数据仓库服务DWS，集群版本8.1.3.x集群拓扑结构：上述拓扑结构为DWS单AZ高可靠部署架构，为减少硬件故障对系统可用性的影响，建议集群部署方案遵循如下原则：对于每组实例，其主、备部署在不同的节点上。例如：GTM的主、备分别部署在不同的节点上。DN的主、备、从备部署在不同的节点上。建议节点内存大于等于512G，每个节点部
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin