see you in September

20200625大数据spark学习笔记

启动
src/redis-server redis.conf

src/redis-cli -h hadoop000 -p 6379

keys * 查询里面的key

HBase特点

大:
面向列：列族（可以存放很多列），列族/列独立索引
稀疏：对于空的列，不会占用存储空间

数据类型单一：btye/string
无模式：每一行的数据所对应的列不一定相同，每行的列是可以动态添加的
数据多版本：比如company可以存放不同的版本的值
默认情况下版本号是自动分配的，是列的值插入时的时间戳

启动hbase
cd /bin
./hbase shell

create 'member','member_id','address','info'

插入数据 put 表明, rowkey, cf :column,value

put 'member','pk','info:age','28'

put 'member','pk','info:birthday','1990-05-05'

put 'member','pk','info:company','imooc'

get 'member','pk','info'

put 'member','pk','info:age','18' //改年纪

scan 'member'

HBase 的api操作

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.*;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.filter.*;
import org.apache.hadoop.hbase.util.Bytes;
import org.junit.After;
import org.junit.Assert;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
public class HBaseApp {
Connection connection = null;
Table table = null;
Admin admin = null;

String tableName = "pk_hbase_java_api";

@Before
public void setUp() {
Configuration configuration = new Configuration();
configuration.set("hbase.rootdir", "hdfs://hadoop000:8020/hbase");
configuration.set("hbase.zookeeper.quorum", "hadoop000:2181");

try {
connection = ConnectionFactory.createConnection(configuration);
admin = connection.getAdmin();

Assert.assertNotNull(connection);
Assert.assertNotNull(admin);
} catch (IOException e) {
e.printStackTrace();
}
}

@Test
public void getConnection() {

}

@Test
public void createTable() throws Exception {
TableName table = TableName.valueOf(tableName);
if (admin.tableExists(table)) {
System.out.println(tableName + " 已经存在...");
} else {
HTableDescriptor descriptor = new HTableDescriptor(table);
descriptor.addFamily(new HColumnDescriptor("info"));
descriptor.addFamily(new HColumnDescriptor("address"));
admin.createTable(descriptor);
System.out.println(tableName + " 创建成功...");
}
}

@Test
public void queryTableInfos() throws Exception {
HTableDescriptor[] tables = admin.listTables();
if (tables.length > 0) {
for (HTableDescriptor table : tables) {
System.out.println(table.getNameAsString());

HColumnDescriptor[] columnDescriptors = table.getColumnFamilies();
for (HColumnDescriptor hColumnDescriptor : columnDescriptors) {
System.out.println("\t" + hColumnDescriptor.getNameAsString());
}
}
}
}

@Test
public void testPut() throws Exception {
table = connection.getTable(TableName.valueOf(tableName));

// Put put = new Put(Bytes.toBytes("pk"));
//
// // 通过PUT设置要添加数据的cf、qualifier、value
// put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("age"), Bytes.toBytes("28"));
// put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("birthday"), Bytes.toBytes("xxxx"));
// put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("company"), Bytes.toBytes("imooc"));
//
// put.addColumn(Bytes.toBytes("address"), Bytes.toBytes("country"), Bytes.toBytes("CN"));
// put.addColumn(Bytes.toBytes("address"), Bytes.toBytes("province"), Bytes.toBytes("GUANGDONG"));
// put.addColumn(Bytes.toBytes("address"), Bytes.toBytes("city"), Bytes.toBytes("shenzhen"));
//
//
// // 将数据put到HBase中去
// table.put(put);

List puts = new ArrayList<>();

Put put1 = new Put(Bytes.toBytes("jepson"));
put1.addColumn(Bytes.toBytes("info"), Bytes.toBytes("age"), Bytes.toBytes("18"));
put1.addColumn(Bytes.toBytes("info"), Bytes.toBytes("birthday"), Bytes.toBytes("xxxx"));
put1.addColumn(Bytes.toBytes("info"), Bytes.toBytes("company"), Bytes.toBytes("apple"));
put1.addColumn(Bytes.toBytes("address"), Bytes.toBytes("country"), Bytes.toBytes("CN"));
put1.addColumn(Bytes.toBytes("address"), Bytes.toBytes("province"), Bytes.toBytes("SHANGHAI"));
put1.addColumn(Bytes.toBytes("address"), Bytes.toBytes("city"), Bytes.toBytes("SHANGHAI"));

Put put2 = new Put(Bytes.toBytes("xingxing"));
put2.addColumn(Bytes.toBytes("info"), Bytes.toBytes("age"), Bytes.toBytes("19"));
put2.addColumn(Bytes.toBytes("info"), Bytes.toBytes("birthday"), Bytes.toBytes("xxxx"));
put2.addColumn(Bytes.toBytes("info"), Bytes.toBytes("company"), Bytes.toBytes("PDD"));
put2.addColumn(Bytes.toBytes("address"), Bytes.toBytes("country"), Bytes.toBytes("CN"));
put2.addColumn(Bytes.toBytes("address"), Bytes.toBytes("province"), Bytes.toBytes("SHANGHAI"));
put2.addColumn(Bytes.toBytes("address"), Bytes.toBytes("city"), Bytes.toBytes("SHANGHAI"));

puts.add(put1);
puts.add(put2);

table.put(puts);
}

@Test
public void testUpdate() throws Exception {
table = connection.getTable(TableName.valueOf(tableName));

Put put = new Put(Bytes.toBytes("xingxing"));
put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("age"), Bytes.toBytes("20"));

table.put(put);

}

@Test
public void testGet01() throws Exception {
table = connection.getTable(TableName.valueOf(tableName));
// table = connection.getTable(TableName.valueOf("access_20190130"));
//
// Get get = new Get("20190130_1433814004".getBytes());
// //get.addColumn(Bytes.toBytes("info"), Bytes.toBytes("age"));
//
// Result result = table.get(get);
// printResult(result);

Get get = new Get("pk".getBytes());
get.addColumn(Bytes.toBytes("info"), Bytes.toBytes("age"));
Result result = table.get(get);
printResult(result);
}

@Test
public void testScan01() throws Exception {
table = connection.getTable(TableName.valueOf(tableName));

Scan scan = new Scan();
// scan.addFamily(Bytes.toBytes("info"));
scan.addColumn(Bytes.toBytes("info"), Bytes.toBytes("company"));

//Scan scan = new Scan(Bytes.toBytes("jepson")); // >=
//Scan scan = new Scan(new Get(Bytes.toBytes("jepson")));
//Scan scan = new Scan(Bytes.toBytes("jepson"),Bytes.toBytes("xingxing")); // [)
ResultScanner rs = table.getScanner(scan);

// ResultScanner rs = table.getScanner(Bytes.toBytes("info"), Bytes.toBytes("company"));
for(Result result : rs){
printResult(result);
System.out.println("~~~~~~~~~~~~~");
}

}

@Test
public void testFilter() throws Exception {
table = connection.getTable(TableName.valueOf(tableName));
Scan scan = new Scan();
// String reg = "^*ing";
// Filter filter = new RowFilter(CompareFilter.CompareOp.EQUAL, new RegexStringComparator(reg));
// scan.setFilter(filter);

// Filter filter = new PrefixFilter(Bytes.toBytes("p"));
// scan.setFilter(filter);

FilterList filters = new FilterList(FilterList.Operator.MUST_PASS_ONE);
Filter filter1 = new PrefixFilter("p".getBytes());
Filter filter2 = new PrefixFilter("j".getBytes());

filters.addFilter(filter1);
filters.addFilter(filter2);
scan.setFilter(filters);

ResultScanner rs = table.getScanner(scan);
for(Result result : rs){
printResult(result);
System.out.println("~~~~~~~~~~~~~");
}
}

private void printResult(Result result) {
for (Cell cell : result.rawCells()) {
System.out.println(Bytes.toString(result.getRow()) + "\t "
+ Bytes.toString(CellUtil.cloneFamily(cell)) + "\t"
+ Bytes.toString(CellUtil.cloneQualifier(cell)) + "\t"
+ Bytes.toString(CellUtil.cloneValue(cell)) + "\t"
+ cell.getTimestamp());
}
}

@After
public void tearDown() {
try {
connection.close();
} catch (IOException e) {
e.printStackTrace();
}
}

}

项目背景
离线+实时基于Spark(RDD/SQL/Streaming)
基于慕课网的访问日志进行统计分析
访问日志：离线 HBase
点击流日志：
搜索：关键字
订单数据日志：实时 Redis

统计：不同需求/业务+根据不同的维度进行统计
今天：新增了多少注册会员、订单量多少、订单金额多少？
今天和昨天对比：增长？减少？百分比
会员
订单
运营商/地市

离线项目的架构/处理流程
数据采集：落地到HDFS 外部将数据采集到内部
SDK数据==>日志==>Hadoop
Server日志：Flume、Logstash
数据库：Sqoop
提供给你们采集过来的数据，直接存放在HDFS上即可，后续的所有操作都是基于这份数据进行的
(*****)数据预处理/数据清洗：脏/乱数据 ==> 数据规整化（RDD/DF/DS）
[30/Jan/2019:00:00:21 +0800] ==> 时间解析
按照指定的分隔符进行拆分
加字段
ip==>城市、运营商、经纬度
减字段
使用技术：Spark
HDFS ==> Spark ==> HBase
(*****)数据入库：把规整化的数据写入到存储(HBase)
Hive、HBase、Redis......
使用技术：HBase
rowkey设计
cf
column
(*****)数据分析
出报表的核心所在
统计分析结果可以找个地方存储起来
使用技术：Spark
HBase ==> MapReduce/Spark ==> 业务逻辑分析(代码) ==> DB
HBase ==> Hive/Spark SQL ==> SQL ==> DB

数据展示：将分析所得到的数据进行可视化显示
使用技术：HUE、Zeppelin、Echarts、自研

离线项目中要统计的指标/需求
1）区域统计：国家、省份
2）终端统计：浏览器、版本号
==> Spark + HBase综合运用 *****
两个版本：
业务逻辑实现
各种性能的优化
两种实现
Spark Core
Spark SQL

Spark：
日志按照统计需求清洗到HBase表中
log ==> df
DF ==> put
Spark把put写入到HBase中

对HBase表中的数据进行维度指标的统计分析操作
Spark把HBase中的Result读取出来
使用RDD进行统计分析
使用DataFrame API进行统计分析
使用Spark SQL API进行统计分析

next：对这章的内容进行优化和重构

UserAgent进行处理和统计分析
如何解析UserAgent的信息呢？
自己开发：麻烦
首先想到的是Github，是不是已经有开源的解析处理的工程呢？
https://github.com/chetan/UASparser
操作系统信息、浏览器信息

统计各个省份、地市的访问信息
需要根据IP进行解析
开源：纯真（有兴趣的，自己去尝试使用纯真进行解析）
生产：收费，会定时更新IP库、直接调用人家公司提供的IP解析API就可以的
调用Spark的方法，内部已经给你们集成好的

Spark+HBase+Redis综合使用，pom.xml中需要添加一些框架的依赖

基于Spark的流处理框架
项目背景：
离线处理/批处理：慕课网的访问日志：点击、搜索
实时处理：订单日志
谁、什么时候、下单了什么课程、支付、IP（运营商、地市）、UA

流处理系统
Spark Streaming
Structured Streaming *****
Flink
Storm
Kafka Stream

项目架构及处理流程
log==>Flume==>Kafka==>SparkStreaming(Direct)==>Redis
实时：代码来生成订单日志==>Kafka==>SparkStreaming(Direct)==>Redis
离线：HDFS==>Spark==>HBase

公司大数据团队的分工：采集、批处理、实时处理、API、前端

项目需求
1）统计每天付费成功的总订单数、订单总金额
2）统计每个小时付费成功的总订单数、订单金额
==>统计每分钟付费成功的总订单数、订单金额
==>统计基于Window付费成功的总订单数、订单金额
==>付费订单占到总下单的占比：天、小时、分钟

不能拘泥于某个具体的需求，而因为从一类场景中进行拓展/扩展，进而举一反三，才能达到更好的学习效果

Spark Streaming来进行统计分析，分析结果我们需要写入到Redis（数据类型的合适选择）

Spark Streaming&Kafka&Redis整合

离线项目：访问日志
实时项目：付费日志
下单，但是没付钱
下单，付钱
time,userid,courseid,orderid,fee
json格式提供

SparkStreaming读取Kafka的数据，通过fastjson的方式把我们所需要的字段解析出来
根据我们的业务逻辑实现功能：代码的重构，好好理解下
根据不同的业务选择合适的Redis的数据类型进行存储即可

我们的职责是把数据存储到Redis就行了，对于后续还有展示的功能，我们不考虑这部分的实现

我就不打包了到服务器上运行了，
作业：自己根据离线项目的讲解，把实时项目打包到服务器上运行
如果有疑问的，到时候加入到我们课程的QQ群里，我们一起来交流和讨论

彩蛋：这们课程我们会定时在课程群里，安排直播答疑

"auto.offset.reset" -> "latest"
如果Spark挂了，Kafka还在运行的话，可能会有数据的丢失
Kafka offset管理起来

StreamingContext
从Kafka中获取要处理的数据
根据业务来处理数据
处理结果入库
启动程序，等待程序终止

挂了：kafka的数据到底是从头开始还是从最新数据开始

正确的做法：
第一次应用程序启动的时候，要从某个地方获取到已经消费过的offset
业务逻辑处理完之后，应该要把已经处理完的offset给它保存到某个地方去

offset存储的地方
Checkpoint
Kafka
ZK/MySQL/HBase/Redis

作业：把offset管理起来

------------------------------------------------------------------------

有点坑，把kafka版本换到2.11-0.10.0.0
配置下tmp目录跟localhost->hadoop000

cd /bin 启动
./kafka-server-start.sh -daemon ~/app/kafka_2.11-0.10.0.0/config/server.properties

./kafka-topics.sh --create --zookeeper hadoop000:2181 --replication-factor 1 --partitions 1 --topic pkkafka

./kafka-topics.sh --create --zookeeper hadoop000:2181 --replication-factor 1 --partitions 1 --topic pkkafkatest

//测试
./kafka-console-producer.sh --broker-list hadoop000:9092 --topic pkkafkatest

./kafka-console-consumer.sh --zookeeper hadoop000:2181 --topic pkkafkatest

读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
【大数据之路11】多范式编程语言 Scala 程序员老五大数据 scala 开发语言
多范式编程语言Scala1.Scala概述1.Scala介绍2.学习Scala的必要性1.基于编程语⾔⾃身2.基于活跃度2.Scala基础语法1.HelloScala2.变量定义1.变量与常量2.Scala自动类型识别3.lazy懒加载3.数据类型1.相关概述1.Scala数据类型列表2.测试代码3.Scala数据类型结构图2.Scala基本类型操作3.编码规范4.流程控制1.if2.块表达式3.
我的大数据之路 - 基于HANA构建实时方案的历程小南家的青蛙经验总结大数据数据仓库
产品内部前期有一个共识，依据业务要求的时效性来选择技术平台，即：实时类业务，时效性小于2小时，则使用HANA构建。离线类业务，时效性大于2小时，则使用大数据平台构建。经过五月、六月两月的努力，离线类的业务已基本完成开发和验证完毕，后面待在生产环境对数完毕后，即可启动切换。因此实时类业务的方案分析和梳理，成为当下最重要、最紧急的事情。考虑到项目当前的痛点：直接从I层构建业务，没有复用主题层的模型和资
大数据之路—数据架构体系及模型设计长不大的大灰狼大数据大数据架构
大数据之路—数据架构体系及模型设计一、阿里巴巴数据整合及管理体系二、维度设计1、基本概念2、规范化和反规范化3、维度整合4、维度拆分5、维度变化6、特殊维度三、事实表设计1、事实表特性2、事实表类型3、事实表设计原则4、事务事实表5、周期快照事实表的注意事项6、累计快照事实表的物理实现7、三种事实表的比较8、聚集型事实表一、阿里巴巴数据整合及管理体系实施工作流：1、划分数据域：根据业务过程抽象出数
2. 《大数据之路：阿里巴巴大数据实践》学习笔记，持续更新ing helloooi #业务理解模型建设大数据学习笔记
笔记链接(飞书)：https://t0s016els2a.feishu.cn/docx/JrNydGljUonH1ExcGCpcoC8unTb密码：r6@61391该书籍部分目录如下：文章目录第1篇数据技术篇第2章日志采集2.1浏览器的页面日志采集2.1.1页面浏览日志采集流程2.1.2页面交互日志采集2.1.3页面日志的服务端清洗和预处理2.2无线客户端的日志采集2.2.1页面事件2.2.2控件
大数据之路-日志采集（第二章）小白15138 大数据
文章目录2.1浏览器的页面日志采集2.1.1页面浏览日志采集流程2.1.2页面交互日志采集流程2.1.3页面日志的服务器端清洗和预处理2.2无线客户端的日志采集2.2.1页面事件2.2.2控件点击及其他事件2.2.3特殊场景2.2.4H5&Native日志统一2.2.5设备标识2.2.6日志传输2.3日志采集的挑战2.3.1典型场景1.日志分流与定制处理2.3.2大促保障阿里巴巴的日志采集体系方案
大数据之路——数据同步（第三章）小白15138 大数据
文章目录3.1数据同步基础3.1.1直连同步3.1.2数据文件同步3.1.3数据库日志解析同步如第一章所述，我们将数据采集分为日志采集和数据库数据同步两部分。数据同步技术更通用的含义是不同系统间的数据流转，有多种不同的应用场景。主数据库与备份数据库之间的数据备份，以及主系统与子系统之间的数据更新，属于同类型不同集群数据库之间的数据同步。另外，还有不同地域、不同数据库类型之间的数据传输交换，比如
李浩然：从大数据能力提升项目出发，探索化工大数据之路 | 提升之路系列（一）... 数据派THU 大数据
导读为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式，显著提升了学生大数据分析能力和创新
数据仓库理论进阶 - 01 《阿里大数据之路》第二篇数据模型篇 :Concerto 数据仓库 big data 数据库
第8章大数据领域建模综述此文章为学习笔记，有兴趣的小伙伴可以根据以下指引获取更多，学习内容链接如下：视频：【一起啃书】阿里大数据之路数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili书籍：《阿里大数据之路》8.1为什么需要数据建模建模目标：有序、有结构地分类组织和存储存储在hdfs等文件系统数据模型含义：就是数据组织和存储的方式，它强调从业务、数据存取和使用角度合理存储数据此处举例：表
我的大数据之路：2023年度总结话数Science 大数据面试大数据面试 spark
2023年度最值得骄傲的事从0到1搭建了离线数仓体系，针对Hadoop生态组件的原理和特性有了深入的理解。同时对“数据治理”有了一定的实践经验：存储治理：HDFS基于纠删码的存储空间占用上优于多副本存储；冷数据使用对象存储可以大幅降低成本。计算治理：基于RoaringBitmap的去重统计方案适合高性能的产品功能使用，但针对运营产品人员进行内部分析使用则不够友好，内部的多维分析可以考虑标签化的解法
也谈数据治理晓阳的数据小站
也谈数据治理|0x00数据治理是什么数据治理，在不同行业的概念，可能不同。比如在国家标准化管理委员会发布《信息技术服务治理第5部分：数据治理规范》，从非常宏观的角度来制定，侧重于拉通概念和达成共识，像一种“国家标准”；《华为数据之道》是从企业数字化的角度切入下去，侧重数据治理体系和方法论，属于一种“管理方案”；而阿里推出的《大数据之路》一书，则在数据技术层面给出了有价值的指导，算是具体的“实现方案
2019年05月记录本深海suke
【最近最想读的五本书】1阿里大数据之路2刺杀骑士团长3东方列车谋杀案4夜航西飞5洗澡【最近想看的电影】1海蒂与爷爷2调音师3东方快车谋杀案4切尔诺贝利5蹡蹡三人游
数据仓库理论宇宙中的Philip 数仓理论数据仓库大数据 hive
数仓理论知识点结构图本文初衷是为了学习归纳，若有错误，请指出。修改记录时间内容2020年9月13日第一次发布推荐书：《数据仓库工具书》（纯理论）、大数据之路-阿里巴巴大数据实践、一、数仓相关概念数据仓库：英文DataWareHouse，数据仓库是面向主题，为分析数据而设计的，是一个各种数据（包括历史数据和当前数据）的中心存储系统，主要服务于商业智能（也就是BI）和企业决策管理。商业智能：指用现代数
大数据之路-Hadoop-概述（2）胡萝卜土豆大数据 hadoop big data 云计算
Hadoop集群首先，区分下集群和分布式的概念。分布式结构就是将一个完整的系统，按照业务功能，拆分成一个个独立的子系统。比如我们在做一个项目时，团队中按角色可分为项目经理、产品经理、开发、测试等，不同角色做不同的事，互相之间也可能存在沟通和协作。集群，相对于单机而言，解决的都是同一个问题。以上一个例子来说，单机好比团队中只有一个测试，一个人做了所有的测试工作。因此扩招了2个测试人员，可以把这个3个
阿里巴巴大数据之路——数据技术篇 weixin_30730151 大数据数据库
一、整体架构从下至上依次分为数据采集层、数据计算层、数据服务层、数据应用层数据采集层：以DataX为代表的数据同步工具和同步中心数据计算层：以MaxComputer为代表的离线数据存储和计算平台数据服务层：以RDS为代表的数据库服务（接口或者视图形式的数据服务）数据应用层：包含流量分析平台等数据应用工具二、数据采集（离线数据同步）数据采集主要分为日志采集和数据库采集。日志采集暂略（参考书籍原文）。
阿里巴巴大数据之路 xiaokaiabcde 大数据大数据开发大数据学习阿里巴巴
阿里巴巴数据平台总共分为四个基本层级：数据采集层：数据采集包括日志采集和数据库数据同步两部分，其中日志采集包括：Aplus.JS是Web端日志采集技术方案；UserTrack是APP端日志采集技术方案。数据计算层：阿里巴巴的数据计算层包括两大体系：数据存储及计算云平台（离线计算平台MaxCompute和实时计算平台StreamCompute）和数据整合及管理体系（内部称之为“OneData”）。从
大数据之路-日志采集 ¤睿大数据之路大数据
数据采集作为大数据体系中的第一环节，对如何全面、高性能、规范完成海量数据的采集，并将其传输到大数据平台。1.浏览器的页面日志采集1.1页面浏览日志采集流程页面浏览日志是最基础的互联网日志，其中页面浏览量（PageView，PV）和访客数（UniqueVisitors，UV）是一切互联网数据分析得以展开的基础和前提。上图是一个典型的网页浏览过程，你认为从哪一个结点开始采集日志最为合适？答案是④，首先
大数据之路系列之flink(12) 居高声自远,非是藉秋风大数据 spark flink 大数据 hadoop
大数据之路系列之flink——快速上手快速上手大数据之路系列之flink——快速上手一、flink是什么二、flink的应用场景三、数据处理架构第一代、事务处理oltp第二代.、分析处理olap第三代、有状态的流式处理第四代、分布式的有状态的流式处理第五代、lambda架构第六代、kappa四、flinksqlorflinkapi？五、flinkonyarn两种使用方式flinkonyarn第一种
阿里大数据之路笔记帝乙岩
第二章笔记数据模型篇第八章建模综述为什么需要数据建模:性能:快速查询所需要的数据,减少数据IO吞吐率成本:降低存储和计算成本效率:提高数据使用效率质量:改善数据统计口径的不一致性维度模型设计步骤:选择要分析决策的业务过程:单业务过程,例:交易的支付,退款;事件状态,例:当前账户余额;业务事件组成的业务流程选择粒度:细分的程度,粒度是维度的组合.识别维表:设计维表,维度属性选择事实:确定分析需要衡量
大数据之路读书笔记-16数据应用潘小磊大数据之路读书笔记大数据人工智能数据挖掘
大数据之路读书笔记-16数据应用全球知名咨询公司麦肯锡称：“数据，已经透到当今每一个行业和业务职能领域，成为重要的生产要素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”本书在前面的章节中已经深人介绍了大数据建设与管理的方法论和实践，“生产要素”已经准备好，需要通过合适的方式提供给不同类型的用户，让数据最大化地发挥价值。阿里巴巴作为一家天然的大数据公司，对数据的应用
《大数据之路》读书笔记：建模综述橘猫吃不胖
《大数据之路-阿里巴巴大数据实践》，作者阿里巴巴数据技术及产品部，第八章“大数据领域建模综述”阿里的这本书之前又翻看过，很多实践是很棒的，也学习应用过一些规范，最近比较闲（失业在家），整理一下。最近搬家，有好多书，哎，有些书看完就处理掉吧，二手卖掉，要不搬家太痛苦了。这一章是概述，主要介绍了关于建模相关的一些基础知识点，下面就总结下，算是对知识的回顾了。为什么需要数据建模记得面试的时候，有被问到过
Java大数据之路--HDFS详解（3）--基本命令 Normcorer Hadoop
HDFS(分布式文件存储系统)--基本命令目录HDFS(分布式文件存储系统)--基本命令一、常见命令二、其他命令一、常见命令命令说明hadoopfs-mkdir/park在hdfs的根目录下，创建park目录hadoopfs-ls/查看hdfs根目录下有哪些目录hadoopfs-put/root/1.txt/park将linux操作系统root目录下的1.txt放在hdfs的park目录下hado
数仓规范随记 mizuhokaga 总结大数据
数仓分层以《大数据之路：阿里巴巴大数据实践》中五层(ods/dwd/dws/dim/ads)分类为基础划分,有序列表记录是分层大类,分层大类下的无需列表是分层小类或者说真正落地的:ods:近源层/贴源层/数据Stage层stgb:从业务系统同步过来的原始数据,不保留历史数据stgd:类似stgb,但利用「拉链表」保留历史数据dw:数仓dwd:数据明细层（DataWarehouseDetail）,将
《阿里大数据之路》读书笔记：第三章数据同步蓦然_ 数据仓库大数据数据仓库
第三章数据同步数据同步技术含义：不同系统间的数据流转，有多种不同的应用场景。应用场景：同类型不同集群数据库之间的数据同步主数据库与备份数据库之间的数据备份主系统与子系统之间的数据更新不同地域、不同数据库类型之间的数据传输交换大数据系统中的数据同步数据从业务系统同步进入数据仓库数据从数据仓库同步进入数据服务或数据应用一、数据同步基础源业务系统的数据类型：关系型数据库的结构化数据：MySQL、Orac
JAVA CV工程师学习大数据之路---linux基本环境配置咸鱼哥哥大数据 java学习大数据 hadoop linux java 环境安装上网
先提供一些基本的软件链接，方便大家使用VMware、ISO文件、XManager链接：https://pan.baidu.com/s/1uwOBag5QCsSFqt3c2dz56A提取码：w2he安装流程和创建虚拟机过程直接跳过，直接到配置网络步骤，这儿采用NAT方式进行配置1.主要是修改/etc/sysconfig/network-scripts/ifcfg-enoXXX文件，因为文件名不一定是
《大数据之路》阅读笔记--数据同步杜小瑞大数据大数据 big data
数据同步同步方式主要分为三种：直连同步、数据文件同步和数据库日志解析同步。直连同步直连同步是指直接使用ODBC/JDBC接口的方式直接连接数据库来拉取数据，这种方式对源系统的性能影响较大，不适合大数据量的情况。数据文件同步数据文件同步通过约定好的文件编码、大小、格式等，直接从源系统生成数据的文本文件，由专门的文件服务器，如FTP服务器传输到目标系统后，加载到目标数据库系统中。当源数据来自多个不同的
《大数据之路》阅读笔记--数据采集杜小瑞大数据数据仓库大数据 big data
数据采集浏览器页面日志采集浏览器页面采集主要包括页面浏览日志采集以及页面交互日志采集两部分。页面浏览日志主要包括：页面浏览量（PageView,PV）和访客数（UniqueVisitors,UV）。页面浏览日志采集流程基本思路是在html文档内适当位置增加一个日志采集节点，当浏览器解析到这个节点时，将自动触发一个特定的http请求到日志采集服务器。页面交互日志采集主要流程如下：1、业务方在元数据管
Kafka基础理论理解，欲走大数据之路必铺石阶，行走的kafka！2018-08-14 飞上天的猫神
大数据编程理解，实际上是件很困难的事，大数据需要掌握的技能太多了，get到的技能点也实际更多！kafka作为一个大数据的必备内容，可以作为大数据的基本标志，下面我们将介绍如何学习大数据简介#概念：消息中间件（消息系统）//消息系统分类：点对点消息队列（peer-to-peer）替换高清大图发布/订阅消息队列消费者在消费时，是通过pull主动从broker中拉取数据的#作用：缓存地带#消息系统适用场
《大数据之路》 DouMiaoO_Oo 大数据数据库人工智能
维度表事实表明细事实表事务事实表周期快照事实表累计快照事实表汇总事实表lyw个人感觉部分周期快照事实表也属于汇总事实表指标体系解析派生指标=一个原子指标+多个修饰词(可选)+时间周期派生指标唯一归属一个原子指标，继承原子指标的数据域，与修饰词的数据域无关例如：原子指标:支付金额派生指标:最近1天海外买家支付金额则"最近1天"为时间周期"海外"为修饰词"买家"作为维度而不作为修饰词买家在表中通过ui
《大数据之路》 DouMiaoO_Oo 大数据数据库人工智能
维度表事实表明细事实表事务事实表周期快照事实表累计快照事实表汇总事实表lyw个人感觉部分周期快照事实表也属于汇总事实表指标体系解析派生指标=一个原子指标+多个修饰词(可选)+时间周期派生指标唯一归属一个原子指标，继承原子指标的数据域，与修饰词的数据域无关例如：原子指标:支付金额派生指标:最近1天海外买家支付金额则"最近1天"为时间周期"海外"为修饰词"买家"作为维度而不作为修饰词买家在表中通过ui
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

20200625大数据spark学习笔记

你可能感兴趣的:(大数据之路)