【大数据入门笔记(仅供个人参考)】

目录

  • 前言:
  • 常识:
  • Mysql
    • 关键字:
      • DDL:
      • DML:
      • DQL:
      • 内连接:
      • 开窗函数
    • 约束:
    • DQL:
      • SQL语句执行顺序:
      • SQL语句细节:
      • 多表操作:
  • ETL(extract,transform,load)
    • Kettle
      • kettle问题解决:
    • Superset:
    • 重点案例:
  • 电商案例
  • 数据库
  • JDBC

前言:

大数据不是Java,技术细节不是最重要的,关键还是分析问题和解决问题的能力
个人笔记会经常更新
关于大数据MySQL更多细节操作请看这个人 小白乔学技术

常识:

1Byte=8bit 1PB=1024TB
操作系统(Operating System,简称OS)
Archive 存档
Tmp: temporary
Truncate 截断
Increment 增量,增加
Manipulate

Linux常用命令:
各种可执行命令文件存在/usr/bin下
CTRL+L 清屏
RZ 上传文件
PWD Print Working Directory打印当前工作目录即路径
RM remove
PS progress search
问题:
Mysql里面的数据库到底是存在哪里?

Mysql

SQL 语言: Structured Query Language
sql多条命令可以一次性写完

关键字:

DDL:

			Create
			Alter
			Add
			Change
			Drop - table/database
			Desc
			Rename  to
			Foreign key

DML:

			Update
			Delete
			Insert
			Truncate
			truncate可以清除auto_increment的记录但是无法清除它本身,下一次还是会从1自动计数

DQL:

			Select
			Desc
			decimal  小数

Insert into - select
条件查询: like
distinct -去重查询
Order by
Group by
Limit 用来分页展示

内连接:

Join on

开窗函数

row_number() over Partition by 类似于group by

约束:

  1. Null不等于任何值,包括它自己
  2. mul 代表可以重复

DQL:

聚合函数会忽略空值NULL

SQL语句执行顺序:

在这里插入图片描述
1).having是在分组后对数据进行过滤.,where是在分组前对数据进行过滤
2).having后面可以使用分组函数(统计函数),where后面不可以使用分组函数。

SQL语句细节:

  1. 创建表时: id int auto_increment comment '仅作为唯一标识,无意义’

【大数据入门笔记(仅供个人参考)】_第1张图片

多表操作:

主表与从表的操作细节
【大数据入门笔记(仅供个人参考)】_第2张图片

Select 语句查询到的数据可以当成数据也可以当成表使用.

ETL(extract,transform,load)

Kettle

如何找到隐藏步骤: 主对象树->转换->step(步骤)->你隐藏的步骤,把它拖到工作区即可

kettle在windows里是bat文件,在Linux里是sh文件

kettle问题解决:

1.关于kettle和Linux使用过程中,出现连接数据库错误时要检查lib下的文件是否完整

Superset:

1.在表中日期要严格按照相应格式,不能用字符串格式

重点案例:

Superset入门的sql语法对男女进行分类

电商案例

Web服务器是用来接收和发送指令的

截取字符串: substring (字段名,起始位置,截取长度),
提示: 只对字符串形式的字段有效哦 , 而且起始位置最小是1 , 这和Java中的索引从零开始计数还不一样哦!

创建表:

 create table abc as select * from dfasfsa;

给查询到的数据起别名:

case
	when   sth ='sb' then 'sb2'
 		end as sth1

一级分类,二级分类,三级分类:
为了减少工作量,通常会先从三级分类查起.

数据库

数据库的本质是一个文件系统,用来存储数据

JDBC

操作步骤:

    注册驱动.
	根据驱动管理类获得连接.
	根据连接获得sql语句的执行平台
	执行sql语句,并返回结果
	处理结果
	释放资源.

你可能感兴趣的:(big,data,大数据)