cai-4

实训笔记8.23

8.23笔记

8.23笔记
- 一、Hive中函数
- - 1.1 Hive中内置函数
  - - 1.1.1 数学函数
    - 1.1.2 字符串函数
    - 1.1.3 日期函数
    - 1.1.4 条件函数
    - 1.1.5 特殊函数
  - 1.2 Hive的自定义函数
  - - 1.2.1 自定义UDF
    - 1.2.2 自定义UDTF
- 二、Hive的压缩机制
- 三、数据同步工具Sqoop的安装和使用
- - 3.1 sqoop的概念
  - 3.2 sqoop的核心功能
  - - 3.2.1 数据导入import
    - 3.2.2 数据导出export
  - 3.3 sqoop的底层实现
  - 3.4 sqoop的安装和部署
  - - 3.4.1 sqoop软件安装三部曲
  - 3.5 sqoop的基本操作
  - 3.6 sqoop的核心功能操作
  - - 3.6.1 数据导入import
    - 3.6.2 数据导出
- 四、相关代码

8.23笔记

一、Hive中函数

Hive主要是用来做统计分析的，函数就是把一些常用的复杂的计算逻辑封装，Hive之所以可以实现统计分析，很大一部分取决于Hive中函数的概念

1.1 Hive中内置函数

1.1.1 数学函数

abs/pow/sqrt/…

1.1.2 字符串函数

concat/concat_ws
split

1.1.3 日期函数

current_date()
date_format(date,format)
datediff(date,date)
date_add(date,day)
date_sub(date,day)

1.1.4 条件函数

if
case

1.1.5 特殊函数

字符串有关的特殊函数：解析URL类型的字符串的
1. parse_url
2. parse_url_tuple
数组/集合类型有关的函数
1. array(T...) | map(string key,string value,string key,string value.....)
2. explode（array/map）---UDTF
3. collect_set/collect_list(col) --UDAF
4. split/concat_ws
侧视图函数lateral view

侧视图函数都是要和UDTF函数结合使用的

lateral view udtf(x...) tableAlias as columnAlias

侧视图的作用就是将普通列的数据和UDTF函数执行完成之后的多行多列的数据做笛卡尔乘积，实现一些普通HQL无法实现的功能

select xxxx from tableA lateral view udtf(x...) tableAlias as columnAlias

开窗函数
1. over(partition by 字段 order by 字段 asc|desc rows between 上边界 and 下边界)
  
  开窗函数的作用就是把表中的数据构建出多个虚拟窗口（窗口其实就是分组），查询表中数据的时候，会识别到数据属于哪个窗口，得到这个窗口相关的一些信息和普通数据列一些返回。
  
  partition by 的作用就是用来规定以哪个字段进行分组（开窗）
  
  order by的作用就是对划分的窗口的以指定的字段进行排序
  
  rows between的作用是为了划分窗口的边界的，每一个窗口默认的边界是分组中的所有数据，但是窗口也可以是分组的部分行数据。默认情况下我们不写边界，默认边界（默认无上边界也无下边界）就是一个组中的所有数据
2. 开窗函数不能单独使用，开窗函数需要集成一些特殊函数一起使用
  1. first_value(col),last_value(col)
    
    获取一个窗口中某一列的第一个值或者最后一个值
  2. 排名函数
    1. row_number()
    2. rank()
    3. dense_rank()
      
      根据当前行数据在窗口的排名赋予一个排名编号
  3. 聚合函数：
    
    sum/avg/count/max/min——————获取一个窗口的一个聚合值
3. 【注意】开窗函数要和一些其他函数结合使用，而其他函数在使用的时候，大部分函数默认的边界都是无上边界和无下边界，而有少部分函数如果没有写窗口边界默认不是无边界，而是有边界的所以以后大家在使用窗口函数的时候，建议大家最好把窗口边界也给声明上。

1.2 Hive的自定义函数

1.2.1 自定义UDF

1.2.2 自定义UDTF

二、Hive的压缩机制

Hive底层会转换成为MapReduce运行，MapReduce阶段中间都是可以进行压缩的。因此Hive也支持设置压缩机制（也是设置转换的MR程序底层是Map阶段压缩还是reduce阶段压缩）

Hive底层也可以转换成为Spark或者TEZ程序运行，Spark和TEZ的压缩和Mapreduce的压缩是不一样的。

三、数据同步工具Sqoop的安装和使用

3.1 sqoop的概念

在大部分常见的软件中，比如淘宝、拼多多…，网站都会产生大量的数据电商网站：订单数据、商品数据、分类数据、用户信息数据、用户行为数据等等课程网站：订单数据、视频数据、课程数据、用户信息数据等等 … 虽然说不同领域的数据格式和数据含义不一样，但是他们都有一个公共点：数据大部分都是在RDBMS关系型数据库进行存放的。如果我们要对某一个领域的数据进行大数据的统计分析，首先我们必须先把数据从非大数据环境同步到大数据环境中。大部分数据都是在RDBMS存放的，大数据环境大部分都是HDFS、Hive、HBase。我们需要把RDBMS的数据同步到大数据环境中。

SQOOP软件是Apache开源的顶尖项目，sqoop 被设计用来在RDBMS和Hadoop（Hive、HDFS、HBase）之间进行数据传输的工具因此sqoop的适用场景限制就非常大，因此这个技术基本很少更新了。软件基本已经从apache退役

3.2 sqoop的核心功能

3.2.1 数据导入import

指的是将数据从RDBMS（MySQL\ORACLE\SQL SERVER）导入到Hadoop环境（HDFS、HBASE、Hive）中

导入的作用就是将数据从非大数据环境导入到大数据环境通过大数据技术做统计分析的

3.2.2 数据导出export

指的是将数据从Hadoop环境（HDFS、Hive、HBase）导出到RDBMS中

将数据统计分析完成得到结果指标，指标在大数据环境存放的，如果对指标做可视化展示，数据在大数据环境下很难进行可视化展示的，因此我们需要把数据从大数据环境导出到非大数据环境RDBMS中进行可视化展示等后续操作

3.3 sqoop的底层实现

sqoop技术也是Hadoop生态的一部分，因为Sqoop进行导入和导出数据时，需要编写针对的导入和导出命令，但是这个命令底层也会转换成为MapReduce程序进行运行。

SQOOP运行基于MapReduce和YARN进行运行

3.4 sqoop的安装和部署

因此sqoop底层是基于Hadoop的，因此sqoop也是安装一个单节点的即可，sqoop也是提供了一个可以导入和导出数据的命令行客户端

3.4.1 sqoop软件安装三部曲

上传解压
配置环境变量
修改软件的配置文件——————sqoop-env.sh文件
sqoop的特殊配置
1. sqoop可以数据把数据在大数据和非大数据环境之间进行迁移的，非大数据环境主要是RDBMS关系型数据库
2. sqoop连接RDBMS 底层也是基于JDBC进行连接的，因此如果要使用sqoop连接rdbms，我们需要把对应数据库的jdbc驱动程序jar包放到sqoop的lib目录下
3. 需要把mysql-connector-java,jar 放到sqoop的lib目录下即可

3.5 sqoop的基本操作

sqoop查看RDBMS中有哪些数据库 sqoop list-databases
sqoop查看某一个数据库下有哪些数据表 sqoop list-tables
还可以通过sqoop执行sql语句 sqoop eval --query "sql"

需要跟数据库的连接参数
–connect jdbcurl
–username 用户名
–password 密码

3.6 sqoop的核心功能操作

3.6.1 数据导入import

指的是将数据从RDBMS关系型数据库导入到Hadoop环境中（HDFS、Hive、HBase）

将RDBMS的数据导入到HDFS中不常用

HDFS导入时连接的RDBMS的参数

参数	说明
–driver
–connect
–username
–password
[–table]	导入哪张数据表的数据
[–columns]	导入指定数据表的指定列的数据
[–query]	根据查询语句的结果导入数据
[–where]	筛选条件，根据指定的条件导入数据

HDFS导入的参数

参数名	说明
–target-dir	导入到HDFS上的路径
–delete-target-dir	如果HDFS的路径存在提前删除
[–as-textfile\|sequencefile…]	导入到HDFS上的文件的格式
–num-mappers	指定导入的时候底层MapReduce启动多少个Map Task运行
–fields-terminated-by	指定导入的文件列和列的分隔符
–lines-terminated-by	指定导入的文件的行和行的分割符

导入数据表的所有数据到HDFS：

sqoop import --driver com.mysql.cj.jdbc.Driver --connect 'jdbc:mysql://single:3306/demo?serverTimezone=UTC&useUnicode=true&characterEncoding=UTF-8' --username root --password Root123456.. --table student --target-dir /import --delete-target-dir --fields-terminated-by '=' --num-mappers 1 --as-sequencefile

导入数据表的指定列的数据到HDFS：

 sqoop import --driver com.mysql.cj.jdbc.Driver --connect 'jdbc:mysql://single:3306/demo?serverTimezone=UTC&useUnicode=true&characterEncoding=UTF-8' --username root --password Root123456.. --table student --columns student_name,student_age --target-dir /import --delete-target-dir  --fields-terminated-by ',' --num-mappers 1 --as-textfile

根据查询语句导入指定的数据到HDFS：

--table table_name --where "条件" 只能导入一张表的数据

sqoop import --driver com.mysql.cj.jdbc.Driver --connect 'jdbc:mysql://single:3306/demo?serverTimezone=UTC&useUnicode=true&characterEncoding=UTF-8' --username root --password Root123456.. --table student --columns student_name,student_age --where "student_age<40"  --target-dir /import --delete-target-dir  --fields-terminated-by ',' --num-mappers 1 --as-textfile

--query "" 可以通过连接查询同时导入多张表的数据

sqoop import --driver com.mysql.cj.jdbc.Driver --connect 'jdbc:mysql://single:3306/demo?serverTimezone=UTC&useUnicode=true&characterEncoding=UTF-8' --username root --password Root123456.. --query 'select * from student where student_age<40 and $CONDITIONS'  --target-dir /import --delete-target-dir  --fields-terminated-by ',' --num-mappers 1 --as-textfile

将RDBMS的数据导入到Hive数据表中常用

导入参数

HDFS导入时连接的RDBMS的参数

参数名	说明
–driver
–connect
–username
–password
[–table]	导入哪张数据表的数据
[–columns]	导入指定数据表的指定列的数据
[–query]	根据查询语句的结果导入数据
[–where]	筛选条件，根据指定的条件导入数据

导入到Hive中的参数

参数名	说明
–hive-import	指定将数据导入到Hive的数据表，而非HDFS或者HBase
–hive-database	指定将数据导入到Hive的哪个数据库中
–hive-table	指定将数据导入到Hive的哪个数据表中
–create-hive-table	如果Hive表没有提前存在，那么这个选项必须添加，会根据导入的数据自动推断创建Hive数据表，但是如果Hive中的数据表已经存在，那么这个参数一定不能添加

如果我们将RDBMS中的数据导入到Hive中，有两种导入模式
1. 全量导入
  
  第一次导入RDBMS的数据到Hive中
  1. 将RDBMS对应的数据表中的数据全部导入Hive中
  2. --hive-overwrite 将上述指定的数据全部到Hive对应的数据表，数据表会清空
2. 增量导入非第一次导入RDBMS数据到Hive
  1. 将RDBMS数据表对应增加的新的数据导入到Hive中
  2. 增量导入又分为两种方式：一种根据自增id导入，第二种根据一个时间戳增量导入
  3. 根据RDBMS数据表的自增id导入：
    
    参数名说明
    
    –check-column rdbms 数据表的自增列名
    
    –incremental append
    
    –last-value 上一次导入的自增的值的最后一个
  4. 根据RDBMS数据表的一个时间字段导入：
    
    参数名说明
    
    –check-column rdbms 数据表的时间列
    
    –incremental lastmodified
    
    –last-value “上一次导入的最后一条数据的时间戳”

参数名	说明
–check-column rdbms	数据表的自增列名
–incremental append
–last-value	上一次导入的自增的值的最后一个

参数名	说明
–check-column rdbms	数据表的时间列
–incremental lastmodified
–last-value	“上一次导入的最后一条数据的时间戳”

全量导入

如果要做全量导入，Hive的数据表可以不用提前存在，使用create-hive-table自动创建即可

sqoop import --driver com.mysql.cj.jdbc.Driver --connect 'jdbc:mysql://single:3306/demo?serverTimezone=UTC&useUnicode=true&characterEncoding=UTF-8' --username root --password Root123456.. --table student --hive-import --hive-database test --hive-table student --create-hive-table

增量导入如果要做增量导入，Hive数据表必须提前存在，而且还具备RDBMS对应数据表的历史数据

按照自增id增量导入

sqoop import --driver com.mysql.cj.jdbc.Driver --connect 'jdbc:mysql://single:3306/demo?serverTimezone=UTC&useUnicode=true&characterEncoding=UTF-8' --username root --password Root123456.. --table student --hive-import --hive-database test --hive-table student --check-column student_id  --incremental append --last-value 5

按照创建时间增量导入hive-import目前还不支持时间戳增量的方式

注意：如果将数据导入到Hive中，sqoop一共做了两步操作：

1、先通过MR程序把数据上传到HDFS上

2、使用hive的load装载命令将上传到HDFS上的数据文件加载到数据表中 sqoop操作Hive的时候，需要Hive的依赖，但是sqoop默认是没有hive的编程依赖的，因此sqoop迁移数据到hive会报错，如果不想报错，那么我们需要把hive-common.jar包复制到sqoop的lib目录下。

3.6.2 数据导出

四、相关代码

-- 时间日期函数
select date_sub("2022-10-1",2);

create table student_score(
  student_id int,
  student_name string,
  student_class int,
  student_score double
);

insert into student_score values(1,"zs",1,80.0),
								(2,"ls",1,90.0),
								(3,"ww",1,100.0),
								(4,"ml",1,85.0),
								(5,"zsf",2,80.0),
								(6,"zwj",2,70.0),
								(7,"qf",2,60.0);
select * from student_score;
-- 查询每一个学生的成绩，并且还要获取同一个班级的学生和前一个学生的成绩的差值
select 
   a.*,
   abs(a.student_score-a.front_score) as score_diff 
from(
	select *, 
	 first_value(student_score) over(partition by student_class order by student_id asc rows between 1 preceding and current row) as front_score
	from student_score
) as a

-- 查询每一个学生的成绩，同时还要获取同一个班级每一个学生和班级最高分的差值。
-- 对于这个案例，窗口的边界是一组中的所有数据，而非一个组中的部分数据。
-- 如果窗口的边界是族中的所有数据，那么我们需要设置窗口的上边界和下边界都是无边界状态
select 
    * ,
    abs(student_score-(max(student_score) over(partition by student_class rows between UNBOUNDED PRECEDING and UNBOUNDED FOLLOWING)))  as score_diff
from student_score;


select 
    * ,
    last_value(student_score) over(partition by student_class rows between UNBOUNDED PRECEDING and UNBOUNDED FOLLOWING)  as score_diff
from student_score;

新网师的精神肤色（幕布笔记）悦读书香
王子老师的《极简100小妙招》收到已经几天了，之前大概的浏览了全书，今天起给自己定了一个计划，必须每天学习极简小妙招里面的一个妙招，并加以运用。一、今天要打卡什么内容因有完成每天学习极简小妙招的计划，所以今天晚饭吃的比较简单，草草吃完以后带着小宝到广场溜达一圈，急忙赶回来学习极简小妙招。再重看的时候不知道自己要学点什么，打卡哪一招，感觉哪个都简单，就看这一环节像王子老师说的“一看就会”，但做这一环
数据分析：低代码平台助力大数据时代的飞跃发展快乐非自愿数据分析低代码大数据
随着信息技术的突飞猛进，我们身处于一个数据量空前增长的时代——大数据时代。在这个时代背景下，数据分析已经成为企业决策、政策制定、科学研究等众多领域不可或缺的重要工具。然而，面对海量的数据和日益复杂多变的分析需求，传统的数据分析方法往往捉襟见肘，难以应对。幸运的是，低代码平台的兴起为大数据分析注入了新的活力，成为推动大数据时代发展的重要力量。低代码平台，顾名思义，是一种通过少量甚至无需编写代码，就能
C++学习笔记（lambda函数） __TAT__ C&C++c++学习笔记
C++learningnote1、lambda函数的语法2、lambda函数的几种用法1、lambda函数的语法lambda函数的一般语法如下：[capture_clause](parameters)->return_type{function_body}capture_clause：需要捕获的变量，但要求该变量必须在这个作用域中。通常的捕获方式有以下几种：[]：不捕获任何变量[&]：按引用捕获变
读书笔记《穿越寒冬》如雪般飞舞
各位好，我们今天来讲一本书，名字叫作《穿越寒冬》。看起来特别应景，大家觉得现在创业的状况不景气，大家都在忍受着寒冬的煎熬。但实际上，这本书的英文名字并不是这个意思，它的英文名叫作“如何创立一家新公司，并且能够活下来”。我在整个读完了以后，我发现这本书真正要翻译得好，它的名字应该叫作《创业生存手册》。这个书的作者，来自硅谷的霍夫曼船长。霍夫曼船长写过一本让创业者觉得特别贴心的书，叫作《让大象飞》它和
2018-11-18成长小组学习笔记实验中学45
因为嗓子“罢工”，我面对众人只能借“微笑”代言。在开始授课前，绣霞老师先反馈上次作业的情况，提到“接纳”需是真正发自内心的完全接纳，而不是口头上的接纳，内心却是排斥的。提到一个“问题”孩子恰恰对家爱的更加“深沉”，夫妻间的问题不能影响到孩子，对孩子更好的爱不是你为他做的更多，而是给他自由、健康成长的空间。图片发自App一、孩子：家庭的一面镜子夫妻成了彼此的“投射”，婚姻便“吵的不可开交”，婚姻便成
【鸿蒙HarmonyOS开发笔记】ArkUI常用组件介绍汇总（更新中）温、鸿蒙HarmonyOS开发笔记学习记录 harmonyos 笔记华为
概述此文总结开发中用到的一些常用组件，便于查阅，此文持续更新，闲的没事就更线性布局（Row/Column）不多介绍了，最常用的布局组件，两者除了方向不一样，别的都一样方便起见下面只写Column常用属性排列方向上的间距：spaceColumn({space:20}){Row().width('90%').height(50).backgroundColor(0xF5DEB3)Row().width
安卓笔记本 - Handler Message MessageQueue Looper SocialException
不爱写字，一张图解决。Handler,Message,MessageQueue,Looper工作原理
枚举使用笔记万变不离其宗_8 项目笔记笔记
1.java枚举怎么放在方法上面的注释里面/***保存*@paramuserId用户id*@paramtype见枚举{@linkcom.common.enums.TypeEnum}*@return*/voidsave(LonguserId,Stringtype);
ruoyi使用笔记万变不离其宗_8 项目笔记代码参考笔记笔记 java 前端
1.限流处理@RateLimiter@PostMapping("/createOrder")@ApiOperation("创建充值订单")@RateLimiter(key=CacheConstants.REPEAT_SUBMIT_KEY,time=10,count=1,limitType=LimitType.IP)publicRcreateOrder(@RequestBodyFormform){/
数据管理知识体系指南（第二版）-第五章——数据建模和设计-学习笔记键盘上的五花肉数据治理数据库数据仓库数据治理
目录5.1引言5.1.1业务驱动因素5.1.2目标和原则5.1.3基本概念5.2活动5.2.1规划数据建模5.2.2建立数据模型5.2.3审核数据模型5.2.4维护数据模型5.3工具5.3.1数据建模工具5.3.2数据血缘工具5.3.3数据分析工具5.3.4元数据资料库5.3.5数据模型模式5.3.6行业数据模型5.4方法5.4.1命名约定的最佳实践5.4.2数据库设计中的最佳实践5.5数据建模和
Apache Kafka的伸缩性探究：实现高性能、弹性扩展的关键 i289292951 kafka kafka
引言ApacheKafka作为当今最流行的消息中间件之一，以其强大的伸缩性著称。在大数据处理、流处理和实时数据集成等领域，Kafka的伸缩性为其在面临急剧增长的数据流量和多样化业务需求时提供了无与伦比的扩展能力。本文将深入探讨Kafka如何通过其独特的架构设计实现高水平的伸缩性，以及在实际部署中如何优化和利用这一特性。一、Kafka伸缩性的核心设计分区（Partitioning）与水平扩展Kafk
Java学习笔记01 .wsy. 日常 java 学习笔记
1.1Java简介Java的前身是Oak，詹姆斯·高斯林是java之父。1.2Java体系Java是一种与平台无关的语言，其源代码可以被编译成一种结构中立的中间文件（.class，字节码文件）于Java虚拟机上运行。1.2.3专有名词JDK提供编译、运行Java程序所需要的种种工具及资源。JRE是运行Java所依赖的环境的集合。JVM是一个虚构出来的计算机，通过在实际的计算机上仿真模拟各种计算机功
《老子》笔记19 2018-10-28 海上明月共
第二十二章[原文]曲则全，枉则直，洼则盈，敝则新，少则得，多则惑。是以圣人抱一为天下式。不自见，故明；不自是，故彰，不自伐，故有功；不自矜，故长。夫唯不争，故天下莫能与之争。古之所谓"曲则全"者，岂虚言哉？诚全而归之。[译文]委曲便会保全，屈枉便会直伸；低洼便会充盈，陈旧便会更新；少取便会获得，贪多便会迷惑。所以有道的人坚守这一原则作为天下事理的范式，不自我表扬，反能显明；不自以为是，反能是非彰明
以客户为中心的企业设计（咨询执业笔记）觉者看世界
以客户为中心的企业设计（咨询执业笔记）——何伏全案咨询知名专家数字经济大行其道，过剩的风险资本自由流动，股权市场日益强势，这些力量综合在一起，产生出诸多不合理的企业设计。这些事实使得企业设计的再创造越来越需要一种约束力，许多公司和投资者未能熟谙这种约束力，或者未能将其基本原理运用于具体的商业行为中，因此付出了沉重的代价。无利润区的确存在，并且已在全球蔓延，有愈演愈烈之势。它席卷了数以千计的公司，涉
【Git安装及使用学习笔记】可可西里啊零零散散的学习笔记 git 学习笔记 c++qt5
Git学习笔记Git安装Git创建本地版本库以及提交文件使用Git提交代码到码云使用Git从码云拉取代码参考博客Git安装这里参考Git详细安装教程（详解Git安装过程的每一个步骤）Git创建本地版本库以及提交文件1.查看git版本信息：git--version2.设置对应用户名与邮箱地址gitconfig--globaluser.name"your_usernamegitconfig--glob
读书笔记|《穆斯林的葬礼》飞舞的微辰
她从来也没有打算对过去的恩怨进行报偿或是惩罚，只是想把该记住的都记住，该忘却的都忘却。事业的追求，并不一定要什么头衔和称号来满足，你爱上了一种东西，愿意用全部心血去研究它，掌握它，从中得到乐趣，并且永远也不舍得丢其它，这是事业心，是比什么都重要的......人生在世，谁也管不了谁；生儿育女，不是为了父母，是为了儿女自己，各人的路，让他们自己去闯吧。七尺之躯，一抔黄土，穆斯林们一个个都离去了，什么都
C#学习笔记 2301_79022588 学习笔记
一、事件派发器在C#中，事件派发器通常是指事件委托和事件处理程序的组合，用于实现一种观察者设计模式。它允许对象在状态发生变化时通知其他对象，从而实现对象之间的解耦。事件派发器的基本组成部分：事件委托（EventDelegate）：事件委托是一种特殊的委托，用于封装可以被调用的方法。它定义了事件的签名，即指定了事件处理程序方法的参数和返回类型。通常，事件委托声明在事件派发器类的外部，并且使用dele
山东省大数据局副局长禹金涛一行莅临聚合数据走访调研聚合数据 API 大数据人工智能 API
3月19日，山东省大数据局党组成员、副局长禹金涛莅临聚合数据展开考察调研。山东省大数据局数据应用管理与安全处处长杨峰，副处长都海明参加调研，苏州市大数据局副局长汤晶陪同。聚合数据董事长左磊等人接待来访。调研组一行参观了聚合数据展厅，了解了聚合数据的发展历程、数据产品、应用案例、奖项荣誉等情况。并就企业在数据处理和应用方面取得的成绩进行了深入交流。作为最早一批进入大数据行业的企业，聚合数据深耕行业十
遇见美好｜期待越来越好的自己｜复盘日记Day137 沫ma的1001页
遇见美好｜期待越来越好的自己｜复盘日记Day1372021年7月21日星期三晴喜马拉雅(沫沫成长记）亲子共读：Day42阅读学习践行Day.17/21晨间日记Day.17/21昨日晚安：23:02今日早安：05:00早起：Day806❥今日运动｜跑步0Km（未完成）❥今日自我成长｜学习新知识1.听书＋书写笔记,小花生阅读打卡2..阅读学习，听音频＋写作业3.时间管理2.0线上践行，听课+写作业4.
D43+1组棉布+《一个人的朝圣》读书笔记棉布家的小橘子
前几天读了《一个人的朝圣》，感受到信念、目标对一个人是多么重要。哈罗德因为奎妮的一封告别信，步行横跨英格兰去探望她。因为有了目标和信念他才能坚持下去。而奎妮也一直在等他。一路哈罗德回忆儿子戴维，回忆自己小时候的遭遇，回忆与妻子莫琳的种种。想通了许多事情，与其说他要去拯救奎妮不如说在拯救自己。哈罗德与父母哈罗德的童年是不幸的，爸爸妈妈根本没有想当父母却生下了他。妈妈离家出走，爸爸开始找不同的阿姨，在
Java学习笔记04：Java_数组 JasonYangQ Java java
文章目录1.数组1.1数组介绍1.2数组的定义格式1.2.1第一种格式1.2.2第二种格式1.3数组的动态初始化1.3.1什么是动态初始化1.3.2动态初始化格式1.3.3动态初始化格式详解1.4数组元素访问1.4.1什么是索引1.4.2访问数组元素格式1.4.3示例代码1.5内存分配1.5.1内存概述1.5.2java中的内存分配1.9数组的静态初始化1.9.1什么是静态初始化1.9.2静态初始
智慧公厕的先进技术应用中期科技ZONTREE 智慧厕所智慧公厕智慧城市
公共厕所一直以来都是城市管理中一个重要的工作，但设施老化、环境脏乱、服务质量低下等问题一直困扰着城市居民。然而，随着科技的进步和数字技术的应用，智慧公厕的建设正在改变这一现状。智慧公厕通过对所在辖区内所有公共厕所的全域感知、全网协同、全业务融合和全场景智慧的赋能，“千厕一云”的公共厕所云管理模式应运而生。智慧公厕的云端多屏管理，将各个公厕连接在一起，实现信息的共享和管理的集中化。通过大数据、云计算
JavaScript快速入门笔记之二（变量、常量、数据类型） eshineLau 前端开发 javascript 笔记前端
JavaScript快速入门笔记之二（变量、常量、数据类型）1、变量何时使用变量：程序中的一切数据都要保存在变量中，反复使用如何使用变量：2种情况：赋值和取值赋值：2步：1.1创建变量：——声明——创建一个新的空变量语法：var变量名;强调：仅声明，未赋值的变量，默认值是undefined命名：1.不能以数字开头2.不能用保留字。3.一般采用驼峰命名1.2赋值：将数据保存到变量中语法：变量名=数据
2018.1.28笔记 - 草稿宫晓杰
远离离电子屏幕。正常情况下，褪黑素水平会从晚上七八点开始逐渐升高，并在清晨时分逐渐下降。但休斯顿大学的一项研究显示，在夜里盯着手机屏幕会干扰这一过程，使我们更加清醒，影响体内昼夜节律。在休斯顿大学的这项研究中，在两周的实验期间，受试者按要求在入睡前三小时戴上短波光线屏蔽眼镜，结果夜间的体内褪黑素水平上升了58%。
生信星球学习小组第80期 Day3笔记--ZJUSKY ZJUSKY
Conda简介Conda是一个开源的软件包管理系统和环境管理系统，用于安装多个版本的软件包及其依赖关系，并在它们之间轻松切换。简单来说Conda就是Linux系统下的应用商店，你可以在通过Conda下载，安装很多软件。这里我们推荐miniconda,它只包含了最基本的内容，python和conda，以及相关的必须依赖项。精简的miniconda足够满足日常生信使用。下载miniconda推荐使用清
第四期【践行总结】第7周—真诚记录我的生活
践行时间：20181022——20181028本周践行真诚：不采用任何有害的欺骗行为，想问题和说话都要公平公正。【目标】1.不背后议论人，管好自己的嘴巴。2.对待孩子也要真诚，但可以说善意的谎言。3.长养同理心，真正站在对方角度思考问题。【百日目标践行】1.看书：«让孩子像孩子那样长大»80页«活法»50页2.：点评文2个：得到精品课复盘笔记1个：怎样高效管理你的精力第2节家有俩娃系列2则3.运动
【编译原理】一篇就够了——学习笔记与课程实验超详细整理一棵___大树编译原理学习笔记学习算法
⭐⭐⭐⭐⭐⭐Github主页https://github.com/A-BigTree更多学习笔记链接https://github.com/A-BigTree/college_assignment编译原理实验https://github.com/A-BigTree/college_assignment/compiler_Experiment如果可以，麻烦各位看官顺手点个star~如果文章对你有所帮助
blog-engine-06-pelican 静态网站生成支持 markdown 和 reST 语法老马啸西风 java
拓展阅读blog-engine-01-常见博客引擎jekyll/hugo/Hexo/Pelican/Gatsby/VuePress/Nuxt.js/Middleman对比blog-engine-02-通过博客引擎jekyll构建githubpages博客实战笔记blog-engine-02-博客引擎jekyll-jekyll博客引擎介绍blog-engine-02-博客引擎jekyll-jekyl
读书笔记-《如何抑制女性写作》-20210215 关七666
性别歧视和对性别的偏见，原来不仅仅是在中国，世界各地都需要改变。女性写作被认为是不正常的，没人看，或者否则其作者身份，认为是她们身边的男性写的，亦或者是它自行完成。为什么作者需要区分性别，是男性写的就是大作，是女性写的就是造作。这本书，揭示的是过去20世纪的女性作家们面对的种种非议。
Java学习笔记：atomic的实现原理？曲钟人散
在多线程的场景中，我们需要保证数据安全，就会考虑同步的方案，通常会使用synchronized或者lock来处理，使用了synchronized意味着内核态的一次切换。这是一个很重的操作。有没有一种方式，可以比较便利的实现一些简单的数据同步，比如计数器等等。concurrent包下的atomic提供我们这么一种轻量级的数据同步的选择。classMyThreadimplementsRunnable{
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

实训笔记8.23

8.23笔记

8.23笔记

一、Hive中函数

1.1 Hive中内置函数

1.1.1 数学函数

1.1.2 字符串函数

1.1.3 日期函数

1.1.4 条件函数

1.1.5 特殊函数

1.2 Hive的自定义函数

1.2.1 自定义UDF

1.2.2 自定义UDTF

二、Hive的压缩机制

三、数据同步工具Sqoop的安装和使用

3.1 sqoop的概念

3.2 sqoop的核心功能

3.2.1 数据导入import

3.2.2 数据导出export

3.3 sqoop的底层实现

3.4 sqoop的安装和部署

3.4.1 sqoop软件安装三部曲

3.5 sqoop的基本操作

3.6 sqoop的核心功能操作

3.6.1 数据导入import

3.6.2 数据导出

四、相关代码

你可能感兴趣的:(实训,笔记,大数据,sqoop)