ncujcm

Hadoop学习笔记

实验环境：
1、Linux操作系统
2、Hadoop的介质
3、Spark的介质

学习路线和课程简介：
1、基础：Java语言：Java基础（Java SE）：变量类型循环 if
面向对象：类、封装、集成、多态
I/O：输入流、输出流
反射、泛型
JDBC: 操作关系型数据库
Linux基础

大数据：数据的处理（1）离线计算（2）实时计算

2、Hadoop
（1）数据储存：HDFS
（2）数据计算：MapReduce（Java程序） ---> 离线计算
（3）其他组件（生态圈）：HBase、Hive、Pig、Flume、Sqoop*****

3、Storm：实时计算框架（Java语言）
（1）NoSQL：Redis内存数据库
（2）Storm中的内容

4、Spark：数据计算
（1）Scala编程语言：看成是Java的升级
（2）Spark Core：整个Spark的核心 ---> 相当于MapReduce
（3）Spark SQL
（4）Spark Streaming：实时计算框架

5、项目实战

第一章、Linux基础

一、Linux的实验环境
（*）版本：RedHat 7.4 64位自带netcat服务器（测试：Spark Streaming）
（*）VM：12
（*）类型：Redhat Linx 7 64位
（*）网卡：仅主机模式
（*）一共5台虚拟机：安装JDK、配置主机名、关闭防火墙
192.168.157.11 bigdata11
192.168.157.12 bigdata12
192.168.157.13 bigdata13
192.168.157.14 bigdata14
192.168.157.15 bigdata15

二、配置Linux和Linux的目录结构
1、对Linux了解
2、关闭防火墙
查看防火墙的状态：systemctl status firewalld.service
关闭防火墙： systemctl stop firewalld.service
禁用防火墙（永久）systemctl disable firewalld.service

3、设置主机名（配置文件） /etc/hosts
vi /etc/hosts

192.168.157.11 bigdata11

三、vi编辑器：相当于linux的记事本
三种模式：
1、编辑模式：等待命令的输入
按i--> 进入：插入模式
按：（冒号）进入命令模式

2、插入模式: 按esc键回到编辑模式

3、命令模式
(*) w: 保存
(*) q: 退出
(*) wq: 保存退出
(*) 打开行号：set number
关闭行号: set nonumber
(*) 换行: set wrap
set nowrap

四、文件目录操作命令（重点掌握：后面操作HDFS的时候，很方便）

（*）ls 显示文件和目录列表
-l 列出文件的详细信息
-a 列出当前目录所有文件，包含隐藏文件

隐藏文件：.bash_profile 设置环境变量：JAVA_HOME、HADOOP_HOME
隐藏目录：.ssh ----> 配置Hadoop和Spark的免密码登录

查询Hadoop的中文件：hdfs dfs -ls /

（*）当前目录：pwd
/root ---> root用户的HOME目录（快捷方式： ~）

（*）mkdir 创建目录
-p 父目录不存在情况下先生成父目录

约定：mkdir /root/tools ---> 所有的安装包
mkdir /root/training ---> 安装目录

在Hadoop中创建目录：hdfs dfs -mkdir /aaa

（*）cd 切换目录

（*）touch 生成一个空文件
echo 生成一个带内容文件 ----> 更常用的用法：查看环境变量
echo $JAVA_HOME

（*）cat、tac 显示文本文件内容
cat是从第一行开始写；tac是从最后一行开始写
举例: cat a.txt
查看Hadoop中文件的内容： hdfs dfs -cat /a.txt

（*）cp 复制文件或目录
cp a.txt data.txt

在Hadoop中拷贝数据: hdfs dfs -cp /a.txt /b.txt

（*）rm 删除文件
-r 同时删除该目录下的所有文件
-f 强制删除文件或目录

rm -rf a.txt
在Hadoop中删除文件：hdfs dfs -rmr /a.txt

（*）kill：杀死
参数: -9 强制杀死
-3

（*）tar命令：打包压缩

五、Linux的权限管理（Hadoop的HDFS权限非常像）
1、权限的类型：r 读
w 写
x 执行

2、使用ls -l或者ll命令查看权限

六、安装常用软件：安装JDK的时候，讲讲tar命令
tar -zxvf jdk-8u144-linux-x64.tar.gz -C ~/training/
设置环境变量：vi ~/.bash_profile
JAVA_HOME=/root/training/jdk1.8.0_144
export JAVA_HOME

PATH=$JAVA_HOME/bin:$PATH
export PATH

生效环境变量: source ~/.bash_profile

七、案例：Java的死锁分析 ---> 介绍一个工具(kill -3 的命令)
目的：找到死锁性能诊断
Java提供了一个非常强大的性能诊断工具：Thread Dump（文本信息）
1、Linux：kill -3 PID（就是Java的进程号）

2、Windows: 按ctrl+break（fn+B）键

学习大数据，学什么？怎么学？
1、原理和运行机制、体系结构（非常重要）
2、动手：搭建环境、写程序

目的：1、学习内容 2、熟悉一些名词

一、各章概述（Hadoop部分）
(一)、Hadoop的起源与背景知识
1、什么是大数据？两个例子、大数据的核心问题是什么？
举例：（1）商品推荐：问题1：大量的订单如何存储？问题2：大量的订单如何计算？
（2）天气预报：问题1：大量的天气数据如何存储？问题2：大量的天气数据如何计算？

大数据的核心问题：（1）数据的存储：分布式文件系统（分布式存储）
（2）数据的计算：分布式计算

2、概念：数据仓库（Data warehouse）
（1）我们可以把Hadoop和Spark看成是数据仓库的一种实现方式
（2）数据仓库就是一个数据库，一般只做select
（3）重要：掌握数据仓库搭建的过程
（4）数据仓库又是一种OLAP的应用系统

3、概念：OLTP和OLAP
（1）OLTP：online transaction processing 联机事务处理
（2）OLAP：online analytic processing 联机分析处理 ------> 一般：不会修改（删除）数据

4、（最重要的内容）Google的几篇论文：3篇
（1）GFS：Google File System -----> HDFS ----> 解决：数据的存储
（2）MapReduce计算模型 -----> Hadoop MapReduce ----> 解决：数据的计算
（3）BigTable大表 -----> HBase是NoSQL数据库

(二)、实验环境

(三)、Apache Hadoop的体系结构（重要）：实现Google的思想论文
1、HDFS：Hadoop Distributed File System
（*）主从结构
（*）主节点：NameNode名称节点
（*）从节点：DataNode数据节点
（*）SecondaryNameNode：第二名称节点

2、Yarn:是一个容器，运行MapReduce程序
（*）主从结构
（*）主节点：ResourceManager 资源管理器
（*）从节点：NodeManager 节点管理器

3、HBase：需要单独安装
（*）主从结构
（*）主节点：HMaster
（*）从节点：RegionServer

(四)、Hadoop 2.X的安装与配置
Hadoop有三种安装模式
1、本地模式一台Linux
2、伪分布模式一台Linux
3、全分布模式三台Linux
4、掌握免密码登录的原理和配置

(五)、Hadoop应用案例分析
1、大数据背景下，企业级系统的架构的变化
2、HBase进行日志分析
3、了解：Hadoop在淘宝的应用

(六)、HDFS：Hadoop的分布式文件系统，数据存储
1、操作HDFS：（1）命令行（2）Java API （3）网页：Web Console
2、原理：数据上传的过程
数据下载的过程
3、HDFS的底层实现：RPC和Java动态代理
RPC：remote procedure call
4、高级特性
（*）回收站
（*）快照snapshot：是一种备份
（*）配额quota：（1）名称配额（2）空间配额
（*）安全模式：safemode
（*）权限

(七)、MapReduce：是一个计算模型，可以用Java来实现
1、Demo：经典WordCount
2、重点：MapReduce处理数据的过程
3、原理：Yarn执行MapReduce的过程
4、MapReduce的高级特性
（*）序列化
（*）排序
（*）分区
（*）合并
5、MapReduce的核心：Shuffle（洗牌）
6、编程案例：
（*）排序：order by
（*）去重：distinct
（*）多表查询
（*）倒排索引

补充：MySQL数据库
(八)、Hive：蜂巢数据分析的引擎：翻译器 SQL ---------------> MapReduce
(九)、Pig：猪数据分析的引擎：翻译器 PigLatin语言 ------> MapReduce

(十)、HBase: NoSQL数据库
1、是基于Hadoop之上的NoSQL
2、体系结构：HMaster、RegionServer
3、搭建：本地模式、伪分布模式、全分布模式
4、操作：命令行、Java API、Web Console
5、过滤器：实现复杂的查询
6、HBase上的MapReduce

(十一)、Sqoop：数据采集引擎，采集关系型数据库中的数据
(十二)、Flume：数据采集引擎，采集日志

(十三)、HUE：基于Web的管理工具

(十四)、ZooKeeper：相当于是一个”数据库“，实现HA（High Avaiblity高可用性）

(十五)、Hadoop的集群和HA
1、HDFS的联盟（Federation）
2、Hadoop的HA（High Avaiblity高可用性）

(十六)、Redis：基于内存的NoSQL数据库，提高性能

(十七)、Storm：处理流式数据（实时计算）
集成Storm和Redis

一、Google的基本思想
1、GFS
2、MapReduce：计算模型，进行大数据计算
问题的来源：PageRank（网页排名）

核心：先拆分，再合并

3、BigTable：大表，NoSQL数据库：HBase 基于HDFS之上的NoSQL数据库、列式数据库
表 ----> 目录
数据 ----> 文件

思想：通过牺牲存储的空间，来换取性能
把所有的数据存入一张表中，完全违背了关系型数据库范式的要求

二、Hadoop 2.X的安装与配置
习惯：SecureCRT
准备：1、安装Linux和JDK
2、关闭防火墙
3、配置主机名

解压：tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/
设置环境变量：vi ~/.bash_profile
HADOOP_HOME=/root/training/hadoop-2.7.3
export HADOOP_HOME

PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH
source ~/.bash_profile

介绍Hadoop的目录结构

Hadoop有三种安装模式
1、本地模式一台Linux
（*）特点：没有HDFS，只能测试MapReduce程序（本地数据：Linux的文件）
（*）配置：hadoop-env.sh
26行 export JAVA_HOME=/root/training/jdk1.8.0_144

（*）Demo：测试MapReduce程序
example: /root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount ~/temp/data.txt ~/temp/mr/wc1

2、伪分布模式一台Linux
（*）特点：在单机上，模拟一个分布式的环境，具备Hadoop的所有功能
（*）hdfs-site.xml

dfs.replication
1

core-site.xml

fs.defaultFS
hdfs://bigdata11:9000

hadoop.tmp.dir
/root/training/hadoop-2.7.3/tmp

mapred-site.xml

mapreduce.framework.name
yarn

yarn-site.xml

yarn.resourcemanager.hostname
bigdata11

yarn.nodemanager.aux-services
mapreduce_shuffle

对NameNode进行格式化: hdfs namenode -format
日志：Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted.

启动：start-all.sh = start-dfs.sh + start-yarn.sh

（*）Demo：测试MapReduce程序
example: /root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/wc1204

3、全分布模式三台Linux
（*）特点：真正的分布式环境，用于生产

4、掌握免密码登录的原理和配置

第二章
一、搭建Hadoop的全分布模式

1、三台机器：bigdata12 bigdata13 bigdata14
2、每台机器准备工作：安装JDK、关闭防火墙、设置主机名
systemctl stop firewalld.service
systemctl disable firewalld.service

设置主机名 vi /etc/hosts
192.168.157.12 bigdata12
192.168.157.13 bigdata13
192.168.157.14 bigdata14

3、配置免密码登录
（1）在每台机器上产生公钥和私钥
ssh-keygen -t rsa

（2）需要将每台机器的公钥复制给其他机器（下面的三句话，需要在每台机器上执行）
ssh-copy-id -i .ssh/id_rsa.pub root@bigdata12
ssh-copy-id -i .ssh/id_rsa.pub root@bigdata13
ssh-copy-id -i .ssh/id_rsa.pub root@bigdata14

4、保证每台机器的时间同步的
5、安装Hadoop的全分布环境（在主节点bigdata12上安装）
（1）解压设置环境变量
（2）修改配置文件
hadoop-env.sh
26行 export JAVA_HOME=/root/training/jdk1.8.0_144

hdfs-site.xml

dfs.replication
2

dfs.permissions
false

core-site.xml

fs.defaultFS
hdfs://bigdata12:9000

hadoop.tmp.dir
/root/training/hadoop-2.7.3/tmp

mapred-site.xml

mapreduce.framework.name
yarn

yarn-site.xml

yarn.resourcemanager.hostname
bigdata12

yarn.nodemanager.aux-services
mapreduce_shuffle

slaves: 配置的是所有的从节点
bigdata13
bigdata14

（3）格式化NameNode: hdfs namenode -format

6、将配置好的目录复制到bigdata13和bigdata14上
scp -r hadoop-2.7.3/ root@bigdata13:/root/training
scp -r hadoop-2.7.3/ root@bigdata14:/root/training

7、启动Hadoop集群（在主节点上）: start-all.sh
stop-all.sh

8、验证
（*）命令行：hdfs dfsadmin -report
（*）网页：HDFS：http://192.168.157.12:50070/
Yarn：http://192.168.157.12:8088

第四章：Hadoop的体系结构（非常重要）:原理、结构、运行机制
问题：Putty或者SecureCRT连不上

一、HDFS的体系结构和运行原理
1、主节点：NameNode
（*）职责：管理HDFS
接收客户端的请求:上传数据、下载数据
管理和维护日志（edits文件）和元信息（指的是：数据块的位置信息：fsimage文件）

（*）HDFS的日志：edits文件
举例：创建目录 ---> 产生日志
hdfs dfs -mkdir /mydemo1
查找edits文件：find . -name edits*

（1） edits_inprogress_0000000000000000105是二进制文件
（2）HDFS提供一个工具：edits viewer 日志查看器，转换成一个XML文件
hdfs oev -i edits_inprogress_0000000000000000105 -o ~/a.xml

OP_MKDIR

107
0
16416
/mydemo1
1512565581211

root
supergroup
493

（*）HDFS的元信息：fsimage文件：记录数据块的位置信息、冗余信息等等
查找fsimage文件：find . -name fsimage*
也是二进制的
HDFS也提供了一个工具：image viewer ，把fsimage文件转成文本、XML的文件

（*）问题：edits文件和fsimage文件，哪个文件体现了HDFS的最新状态？

2、从节点：DataNode
（*）按数据块保存数据：1.x：64M 2.x：128M
（*）数据块在操作系统的位置：
find . -name blk*
/root/training/hadoop-2.7.3/tmp/dfs/data/current/BP-156326068-192.168.157.11-1512395988927/current/finalized/subdir0/subdir0

（*）设置数据块冗余度的基本原则
一般，冗余度跟数据节点的个数一样，最大不要超过3

（*）一定做一下实验

3、第二名称节点：SecondaryNameNode，默认就跟NameNode在一起
（*）职责：定期进行日志信息的合并，edits ---> fsimage中
（*）掌握日志合并过程（重要）

二、Yarn的体系结构和运行原理：运行MapReduce的容器
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/wc1206

1、主节点：ResourceManager
职责：（*）接收任务请求
（*）资源的分配
（*）任务分配

2、从节点：NodeManager
职责：（*）从ResourceManager获取任务和资源
（*）执行

3、调度MR任务的过程
4、资源分配方式
（1）FIFO Scheduler：先来先得
（2）Capacity Scheduler：容器管理
（3）Fair Scheduler：公平调度管理，前提：假设任务具有相同优先级，平均分配资源

三、HBase的体系结构和运行原理
HBase是基于HDFS之上的NoSQL数据库

1、主节点：HMaster
2、从节点：RegionServer

四、主从结构的单点故障问题及解决方案（了解）

第五章：HDFS

一、操作HDFS
1、Web Console：端口50070
2、命令行：有两种类型
（1）普通操作命令： hdfs dfs ******
命令
-mkdir：在HDFS上创建目录
hdfs dfs -mkdir /aaa
hdfs dfs -mkdir /bbb/ccc
如果父目录不存在，使用-p参数先创建父目录

-ls 查看HDFS的某个目录
-ls -R 查看HDFS的某个目录，包含子目录
简写： -lsr

-put 上传数据
-copyFromLocal 上传数据
-moveFromLocal 上传数据，相当于ctrl+x

-copyToLocal 下载数据
-get 下载数据
举例: hdfs dfs -get /input/data.txt .

-rm：删除目录
-rmr: 删除目录，包括子目录
hdfs dfs -rmr /bbb
日志：
17/12/08 20:32:10 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted /bbb

-getmerge：把某个目录下的文件，合并后再下载

-cp：拷贝 hdfs dfs -cp /input/data.txt /input/data2.txt
-mv：移动 hdfs dfs -cp /input/data.txt /aaa/a.txt

-count: 举例：hdfs dfs -count /students

-du: 类似-count，信息更详细
hdfs dfs -du /students

例子：
# hdfs dfs -count /students
1 2 29 /students
# hdfs dfs -ls /students
Found 2 items
-rw-r--r-- 1 root supergroup 19 2017-12-08 20:35 /students/student01.txt
-rw-r--r-- 1 root supergroup 10 2017-12-08 20:35 /students/student02.txt
# hdfs dfs -du /students
19 /students/student01.txt
10 /students/student02.txt

-text、-cat：查看文本的内容
hdfs dfs -cat /input/data.txt
balancer：平衡操作
hdfs balancer

（2）管理命令：hdfs dfsadmin ******
-report: 打印HDFS的报告
举例：hdfs dfsadmin -report

-safemode：安全模式
hdfs dfsadmin -safemode
Usage: hdfs dfsadmin [-safemode enter | leave | get | wait]

# hdfs dfsadmin -safemode get
Safe mode is OFF
# hdfs dfsadmin -safemode enter
Safe mode is ON
# hdfs dfs -mkdir /dddd
mkdir: Cannot create directory /dddd. Name node is in safe mode.
# hdfs dfsadmin -safemode leave
Safe mode is OFF

3、Java API
（1）创建一个目录：mkdir ----> 告诉：权限的问题
（2）上传数据、下载数据
（3）查询数据的元信息

依赖的jar包：
/root/training/hadoop-2.7.3/share/hadoop/common
/root/training/hadoop-2.7.3/share/hadoop/common/lib

/root/training/hadoop-2.7.3/share/hadoop/hdfs
/root/training/hadoop-2.7.3/share/hadoop/hdfs/lib

二、HDFS输出数据的原理（画图）：比较重要
1、数据上传的原理（过程）
2、数据下载的原理（过程）

三、HDFS的高级特性
1、回收站
2、快照snapshot：备份
3、配额quota：（1）名称配额
（2）空间配额

4、HDFS安全模式: safemode
5、HDFS的权限
6、HDFS的集群：（1）联盟Federation
（2）HA

四、HDFS底层的原理：Java程序
1、Java的动态代理
2、RPC：remote procedure call 远程过程调用

第五章：HDFS

一、操作HDFS
1、Web Console：端口50070
2、命令行：有两种类型
3、Java API

二、HDFS输出数据的原理（画图）：比较重要
1、数据上传的原理（过程）
2、数据下载的原理（过程）

缓存元信息的内存：1000M
文件：hadoop-env.sh
# The maximum amount of heap to use, in MB. Default is 1000.
#export HADOOP_HEAPSIZE=
#export HADOOP_NAMENODE_INIT_HEAPSIZE=""

三、HDFS的高级特性
1、回收站: recyclebin
日志
-rmr: 删除目录，包括子目录
hdfs dfs -rmr /bbb
日志：
17/12/08 20:32:10 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted /bbb

（*）默认，HDFS的回收站是关闭
（*）启用回收站：参数---> core-site.xml
本质：删除数据的时候，实际是一个ctrl+x操作

fs.trash.interval
1440

日志：
hdfs dfs -rmr /folder1
rmr: DEPRECATED: Please use 'rm -r' instead.
17/12/11 21:05:57 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 1440 minutes, Emptier interval = 0 minutes.
Moved: 'hdfs://bigdata11:9000/folder1' to trash at: hdfs://bigdata11:9000/user/root/.Trash/Current
（*）恢复：实际就是cp，拷贝
hdfs dfs -cp /user/root/.Trash/Current/input/data.txt /input

清空：hdfs dfs -expunge

（*）补充：Oracle数据库也有回收站
SQL> select * from tab;

TNAME TABTYPE CLUSTERID
------------------------------ ------- ----------
BIN$WBSNMvxJpWvgUAB/AQBygg==$0 TABLE
BONUS TABLE
DEPT TABLE
EMP TABLE
RESULT TABLE
SALGRADE TABLE

6 rows selected.

SQL> -- drop table mydemo1;
SQL> show recyclebin;
ORIGINAL NAME RECYCLEBIN NAME OBJECT TYPE DROP TIME
---------------- ------------------------------ ------------ -------------------
MYDEMO1 BIN$WBSNMvxJpWvgUAB/AQBygg==$0 TABLE 2017-09-01:06:56:15
SQL> select count(*) from mydemo1;
select count(*) from mydemo1
*
ERROR at line 1:
ORA-00942: table or view does not exist

SQL> select count(*) from BIN$WBSNMvxJpWvgUAB/AQBygg==$0;
select count(*) from BIN$WBSNMvxJpWvgUAB/AQBygg==$0
*
ERROR at line 1:
ORA-00933: SQL command not properly ended

SQL> select count(*) from "BIN$WBSNMvxJpWvgUAB/AQBygg==$0";

COUNT(*)
----------
30

SQL> flashback table mydemo1 to before drop;

Flashback complete.

SQL> show recyclebin;
SQL> select count(*) from mydemo1;

COUNT(*)
----------
30

2、快照snapshot：备份 ---> 一般来说：不建议使用快照

（*）默认：HDFS的快照是禁用的
（*）第一步：管理员开启某个目录的快照功能
[-allowSnapshot ]
[-disallowSnapshot ]

hdfs dfsadmin -allowSnapshot /mydir1

（*）第二步：使用HDFS的操作命令，创建快照
[-createSnapshot []]
[-deleteSnapshot ]
[-renameSnapshot ]

hdfs dfs -createSnapshot /mydir1 mydir1_backup_01
日志：Created snapshot /mydir1/.snapshot/mydir1_backup_01
本质：将数据拷贝一份到当前目录的一个隐藏目录下

（*）继续试验
hdfs dfs -put student02.txt /mydir1
hdfs dfs -createSnapshot /mydir1 mydir1_backup_02

对比快照： hdfs snapshotDiff /mydir1 mydir1_backup_01 mydir1_backup_02
Difference between snapshot mydir1_backup_01 and snapshot mydir1_backup_02 under directory /mydir1:
M .
+ ./student02.txt

3、配额quota：（1）名称配额: 规定某个目录下，存放文件（目录）的个数
实际的个数：N-1个
[-setQuota ...]
[-clrQuota ...]

hdfs dfs -mkdir /quota1
设置该目录的名称配额：3
hdfs dfsadmin -setQuota 3 /quota1

当我们放第三个文件的时候
hdfs dfs -put data.txt /quota1
put: The NameSpace quota (directories and files) of directory /quota1 is exceeded: quota=3 file count=4

（2）空间配额: 规定某个目录下，文件的大小
[-setSpaceQuota [-storageType ] ...]
[-clrSpaceQuota [-storageType ] ...]

hdfs dfs -mkdir /quota2
设置该目录的空间配额是：10M
hdfs dfsadmin -setSpaceQuota 10M /quota2

正确的做法：hdfs dfsadmin -setSpaceQuota 130M /quota2

放一个小于10M的文件，会出错
Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.DSQuotaExceededException): The DiskSpace quota of /quota2 is exceeded: quota = 10485760 B = 10 MB but diskspace consumed = 134217728 B = 128 MB

注意：尽管数据不到128M，但是占用的数据块依然是128M
切记：当设置空间配额的时候，这个值不能小于128M

4、HDFS安全模式: safemode ---> HDFS只读
命令: hdfs dfsadmin -safemode get|wait|leave|enter
作用：检查数据块的副本率，如果副本率不满足要求，就会进行水平复制

5、HDFS的权限

6、HDFS的集群：开个头
集群的两大功能：负载均衡，高可用(失败迁移)

（1）NameNode联盟（Federation） ----> HDFS

（2）HA: HDFS、Yarn、HBase、Storm、Spark ---> 都需要ZooKeeper

四、HDFS底层的原理：Java程序
1、Java的动态代理
2、RPC：remote procedure call 远程过程调用
HDFS的底层原理
1、Java的动态代理对象
再举一个例子：数据库的连接池 ----> 返回的Connection，不是真正的Connection，而是一个代理对象
实现一个接口：DataSource
准备环境：安装一个MySQL数据库

Hive的安装
在虚拟机上安装MySQL：
yum remove mysql-libs
rpm -ivh mysql-community-common-5.7.19-1.el7.x86_64.rpm
rpm -ivh mysql-community-libs-5.7.19-1.el7.x86_64.rpm
rpm -ivh mysql-community-client-5.7.19-1.el7.x86_64.rpm
rpm -ivh mysql-community-server-5.7.19-1.el7.x86_64.rpm
rpm -ivh mysql-community-devel-5.7.19-1.el7.x86_64.rpm （可选）

启动MySQL：service mysqld start
或者：systemctl start mysqld.service

查看root用户的密码：cat /var/log/mysqld.log | grep password
登录后修改密码：alter user 'root'@'localhost' identified by 'Welcome_1';

MySQL数据库的配置：
创建一个新的数据库：create database hive;
创建一个新的用户：
create user 'hiveowner'@'%' identified by 'Welcome_1';

给该用户授权
grant all on hive.* TO 'hiveowner'@'%';
grant all on hive.* TO 'hiveowner'@'localhost' identified by 'Welcome_1';

2、RPC:RPC（Remote Procedure Call）——远程过程调用，类似Web Service

六、MapReduce程序开发

1、Demo：WordCount单词计数
/root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar

执行:
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/mr/wc1213

分析WordCount程序数据处理的过程（非常重要）

2、开发自己的WordCount程序
开发一个MapReduce：求每个部门的工资总额

3、MapReduce的一些高级特性
（1）序列化：类似Java的序列化
（2）排序：默认排序：数字升序
字符串字典顺序
对象的排序：按照员工的薪水排序

（3）分区：Partition，默认情况下，MapReduce只有一个分区，意思是：只有一个输出文件
（4）合并：Combiner，在Mapper端，先做一次Reducer，用于减少输出到Reducer中的数据，从而提高效率
（5）MapReduce的核心：Shuffle（洗牌）

七、MapReduce的编程案例

六、MapReduce程序开发

1、Demo：WordCount单词计数
/root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar

执行:
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/mr/wc1213

分析WordCount程序数据处理的过程（非常重要）

2、开发自己的WordCount程序
需要包含的jar：
/root/training/hadoop-2.7.3/share/hadoop/common
/root/training/hadoop-2.7.3/share/hadoop/common/lib

/root/training/hadoop-2.7.3/share/hadoop/mapreduce
/root/training/hadoop-2.7.3/share/hadoop/mapreduce/lib

再举一个例子：开发一个MapReduce：求每个部门的工资总额
数据：员工表
SQL> select deptno,sum(sal) from emp group by deptno order by deptno;

DEPTNO SUM(SAL)
---------- ----------
10 8750
20 10875
30 9400

3、MapReduce的一些高级特性
（1）序列化：类似Java的序列化
如果一个类实现了的Hadoop的序列化机制（接口：Writable），这个类的对象就可以作为输入和输出的值
举例1：使用Employee类来封装员工信息，并且作为Map和Reduce的输入和输出

一定注意：序列化的顺序和反序列化的顺序要一致

举例2：使用序列化Employee重写求每个部门的工资总额

（2）排序：注意：按照key2进行排序

默认排序：数字升序
字符串字典顺序
对象的排序：按照员工的薪水排序

如果要改变默认的排序规则，需要创建一个自己的比较器

（3）分区：Partition，默认情况下，MapReduce只有一个分区，意思是：只有一个输出文件
（4）合并：Combiner，在Mapper端，先做一次Reducer，用于减少输出到Reducer中的数据，从而提高效率
（5）MapReduce的核心：Shuffle（洗牌）

七、MapReduce的编程案例

一、排序：按照key2进行排序
1、数字的排序
2、字符串的排序
3、对象的排序: 实现WritableComparable接口（1）序列化（2）可被排序

员工数据 Employee.java ----> 作为key2输出
复习SQL：order by 后面 + 列名、表达式、别名、序号 desc
desc 只作用于离他最近的一个列
order by a desc,b desc

（1）一个列的排序
（2）多个列的排序

二、分区:Partition: 根据Map的输出（k2 v2）进行分区
1、默认情况下，MapReduce只有一个分区（只有一个输出文件）
2、什么是分区？（重要）
3、举例：Demo: 按照员工的部门号进行分区，相同部门号的员工输出到一个分区中
日志：
17/12/18 21:47:24 INFO mapreduce.Job: map 100% reduce 0%
17/12/18 21:47:49 INFO mapreduce.Job: map 100% reduce 33%
17/12/18 21:47:55 INFO mapreduce.Job: map 100% reduce 67%
17/12/18 21:47:56 INFO mapreduce.Job: map 100% reduce 100%

三、合并：Combiner
1、MapReduce的任务中，可以没有Combiner
2、Combiner是一种特殊的Reducer，是在Mapper端先做一次Reducer，用来减少Map的输出，从而提高的效率。
3、注意事项：
（1）有些情况，不能使用Combiner -----> 求平均值

（2）引入Combiner，不引人Combiner，一定不能改变原理的逻辑。（MapReduce编程案例：实现倒排索引）

错误：
Error: java.io.IOException: wrong value class: class org.apache.hadoop.io.DoubleWritable is not class org.apache.hadoop.io.IntWritable

四、什么时候Shuffle

五、MapReduce编程案例
一、什么是Shuffle（洗牌） ----> MapReduce核心
1、序列化
2、排序
3、分区
4、合并

二、MapReduce编程案例 ------> 掌握方法：如何开发一个程序
1、数据去重:
复习：SQL：distinct去掉重复的数据
作用于后面所有的列

复习（学习）：Oracle中的多表查询
根据连接条件的不同：
（1）等值连接
（2）不等值连接
（3）外链接
（4）自连接

注意：（1）多表查询和子查询，尽量使用哪个？（多表查询）
（2）一般：多表查询的表的个数<=3 如果超过5个表，性能就差

2、多表查询：等值连接
查询员工信息：部门名称、员工姓名

select d.dname,e.ename
from emp e,dept d
where e.deptno=d.deptno;

问题：如果实现三张表？？

3、多表查询：自连接: 通过表的别名，将同一张表看成多张表
查询员工信息：老板姓名员工的姓名

select b.ename,e.ename
from emp b,emp e
where b.empno=e.mgr;

注意：产生的笛卡尔积= 原表的平方 ----> 自连接操作不适合操作大表
更好的方式：在Oracle中，使用层次查询（树）来取代自连接

4、倒排索引

5、使用单元测试：MRUnit

课程小结：

一、大数据的背景知识
1、什么是大数据？IBM五个v的特性。举例：商品推荐、天气预报
2、数据仓库：就是一个数据库
3、OLTP和OLAP
4、Google的三篇论文
（1）GFS：HDFS
（2）MapReduce：PageRank搜索排名
（3）BigTable：大表---> HBase

二、Hadoop的体系结构
1、HDFS
（1）NameNode
（2）DataNode
（3）SecondaryNameNode

2、Yarn
（1）ResourceManager
（2）NodeManager

三、Hadoop的安装配置
1、注意：关闭防火墙、配置主机名、免密码登录（不对称加密）
2、三种模式：
（1）本地模式
（2）伪分布模式
（3）全分布模式

后面：HDFS的联盟、Hadoop的HA

四、HDFS
1、基本操作：命令行、Java、WebConsole
2、原理：上传和下载数据的过程
3、高级功能：回收站、快照、配额（名称、空间）、权限、安全模式
4、底层原理：代理对象和RPC

五、MapReduce

你可能感兴趣的:(大数据)

计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
题解 | 牛客周赛 Round 49 DEF Java题解 han_xue_feng java
面试又黄了反正不是什么喜欢的工作[牛泪]面试又黄了反正不是什么喜欢的工作2024秋招数据开发第一波面试题露出#字节##滴滴##大数据##面经##秋招#引流字节阿里巴巴腾讯百度美团美团后端暑期实习体验——实习的一天早上：8点半出门坐地铁，9点下地铁到惠新西街南口地铁站，出地铁站坐班车（这一点还是不错的），9点30深圳阿里实习day1领工牌mac，认工位mentor，配环境看文档，七点就润了。看各个文
Search after解决ES深度分页问题 Elastic开源社区 elasticsearch 大数据 search after 深度分页 ES
文章目录1、search_after的作用和意义2、search_after的工作原理3、search_after的使用方法4、注意事项5、与传统分页的对比6、总结search_after是Elasticsearch中用于实现深度分页的一种机制。相比于传统的from和size分页方式，search_after更适合处理大数据集的分页查询，因为它避免了深度分页带来的性能问题。1、search_aft
第七章Solr：企业级搜索应用 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
第七章Solr：企业级搜索应用1.背景介绍1.1搜索引擎的重要性在当今信息时代,数据量呈指数级增长,海量数据中蕴含着极其宝贵的信息和知识。然而,如何快速、准确地从大数据中检索出所需的信息,一直是企业和组织面临的巨大挑战。传统的数据库查询方式已经无法满足现代搜索需求,因此高效的搜索引擎应运而生。1.2什么是SolrApacheSolr是一个高性能、可扩展、云就绪的企业级搜索平台,由Apache软件基
金融租赁系统的创新发展与市场竞争力提升探讨红点租赁系统开发其他
内容概要随着经济的快速发展，金融租赁系统逐渐成为金融市场中不可或缺的一环。它不仅提供了灵活的资金解决方案，还促进了企业的资本结构优化与资源配置效率。因此，了解该系统的市场背景与发展现状至关重要。在现今环境下，新兴技术如人工智能、大数据和区块链等正加速推动金融租赁的创新。通过这些技术，不仅可以优化业务流程，提升运营效率，还可以增强风险管理能力。例如，利用数据分析可以实时监测租赁资产的风险，从而采取相
分块查找算法 1haooo 算法 java 算法开发语言数据结构
分块的原则前一块的最大数据，小于后一窥啊中所有的数据（块内无序，块间有序）块数数量一般等于数字的个数开根号。比如：16个数字一般分为4块左右。publicclassblockSearch{publicstaticvoidmain(String[]args){int[]arr={16,5,9,12,21,18,32,23,37,26,45,34,50,48,61,52,73,66};//共18个元素
MongoDB数据库使用及常见问题微笑的曙光（StevenLi）数据库数据库 mongodb
MongoDB数据库之所以备受青睐，关键在于其独特的优势满足了现代应用的需求。它采用文档型存储，数据结构灵活，无需事先定义表结构，非常适合处理复杂且多变的数据。MongoDB具备高性能和可扩展性，能够轻松应对大数据量和高并发的访问，通过分片技术实现水平扩展，确保系统稳定运行。同时，它提供了强大的数据一致性和可靠性保障，支持多种复制和故障转移机制，确保数据的高可用性和持久性。此外，MongoDB拥有
智慧社区2.0 陈陈爱java java
项目亮点1.技术架构层面✅多数据源整合（MySQL+Redis+HDFS+OSS）核心亮点：不仅仅是单一数据库，而是根据数据特性使用MySQL（结构化数据）+Redis（缓存）+HDFS（大数据存储）+OSS（对象存储），提高了系统的数据存储效率和查询速度。面试时可以强调：Redis作为缓存，加速社区热点数据访问，减少MySQL压力。HDFS存储海量日志和AI任务数据，支持后续分析。OSS解决图片
Pandas与PySpark混合计算实战：突破单机极限的智能数据处理方案 Eqwaak00 Pandas pandas 学习 python 科技开发语言
引言：大数据时代的混合计算革命当数据规模突破十亿级时，传统单机Pandas面临内存溢出、计算缓慢等瓶颈。PySpark虽能处理PB级数据，但在开发效率和局部计算灵活性上存在不足。本文将揭示如何构建Pandas+PySpark混合计算管道，在保留Pandas便捷性的同时，借助Spark分布式引擎实现百倍性能提升，并通过真实电商用户画像案例演示全流程实现。一、混合架构设计原理1.1技术栈优势分析维度P
智能汽车：驶向未来的革命智能设备
一、引言汽车，作为现代文明的标志，正经历着一场前所未有的变革。人工智能、大数据、云计算等技术的飞速发展，正推动着汽车从单纯的交通工具向智能移动空间转变。智能汽车，作为这场变革的主角，正悄然改变着我们的出行方式和生活方式。二、智能汽车的定义与发展现状智能汽车，是指搭载先进传感器、控制器、执行器等装置，并融合现代通信与网络技术，实现车与X（人、车、路、云端等）智能信息交换、共享，具备复杂环境感知、智能
介绍 Apache Spark 的基本概念和在大数据分析中的应用佛渡红尘 apache
ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。相比于传统的MapReduce框架，Spark具有更快的数据处理速度和更强大的计算能力。ApacheSpark的基本概念包括：弹性分布式数据集（RDD）：是Spark中基本的数据抽象，是一个可并行操作的分区记录集合。RDD可以在集群中的节点间进行分布式计算。转换（Transform
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs