BHBshy

HDFS文件系统（一）

一.HDFS概念

1.1概念

HDFS，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS的设计适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。

1.2 组成

HDFS集群包括，NameNode和DataNode以及Secondary Namenode。
NameNode负责管理整个文件系统的元数据，以及每一个路径（文件）所对应的数据块信息。
DataNode 负责管理用户的文件数据块，每一个数据块都可以在多个datanode上存储多个副本。
Secondary NameNode用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

1.3 HDFS 文件块大小

HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数(dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M
HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M
如果寻址时间约为10ms，而传输速率为100MB/s，为了使寻址时间仅占传输时间的1%，我们要将块大小设置约为100MB。默认的块大小实际为64MB，但是很多情况下HDFS使用128MB的块设置。
块的大小：10ms100100M/s = 100M

二 .HFDS命令行操作

基本语法
```
bin/hadoop fs 具体命令
```

参数大全 bin/hadoop fs

[-appendToFile  ... ]
[-cat [-ignoreCrc]  ...]
[-checksum  ...]
[-chgrp [-R] GROUP PATH...]
[-chmod [-R]  PATH...]
[-chown [-R] [OWNER][:[GROUP]] PATH...]
[-copyFromLocal [-f] [-p]  ... ]
[-copyToLocal [-p] [-ignoreCrc] [-crc]  ... ]
[-count [-q]  ...]
[-cp [-f] [-p]  ... ]
[-createSnapshot  []]
[-deleteSnapshot  ]
[-df [-h] [ ...]]
[-du [-s] [-h]  ...]
[-expunge]
[-get [-p] [-ignoreCrc] [-crc]  ... ]
[-getfacl [-R] ]
[-getmerge [-nl]  ]
[-help [cmd ...]]
[-ls [-d] [-h] [-R] [ ...]]
[-mkdir [-p]  ...]
[-moveFromLocal  ... ]
[-moveToLocal  ]
[-mv  ... ]
[-put [-f] [-p]  ... ]
[-renameSnapshot   ]
[-rm [-f] [-r|-R] [-skipTrash]  ...]
[-rmdir [--ignore-fail-on-non-empty]  ...]
[-setfacl [-R] [{-b|-k} {-m|-x } ]|[--set  ]]
[-setrep [-R] [-w]   ...]
[-stat [format]  ...]
[-tail [-f] ]
[-test -[defsz] ]
[-text [-ignoreCrc]  ...]
[-touchz  ...]
[-usage [cmd ...]]

常用命令实操

（1）-help：输出这个命令参数
	bin/hdfs dfs -help rm
（2）-ls: 显示目录信息
	hadoop fs -ls /
（3）-mkdir：在hdfs上创建目录
	hadoop fs  -mkdir  -p  /aaa/bbb/cc/dd
（4）-moveFromLocal从本地剪切粘贴到hdfs
	hadoop  fs  - moveFromLocal  /home/hadoop/a.txt  /aaa/bbb/cc/dd
（5）-moveToLocal：从hdfs剪切粘贴到本地
	hadoop  fs  - moveToLocal   /aaa/bbb/cc/dd  /home/hadoop/a.txt
（6）--appendToFile  ：追加一个文件到已经存在的文件末尾
	hadoop  fs  -appendToFile  ./hello.txt  /hello.txt
（7）-cat ：显示文件内容
（8）-tail：显示一个文件的末尾
	hadoop  fs  -tail  /weblog/access_log.1
（9）-text：以字符形式打印一个文件的内容
	hadoop  fs  -text  /weblog/access_log.1
（10）-chgrp 、-chmod、-chown：linux文件系统中的用法一样，修改文件所属权限
	hadoop  fs  -chmod  666  /hello.txt
	hadoop  fs  -chown  someuser:somegrp   /hello.txt
（11）-copyFromLocal：从本地文件系统中拷贝文件到hdfs路径去
	hadoop  fs  -copyFromLocal  ./jdk.tar.gz  /aaa/
（12）-copyToLocal：从hdfs拷贝到本地
	hadoop fs -copyToLocal /aaa/jdk.tar.gz
（13）-cp ：从hdfs的一个路径拷贝到hdfs的另一个路径
	hadoop  fs  -cp  /aaa/jdk.tar.gz  /bbb/jdk.tar.gz.2
（14）-mv：在hdfs目录中移动文件
	hadoop  fs  -mv  /aaa/jdk.tar.gz  /
（15）-get：等同于copyToLocal，就是从hdfs下载文件到本地
	hadoop fs -get  /aaa/jdk.tar.gz
（16）-getmerge  ：合并下载多个文件，比如hdfs的目录 /aaa/下有多个文件:log.1, log.2,log.3,...
	hadoop fs -getmerge /aaa/log.* ./log.sum
（17）-put：等同于copyFromLocal
	hadoop  fs  -put  /aaa/jdk.tar.gz  /bbb/jdk.tar.gz.2
（18）-rm：删除文件或文件夹
	hadoop fs -rm -r /aaa/bbb/
（19）-rmdir：删除空目录
	hadoop  fs  -rmdir   /aaa/bbb/ccc
（20）-df ：统计文件系统的可用空间信息
	hadoop  fs  -df  -h  /
（21）-du统计文件夹的大小信息
	hadoop  fs  -du  -s  -h /aaa/*
（22）-count：统计一个指定目录下的文件节点数量
	hadoop fs -count /aaa/
（23）-setrep：设置hdfs中文件的副本数量
	hadoop fs -setrep 3 /aaa/jdk.tar.gz
	这里设置的副本数只是记录在namenode的元数据中，是否真的会有这么多副本，
	还得看datanode的数量。因为目前只有3台设备，最多也就3个副本，
	只有节点数的增加到10台时，副本数才能达到10。

三. HDFS客户端操作

3.1 eclipse环境准备

3.1.1 jar包准备

解压hadoop-2.7.2.tar.gz到非中文目录
进入share文件夹，查找所有jar包，并把jar包拷贝到_lib文件夹下
在全部jar包中查找.source.jar，并剪切到_source文件夹。
在全部jar包中查找tests.jar，并剪切到_test文件夹。

3.1.2 eclipse准备

配置HADOOP_HOME环境变量
采用hadoop编译后的bin 、lib两个文件夹（如果不生效，重新启动eclipse）

创建第一个java工程

public class HdfsClientDemo1 {
	public static void main(String[] args) throws Exception {
		// 1 获取文件系统
		Configuration configuration = new Configuration();
		// 配置在集群上运行
		configuration.set("fs.defaultFS", "hdfs://hadoop102:9000");
		FileSystem fileSystem = FileSystem.get(configuration);
		
		// 直接配置访问集群的路径和访问集群的用户名称
//		FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop102:9000"),configuration, "atguigu");
		
		// 2 把本地文件上传到文件系统中
		fileSystem.copyFromLocalFile(new Path("f:/hello.txt"), new Path("/hello1.copy.txt"));
		
		// 3 关闭资源
		fileSystem.close();
		System.out.println("over");
	}
}

执行程序

运行时需要配置用户名称

客户端去操作hdfs时，是有一个用户身份的。默认情况下，hdfs客户端api会从jvm中获取一个参数来作为自己的用户身份：-DHADOOP_USER_NAME=atguigu，atguigu为用户名称。

3.2 通过API操作HDFS

3.2.1 HDFS获取文件系统

@Test
public void initHDFS() throws Exception{
	// 1 创建配置信息对象
	// new Configuration();的时候，它就会去加载jar包中的hdfs-default.xml
	// 然后再加载classpath下的hdfs-site.xml
	Configuration configuration = new Configuration();
	
	// 2 设置参数 
	// 参数优先级： 1、客户端代码中设置的值  2、classpath下的用户自定义配置文件 3、然后是服务器的默认配置
//		configuration.set("fs.defaultFS", "hdfs://hadoop102:9000");
	configuration.set("dfs.replication", "3");
	
	// 3 获取文件系统
	FileSystem fs = FileSystem.get(configuration);
	
	// 4 打印文件系统
	System.out.println(fs.toString());
}

3.2.2 HDFS文件上传

@Test
public void putFileToHDFS() throws Exception{
	// 1 创建配置信息对象
	Configuration configuration = new Configuration();
	
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"),configuration, "atguigu");
	
	// 2 创建要上传文件所在的本地路径
	Path src = new Path("e:/hello.txt");
	
	// 3 创建要上传到hdfs的目标路径
	Path dst = new Path("hdfs://hadoop102:9000/user/atguigu/hello.txt");
	
	// 4 拷贝文件
	fs.copyFromLocalFile(src, dst);
	fs.close();	
}

3.2.3 HDFS文件下载

@Test
public void getFileFromHDFS() throws Exception{
		
	// 1 创建配置信息对象
	Configuration configuration = new Configuration();
		
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"),configuration, "atguigu");	
	
//	fs.copyToLocalFile(new Path("hdfs://hadoop102:9000/user/atguigu/hello.txt"), 
									new Path("d:/hello.txt"));
	// boolean delSrc 指是否将原文件删除
	// Path src 指要下载的文件路径
	// Path dst 指将文件下载到的路径
	// boolean useRawLocalFileSystem 是否开启文件效验
    // 2 下载文件
	fs.copyToLocalFile(false, new Path("hdfs://hadoop102:9000/user/atguigu/hello.txt"), 
										new Path("e:/hellocopy.txt"), true);
	fs.close();
	}

3.2.4 HDFS目录创建

@Test
public void mkdirAtHDFS() throws Exception{
	// 1 创建配置信息对象
	Configuration configuration = new Configuration();
	
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"),configuration, "atguigu");	
	
	//2 创建目录
	fs.mkdirs(new Path("hdfs://hadoop102:9000/user/atguigu/output"));
}

3.2.5 HDFS文件夹删除

@Test
public void deleteAtHDFS() throws Exception{
	// 1 创建配置信息对象
	Configuration configuration = new Configuration();
	
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"),configuration, "atguigu");	
	
	//2 删除文件夹 ，如果是非空文件夹，参数2必须给值true
	fs.delete(new Path("hdfs://hadoop102:9000/user/atguigu/output"), true);
}

3.2.6 HDFS文件名更改

@Test
public void renameAtHDFS() throws Exception{
	// 1 创建配置信息对象
	Configuration configuration = new Configuration();
	
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"),configuration, "atguigu");
	
	//2 重命名文件或文件夹
	fs.rename(new Path("hdfs://hadoop102:9000/user/atguigu/hello.txt"), 
					new Path("hdfs://hadoop102:9000/user/atguigu/hellonihao.txt"));
}

3.2.7 HDFS文件详情查看

@Test
public void readListFiles() throws Exception {
	// 1 创建配置信息对象
	Configuration configuration = new Configuration();
		
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"),configuration, "atguigu");
		
	// 思考：为什么返回迭代器，而不是List之类的容器
	RemoteIterator listFiles = fs.listFiles(new Path("/"), true);

	while (listFiles.hasNext()) {
		LocatedFileStatus fileStatus = listFiles.next();
			
		System.out.println(fileStatus.getPath().getName());
		System.out.println(fileStatus.getBlockSize());
		System.out.println(fileStatus.getPermission());
		System.out.println(fileStatus.getLen());
			
		BlockLocation[] blockLocations = fileStatus.getBlockLocations();
			
		for (BlockLocation bl : blockLocations) {
				
			System.out.println("block-offset:" + bl.getOffset());
				
			String[] hosts = bl.getHosts();
				
			for (String host : hosts) {
				System.out.println(host);
			}
		}
			
		System.out.println("--------------李冰冰的分割线--------------");
	}
}

3.2.8 HDFS文件夹查看

@Test
public void findAtHDFS() throws Exception, IllegalArgumentException, IOException{
		
	// 1 创建配置信息对象
	Configuration configuration = new Configuration();
		
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"),configuration, "atguigu");
		
	// 2 获取查询路径下的文件状态信息
	FileStatus[] listStatus = fs.listStatus(new Path("/"));

	// 3 遍历所有文件状态
	for (FileStatus status : listStatus) {
		if (status.isFile()) {
			System.out.println("f--" + status.getPath().getName());
		} else {
			System.out.println("d--" + status.getPath().getName());
		}
	}
}

3.3 通过IO流操作HDFS

3.3.1 HDFS文件上传

@Test
public void putFileToHDFS() throws Exception{
	// 1 创建配置信息对象
	Configuration configuration = new Configuration();
	
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"),configuration, "atguigu");
	
	// 2 创建输入流
	FileInputStream inStream = new FileInputStream(new File("e:/hello.txt"));
	
	// 3 获取输出路径
	String putFileName = "hdfs://hadoop102:9000/user/atguigu/hello1.txt";
	Path writePath = new Path(putFileName);

	// 4 创建输出流
	FSDataOutputStream outStream = fs.create(writePath);

	// 5 流对接
	try{
		IOUtils.copyBytes(inStream, outStream, 4096, false);
	}catch(Exception e){
		e.printStackTrace();
	}finally{
		IOUtils.closeStream(inStream);
		IOUtils.closeStream(outStream);
	}
}

3.3.2 HDFS文件下载

@Test
public void getFileToHDFS() throws Exception{
	// 1 创建配置信息对象
	Configuration configuration = new Configuration();
	
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"),configuration, "atguigu");
	
	// 2 获取读取文件路径
	String filename = "hdfs://hadoop102:9000/user/atguigu/hello1.txt";
	
	// 3 创建读取path
	Path readPath = new Path(filename);
	
	// 4 创建输入流
	FSDataInputStream inStream = fs.open(readPath);
	
	// 5 流对接输出到控制台
	try{
		IOUtils.copyBytes(inStream, System.out, 4096, false);
	}catch(Exception e){
		e.printStackTrace();
	}finally{
		IOUtils.closeStream(inStream);
	}
}

3.3.3 定位文件读取

下载第一块

@Test
// 定位下载第一块内容
public void readFileSeek1() throws Exception {

	// 1 创建配置信息对象
	Configuration configuration = new Configuration();

	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "atguigu");

	// 2 获取输入流路径
	Path path = new Path("hdfs://hadoop102:9000/user/atguigu/tmp/hadoop-2.7.2.tar.gz");

	// 3 打开输入流
	FSDataInputStream fis = fs.open(path);

	// 4 创建输出流
	FileOutputStream fos = new FileOutputStream("e:/hadoop-2.7.2.tar.gz.part1");

	// 5 流对接
	byte[] buf = new byte[1024];
	for (int i = 0; i < 128 * 1024; i++) {
		fis.read(buf);
		fos.write(buf);
	}

	// 6 关闭流
	IOUtils.closeStream(fis);
	IOUtils.closeStream(fos);
}

下载第二块

@Test
// 定位下载第二块内容
public void readFileSeek2() throws Exception{
	
	// 1 创建配置信息对象
	Configuration configuration = new Configuration();

	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "atguigu");
	
	// 2 获取输入流路径
	Path path = new Path("hdfs://hadoop102:9000/user/atguigu/tmp/hadoop-2.7.2.tar.gz");
	
	// 3 打开输入流
	FSDataInputStream fis = fs.open(path);
	
	// 4 创建输出流
	FileOutputStream fos = new FileOutputStream("e:/hadoop-2.7.2.tar.gz.part2");
	
	// 5 定位偏移量（第二块的首位）
	fis.seek(1024 * 1024 * 128);
	
	// 6 流对接
	IOUtils.copyBytes(fis, fos, 1024);
	
	// 7 关闭流
	IOUtils.closeStream(fis);
	IOUtils.closeStream(fos);
}

合并文件

在window命令窗口中执行
type hadoop-2.7.2.tar.gz.part2 >> hadoop-2.7.2.tar.gz.part1

四. HDFS的数据流

4.1 HDFS写数据流程

4.1.1 剖析文件写入

客户端向namenode请求上传文件，namenode检查目标文件是否已存在，父目录是否存在。
namenode返回是否可以上传。
客户端请求第一个 block上传到哪几个datanode服务器上。
namenode返回3个datanode节点，分别为dn1、dn2、dn3
客户端请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成
dn1、dn2、dn3逐级应答客户端。
客户端开始往dn1上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，dn1收到一个packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答
当一个block传输完成之后，客户端再次请求namenode上传第二个block的服务器。（重复执行3-7步）

4.2 HDFS读数据流程

客户端向namenode请求下载文件，namenode通过查询元数据，找到文件块所在的datanode地址。
挑选一台datanode（就近原则，然后随机）服务器，请求读取数据。
datanode开始传输数据给客户端（从磁盘里面读取数据放入流，以packet为单位来做校验）。
客户端以packet为单位接收，先在本地缓存，然后写入目标文件。

4.3 一致性模型

debug调试如下代码
@Test
public void writeFile() throws Exception{
	// 1 创建配置信息对象
	Configuration configuration = new Configuration();
	fs = FileSystem.get(configuration);
	
	// 2 创建文件输出流
	Path path = new Path("hdfs://hadoop102:9000/user/atguigu/hello.txt");
	FSDataOutputStream fos = fs.create(path);
	
	// 3 写数据
	fos.write("hello".getBytes());
    // 4 一致性刷新
	fos.hflush();
	
	fos.close();
}

写入数据时，如果希望数据被其他client立即可见，调用如下方法FsDataOutputStream. hflush ();
//清理客户端缓冲区数据，被其他client立即可见

Linux操作系统磁盘管理 CZZDg linux 运维服务器
目录一.硬盘介绍1.硬盘的物理结构2.CHS编号3.磁盘存储划分4.开机流程5.要点6.磁盘存储数据的形式二.Linux文件系统1.根文件系统2.虚拟文件系统3.真文件系统4.伪文件系统三.磁盘分区与挂载1.磁盘分区方式2.分区命令3.查看与识别命令4.格式化命令5.挂载命令四.LVM逻辑卷1.概述2.管理命令五.磁盘配额1.概述usrquota:支持对用户的磁盘配额grpquota：支持对组的磁
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Linux中LVM逻辑卷扩容
在Linux系统中对根目录所在的LVM逻辑卷进行扩容，需要依次完成物理卷扩容➔卷组扩容➔逻辑卷扩容➔文件系统扩容四个步骤。以下是详细操作流程：一、确认当前磁盘和LVM状态#1.查看磁盘空间使用情况df-h/#2.查看块设备及LVM层级关系lsblk#3.查看LVM详细信息（物理卷PV、卷组VG、逻辑卷LV）pvdisplayvgdisplaylvdisplay二、扩容物理卷（PV）场景1：已有未分
Docker容器底层原理详解：从零理解容器化技术 Debug Your Career 面试 docker 容器 docker java
一、容器本质：一个“隔离的进程”关键认知：Docker容器并不是一个完整的操作系统，而是一个被严格隔离的进程。这个进程拥有独立的文件系统、网络、进程视图等资源，但它直接运行在宿主机内核上（而虚拟机需要模拟硬件和操作系统）。类比理解：想象你在一个办公楼里租了一间独立办公室（容器）。你有自己的桌椅（文件系统）、电话分机（网络）、门牌号（主机名），但共享整栋楼的水电（宿主机内核）和电梯（硬件资源）。办公
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
上位机知识篇---文件系统 Atticus-Orion 上位机知识篇文件系统 windows linux FAT NTFS ext4 ZFS
文章目录前言1.FAT（FileAllocationTable）版本FAT12FAT16FAT32优势兼容性好简单轻量适合小文件存储劣势不支持大文件性能较差缺乏高级功能使用场景2.NTFS（NewTechnologyFileSystem）优势支持大文件和大分区高性能日记功能权限控制劣势兼容性差不适合嵌入式设备使用场景3.exFAT（ExtendedFileAllocationTable）优势支持大
上位机知识篇---Linux中的文件挂载 Atticus-Orion 上位机操作篇 linux 运维网络文件挂载
文章目录前言1.挂载的基本概念文件系统挂载点设备文件2.挂载的命令挂载文件系统示例卸载文件系统示例3.挂载的常用选项示例4.自动挂载（/etc/fstab文件）示例使用UUID挂载5.挂载网络文件系统（NFS）挂载NFS示例6.挂载ISO文件挂载ISO文件示例7.查看已挂载的文件系统8.挂载的注意事项9.挂载的常见问题挂载失败卸载失败10.总结前言在Linux系统中，文件挂载是指将一个文件系统（如
上位机知识篇---常见的文件系统
文件系统是操作系统用于管理和组织存储设备上文件的机制，它决定了文件的存储方式、命名规则、访问权限、数据结构等。以下是常见的文件系统及其应用场景、优势和劣势的详细介绍：一、Windows常用文件系统1.FAT32（FileAllocationTable32）基本特点：采用32位文件分配表，是FAT系列的升级版，支持最大单文件4GB，最大分区容量理论上为8TB（实际常用2TB以内）。应用场景：U盘、存
计算机科学与技术柳依依@ 学习前端 c4前端后端
计算机科学是一个庞大且关联性强的学科体系，初学者常面临以下痛点：-**知识点零散**：容易陷入"只见树木不见森林"的学习困境-**方向不明确**：面对海量技术栈不知从何入手-**体系缺失**：难以建立完整的知识网络1.计算机基础-计算机组成原理-冯·诺依曼体系-CPU/内存/IO设备-操作系统-进程与线程-内存管理-文件系统-计算机网络-TCP/IP模型-HTTP/HTTPS-网络安全2.编程能力
linux/ubuntu启动引导过程详细分析奇妙之二进制 #linux ubuntu postgresql
文章目录**一、固件初始化阶段（BIOS/UEFI）****1.BIOS（基本输入输出系统）模式****2.UEFI（统一可扩展固件接口）模式****二、引导加载程序阶段（GRUB2）****1.GRUB2的加载过程****2.GRUB配置解析****3.内核参数传递****三、内核加载与初始化****1.内核解压缩与启动****2.initramfs（初始内存文件系统）加载****3.根文件系统
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
沙箱机制（Sandbox Mechanism） IT 青年 0o 网安
前言沙箱机制（SandboxMechanism）是一种安全隔离技术，通过创建一个受限制的执行环境，将潜在不安全的程序、代码或数据与系统核心部分隔离，防止其对系统或用户数据造成破坏。一、核心原理资源限制：分配独立的内存空间、文件系统、网络接口等资源。限制CPU、内存、磁盘I/O等资源的使用量，防止恶意程序占用过多资源。权限控制：剥夺沙箱内程序的敏感权限（如访问系统文件、注册表、摄像头等）。通过访问控
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
Oracle EMCC 13.5 集群安装部署指南 Lucifer三思而后行 DBA 实战系列 oracle 数据库
大家好，这里是DBA学习之路，专注于提升数据库运维效率。目录前言第一阶段：OMR集群部署1.1OracleRAC环境准备1.2数据库版本验证1.3EMCC专用数据库优化第二阶段：ACFS集群文件系统构建2.1存储层配置配置multipath多路径配置UDEV设备绑定2.2ACFS文件系统创建使用ASMCA创建磁盘组创建ACFSVolume挂载点准备和文件系统创建第三阶段：OMS集群部署3.1环境准
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
【读书笔记】「等到 Linux 6.17 就分手」：Bcachefs 背后的技术与流程之争 CodeWithMe 读书笔记 linux linux 服务器运维
「等到Linux6.17就分手」：Bcachefs背后的技术与流程之争“我真的不太愿意继续参与。而我们唯一真正达成一致的，大概就是——‘我们已经结束了’。”——LinusTorvalds最近，Linux内核社区再次爆发激烈争论，主角是近年备受关注的新一代文件系统——Bcachefs，以及它的作者KentOverstreet与内核“守门人”LinusTorvalds之间的冲突。这场争议的焦点，并不在
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

HDFS文件系统（一）

一.HDFS概念

1.1概念

1.2 组成

1.3 HDFS 文件块大小

二 .HFDS命令行操作

三. HDFS客户端操作

3.1 eclipse环境准备

3.1.1 jar包准备

3.1.2 eclipse准备

3.2 通过API操作HDFS

3.2.1 HDFS获取文件系统

3.2.2 HDFS文件上传

3.2.3 HDFS文件下载

3.2.4 HDFS目录创建

3.2.5 HDFS文件夹删除

3.2.6 HDFS文件名更改

3.2.7 HDFS文件详情查看

3.2.8 HDFS文件夹查看

3.3 通过IO流操作HDFS

3.3.1 HDFS文件上传

3.3.2 HDFS文件下载

3.3.3 定位文件读取

四. HDFS的数据流

4.1 HDFS写数据流程

4.1.1 剖析文件写入

4.2 HDFS读数据流程

4.3 一致性模型

你可能感兴趣的:(大数据,hdfs,文件系统)