橘子-青衫

从零开始了解大数据(三)：HDFS分布式文件系统篇

前言

一、HDFS分布式文件系统基础

1.数据与元数据

2.分布式存储系统的核心属性

3.HDFS的设计目标

4.HDFS的重要特性

二、HDFS Shell操作

1.HDFS Shell命令行简介

2.HDFS Shell常用操作

(1) 创建文件夹

(2) 查看目录内容

(3) 上传文件

(4) 查看文件内容

(5) 下载文件

(6) 复制文件

(7) 追加数据到文件

(8) 移动或重命名文件

三、HDFS工作流程与机制

1.HDFS集群角色与职责

(1) NameNode：集群的核心与元数据管理者

(2) DataNode：数据的实际存储者

(3) SecondaryNameNode：辅助NameNode进行元数据合并

2.HDFS写数据流程（上传文件）

(1) 写数据完整流程图

(2) Pipeline管道

(3) ACK应答响应

(4) 默认3副本存储策略

(5) 完整流程

3.HDFS读数据流程（下载文件）

(1) 读数据完整流程图

(2) 完整流程

总结

前言

Hadoop分布式文件系统（HDFS）是大数据领域的关键组件，负责大规模数据的可靠存储与管理。通过探索HDFS的基础知识、工作机制及其内在原理，将增进对这一技术的理解，并为实际应用提供有力支持。

一、HDFS分布式文件系统基础

1.数据与元数据

在HDFS分布式文件系统中，首先需要明确两个核心概念：数据和元数据。

数据：这是指实际存储的内容，如文本文件、视频、图片等。这些数据是用户实际关心和操作的对象。
元数据：又称为解释性数据，它是描述其他数据的数据。在文件系统的上下文中，元数据通常包括文件大小、最后修改时间、底层存储位置、属性和所属用户的权限等信息。这些元数据对于文件系统的正常运行至关重要，因为它们提供了文件和文件系统的结构和属性的详细描述。

2.分布式存储系统的核心属性

HDFS作为一个分布式存储系统，具有以下核心属性：

分布式存储：数据和元数据在多个节点上进行存储，提高了数据的可靠性和可访问性。
元数据记录：每个文件和其相关的元数据都在系统中进行记录，以便于管理和检索。
分块存储：大文件被分割成多个较小的数据块进行存储，这有助于优化存储空间和提高数据访问效率。
副本机制：为了增加数据的可靠性和容错性，HDFS会对每个数据块创建多个副本并存储在集群的不同节点上。

3.HDFS的设计目标

HDFS在设计时考虑了以下目标：

大部分HDFS应用遵循“write-one-read-many”访问模型，意味着一个文件在创建、写入和关闭后通常不需要进行修改。这有助于简化系统设计并提高读取效率。
移动计算的代价比移动数据的代价低，因此HDFS被设计为在计算节点附近存储数据，以减少网络拥堵和数据传输延迟。
HDFS设计为可轻松从一个平台移植到另一个平台，这有助于在不同的硬件和软件环境中部署和使用HDFS。

4.HDFS的重要特性

HDFS通过主从架构、分块存储、副本机制、元数据管理和命名空间等特性，确保了分布式文件系统的可扩展性、可靠性、容错性和高效性。这些特性使得HDFS成为处理大规模数据集的理想选择。

主从架构：HDFS集群采用标准的master/slave主从架构。通常，一个HDFS集群包括一个Namenode（主节点）和多个Datanode（从节点）。Namenode负责管理文件系统的元数据和客户端的访问请求，而Datanode负责实际的数据存储和检索。这种架构确保了系统的可扩展性和可靠性。
分块存储：在HDFS中，文件在物理上是以数据块（block）的形式进行存储的。默认的数据块大小为128MB，但如果文件小于128MB，则该文件本身作为一个数据块。数据块的大小可以通过配置参数进行调整，以满足不同的存储需求。
副本机制：为了提高数据的可靠性和容错性，HDFS采用了副本机制。这意味着每个数据块都会在集群中的不同节点上创建多个副本。副本系数可以在文件创建时指定，也可以通过后续命令进行修改。默认的副本数为3，包括原始数据块和另外两个副本。
元数据管理：在HDFS中，Namenode负责管理两种类型的元数据：文件自身的属性信息（如文件名、权限、修改时间等）和数据块与Datanode之间的映射信息。这种映射信息记录了哪个数据块存储在哪个节点上，从而确保客户端可以通过合适的节点访问所需的数据块。
命名空间（Namespace）：HDFS支持传统的层次型文件组织结构，允许用户创建目录并将文件保存在这些目录中。Namenode负责维护文件系统的命名空间，记录所有对文件和目录的创建、删除、移动和重命名操作。客户端通过路径来访问文件，这些路径由Namenode提供的统一抽象目录树来管理。

二、HDFS Shell操作

1.HDFS Shell命令行简介

命令行界面（Command-Line Interface，简称CLI）是用户与计算机进行交互的一种方式，用户通过键盘输入指令，计算机接收并执行这些指令。Hadoop提供了一个文件系统的shell命令客户端，用于与HDFS进行交互。

其基本语法为：

hadoop fs [generic options]

文件系统协议：

HDFS Shell CLI支持操作多种文件系统，如本地文件系统(file:///)和分布式文件系统(hdfs://nn:8020)等。执行何种文件系统的操作取决于命令中文件路径URL的前缀协议。如果没有指定前缀协议，则会读取环境变量中的fs.defaultFS属性，并使用该属性值作为默认文件系统。

2.HDFS Shell常用操作

(1) 创建文件夹

语法如下：

hadoop fs -mkdir [-p]  …

	`path ：要创建的目录。`
	`-p ：如果路径中的父目录不存在，则一并创建。`

示例：

hadoop fs -mkdir /user/example/dir1

(2) 查看目录内容

语法如下：

hadoop fs -ls [-h] [-R] [ …]

	`path ：要查看的目录。`
	`-h ：以易读的方式显示文件大小。`
	`-R ：递归列出目录及其子目录的内容。`

示例：

hadoop fs -ls -h /user/example

(3) 上传文件

语法如下：

hadoop fs -put [-f] [-p]  …

	`-f ：如果目标文件已存在，则覆盖它。`
	`-p ：保留文件的访问时间、修改时间、所有权和权限。`
	`localsrc ：本地文件系统上的源文件。`
	`dst ：目标文件系统上的目标路径。`

示例：

hadoop fs -put localfile.txt /user/example/

(4) 查看文件内容

语法如下：

hadoop fs -cat  …

使用此命令可以查看HDFS中文件的内容。由于内容将被直接输出到控制台，对于大文件，可能会导致显示不全或卡顿。

示例：

hadoop fs -cat /user/example/file.txt

(5) 下载文件

语法如下：

hadoop fs -get [-f] [-p]  …

此命令用于将HDFS中的文件下载到本地文件系统。其中，localdst必须是一个目录。

示例：

hadoop fs -get /user/example/file.txt /local/directory/

(6) 复制文件

语法如下：

hadoop fs -cp [-f]  …

在HDFS中复制文件或目录。如果目标文件已存在，可以使用-f选项覆盖它。

示例：

hadoop fs -cp /user/example/file.txt /user/example/copyfile.txt

(7) 追加数据到文件

语法如下：

hadoop fs -appendToFile  …

此命令允许将本地文件的内容追加到HDFS中的现有文件。如果目标文件不存在，将会创建它。

示例：

hadoop fs -appendToFile localdata.txt /user/example/file.txt

(8) 移动或重命名文件

语法如下：

hadoop fs -mv  …

可以使用此命令在HDFS中移动文件或将文件重命名为新名称。

示例：

hadoop fs -mv /user/example/oldname.txt /user/example/newname.txt

三、HDFS工作流程与机制

1.HDFS集群角色与职责

在HDFS集群中，主要有三个角色：NameNode、DataNode和SecondaryNameNode。它们各自承担着不同的职责。

(1) NameNode：集群的核心与元数据管理者

NameNode是HDFS的核心组件，负责管理文件系统的元数据，包括目录树结构、文件和块的位置信息以及访问权限等。它是访问HDFS的唯一入口。
NameNode通过内存和磁盘文件两种方式管理元数据，其中磁盘上的元数据文件包括FsImage（内存元数据镜像文件）和Edits Log（编辑日志）。
NameNode不存储实际数据，而是存储文件的目录树和跟踪整个集群中的文件。它知道HDFS中任何给定文件的块列表及其位置，并使用此信息来构建文件。
NameNode是Hadoop集群中的单点故障，因此通常会配置有大量内存（RAM）以支持其操作。

(2) DataNode：数据的实际存储者

DataNode负责实际数据块的存储，是HDFS集群中的从角色，也称为Slave。它们根据NameNode的指示存储和检索数据块。
当DataNode启动时，它会向NameNode注册并报告其持有的块列表。如果某个DataNode关闭，不会影响数据的可用性，因为NameNode会安排其他DataNode管理的块进行副本复制。
DataNode所在机器通常配置有大量的硬盘空间，因为实际数据存储在这些节点中。

(3) SecondaryNameNode：辅助NameNode进行元数据合并

SecondaryNameNode充当NameNode的辅助节点，但不能替代NameNode。它的主要职责是帮助NameNode进行元数据文件的合并操作，以减轻NameNode的负担并减少其启动恢复时间。
SecondaryNameNode定期从NameNode获取FsImage和Edits Log的合并版本，并将其存储在本地磁盘上。在紧急情况下，这可以用于恢复NameNode的状态。

2.HDFS写数据流程（上传文件）

(1) 写数据完整流程图

(2) Pipeline管道

Pipeline管道是Hadoop Distributed File System (HDFS)在上传文件和数据写入时所采用的一种数据传输策略。它的工作原理有些类似于传统的流水线生产模式：一旦数据开始流动，它就会持续不断地向前传输，直至达到目的地。

当客户端决定写入一个数据块时，它首先将数据发送到HDFS集群中的第一个数据节点。这个节点在成功存储数据块之后，会负责将数据复制到集群中的第二个数据节点。同样地，第二个数据节点在存储数据后，会将其复制到第三个数据节点。这个过程会一直持续下去，直到数据块被复制到所需的所有节点为止。

这种管道式的传输方式确保了数据能够高效、有序地从一个节点流向另一个节点，从而充分利用了每个机器的带宽。这样的设计也有助于避免网络瓶颈和高延迟连接的问题，从而最大限度地减少了推送所有数据所需的总延时。

此外，这种管道传输模式采用的是线性推送策略，这意味着每台机器都会用其所有的出口带宽来以最快的速度传输数据，而不是在多个接收者之间分配带宽。

(3) ACK应答响应

ACK (Acknowledge character）是在数据通信中常用的一个术语，它表示接收方已经成功接收到发送方发送的数据，并且数据是完整无误的。在HDFS中，ACK的作用尤为关键，因为它确保了数据的完整性和准确性。

当数据通过Pipeline管道在HDFS集群中的各个节点之间传输时，接收数据的节点会向发送数据的节点发送一个ACK信号。这个ACK信号实际上是一个校验机制，它告诉发送方：“我已经成功接收到你发送的数据，并且数据是完整的。”如果发送方没有收到ACK信号或者收到的ACK信号表示数据有误，它会重新发送数据，直到数据被成功接收为止。

(4) 默认3副本存储策略

HDFS采用了默认的三副本存储策略来确保数据的可靠性和持久性。这种策略是由BlockPlacementPolicyDefault来指定的。

第一块副本：HDFS会优先考虑将数据的第一个副本存储在客户端所在的本地机器上。如果客户端所在机器没有足够的存储空间或者出于其他原因不能存储数据，HDFS则会随机选择集群中的其他机器来存储数据。
第二块副本：为了确保数据的可靠性，第二个副本会被存储在与第一个副本不同的机架上。这样做的好处是，即使某个机架发生故障，数据仍然可以从其他机架上的副本中恢复。
第三块副本：第三个副本会被存储在与第二个副本相同的机架上，但是会在不同的机器上。这样做的目的是为了进一步提高数据的可靠性和容错能力。

(5) 完整流程

HDFS客户端创建对象实例DistributedFileSystem，该对象中封装了与HDFS文件系统操作的相关方法。
调用DistributedFileSystem对象的create()方法，通过RPC请求NameNode创建文件。 NameNode执行各种检查判断：目标文件是否存在、父目录是否存在、客户端是否具有创建该文件的权限。检查通过，NameNode就会为本次请求记下一条记录，返回FSDataOutputStream输出流对象给客户端用于写数据。
客户端通过FSDataOutputStream输出流开始写入数据。
客户端写入数据时，将数据分成一个个数据包（packet 默认64k）, 内部组件DataStreamer请求NameNode挑选出适合存储数据副本的一组DataNode地址，默认是3副本存储。DataStreamer将数据包流式传输到pipeline的第一个DataNode，该DataNode存储数据包并将它发送到pipeline的第二个DataNode。同样，第二个DataNode存储数据包并且发送给第三个（也是最后一个）DataNode。
传输的反方向上，会通过ACK机制校验数据包传输是否成功。
客户端完成数据写入后，在FSDataOutputStream输出流上调用close()方法关闭。
DistributedFileSystem联系NameNode告知其文件写入完成，等待NameNode确认。因为namenode已经知道文件由哪些块组成（DataStream请求分配数据块），因此仅需等待最小复制块即可成功返回。最小复制是由参数dfs.namenode.replication.min指定，默认是1。

3.HDFS读数据流程（下载文件）

(1) 读数据完整流程图

(2) 完整流程

HDFS客户端创建对象实例DistributedFileSystem，调用该对象的open()方法来打开希望读取的文件。
DistributedFileSystem使用RPC调用namenode来确定文件中前几个块的块位置（分批次读取）信息。对于每个块，namenode返回具有该块所有副本的datanode位置地址列表，并且该地址列表是排序好的，与客户端的网络拓扑距离近的排序靠前。
DistributedFileSystem将FSDataInputStream输入流返回到客户端以供其读取数据。
客户端在FSDataInputStream输入流上调用read()方法。然后，已存储DataNode地址的InputStream连接到文件中第一个块的最近的DataNode。数据从DataNode流回客户端，结果客户端可以在流上重复调用read（）。
当该块结束时，FSDataInputStream将关闭与DataNode的连接，然后寻找下一个block块的最佳datanode位置。这些操作对用户来说是透明的。所以用户感觉起来它一直在读取一个连续的流。
一旦客户端完成读取，就对FSDataInputStream调用close()方法。

总结

本文介绍了HDFS的基础知识、工作流程以及其内在机制，希望对大家有所帮助。

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
2023-04-17|篮球女孩长一木
1小学抑或初中阶段，在课外书了解到她的故事。“篮球女孩”。当时佩服她的顽强，也对生命多了一丝敬畏。今天刚好在公众号看到，长大后的“篮球女孩”。佩服之余又满是心疼。网络侵删祝那素未蒙面的女孩，未来一切顺遂。
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
厉国刚：新闻学与传播学到底有何区别微观大道
厉国刚：新闻学与传播学到底有何区别头几天，有人在知乎上问我：新闻学与传播学到底有何区别。他是一位想要跨专业考研的学生，对新闻传播学学科可谓了解甚少，甚至一头雾水，想要让我帮他解释解释。在研究生学硕层面，新闻传播学是一级学科，分成新闻学、传播学这两个二级学科。有些高校，还自设了广告学、出版发行学等其他二级学科，但从官方角度，新闻传播学一级学科下，正统的就是那两个二级学科。招生时，一般会按一级学科招，
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
ios GCD _Waiting_
1.GCD任务和队列学习GCD之前，先来了解GCD中两个核心概念：任务和队列。任务：就是执行操作的意思，换句话说就是你在线程中执行的那段代码。在GCD中是放在block中的。执行任务有两种方式：同步执行（sync）和异步执行（async）。两者的主要区别是：是否等待队列的任务执行结束，以及是否具备开启新线程的能力。同步执行（sync）：同步添加任务到指定的队列中，在添加的任务执行结束之前，会一直等
希望和悲伤都是照亮我们人生的一缕光山月映雪
我开始并不想读《云边有个小卖部》，但看到好几个学生就都在读这本书，为了了解学生的阅读实际，我就拿起这本书翻看起来。读了十几页，发现小说的语言中不时有一些粗俗的字眼，感觉自己读不下去了。小说一开始把云边镇风景写的特别的美好，我错判为脱离现实的鸳鸯蝴蝶派小说，对于人为制造的童话世界的人与物，我真的不太感兴趣，所以就没有再读了。有天在教室闲转，顺手又拿起了这本书看了起来，这次我才真的看进去了。这部小说除
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
11月，你好自由自在的白云
图片发自App今天是11月的第一天阳光明媚，秋日静好。给大家分享一个情绪管理的方法。也许你学习过，也许你还不曾了解，都没有关系，现在，我们一起来温习一下。就像孔老先生说的：学而时习之，温故而知新。种下对的种子，才会结出好的果实。种下情绪良好的种子，就可以收获良好的心态。“你瞧这些白云聚了又散，散了又聚，人生离合，亦复如斯。”世事如此，情绪的变化如山型曲线，一会来了，一会去了。还有那天课堂中老师讲，
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
过了放弃的半生，很想偿偿坚持后的结果乐安河
这一阵子又迷茫了，找不到生活的目标，失去了坚持的意义，放弃太简单了，不想了，不看了，不写了，不做了，就行了。放弃的剎那，仿佛全身获得了解救，不再跟自己较劲，真轻松，真爽。短暂的惬意过后，是被抛弃的痛苦，是本该可以的不甘，是悔不当初的懊恼。我的前半生就是一次次的放弃过后的自我放逐。不愿努力，只好说平凡可贵，我们都是普通人，为什么非要整出仙人。不愿意轰轰烈烈，只想要现世安稳。只是，到最后发现，安稳变得
开启你的思维成长之路希思维
图片发自App很多时候我们都羡慕别人家的孩子思维敏捷，记忆超强，脑回路清晰等，认为那些都是天生的能力，而自己要达到那样的境界几乎不可能，殊不知每个人都有一个强大的小宇宙，就看你是否找到了开启你思维小宇宙的方法。我们每个人的大脑都具有无限潜能，大部分人只开发出10-20%，还有很多潜力深埋于冰山底，而如何找到自己思维的动力呢?首先就是要了解我们神奇的大脑，从大脑神经元素，到神经回路的形成，知晓大脑思
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
快点三国哪个平台有返利？快点三国哪个平台充值折扣最高？诸葛村夫123
标题：快点三国哪个平台有返利？快点三国哪个平台充值折扣最高？今天我告诉大家一个可以申请内部号的平台，直接比返利号牛逼10倍不止，最近几年出现了特别多的手游平台。每个平台的福利的各不相同，但是本质是一样的，就给点礼包，首充什么的。感觉毫无卵用。就在上个月，经一个做游戏行业的朋友介绍，了解到了一个平台“游人特权站”，特别NB。这个平台给的是内部号，什么是内部号？说白了就是托号。进服就会给300-500
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 fred@myhost.com # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

从零开始了解大数据(三)：HDFS分布式文件系统篇

前言

一、HDFS分布式文件系统基础

1.数据与元数据

2.分布式存储系统的核心属性

3.HDFS的设计目标

4.HDFS的重要特性

二、HDFS Shell操作

1.HDFS Shell命令行简介

2.HDFS Shell常用操作

(1) 创建文件夹

(2) 查看目录内容

(3) 上传文件

(4) 查看文件内容

(5) 下载文件

(6) 复制文件

(7) 追加数据到文件

(8) 移动或重命名文件

三、HDFS工作流程与机制

1.HDFS集群角色与职责

(1) NameNode：集群的核心与元数据管理者

(2) DataNode：数据的实际存储者

(3) SecondaryNameNode：辅助NameNode进行元数据合并

2.HDFS写数据流程（上传文件）

(1) 写数据完整流程图

(2) Pipeline管道

(3) ACK应答响应

(4) 默认3副本存储策略

(5) 完整流程

3.HDFS读数据流程（下载文件）

(1) 读数据完整流程图

(2) 完整流程

总结

你可能感兴趣的:(大数据,从零开始了解大数据,大数据,数据分析,数据挖掘,hadoop)