ChenJieYaYa

HDFS总结

基于前面的学习与配置，相信对于HDFS有了一定的了解

HDFS概述

1.什么是HDFS

Hadoop Distributed File System：分步式文件系统
HDFS是Hadoop体系中数据存储管理的基础
HDFS是基于流数据模式访问和处理超大文件的需求而开发的

1.流式数据：将数据序列化为字节流来存储，这样不会破坏文件的结构和内容，而且字节流直接存储在磁盘上，可以分片或分块
2.当超大规模的文件本身就已经超越了单台服务器的存储规模，需要多台服务器同时存储，
	此时需要将数据序列化成字节数据，按照字节的顺序进行切分，然后分布式地(均匀的)存储在各个服务器上
3.若要将一个大的文件进行切分，该文件必须支持序列化，
	若要存储在文件系统中，该文件系统必须是流式数据访问模式

HDFS将大规模的数据以分布式的方式均匀存储在集群中的各个服务器上，然后分布式并行计算框架MR利用各个数据节点DN的本地计算资源在本地服务器上对大规模数据集的一个子集数据进行计算
HDFS具有高容错、高可靠性、高可扩展性、高吞吐率等特征, 适合一次写入多次读取的场景

2.HDFS的优势

流式数据访问模式

1.HDFS中存储的数据主要用于找规律，建模等，而不是用于存储订单数据等需要经常修改的数据
	HDFS中存储的数据一次写入，多次读取(离线，统计分析)，并且写入后不允许修改
		->为什么不允许修改?
			HDFS存储的数据通常都是超大规模的，而且这些数据都有副本，一旦发生修改其副本数也需要修改，
			而且对大规模数据进行修改需要加锁，HDFS集群中允许多用户访问，一旦加锁，其性能大大降低
	所以Hadoop适用于处理离线数据**，不适合处理实时数据
2.HDFS的数据处理规模比较大，应用一次需要大量的数据，同时这些应用一般都是批量处理，而不是用户交互式处理。
	应用程序能以流的形式访问数据库，主要的是数据的吞吐量**，而不是访问速度。
3.应用场景：电商系统中的下订，用户注册，用户浏览等数据存到HDFS中，就可以进行用户画像，用户分群，用户购买行为习惯的分析。
	这就要对这些数据进行多维度的分析和汇总，所以多次读取就是必须的。

处理非结构化数据，其他数据Hadoop都支持

结构化：关系型，sql关系表
半结构化：按一定的格式存储，word, ppt
非结构化：视频，音频， 图片

处理超大文件，PB级别
运行于廉价的商用集群

HDFS认为系统发生故障是常态，能检测和应对故障，自动故障迁移与自动故障恢复，
所以可以应用在低成本的机器上，保证高高容错性

发生故障时能继续运行而不被用户察觉

1.原来HDFS集群中只有一个NameNode，当该NN故障导致整个集群不可用，
	高可用(HA)则消除Hadoop 1中存在的单点故障，提供故障转移功能，当ActiveNN故障时，StandbyNN将接管工作
2.各个DataNode都会存储数据，且HDFS分布集群通过数据冗余的方式，将同一份数据的多个副本存储在多个节点上，
	避免了某个DN宕机导致数据丢失的情况

3.HDFS的局限

不适合处理低延迟数据访问

1.低延迟数据访问：访问数据的时间尽可能短
2.与关系型数据库不同，DB有存储极限，而HDFS处理的数据都是PB级别，当存储的数据超过DB存储极限时，就不能再对数据进行简单的CRUD操作，而是对海量的数据进行分析，挖掘其商业价值
	而且HDFS保证高吞吐量，这必定会牺牲低延迟性
	所以对于低延迟的数据访问Hadoop不适合，HBase更适合
	->HBase:分步式基于列的非关系性数据库

无法高效存储大量小型文件

1.小文件可以存成一个块，块大小固定且存于NN中，NN存于内存中，内存大小受限导致HDFS所能存储的文件有限，同时大量内存占用降低NN性能
	当然可以将小文件通过SequenceFile, MapFile方式归档，压缩成大文件再存到块中
2.小文件和大文件的元数据信息上的差别很小
3.配置归档文件：hadoop archive -archiveName input.har[归档文件的文件名] -p /input[需要归档的目录] /output[归档文件输出目录]
  查看归档文件：hadoop fs -ls har:///output/input.har
  解归档文件：hadoop fs -cp har:///output/input.har/*  /wcinput

不支持多用户写入及修改同一个文件

1.HDFS中只能进行追加操作，不支持多用户对同一文件的写操作及在文件任意位置进行修改
	多用户对同一个文件的操作，尤其是超大文件，涉及线程安全，即需要加锁，造成性能上的损失
2.HDFS的数据冗余设计，当对文件任意一个位置进行修改，那么备份的数据也要一起修改，如此HDFS的开销会很大
	从业务角度来说，一个PB级别的文件如果只修改了几行数据，对最后分析的结果影响很小

4.HDFS的特性

可扩展性及可配置性：集群在不重启的情况下，能够自动识别配置进来的新服务器
跨平台性
Shell命令行：既有Shell接口(与linux命令形式相似) ,也提供Java编程接口
WEB界面：内置两个Web系统(HDFS, MapReduce)

HDFS设计核心

1.数据块

文件系统都有自己的数据设计

1.文件系统：存储设备上组织文件的方法
2.分步式文件系统：允许文件透过网络在多台主机上分享的文件系统

数据块大小可配置64M->128M

1.修改hdfs-site.xml配置文件
	<property>
		<name>dfs.block.size</name>
		<value>134217728</value>   
	</property>
2.通过API指定，原来块不受影响，只改变新块
	conf.set("dfs.block.size", args[0]);
3.查看某文件块大小：hadoop fs -stat "%o" /j2ee.txt
-------------------------------------------------
4.HDFS中找到目标文件块所需要的时间与文件块大小有关，块不能设置太大也不能太小
	文件块越大，寻址时间越短，但磁盘传输时间越长，导致程序处理该块时变得非常慢，
		MR中的Map每次只对一个块操作，如果块过大运行速度也会很慢；
	文件块越小，寻址时间越长，但磁盘传输时间越短，
		大量小文件会占用NN空间内存，不可取
5.HDFS中块大小为什么设置为128M?
	HDFS中平均寻址时间大概为10ms，经过前人的大量测试发现，寻址时间为传输时间的1%时为最佳状态，所以最佳传输时间为10ms/0.01=1000ms=1s
    目前磁盘的传输速率普遍为100MB/s，计算出最佳块大小为100MB/s*1s=100MB，所以设定块大小为128MB
	在工业生产中磁盘传输速率为200MB/s时，一般设定块大小为256MB
	磁盘传输速率为400MB/s时，一般设定block大小为512MB

小文件不会占据整个数据块的空间
通过命令可查文件所占块数及相关数据信息

hdfs fsck /j2ee.txt[需要检查的文件] -files[文件] -locations[显示文件位置] -includeSnapshots -blocks[块] -racks -storagepolicies

数据块设计的优点

1.文件大小可以大于集群中任意磁盘大小，因为最终大文件会被切分存储于不同DN
2.文件被切分后，只需要考虑文件被切分后固定128M大小的数据块如何存储，简化存储子系统，使存储更加方便
	下载文件时可以提前划分好空间，然后通过多线程的方式下载，这样做更快且防止了下载90%时文件超过磁盘空间导致整个下载失败
3.数据块非常适合用于数据的备份，从而提高数据的容错能力；当数据丢失时，可以以块为单位找回，而不涉及文件整体；当要使用一个文件时，只需要将这个文件对应的块进行临时的拼接即可

2.机架感知

数据块副本存放的实现过程称为机架感知，默认是关闭的
如果集群中的机器都跑在一个机架上，那么集群下的节点默认都在/default-rack下，可以启动hadoop集群的时候查看logs/namenode.log
查看机架感知：hdfs dfsadmin -printTopology
机架感知配置(此处只是感受机架感知，未来公司会不同)

1.进入目录 cd /usr/local/hadoop-2.7.1/etc/hadoop
2.创建文件 mkdir rackaware
3.进入目录 cd rackaware
4.编写配置文件 vim topology.data
	192.168.10.100 node1 /dc1/rack1
	192.168.10.101 node2 /dc1/rack2
	192.168.10.102 node3 /dc1/rack2
	192.168.10.103 node4 /dc1/rack3
5.编写脚本 vim rackaware.sh (将脚本中的中文删除)
	#!/bin/bash  //魔术字
	HADOOP_CONF=/usr/local/hadoop-2.7.1/etc/hadoop/rackaware  //机架感知的位置
	while [ $# -gt 0 ] ; do  //循环 $#取位置参数个数 -gt表示大于 -->位置参数大于0则进入循环
	  nodeArg=$1  //取第一个位置参数
	  exec<${HADOOP_CONF}/topology.data  //<表示重定向 -->将topology.data的内容读出来放在流中
	  result=""
	  while read line ; do  //每次读取一行存到变量line中
	    ar=( $line )  //取参
	    if [ "${ar[0]}" = "$nodeArg" ]||[ "${ar[1]}" = "$nodeArg" ]; then  //读到的第一个参=位置参 || 读到的第二个参=位置参
	      result="${ar[2]}"  //取出机架位置保存到结果中
	    fi
	  done
	  shift  //位置参数向前移动一次
	  if [ -z "$result" ] ; then  //-z表示是否存在 双引表示将$运算起来，取变量
	    echo -n "/default-rack"  //输出
	  else
	    echo -n "$result"
	  fi
	done
6.修改脚本权限 chmod a+x rackaware.sh
	a表示所有用户，g表示组用户，o表示其它用户，x表示执行权限
7.测试 sh rackaware.sh 192.168.10.100 node2
8.启用机架感知 vim core-site.xml
	<property>
		<name>net.topology.script.file.name</name>
		<value>/usr/local/hadoop-2.7.1/etc/hadoop/rackaware/rackaware.sh</value>
	</property>
9.将rackaware.sh与core-site.xml发送到node2,3,4节点
	 scp -r ./rackaware root@node2:`pwd`
	 scp -r core-site.xml root@node2:`pwd`
10.重启hdfs 
	stop-all.sh
	start-dfs.sh
11.查看机架感知 hdfs dfsadmin -printTopology

3.数据块副本存放策略

存放策略的好坏涉及系统的健壮性，若副本都堆积统一节点，该节点崩溃系统还是不可用

第一个副本放在上传文件的DN，若是集群外提交则随机挑选一台磁盘不太满的，CPU不太忙的节点
第二个副本放在不同于第一个副本的机架节点
第三个副本放在与第二个副本相同机架节点
更多副本则随机节点

4.数据块的备份数配置

配置副本数：vim hdfs-site.xml

<property>
	<name>dfs.replication</name>
	<value>3</value>
</property>

通过命令更改已上传的文件副本数：hadoop fs -setrep -R 3 /
上传文件的同时指定创建的副本数：hdfs dfs -Ddfs.replication=1 -put core-site.xml /
查看当前hdfs的副本数：hdfs fsck -locations

5.安全模式

安全模式指在不加载第三方设备驱动情况下启动机器，便于检测与修复，即在安全模式下对于客户端是只读的
常应用于启动或者重新启动hdfs时，收集DN信息或HDFS维护升级
操作命令

1.退出安全模式：hdfs dfsadmin -safemode leave
2.进入安全模式：hdfs dfsadmin -safemode enter
3.查看安全模式状态：hdfs dfsadmin -safemode get
4.等到安全模式结束：hdfs dfsadmin -safemode wait

对hdfs文件系统进行检查：hdfs fsck /

-move: 移动损坏的文件到/lost+found目录下
-delete: 删除损坏的文件
-files: 输出正在被检测的文件
-openforwrite: 输出检测中的正在被写的文件
-includeSnapshots: 检测的文件包括系统snapShot快照目录下的
-list-corruptfileblocks: 输出损坏的块及其所属的文件
-blocks: 输出block的详细报告
-locations: 输出block的位置信息
-racks: 输出block的网络拓扑结构信息
-storagepolicies: 输出block的存储策略信息
-blockId: 输出指定blockId所属块的状况,位置等信息

源码分析:https://blog.csdn.net/Androidlushangderen/article/details/50996821?utm_source=blogxgwz9

6.负载均衡

HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况，且集群的性能由集群的最慢节点决定。当数据不平衡时，Map任务可能会分配到没有存储数据的机器，这将导致网络带宽的消耗，也无法很好的进行本地计算
当HDFS负载不均衡时，需要对各节点机器上数据的存储分布进行调整，从而让数据均匀的分布在各个DataNode上，均衡IO性能，防止热点的发生
进行数据的负载均衡调整，必须要满足如下原则

数据平衡不能导致数据块减少，数据块备份丢失
管理员可以中止数据平衡进程
每次移动的数据量以及占用的网络资源，必须是可控的
数据均衡过程，不能影响namenode的正常工作

负载均衡的核心是数据均衡算法，该数据均衡算法将不断迭代数据均衡逻辑，直至集群内数据均衡为止，该数据均衡算法每次迭代的逻辑如下
DN在何时才需要负载均衡？将DataNode分组

Over组超过阈值，Above组超过平均值，Below组低于平均值，Under组低于阈值
Over组、Above组中的块向Below组、Under组移动

负载均衡操作命令

1.设置阈值：start-balancer.sh –threshold [参数]
	参数表示阈值，默认设置10，范围0-100，理论上该参数设置的越小，整个集群就越平衡
2.配置带宽命令：dfs.balance.bandwidthPerSec
	默认1048576(1M/S)
3.配置带宽全局：vim hdfs-site.xml
	<property>
		<name>dfs.balance.bandwidthPerSec</name>
		<value>1048576</value>
	</property>
4.关闭负载均衡：stop-balancer.sh
5.设置定时任务实现定时负载均衡：00 22 * * 5 hdfs balancer -Threshold 5 >>/home/logs/balancer_`date +"\%Y\%m\%d"`.log 2>&1

HDFS集群中不怕数据大，就怕数据倾斜

7.心跳机制

主节点和从节点之间的通信是通过心跳机制(RPC函数)实现
心跳机制

1.master启动时开启RPC server
2.slave启动时连接master并每隔3秒钟主动向master发送心跳，将自己的状态信息告诉master，然后master通过这个心跳的返回值向slave节点传达指令

HDFS中的心跳机制

DataNode每隔3s向NameNode发送心跳，发送的内容主要是本地磁盘上块的使用情况，1h做一次整体块汇报
当长时间没有发送心跳时，NameNode就判断DataNode的连接已经中断，把该DN定性为dead node，NameNode会检查dead node中的副本数据，并复制到其他的data node中

YARN中的心跳机制

NodeManager每隔3s向ResourceManager发送心跳，发送的内容主要是本节点COU，内存等
ApplicationMaster向ResourceManager申请资源，返还资源

MapReduce的心跳机制

TaskTracker向JobTracker汇报节点和任务运行状态信息
	为Tasktracker分配任务，判断Tasktracker是否活着，及时让Jobtracker获取各个节点上的资源使用情况和任务运行状态

8.数据块损坏处理

DN有自检功能，当数据块创建3周后自动触发校验和运算以保证集群中数据块的安全
如何自检？校验和是啥？

Hadoop创建文件时，同时在同一个文件夹下创建隐藏文件a.crc，该隐藏文件记录了文件的校验和
	(校验和：争对文件大小每512字节生成32位校验和)
写入文件时，hdfs为每个数据块都生成一个crc文件
客户端读取文件时，按同样的算法生成crc文件，对比生成的crc文件与存储的crc文件，
	不匹配则损坏，损坏则读副本

HDFS体系结构

1.主从架构

2.NameNode

保存元数据(fsimage+edit logs)

3.DataNode

保存数据

4.SecondaryNameNode

备份NN，合并fsimage与edit logs，节省启动时间

使用宝塔大家Java项目遇到的问题 LOVE_DDZ JAVA Spring-Boot java spring boot 开发语言
记录一下使用宝塔大家Java项目遇到的问题：1.没有那个文件或目录/var/tmp/springboot/vhost/scripts/system-service.sh:没有那个文件或目录Feb2811:13:01hadoop05spring_system-service:/bin/bash:/var/tmp/springboot/vhost/scripts/system-service.sh:没
Spring Boot 配置ObjectMapper处理JSON序列化凉宫二萌 spring boot spring boot 1024程序员节
添加配置类importcom.fasterxml.jackson.annotation.JsonInclude;importcom.fasterxml.jackson.databind.ObjectMapper;importcom.fasterxml.jackson.databind.SerializationFeature;importcom.fasterxml.jackson.datatype
ROS2软件调用架构和机制解析：Publisher创建 slam02∞ ros2 dds
术语DDS(DataDistributionService):用于实时系统的数据分发服务标准，是ROS2底层通信的基础RMW(ROSMiddleware):ROS中间件接口，提供与具体DDS实现无关的抽象APIQoS(QualityofService):服务质量策略，控制通信的可靠性、历史记录、耐久性等属性符号解析:动态库加载过程中，查找和绑定函数指针的机制1.架构概述ROS2采用分层设计，通过多
docker快速安装Es和kibana_docker安装es和kibana 2401_84159783 2024年程序员学习 docker elasticsearch 容器
2：准备环境mkdir-p/home/docker/es#创建挂载目录mkdir-p/home/docker/es/logschmod777/home/docker/es/logs#授权mkdir-p/home/docker/es/datachmod777/home/docker/es/data#授权dockerrun-d--namees_temp-p9200:9200-p9300:9300ela
数据结构之【无头单向非循环链表】(C语言实现) zl_dfq 数据结构数据结构链表
下面将无头单向非循环链表简称为单链表头指针：指向链表第一个节点的指针链表为空时，头指针也为空要实现单链表，就是要实现单链表的增删查改一、无头单向非循环链表的c语言实现1.准备工作#include#include#includetypedefintSLTDataTypde;typedefstructSLTNode{SLTDataTypdedata;structSLTNode*next;}SLTNod
The underlying provider failed on open 问题解决 yyueshen SQLServer 链接字符串
用EntityFramework6，链接MSSqlServer，本地测试没问题，同事用IP访问就提示了“Theunderlyingproviderfailedonopen”，在网上查，有人说是连接字符串写的有问题，喵了个咪的，连接字符串写的有问题，为啥我用Add-Migration和update-database命令可以成功更新数据库，连接字符串有问题，为啥我IISExpress下的localho
使用Spring Data Redis操作Redis 吃海鲜的骆驼 Redis spring redis java
使用SpringDataRedis操作Redis文章目录使用SpringDataRedis操作Redis1.添加依赖2.配置Redis连接3.创建Redis配置类4.编写Redis操作类5.操作各种数据类型操作字符串（String）操作列表（List）操作集合（Set）操作哈希（Hash）操作有序集合（ZSet）6.启动并测试总结在Java中使用SpringDataRedis操作Redis的步骤可
【人工智能】数据挖掘与应用题库（301-400）奋力向前123 人工智能人工智能数据挖掘 pandas
1、关于pandas中的Series描述错误的是答案：Series默认没有index2、关于DataFrame描述正确的是答案：DataFrame指数据框，相当于程序中的虚拟Excel表格创建DataFrame后，可以重新指定indexDataFrame允许有缺失值3、在DataFrame中，可以获取某一列的值，也可以获取某一行的值。答案:对4、对于数据框book_info，以下用法有误的是答案：
Go语言学习笔记（五）正在绘制中 Go语言学习之路 golang 学习笔记
文章目录十八、go操作MySQL、RedisMySQLRedis十九、泛型泛型函数泛型类型泛型约束泛型特化泛型接口二十、workspaces核心概念示例二十一、模糊测试十八、go操作MySQL、RedisMySQLpackagemainimport("database/sql""errors""fmt"_"github.com/go-sql-driver/mysql""log""time")typ
【Sequel Ace/Pro】苹果Mac电脑上免费的mysql管理工具 weixin_43343144 大数据
下载方式：appStore搜索下载【SequelAce】SequelAce|MySQL/MariaDBdatabasemanagementformacOSSequelPro
safari 调试移动端_使用Safari开发工具调试iPhone移动Web应用程序 weixin_26735419 debug java python
safari调试移动端IwasdevelopingamobilewebapplicationforworkthatscansaQRcodetochecksomeoneinforahiringevent,andIwantedtomakesurethedatabeingdecodedfromtheQRcodewascorrect.Ialsowantedtomakesureoneofmykeyfunct
VSCode连接远程服务器报错：vscode-remote://ssh-remote%2B%E5%AE%9E%E9%AA%8C%E5%AE%A4/data 的文件系统提供程序不可用。万年枝服务器使用常见运行错误 vscode 服务器 ssh
文章目录出现问题尝试解决其他可能问题出现问题vscode-remote://ssh-remote%2B%E5%AE%9E%E9%AA%8C%E5%AE%A4/data的文件系统提供程序不可用。尝试解决1.使用本地ssh连接，判断是否能够正常连接,样例如下，请修改成个人的端口号和root@ip形式。ssh-p10023lydc@10.163.23.832.如果能够连接，用ssh登录到远程服务器，删除
Python酷库之旅-第三方库Pandas(011) 神奇夜光杯 python pandas 开发语言标准库及第三方库基础知识学习与成长
目录一、用法精讲25、pandas.HDFStore.get函数25-1、语法25-2、参数25-3、功能25-4、返回值25-5、说明25-6、用法25-6-1、数据准备25-6-2、代码示例25-6-3、结果输出26、pandas.HDFStore.select函数26-1、语法26-2、参数26-3、功能26-4、返回值26-5、说明26-6、用法26-6-1、数据准备26-6-2、代码示例
Docker安装Minio 摩尔多0 linux docker docker
一.启动Dockersystemctlstartdocker二.安装Miniodockerrun-d-p9000:9000-p50000:50000--nameminio\-e"MINIO_ROOT_USER=admin"\-e"MINIO_ROOT_PASSWORD=12345678"\-v/mnt/data:/data\-v/mnt/config:/root/.minio\minio/mini
如何使用Spark Streaming将数据写入HBase Java资深爱好者 spark hbase 大数据
在SparkStreaming中将数据写入HBase涉及到几个步骤。以下是一个基本的指南，帮助你理解如何使用SparkStreaming将数据写入HBase。1.环境准备HBase：确保HBase集群已经安装并运行。Spark：确保Spark已经安装，并且Spark版本与HBase的Hadoop版本兼容。HBaseConnectorforSpark：你需要使用HBase的SparkConnecto
项目经验之LZO压缩？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
LZO（LightweightZip/Unzip）是一种高效的压缩算法，它以快速解压缩著称，适用于需要频繁读取和处理的数据。在Hadoop生态系统中，使用LZO压缩可以显著减少存储空间，并且由于其快速的解压速度，对于大规模数据处理任务来说是非常有利的。以下是关于LZO压缩的项目经验总结、思维导图描述以及Java代码示例。项目经验之LZO压缩LZO的优势快速解压：LZO算法设计时优先考虑了解压速度，
华为数通 HCIP-Datacom H12-831 新题 IT考试认证华为考试认证网络华为 HCIP 数通 831
2024年HCIP-Datacom（H12-831）变题后的新题，完整题库请扫描上方二维码，新题在持续更新中。某台IS-IS路由器自己生成的LSP信息如图所示，从LSP信息中不能推断出以下哪一结论?A：该路由器某一个接口的IPv6地址为2000:24::2B：该路由器所属的区域号为49.0001C：该路由器引入了4个外部网段D：该路由器的SystemID为0000.0000.0002答案：C如图所
深入理解PyTorch模型训练所需的数据集 mosquito_lover1 pytorch 人工智能 python
在PyTorch中，模型训练的核心是数据集（Dataset）。数据集是模型训练的基础，它提供了模型训练所需的所有输入数据和对应的标签。理解数据集的结构、加载方式以及如何预处理数据是成功训练模型的关键。以下是对PyTorch模型训练所需数据集的深入解析：1.数据集的基本概念数据集：数据集是模型训练的基础，通常由输入数据（如图像、文本、音频等）和对应的标签（目标值）组成。样本（Sample）：数据集中
usbserver客户端临时数据清理孤独的程序员dis1500 玩转usbserver 服务器运维
C:\Users\Adinistrator\AppData\Roaming\usbnetkitplus这个目录下文件清理需要下应该就可以了usbserver官网www.usbserver.com我的软件1.网盘2.加解密软件3.嵌入式信息安全21年一线编程经验.....北京、上海、深圳一线工作经验....找工作，地域不限....
Java 9模块与Maven的深度结合 t0_54program java maven python 个人开发
在Java9引入模块化之后，如何将模块化与Maven项目结合成为了许多开发者关注的焦点。本文将通过一个简单的示例，展示如何在Maven项目中开发Java9模块，并使用非模块化的外部库（如Jsoup）。1.Maven项目配置首先，我们需要创建一个Maven项目，并在pom.xml中配置相关的依赖和插件。以下是完整的pom.xml文件内容：4.0.0com.logicbig.examplejava9-
SOME/IP--协议英文原文讲解7 忆源 TBOX tcp/ip 网络协议网络
前言SOME/IP协议越来越多的用于汽车电子行业中，关于协议详细完全的中文资料却没有，所以我将结合工作经验并对照英文原版协议做一系列的文章。基本分三大块：1.SOME/IP协议讲解2.SOME/IP-SD协议讲解3.python/C++举例调试讲解4.1.5De-serializationofDataStructuresThede-serializationprocessneedtoinspect
Python推导式练习题250225 taoyong001 python 服务器
Inferenceexamdata=["abc.mp4","efg.mp4","oprste.mp4"]#把mp4的后缀名去掉data=[ele[0:-4]foreleindata]#需要注意，如果等号右边操作是在原列表中进行，可能会出现问题data=[ele.rsplit(".",1)[0]foreleindata]#为防止还在原列表中操作，最好定义新列表变量把mp4的后缀名去掉需要注意，如果等
移动端测试验证码识别思路——使用Tesseract-OCR识别小刀_cs 自动化测试移动端自动化验证码识别
主要工具：1、tesseract-ocr-w64-setup-v4.0需要安装地址：https://digi.bib.uni-mannheim.de/tesseract/安装完成需配置环境变量：PATH中增加：C:\ProgramFiles(x86)\Tesseract-OCR增加TESSDATA_PREFIX变量：C:\ProgramFiles(x86)\Tesseract-OCR\tessda
MyBatis Generator（MBG）斯旺森swanson
【目录】1什么是MyBatisGenerator（MBG）2搭建MBG项目4使用自动生成的文件操作数据库1什么是MyBatisGenerator（MBG）简单来说，MyBatisGenerator是一个Mybatis和ibatis的代码生成器，它可以根据数据库表自动生成Bean对象、Java接口及SqlMapper.xml配置文件。2搭建MBG项目在项目开始之前准备好数据库。数据库database
Python--内置模块和开发规范（上）索然无味io Python安全开发 python 开发语言 windows 网络安全 web安全笔记
1.内置模块1.1JSON模块核心功能序列化：Python数据类型→JSON字符串importjsondata=[{"id":1,"name":"武沛齐"},{"id":2,"name":"Alex"}]json_str=json.dumps(data,ensure_ascii=False)#禁用ASCII转义反序列化：JSON字符串→Python数据类型data_list=json.loads(
Linklist Merge Sort(微软等面试一百题-链表排序）代码文西算法 C++merge 面试微软 null 算法
因为自己写程序栽在这个问题上了，所以就手写+机试的敲了一下，虽然很小心，但是机试的时候依然写出了bug，所以发这篇帖子算是让自己长长记性吧。问题如下：1.编写实现链表排序的一种算法。说明为什么你会选择用这样的方法代码如下：#include#includestructLinkNode{intdata;LinkNode*pNext;LinkNode(int_data){data=_data;pNext
PyQt中QObject对象中父子关系 python_xiaofeng PyQt5界面设计 pyqt
代码#coding:utf-8#Author:WuXiaofeng#Data:2022/6/279:07fromPyQt5.Qtimport*importsysclassWindow(QWidget):def__init__(self):super().__init__()self.resize(600,500)self.setWindowTitle('')self.setup_ui()defse
Milvus高性能向量数据库与大模型结合山塘小鱼儿数据库阿里云向量数据库
Milvus|高性能向量数据库，为规模而构建Milvus是一个为GenAI应用构建的开源向量数据库。使用pip安装，执行高速搜索，并扩展到数十亿个向量。https://milvus.io/zhMilvus是什么？Milvus是一种高性能、高扩展性的向量数据库，可在从笔记本电脑到大规模分布式系统等各种环境中高效运行。它既可以开源软件的形式提供，也可以云服务的形式提供。Milvus是LFAI&Data
blade-x框架在feign请求的请求头中统一添加参数生骨大头菜 java 前端服务器
问题：使用配置类直接实现RequestInterceptor时会将丢失原来需要用到Authorization和Blade-Auth参数，可能会造成已有接口的报错解决方法：1.继承BladeFeignRequestInterceptor类型@Data@ConfigurationpublicclassFeignConfigextendsBladeFeignRequestInterceptor{priv
XCOSnTh平台制作计算器2 stars_A_B_C #纯软件算法单片机嵌入式硬件
#include#include#include#include#include#defineMAX_SIZE200typedefstruct{doubledata[MAX_SIZE];inttop;}Stack;voidinitStack(Stack*s){s->top=-1;}intisFull(Stack*s){returns->top==MAX_SIZE-1;}intisEmpty(Sta
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

HDFS总结

HDFS概述

1.什么是HDFS

2.HDFS的优势

3.HDFS的局限

4.HDFS的特性

HDFS设计核心

1.数据块

2.机架感知

3.数据块副本存放策略

4.数据块的备份数配置

5.安全模式

6.负载均衡

7.心跳机制

8.数据块损坏处理

HDFS体系结构

1.主从架构

2.NameNode

3.DataNode

4.SecondaryNameNode

你可能感兴趣的:(Hadoop,hdfs,hadoop,big,data)