focuspoints

Hadoop基础知识笔记

该文为个人学习笔记，仅供参考。
更多内容关注本人Halo¹博客

Hadoop概述

概述

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Apache Hadoop 原本来源于 Google 一款名为MapReduce的编程模型包。

GFS -> HDFS
MapReduce -> MapReduce
BigTable -> HBase

Hadoop主要组成

Hadoop Common：为其他Hadoop模块提供基础设施。
Hadoop HDFS：一个高可靠、高吞吐量的分布式文件系统。
- 分布式
- 安全性
- 副本数据
Hadoop MapReduce：一个分布式的离线并行计算框架。
- 分布式
- 思想
  - 分而治之
    
    大数据集分为小的数据集
    
    每个数据集，进行逻辑业务处理（map）
    
    合并统计数据结果（reduce）
Hadoop YARN：一个新的MapReduce框架，任务调度与资源管理。

分布式资源管理框架
- 管理整个集群的资源（内存、CPU核数）
- 分配调度集群的资源

HDFS 分布式文件系统

HDFS架构

NameNode 用于保存元数据，处理客户端请求管理节点
管理文件系统的命名空间。维护着文件系统树及整棵树内所有的文件和目录。这些信息以命名空间镜像文件和编辑日志文件的形式永久保存在本地磁盘上。

Client 发起请求
代表用户通过namenode和datanode交互来访问整个文件系统。提供文件系统接口。

DataNode 保存具体数据
文件系统的工作节点。他们根据需要存储并检索数据块（受客户端或namenode调度）。

SecondaryNode 用于同步元数据，
HDFS没有namenode将无法运行。所以secondarynode作为第二名称节点，用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

Hadoop读写流程

HDFS写操作

客户端向Namenode发起写操作请求，Namenode检查文件是否存在并检查权限，如果存在，则返回exist，不能上传，不可覆盖，如果不存在，那么Namenode会创建一个临时文件用于存储。
Namenode放置副本并遵循就近原则，即如果客户端在该集群且有Datanode节点，那么优先在该节点放置第一块副本，再将另外两块副本放置到另外两台Datanode（文件副本数通常为3，可根据需求及集群性能自定义），并根据距离排序，将Datanode列表返回给客户端。

如果为多集群，假定3个集群，则每个集群中一台Datanode节点保存一份副本
客户端根据Namenode返回的Datanode列表连接第一个节点，且第一个节点与其余两个节点根据顺序保持串联连接关系，这种并联连接关系被成为Pipeline（管道）连接。
客户端将文件切分成block（block默认128MB）

在写入过程中，block又被切分成package（默认为64KB），以流式向DataNode写入block文件。
Datanode各节点每传输完一个block后，会返回验证信息

每次验证是在写完一个block后，并非在传输package完成时
完成文件写入，关闭输出流。
发送完成信号给Namenode

在传输过程中，其中一个Datanode挂掉了，Namenode会在整个流程结束，收集并验证Datanode的信息，发现此文件的副本数没有达到要求，则将挂掉的datanode移出Pipeline，然后再寻找另一个可用Datanode节点保存副本

HDFS读操作

客户端发起向Namenode读请求并获取元数据信息。
客户端根据Namenode返回的信息，就近选择Datanode节点并与各个节点建立输入流。
Datanode向输入流中写数据。
客户端下载完成block后验证，保证块数据的完整性。

就近原则：本地，最近的距离；同机架，次之的距离；other（数据中心），最远的距离；

HDFS启动流程

心跳机制

namenode从集群中的每个datanode接收心跳信号和快状态报告（Blockreport）。

接收心跳信号

默认每3秒一次，表示改datanode节点工作正常

心跳返回结果带有namenode给该datanode的命令，如复制删除等等。

超过10分钟namenode没有收到某个datanode的心跳，则认为该节点不可用。
块状态报告

datanode启动后，向namenode注册，周期性（1小时）的向namenode报告块信息。

数据损坏处理

block创建时会产生checksum，当datanode读取block的时候，它会重新计算得到checksum，如果与初始checksum不同，则说明该block已经损坏，Client读取其他datanode上的block。那么弄得标记该块已损坏，复制block以达到预期的副本数量。

Namenode元数据合并同步

NameNode的元数据操作先往edits文件中写，
当edits文件达到一定的阈值(3600秒或一定的事务数量)的时候，会开启合并的流程。

合并流程:

1.当开始合并的时候，SecondaryNameNode会把edits和fsimage拷贝到所在服务器所在内存中，合并生成名为fsimage.ckpt的文件。

2.将fsimage.ckpt文件拷贝到NameNode上，删除原有的fsimage，并将fsimage.ckpt重命名为fsimage。

3.当SecondaryNameNode将edits和fsimage拷贝走之后， NameNode会立刻生成一个edits.new文件，用于记录新来的元数据，当合并完成之后，原有的edits文件才会被删除，并将edits.new文件重命名为edits文件。

在达到一定阈值开启下一轮合并，只拷贝edits文件。

启动流程

启动HDFS相关进程，进入安全模式（只读不写）
加载元数据，namenode等待datanode注册
datanode周期性的向namenode发送心跳
离开安全模式

Yarn集群资源管理系统

Yarn架构

ResourceManger 任务的调度和资源的管理（CPU、内存）管理集群上资源使用的资源管理器。

Container 对环境的抽象，封装了CPU，内存，环境变量等等多维的资源。运行在集群中所有节点上且能够启动和监控的容器。

NodeManger 单个节点的资源管理，节点管理器

application master 为任务程序申请资源，任务的监控和容错

Yarn运行机制

MapReduce编程模型

概述

MapReduce应用广泛的原因之一就是其易用性，提供了一个高度抽象画二变得非常简单的编程模型，他是总结大量应用的共同特点的基础上抽象出来的分布式计算框架，在其编程模型中，任务可以被分解成相互独立的子问题。任务过程分为两个处理阶段：map阶段和reduce阶段。每阶段都以键-值对作为输入和输出，其数据类型可自定义，需要编写map和reduce函数。

MapReduce作业（job）是客户端需要执行的一个工作单元：它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个任务（task）来执行，其中包括两类任务：map任务和reduce任务。

MapReduce编程模型给出分布式编程方法的5个步骤：

迭代，遍历输入数据，将其解析成key/value对；
将输入key/value对映射map成另外一些key/value对；
根据key对中间结果进行分组（grouping）；
以组为单位对数据进行归约；
迭代，将最终产生的key/value对保存到输出文件中。

过程及作用

执行顺序：InputFormat - OutputFormat - Map - Shuffle - Reduce

InputFormat

OutputFormat

Map

Reduce

Shuffle

Map Shuffle Phase

进入环形缓冲区（默认100MB）

默认情况下，当达到环形缓冲区内存的80%，将会将缓冲区中的数据spill到本地磁盘中（溢出到MapTask所运行的NodeManager机器的本地磁盘中）
溢写并不是立即将缓冲区中的数据溢写到本地磁盘，而是需要经历一些操作
- 分区paritioner

分区决定Map Task输出的数据进入哪个Reduce，且分区数量等同于Reduce数量。

默认情况下，key采用HashParitioner

自定义Paritioner用途

解决数据倾斜：另一种需要我们自己定义一个Partitioner的情况是各个Reduce task处理的键值对数量极不平衡。对于某些数据集，由于很多不同的key的hash值都一样，导致这些键值对都被分给同一个Reducer处理，而其他的Reducer处理的键值对很少，从而拖延整个任务的进度。当然，编写自己的Partitioner必须要保证具有相同key值的键值对分发到同一个Reducer。
对于map输出的每一个键值对，系统都会给定一个partition，partition值默认通过计算key的hash值后对Reduce task的数量取模获得。如果一个键值对的partition值为1，意味着这个键值对会交给第一个Reducer处理。
```
//HashPartitioner
int getParitition（key, value, numreducetask） {
       
	return ( key.hashCode&Integer.maxValue)%numreducetask;
}
```
排序sorter

会对每个分区中的数据进行排序，默认情况下依据key进行排序。
- spill溢写
  
  将分区排序后的数据写到本地磁盘的一个文件中，重复上述操作，产生多个小文件。
当溢写结束后

[可选]combiner：Map端的reduce，在分区前

[可选]compress：减少数据量，减少网络IO处理，但压缩消耗CPU性能，也需要时间。

Reduce Shuffle Phase

Reduce端的shuffle主要包括三个阶段，copy，sort(merge)，reduce

Copy
排序（merge）
分组group

Map-side tuning properties

Property name	Type	Default value	Description
mapreduce.task.io.sort.mb	int	100	The size, in megabytes, of the memory buffer to use while sorting map output.
mapreduce.map.sort.spill.percent	float	0.80	The threshold usage proportion for both the map output memory buffer and the record boundaries index to start the process of spilling to disk.
mapreduce.task.io.sort.facto	int	10	The maximum number of streams to merge at once when sorting files. This property is also used in the reduce. It’s fairly common to increase this to 100.
mapreduce.map.combine.minspills	int	3	The minimum number of spill files needed for the combiner to run (if a combiner is specified).
mapreduce.map.output.compress	boolean	false	Whether to compress map outputs.
mapreduce.map.output.compress.codec	Class name	org.apache.hadoop.io.compress.DefaultCodec	The compression codec to use for map outputs.
mapreduce.shuffle.max.threads	int	0	The number of worker threads per node manager for serving the map outputs to reducers. This is a clusterwide setting and cannot be by individual jobs. 0 means use the Netty default of twice the number of available processors.

Reduce-side tuning properties

Property name	Type	Default value	Description
mapreduce.reduce.shuffle.parallelcopies	int	5	The number of threads used to copy map outputs to the reducer.
mapreduce.reduce.shuffle.maxfetchfailures	int	10	The number of times a reducer tries to fetch a map output before reporting the error.
mapreduce.task.io.sort.factor	int	10	The maximum number of streams to merge at once when sorting files. This property is also used in the map.
mapreduce.reduce.shuffle.input.buffer.percent	float	0.70	The proportion of total heap size to be allocated to the map outputs buffer during the copy phase of the shuffle.
mapreduce.reduce.shuffle.merge.percent	float	0.66	The threshold usage proportion for the map outputs buffer (defined by mapred.job.shuffle.input.buffer.percent)for starting the process of merging the outputs and spilling to disk.
mapreduce.reduce.merge.inmem.threshol	int	1000	The threshold number of map outputs for starting the process of merging the outputs and spilling to disk. A value of 0 or less means there is no threshold, and the spill behavior is governed solely by mapreduce.reduce.shuffle.merge.percent.
mapreduce.reduce.input.buffer.percent	float	0.0	The proportion of total heap size to be used for retaining map outputs in memory during the reduce. For the reduce phase to begin, the size of map outputs in memory must be no more than this size. By default, all map outputs are merged to disk before the reduce begins, to give the reducers as much memory as possible. However, if your reducers require less memory,this value may be increased to minimize the number of trips to disk

附录

集群架构设计示例：

	master	slave1	slave2	slave3
HDFS		datanode	datanode	datanode
	namenode 9820	secondaryNamenode
	namenode web 9870	secondaryNamenode web 9868
Yarn		nodemanager	nodemanager	nodemanager
	resourcemanager		resourcemanager
	resourcemanager web 8088
历史服务				HistroryServer 10020
				HistroryServer web 19888

服务端口

2.x、3.x版本端口差别

摘自网络

分类	应用	Haddop 2.x port	Haddop 3 port
NNPorts	Namenode	8020	9820
NNPorts	NN HTTP UI	50070	9870
NNPorts	NN HTTPS UI	50470	9871
SNN ports	SNN HTTP	50091	9869
SNN ports	SNN HTTP UI	50090	9868
DN ports	DN IPC	50020	9867
DN ports	DN	50010	9866
DN ports	DN HTTP UI	50075	9864
DN ports	Namenode	50475	9865

组件	节点	默认端口	配置	用途说明
HDFS	DataNode	50010	dfs.datanode.address	datanode服务端口，用于数据传输
HDFS	DataNode	50075	dfs.datanode.http.address	http服务的端口
HDFS	DataNode	50475	dfs.datanode.https.address	https服务的端口
HDFS	DataNode	50020	dfs.datanode.ipc.address	ipc服务的端口
HDFS	NameNode	50070	dfs.namenode.http-address	http服务的端口
HDFS	NameNode	50470	dfs.namenode.https-address	https服务的端口
HDFS	NameNode	8020	fs.defaultFS	接收Client连接的RPC端口，用于获取文件系统metadata信息。
HDFS	journalnode	8485	dfs.journalnode.rpc-address	RPC服务
HDFS	journalnode	8480	dfs.journalnode.http-address	HTTP服务
HDFS	ZKFC	8019	dfs.ha.zkfc.port	ZooKeeper FailoverController，用于NN HA
YARN	ResourceManager	8032	yarn.resourcemanager.address	RM的applications manager(ASM)端口
YARN	ResourceManager	8030	yarn.resourcemanager.scheduler.address	scheduler组件的IPC端口
YARN	ResourceManager	8031	yarn.resourcemanager.resource-tracker.address	IPC
YARN	ResourceManager	8033	yarn.resourcemanager.admin.address	IPC
YARN	ResourceManager	8088	yarn.resourcemanager.webapp.address	http服务端口
YARN	NodeManager	8040	yarn.nodemanager.localizer.address	localizer IPC
YARN	NodeManager	8042	yarn.nodemanager.webapp.address	http服务端口
YARN	NodeManager	8041	yarn.nodemanager.address	NM中container manager的端口
YARN	JobHistory Server	10020	mapreduce.jobhistory.address	IPC
YARN	JobHistory Server	19888	mapreduce.jobhistory.webapp.address	http服务端口
HBase	Master	60000	hbase.master.port	IPC
HBase	Master	60010	hbase.master.info.port	http服务端口
HBase	RegionServer	60020	hbase.regionserver.port	IPC
HBase	RegionServer	60030	hbase.regionserver.info.port	http服务端口
HBase	HQuorumPeer	2181	hbase.zookeeper.property.clientPort	HBase-managed ZK mode，使用独立的ZooKeeper集群则不会启用该端口。
HBase	HQuorumPeer	2888	hbase.zookeeper.peerport	HBase-managed ZK mode，使用独立的ZooKeeper集群则不会启用该端口。
HBase	HQuorumPeer	3888	hbase.zookeeper.leaderport	HBase-managed ZK mode，使用独立的ZooKeeper集群则不会启用该端口。
Hive	Metastore	9083	/etc/default/hive-metastore中export PORT=来更新默认端口
Hive	HiveServer	10000	/etc/hive/conf/hive-env.sh中export HIVE_SERVER2_THRIFT_PORT=来更新默认端口
ZooKeeper	Server	2181	/etc/zookeeper/conf/zoo.cfg中clientPort=	对客户端提供服务的端口
ZooKeeper	Server	2888	/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn]，标蓝部分	follower用来连接到leader，只在leader上监听该端口。
ZooKeeper	Server	3888	/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn]，标蓝部分	用于leader选举的。只在electionAlg是1,2或3(默认)时需要。

Halo：基于Java的开源博客，感谢halo提供如此强大的博客系统。 ↩︎

5G标准学习笔记14 - CSI--RS概述刘孬孬沉迷学习 5G 学习笔记信息与通信
5G标准学习笔记14-CSI–RS概述大家好~，这里是刘孬孬，今天带着大家一起学习一下5GNR中一个非常非常重要的参考信号------------------CSI-RS信号，CSI-RS不是持续发送，UE只能在网络明确配置了CSI-RS的情况下才能使用其进行信道测量。前言对于CSI-RS，肯定还离不开前面所说的CSI（channelstateinformation），前面也讲过CSI对于MIMO
5G标准学习笔记06-基于AI/ML波束管理刘孬孬沉迷学习 5G 学习笔记
5G标准学习笔记06-基于AI/ML波束管理前言前面对于孬孬学习了波束管理的概述，下面要进一步来看一下传统波束管理和现在3GPP中推动的AL/ML波束管理之前的区别联系。一、传统波束管理方法流程传统BM流程主要包括以下步骤：波束扫描（BeamSweeping）：gNB通过顺序发送多个窄波束（SSB或CSI-RS），覆盖整个服务区域，UE测量每个波束的信号质量（如L1-RSRP或L1-SINR）。波
5G标准学习笔记03- CSI 反馈增强概述刘孬孬沉迷学习 5G 笔记学习
5G标准学习笔记03-CSI反馈增强概述大家好，最近在研究AI/ML3gpp标准NR空口的有关内容，后面可能会给大家介绍一下对应的有关内容AI/ML在3GPP标准中的研究进展在AI/ML在NR空口的应用中，对应标准主要聚焦了3个case进行讨论研究分别是：CSI反馈增强；波束管理；定位精度增强；这三个内容可能比较涉及RAN1/2的具体内容，后面会基于这个进行一定的介绍。今天主要是主要介绍CSI反馈
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
两台pc如何高速度传输大文件费城之鹰其他两台电脑高速传输文件局域网不适用U盘传输资料网线直连两台电脑传资料
今天笔记本跑一个大一点的项目，8G的内存直接100%，i5的CPU直接75%并且在超频工作了，原本1.6Ghz的频率直接飙到了3.8Ghz，由于项目性质原因，采用的是公司配的笔记本，但是年初采购的联想E480，还在三包时间段内，公司不允许拆机增加内存，只能换一台新的台式机，听起来挺爽，有新设备，但是办公区域不准使用U盘这一类的存储设备，这就蛋疼了，大半年了项目代码，资料全在这个不够用的笔记本里，问
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
玩转Docker | 使用Docker部署NotepadMX笔记应用程序心随_风动玩转Docker docker 笔记 eureka
玩转Docker|使用Docker部署NotepadMX笔记应用程序前言一、NotepadMX介绍工具简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署NotepadMX服务下载NotepadMX镜像编辑部署文件创建容器检查容器状态检查服务端口安全设置四、访问NotepadMX服务访问NotepadMX首页设置访问验证编辑笔记总结前言在如今快节奏的工作与学习中，一
【前端】异步任务风控验证与轮询机制技术方案（通用笔记版）
一、背景场景在某类生成任务中，例如用户点击“执行任务”按钮后触发一个较耗时的后端操作（如生成报告、渲染图像、转码视频等），由于其调用了模型、渲染服务或需要较长处理时间，为了防止接口被频繁恶意调用，系统需要加入风控验证机制。此外，因任务处理为异步，前端无法立即获得最终结果，因此需通过轮询方式定期查询任务状态，等待任务完成后展示结果。二、整体流程说明1.用户点击“执行任务”按钮：前端调用风控接口/ap
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
LLaMA 学习笔记 AI算法网奇深度学习基础人工智能深度学习
目录LLaMA模型结构：模型微调手册：推理示例：指定位置加载模型测试ok：模型下载：llama-stack下载modelscope下载LLaMA优化技术RMSNormSwiGLU激活函数旋转位置编码（RoPE）LLaMA模型结构：llama3结构详解-CSDN博客模型微调手册：大模型微调LLaMA详细指南（准备环境、数据、配置微调参数+微调过程）_llama微调-CSDN博客显存占用：FP16/B
BOOT_KEY按键（学习笔记）小高Baby@ 学习笔记
先来让我们了解一下GPIO是什么吧，它在单片机中也有很重要的作用，接下来我们来看看吧。esp32C3是QFN32封装（一种集成电路（IC）封装类型），GPIO引脚一共有22个，从GPIO-0到GPIO-21。从理论上来说，所有的IO引脚都可以复用为任何外设功能，但有些引脚用作连接芯片内部FLASH或者外部FLASH功能时，官方不建议用作其它用途。esp32c3的GPIO，可以用作输入、输出，可以配
多线程在Java项目中的使用案例(笔记) 车车不吃香菇 java基础 java
多线程在Java项目中的使用案例(笔记)实现runnable接口@OverridepublicBooleanaddMeetingExpertIds(MeetAddExpertDtomeetAddExpertDto,LonguserId){//会议关联到专家//如果需要发给专家newThread(newRunnable(){@Overridepublicvoidrun(){try{if(meetAd
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
Kotlin学习笔记 qq_26907861
1.Val和Varval:用于声明不可变量,不可变是指引用不可变;var:用于声明可变的变量;packagehello//可选的包头funmain(args:Array){//包级可见的函数，接受一个字符串数组作为参数vala="不可变的变量"//不可变的变量varn=2//可变println(a)println(n)}2.fun函数Kotlin中的函数可以这样声明:fun函数名(参数列表):返回
扔物线--Kotlin协程训练营2期-2
笔记仅做自己学习用，方便自己复习知识。若正好可以帮助到Viewer，万分欣喜~若博客侵权，扔物线大大不允许放上面，麻烦告知本文是扔物线Kotlin第二期协程训练营的第二篇文章没看过第一篇文章的可以先看第一篇：https://blog.csdn.net/bluerheaven/article/details/106969835目录一、Retrofit对协程的支持二、Retrofit和RxJava的结
20250707-3-Kubernetes 核心概念-有了Docker，为什么还用K8s_笔记 Andy杨 CKA-专栏 kubernetes docker 笔记
一、Kubernetes核心概念1.有了Docker，为什么还用Kubernetes1）企业需求独立性问题：Docker容器本质上是独立存在的，多个容器跨主机提供服务时缺乏统一管理机制负载均衡需求：为提高业务并发和高可用，企业会使用多台服务器部署多个容器实例，但Docker本身不具备负载均衡能力管理复杂度：随着Docker主机和容器数量增加，面临部署、升级、监控等统一管理难题运维效率：单机升
20250707-4-Kubernetes 集群部署、配置和验证-K8s基本资源概念初_笔记
一、kubeconfig配置文件文件作用:kubectl使用kubeconfig认证文件连接K8s集群生成方式:使用kubectlconfig指令生成核心字段:clusters:定义集群信息，包括证书和服务端地址contexts:定义上下文，关联集群和用户users:定义客户端认证信息current-context:指定当前使用的上下文二、Kubernetes弃用Docker1.弃用背景原因:
麒麟系统离线安装docker
随着CentOS全面停服，国产操作系统会慢慢代替centos系统，在后续的项目中，项目部署的环境都必将是国产操作系统，本文就国产操作系统下如何离线安装docker,做下笔记分享一、材料准备1、国产操作系统麒麟10，arm64v82、dokcer部署包（版本：docker-18.09.tgz）3、部署docker脚本（docker.service），已经启动命令脚本（install.sh）二、编写d
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
WPF学习笔记（2）——x名称空间详解上幽冥宇少 WPF C#WPF学习笔记初学者 C#VS2013
先说一些基本的，.NET的模块称为程序集（Assembly）。一般情况下，用VS创建的是解决方案（Solution），一个解决方案就是一个完整的程序。解决方案中包含若干个项目（Project），每个项目是可以独立编译的，他的编译结果是一个程序集。常见的程序集是以.exe为扩展名的可执行程序或者是以.dll为扩展名的动态链接库，大多数情况下，我们说“引用其他程序集”的时候，说的是动态链接库。因为.N
初学者的指针学习笔记（1）近津薪荼学习笔记
1.内存和地址1.1内存像学生宿舍一样，被分成许多个房间，每个房间都有自己的房号，每个房间能住8个学生内存被分成许多个单元（小为1Byte），每个单元都有自己的编号，每个单元里能住8个小比特（bite）c语言中，指针就是该单元内存的编号也就是地址，我们可以通过指针快速找到我们要访问的内存1.2编址计算机中的内存编址，是通过硬件设计来完成的，也就是说他被做出来的时候各个内存单元的地址就已经确定了。计
初学者关于自定义类型结构体的学习笔记近津薪荼学习笔记数据结构
1.结构的特殊声明//匿名结构体类型struct{inta;charb;floatc;}x;struct{inta;charb;floatc;}a[20],*p;p=&x;不可取，本质上是两个不同类型的结构体上述代码的声明方式，该结构体类型，如果不重命名的话，只能用一次（声明时顺便创建变量）2.结构体的自引用structNode{intdata;structNodenext;};上述代码，结构体中
JVM初学者指南：Java虚拟机基础知识笔记 lenyan~ 笔记技术 JVM jvm java 笔记
JVM初学者指南：Java虚拟机基础知识全解析摘要：本文记录了Java虚拟机(JVM)的基本概念、架构、内存模型及工作原理的相关笔记-lenyan。一、JVM简介1.1什么是JVM？JVM(JavaVirtualMachine，Java虚拟机)是运行Java字节码的虚拟机。JVM是Java"一次编写，到处运行"这一特性的关键所在。无论什么平台，只要安装了对应的JVM，就能运行Java程序。JVM有
Qt for Android 配置详细（Windows下的）总有刁民想爱朕ha
Qt开发安卓笔记作者：[email protected]年1月讨论和交流一、安装jdk配置环境变量并测试java1.7的版本太高会出现问题。。我是用的是1.6点击jdk-6u21-windows-i586.exe即可，根据提示安装，安装路径可以复制，方便管理。jdk1.6安装在C:\Java\jdk1.6jre1.6安装在C:\Java\jre1.6安装后的文件和路径如上图。1.安
《前端面试全家桶，从求职准备到面试演练 2024升级TS》课程笔记半藏森林_ 前端面试笔记
第2章【第一阶段】高效准备前端技术一面：第一阶段介绍——说说面试的那些事儿2-3先来体验几个面试题typeof能判断哪些类型？何时使用===何时使用==window.onload和DOMContentLoaded的区别？JS创建10个标签，点击的时候弹出对应的序号手写节流throttle、防抖debouncePromise解决了什么问题？思考：拿到一个面试题，你第一时间看到的是什么？如何看待网上搜
【OD机试题解法笔记】根据IP查找城市 xuwzen 编码训练笔记 tcp/ip java
题目描述某业务需要根据终端的IP地址获取该终端归属的城市，可以根据公开的IP地址池信息查询归属城市。地址池格式如下：城市名=起始IP,结束IP起始和结束地址按照英文逗号分隔，多个地址段采用英文分号分隔。比如：City1=1.1.1.1,1.1.1.2;City1=1.1.1.11,1.1.1.16;City2=3.3.3.3,4.4.4.4;City3=2.2.2.2,6.6.6.6一个城市可以有
Netplan 中 bridges、bonds、ethernets、vlans 之间的关系笔记250711 kfepiza 网络通讯传输协议 IP TCP UDP 物联 #Linux #控制台命令行 Shell bash cmd 等笔记网络 linux tcp/ip tcp ip ubuntu
Netplan中bridges、bonds、ethernets、vlans之间的关系笔记250711Linux创建网桥Bridge的方法有哪些?笔记250710用Netplan配置网桥bridge笔记250711Netplan配置网桥（Bridge）的模板笔记250711Netplan中bridges、bonds、ethernets、vlans关系详解在Netplan配置中，ethernets、b
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l