[Hadoop源码详解]之一MapReduce篇之InputFormat

小站博文地址：[Hadoop源码详解]之一MapReduce篇之InputFormat

1. 概述

我们在设置MapReduce输入格式的时候，会调用这样一条语句：

 
         job.setInputFormatClass(KeyValueTextInputFormat. 
         class 
         );

这条语句保证了输入文件会按照我们预设的格式被读取。KeyValueTextInputFormat即为我们设定的数据读取格式。

所有的输入格式类都继承自InputFormat，这是一个抽象类。其子类有例如专门用于读取普通文件的FileInputFormat，还有用来读取数据库的DBInputFormat等等。相关类图简单画出如下（推荐新标签中打开图片查看）：

2. InputFormat

从InputFormat类图看，InputFormat抽象类仅有两个抽象方法：

List<InputSplit> getSplits()，获取由输入文件计算出输入分片(InputSplit)，解决数据或文件分割成片问题。
RecordReader<K,V> createRecordReader()，创建RecordReader，从InputSplit中读取数据，解决读取分片中数据问题。

在后面说到InputSplits的时候，会介绍在getSplits()时需要验证输入文件是否可分割、文件存储时分块的大小和文件大小等因素，所以总体来说，通过InputFormat，Mapreduce框架可以做到：

验证作业输入的正确性
将输入文件切割成逻辑分片(InputSplit)，一个InputSplit将会被分配给一个独立的MapTask
提供RecordReader实现，读取InputSplit中的“K-V对”供Mapper使用

InputFormat抽象类源码也很简单，如下供参考(文章格式考虑，删除了部分注释，添加了部分中文注释)：

 
         public  
         abstract  
         class  
         InputFormat<K, V> { 
        
         /** 
        
         * 仅仅是逻辑分片，并没有物理分片，所以每一个分片类似于这样一个元组 <input-file-path, start, offset> 
        
         */ 
        
         public  
         abstract  
         List<InputSplit> getSplits(JobContext context) 
        
         throws  
         IOException, InterruptedException; 
        
         /** 
        
         * Create a record reader for a given split. 
        
         */ 
        
         public  
         abstract  
         RecordReader<K, V> createRecordReader(InputSplit split, 
        
         TaskAttemptContext context)  
         throws  
         IOException, 
        
         InterruptedException; 
        
         }

不同的InputFormat会各自实现不同的文件读取方式以及分片方式，每个输入分片会被单独的map task作为数据源。下面详细介绍输入分片(inputSplit)是什么。

3.InputSplit

Mappers的输入是一个一个的输入分片，称InputSplit。看源码可知，InputSplit也是一个抽象类，它在逻辑上包含了提供给处理这个InputSplit的Mapper的所有K-V对。

 
         public  
         abstract  
         class  
         InputSplit { 
        
         /** 
        
         * 获取Split的大小，支持根据size对InputSplit排序. 
        
         */ 
        
         public  
         abstract  
         long  
         getLength()  
         throws  
         IOException, InterruptedException; 
        
         /** 
        
         * 获取存储该分片的数据所在的节点位置. 
        
         */ 
        
         public  
         abstract 
        
         String[] getLocations()  
         throws  
         IOException, InterruptedException; 
        
         }

下面深入看一个InputSplit的子类：FileSplit类

 
         public  
         class  
         FileSplit  
         extends  
         InputSplit  
         implements  
         Writable { 
        
         private  
         Path file; 
        
         private  
         long  
         start; 
        
         private  
         long  
         length; 
        
         private  
         String[] hosts; 
        
         /** 
        
         * Constructs a split with host information 
        
         *  
        
         * @param file 
        
         *            the file name 
        
         * @param start 
        
         *            the position of the first byte in the file to process 
        
         * @param length 
        
         *            the number of bytes in the file to process 
        
         * @param hosts 
        
         *            the list of hosts containing the block, possibly null 
        
         */ 
        
         public  
         FileSplit(Path file,  
         long  
         start,  
         long  
         length, String[] hosts) { 
        
         this 
         .file = file; 
        
         this 
         .start = start; 
        
         this 
         .length = length; 
        
         this 
         .hosts = hosts; 
        
         } 
        
         /** The number of bytes in the file to process. */ 
        
         @Override 
        
         public  
         long  
         getLength() { 
        
         return  
         length; 
        
         } 
        
         @Override 
        
         public  
         String[] getLocations()  
         throws  
         IOException { 
        
         if  
         ( 
         this 
         .hosts ==  
         null 
         ) { 
        
         return  
         new  
         String[] {}; 
        
         }  
         else  
         { 
        
         return  
         this 
         .hosts; 
        
         } 
        
         } 
        
         // 略掉部分方法 
        
         }

从源码中可以看出，FileSplit有四个属性：文件路径，分片起始位置，分片长度和存储分片的hosts。用这四项数据，就可以计算出提供给每个Mapper的分片数据。在InputFormat的getSplit()方法中构造分片，分片的四个属性会通过调用FileSplit的Constructor设置。

再看一个InputSplit的子类：CombineFileSplit。源码如下：

 
         public  
         class  
         CombineFileSplit  
         extends  
         InputSplit  
         implements  
         Writable { 
        
         private  
         Path[] paths; 
        
         private  
         long 
         [] startoffset; 
        
         private  
         long 
         [] lengths; 
        
         private  
         String[] locations; 
        
         private  
         long  
         totLength; 
        
         public  
         CombineFileSplit(Path[] files,  
         long 
         [] start,  
         long 
         [] lengths, 
        
         String[] locations) { 
        
         initSplit(files, start, lengths, locations); 
        
         } 
        
         private  
         void  
         initSplit(Path[] files,  
         long 
         [] start,  
         long 
         [] lengths, 
        
         String[] locations) { 
        
         this 
         .startoffset = start; 
        
         this 
         .lengths = lengths; 
        
         this 
         .paths = files; 
        
         this 
         .totLength =  
         0 
         ; 
        
         this 
         .locations = locations; 
        
         for  
         ( 
         long  
         length : lengths) { 
        
         totLength += length; 
        
         } 
        
         } 
        
         public  
         long  
         getLength() { 
        
         return  
         totLength; 
        
         } 
        
         /** Returns all the Paths where this input-split resides */ 
        
         public  
         String[] getLocations()  
         throws  
         IOException { 
        
         return  
         locations; 
        
         } 
        
         //省略了部分构造函数和方法，深入学习请阅读源文件 
        
         }

为什么介绍该类呢，因为接下来要学习《Hadoop学习(五) – 小文件处理》，深入理解该类，将有助于该节学习。

上面我们介绍的FileSplit对应的是一个输入文件，也就是说，如果用FileSplit对应的FileInputFormat作为输入格式，那么即使文件特别小，也是作为一个单独的InputSplit来处理，而每一个InputSplit将会由一个独立的Mapper Task来处理。在输入数据是由大量小文件组成的情形下，就会有同样大量的InputSplit，从而需要同样大量的Mapper来处理，大量的Mapper Task创建销毁开销将是巨大的，甚至对集群来说，是灾难性的！

CombineFileSplit是针对小文件的分片，它将一系列小文件封装在一个InputSplit内，这样一个Mapper就可以处理多个小文件。可以有效的降低进程开销。与FileSplit类似，CombineFileSplit同样包含文件路径，分片起始位置，分片大小和分片数据所在的host列表四个属性，只不过这些属性不再是一个值，而是一个列表。

需要注意的一点是，CombineFileSplit的getLength()方法，返回的是这一系列数据的数据的总长度。

现在，我们已深入的了解了InputSplit的概念，看了其源码，知道了其属性。我们知道数据分片是在InputFormat中实现的，接下来，我们就深入InputFormat的一个子类，FileInputFormat看看分片是如何进行的。

4. FileInputFormat

FileInputFormat中，分片方法代码及详细注释如下，就不再详细解释该方法：

 
         public  
         List<InputSplit> getSplits(JobContext job)  
         throws  
         IOException { 
        
         // 首先计算分片的最大和最小值。这两个值将会用来计算分片的大小。 
        
         // 由源码可知，这两个值可以通过mapred.min.split.size和mapred.max.split.size来设置 
        
         long  
         minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job)); 
        
         long  
         maxSize = getMaxSplitSize(job); 
        
         // splits链表用来存储计算得到的输入分片结果 
        
         List<InputSplit> splits =  
         new  
         ArrayList<InputSplit>(); 
        
         // files链表存储由listStatus()获取的输入文件列表，listStatus比较特殊，我们在下面详细研究 
        
         List<FileStatus> files = listStatus(job); 
        
         for  
         (FileStatus file : files) { 
        
         Path path = file.getPath(); 
        
         FileSystem fs = path.getFileSystem(job.getConfiguration()); 
        
         long  
         length = file.getLen(); 
        
         // 获取该文件所有的block信息列表[hostname, offset, length] 
        
         BlockLocation[] blkLocations = fs.getFileBlockLocations(file,  
         0 
         , 
        
         length); 
        
         // 判断文件是否可分割，通常是可分割的，但如果文件是压缩的，将不可分割 
        
         // 是否分割可以自行重写FileInputFormat的isSplitable来控制 
        
         if  
         ((length !=  
         0 
         ) && isSplitable(job, path)) { 
        
         long  
         blockSize = file.getBlockSize(); 
        
         // 计算分片大小 
        
         // 即 Math.max(minSize, Math.min(maxSize, blockSize)); 
        
         // 也就是保证在minSize和maxSize之间，且如果minSize<=blockSize<=maxSize，则设为blockSize 
        
         long  
         splitSize = computeSplitSize(blockSize, minSize, maxSize); 
        
         long  
         bytesRemaining = length; 
        
         // 循环分片。 
        
         // 当剩余数据与分片大小比值大于Split_Slop时，继续分片， 小于等于时，停止分片 
        
         while  
         ((( 
         double 
         ) bytesRemaining) / splitSize > SPLIT_SLOP) { 
        
         int  
         blkIndex = getBlockIndex(blkLocations, length 
        
         - bytesRemaining); 
        
         splits.add( 
         new  
         FileSplit(path, length - bytesRemaining, 
        
         splitSize, blkLocations[blkIndex].getHosts())); 
        
         bytesRemaining -= splitSize; 
        
         } 
        
         // 处理余下的数据 
        
         if  
         (bytesRemaining !=  
         0 
         ) { 
        
         splits.add( 
         new  
         FileSplit(path, length - bytesRemaining, 
        
         bytesRemaining, 
        
         blkLocations[blkLocations.length -  
         1 
         ].getHosts())); 
        
         } 
        
         }  
         else  
         if  
         (length !=  
         0 
         ) { 
        
         // 不可split，整块返回 
        
         splits.add( 
         new  
         FileSplit(path,  
         0 
         , length, blkLocations[ 
         0 
         ] 
        
         .getHosts())); 
        
         }  
         else  
         { 
        
         // 对于长度为0的文件，创建空Hosts列表，返回 
        
         splits.add( 
         new  
         FileSplit(path,  
         0 
         , length,  
         new  
         String[ 
         0 
         ])); 
        
         } 
        
         } 
        
         // 设置输入文件数量 
        
         job.getConfiguration().setLong(NUM_INPUT_FILES, files.size()); 
        
         return  
         splits; 
        
         }

在getSplits()方法中，我们提到了一个方法，listStatus()，我们先来看一下这个方法：

 
         protected  
         List<FileStatus> listStatus(JobContext job)  
         throws  
         IOException { 
        
         // 省略部分代码... 
        
         List<PathFilter> filters =  
         new  
         ArrayList<PathFilter>(); 
        
         filters.add(hiddenFileFilter); 
        
         PathFilter jobFilter = getInputPathFilter(job); 
        
         if  
         (jobFilter !=  
         null 
         ) { 
        
         filters.add(jobFilter); 
        
         } 
        
         // 创建了一个MultiPathFilter，其内部包含了两个PathFilter 
        
         // 一个为过滤隐藏文件的Filter，一个为用户自定义Filter(如果制定了) 
        
         PathFilter inputFilter =  
         new  
         MultiPathFilter(filters); 
        
         for  
         ( 
         int  
         i =  
         0 
         ; i < dirs.length; ++i) { 
        
         Path p = dirs[i]; 
        
         FileSystem fs = p.getFileSystem(job.getConfiguration()); 
        
         FileStatus[] matches = fs.globStatus(p, inputFilter); 
        
         if  
         (matches ==  
         null 
         ) { 
        
         errors.add( 
         new  
         IOException( 
         "Input path does not exist: "  
         + p)); 
        
         }  
         else  
         if  
         (matches.length ==  
         0 
         ) { 
        
         errors.add( 
         new  
         IOException( 
         "Input Pattern "  
         + p 
        
         +  
         " matches 0 files" 
         )); 
        
         }  
         else  
         { 
        
         for  
         (FileStatus globStat : matches) { 
        
         if  
         (globStat.isDir()) { 
        
         for  
         (FileStatus stat : fs.listStatus( 
        
         globStat.getPath(), inputFilter)) { 
        
         result.add(stat); 
        
         } 
        
         }  
         else  
         { 
        
         result.add(globStat); 
        
         } 
        
         } 
        
         } 
        
         } 
        
         // 省略部分代码 
        
         } 
        
         NLineInputFormat是一个很有意思的FileInputFormat的子类，有时间可以了解一下。

5. PathFilter

PathFilter文件筛选器接口，使用它我们可以控制哪些文件要作为输入，哪些不作为输入。PathFilter有一个accept(Path)方法，当接收的Path要被包含进来，就返回true，否则返回false。可以通过设置mapred.input.pathFilter.class来设置用户自定义的PathFilter。

 
         public  
         interface  
         PathFilter { 
        
         /** 
        
         * Tests whether or not the specified abstract pathname should be 
        
         * included in a pathname list. 
        
         * 
        
         * @param  path  The abstract pathname to be tested 
        
         * @return  <code>true</code> if and only if <code>pathname</code> 
        
         *          should be included 
        
         */ 
        
         boolean  
         accept(Path path); 
        
         }

FileInputFormat类有hiddenFileFilter属性：

 
         private  
         static  
         final  
         PathFilter hiddenFileFilter =  
         new  
         PathFilter() { 
        
         public  
         boolean  
         accept(Path p) { 
        
         String name = p.getName(); 
        
         return  
         !name.startsWith( 
         "_" 
         ) && !name.startsWith( 
         "." 
         ); 
        
         } 
        
         };

hiddenFileFilter过滤掉隐藏文件。

FileInputFormat类还有一个内部类：

 
         private  
         static  
         class  
         MultiPathFilter  
         implements  
         PathFilter { 
        
         private  
         List<PathFilter> filters; 
        
         public  
         MultiPathFilter(List<PathFilter> filters) { 
        
         this 
         .filters = filters; 
        
         } 
        
         public  
         boolean  
         accept(Path path) { 
        
         for  
         (PathFilter filter : filters) { 
        
         if  
         (!filter.accept(path)) { 
        
         return  
         false 
         ; 
        
         } 
        
         } 
        
         return  
         true 
         ; 
        
         } 
        
         }

MultiPathFilter类类似于一个PathFilter代理，其内部有一个PathFilter list属性，只有符合其内部所有filter的路径，才被作为输入。在FileInputFormat类中，它被listStatus()方法调用，而listStatus()又被getSplits()方法调用来获取输入文件，也即实现了在获取输入分片前进行文件过滤。

至此，我们已经利用PathFilter过滤了文件，利用FileInputFormat 的getSplits方法，计算出了Mapreduce的Map的InputSplit。作业的输入分片有了，而这些分片，是怎么被Map读取的呢？

这由InputFormat中的另一个方法createRecordReader()来负责。FileInputFormat没有对于这个方法的实现，而是交给子类自行去实现它。

6. RecordReader

RecordReader将读入到Map的数据拆分成<key, value>对。RecordReader也是一个抽象类，下面我们通过源码看一下，RecordReader主要做哪些工作：

 
         public  
         abstract  
         class  
         RecordReader<KEYIN, VALUEIN>  
         implements  
         Closeable { 
        
         /** 
        
         * 由一个InputSplit初始化 
        
         */ 
        
         public  
         abstract  
         void  
         initialize(InputSplit split, TaskAttemptContext context) 
        
         throws  
         IOException, InterruptedException; 
        
         /** 
        
         * 顾名思义，读取分片下一个<key, value>对 
        
         */ 
        
         public  
         abstract  
         boolean  
         nextKeyValue()  
         throws  
         IOException, 
        
         InterruptedException; 
        
         /** 
        
         * Get the current key 
        
         */ 
        
         public  
         abstract  
         KEYIN getCurrentKey()  
         throws  
         IOException, 
        
         InterruptedException; 
        
         /** 
        
         * Get the current value. 
        
         */ 
        
         public  
         abstract  
         VALUEIN getCurrentValue()  
         throws  
         IOException, 
        
         InterruptedException; 
        
         /** 
        
         * 跟踪读取分片的进度 
        
         */ 
        
         public  
         abstract  
         float  
         getProgress()  
         throws  
         IOException, 
        
         InterruptedException; 
        
         /** 
        
         * Close the record reader. 
        
         */ 
        
         public  
         abstract  
         void  
         close()  
         throws  
         IOException; 
        
         }

从源码可以看出，一个RecordReader主要来完成这几项功能。接下来，通过一个具体的RecordReader实现类，来详细了解一下各功能的具体操作。

 
         public  
         class  
         LineRecordReader  
         extends  
         RecordReader<LongWritable, Text> { 
        
         private  
         CompressionCodecFactory compressionCodecs =  
         null 
         ; 
        
         private  
         long  
         start; 
        
         private  
         long  
         pos; 
        
         private  
         long  
         end; 
        
         private  
         LineReader in; 
        
         private  
         int  
         maxLineLength; 
        
         private  
         LongWritable key =  
         null 
         ; 
        
         private  
         Text value =  
         null 
         ; 
        
         // initialize函数即对LineRecordReader的一个初始化 
        
         // 主要是计算分片的始末位置，打开输入流以供读取K-V对，处理分片经过压缩的情况等 
        
         public  
         void  
         initialize(InputSplit genericSplit, TaskAttemptContext context) 
        
         throws  
         IOException { 
        
         FileSplit split = (FileSplit) genericSplit; 
        
         Configuration job = context.getConfiguration(); 
        
         this 
         .maxLineLength = job.getInt( 
         "mapred.linerecordreader.maxlength" 
         , 
        
         Integer.MAX_VALUE); 
        
         start = split.getStart(); 
        
         end = start + split.getLength(); 
        
         final  
         Path file = split.getPath(); 
        
         compressionCodecs =  
         new  
         CompressionCodecFactory(job); 
        
         final  
         CompressionCodec codec = compressionCodecs.getCodec(file); 
        
         // 打开文件，并定位到分片读取的起始位置 
        
         FileSystem fs = file.getFileSystem(job); 
        
         FSDataInputStream fileIn = fs.open(split.getPath()); 
        
         boolean  
         skipFirstLine =  
         false 
         ; 
        
         if  
         (codec !=  
         null 
         ) { 
        
         // 文件是压缩文件的话，直接打开文件 
        
         in =  
         new  
         LineReader(codec.createInputStream(fileIn), job); 
        
         end = Long.MAX_VALUE; 
        
         }  
         else  
         { 
        
         // 
        
         if  
         (start !=  
         0 
         ) { 
        
         skipFirstLine =  
         true 
         ; 
        
         --start; 
        
         // 定位到偏移位置，下次读取就会从便宜位置开始 
        
         fileIn.seek(start); 
        
         } 
        
         in =  
         new  
         LineReader(fileIn, job); 
        
         } 
        
         if  
         (skipFirstLine) {  
         // skip first line and re-establish "start". 
        
         start += in.readLine( 
         new  
         Text(),  
         0 
         , 
        
         ( 
         int 
         ) Math.min(( 
         long 
         ) Integer.MAX_VALUE, end - start)); 
        
         } 
        
         this 
         .pos = start; 
        
         } 
        
         public  
         boolean  
         nextKeyValue()  
         throws  
         IOException { 
        
         if  
         (key ==  
         null 
         ) { 
        
         key =  
         new  
         LongWritable(); 
        
         } 
        
         key.set(pos); 
         // key即为偏移量 
        
         if  
         (value ==  
         null 
         ) { 
        
         value =  
         new  
         Text(); 
        
         } 
        
         int  
         newSize =  
         0 
         ; 
        
         while  
         (pos < end) { 
        
         newSize = in.readLine(value, maxLineLength, 
        
         Math.max(( 
         int 
         ) Math.min(Integer.MAX_VALUE, end - pos), 
        
         maxLineLength)); 
        
         // 读取的数据长度为0，则说明已读完 
        
         if  
         (newSize ==  
         0 
         ) { 
        
         break 
         ; 
        
         } 
        
         pos += newSize; 
        
         // 读取的数据长度小于最大行长度，也说明已读取完毕 
        
         if  
         (newSize < maxLineLength) {

你可能感兴趣的:([Hadoop源码详解]之一MapReduce篇之InputFormat)

参考图像分割Referring Image Segmentation（RIS）和开放词汇语义分割Open Vocabulary Semantic Segmentation 余弦的倒数深度学习 CV 笔记计算机视觉深度学习
一、参考图像分割基本概念：ReferringImageSegmentation（RIS）是一种图像分割技术，旨在根据自然语言表达来标记图像或视频中表示对象实例的像素。也就是根据自然语言描述来实现图像分割。旨在根据自然语言表达来标记图像或视频中的特定区域。在给定描述区域的自然语言文本的情况下，RIS需要在图像中找到相应的区域。这个任务是众所周知的具有挑战性的视觉和语言任务之一。RIS需要收集目标区域
TCP/IP 网络协议栈传输层详解 wespten 网络协议栈网络设备 5G 物联网网络工具开发网络协议 tcp/ip 网络
传输层（TransportLayer）是OSI协议的第四层协议，是唯一负责总体的数据传输和数据控制传输层的一层协议。传输层提供端到端的交换数据机制，它不仅对会话层、表示层和应用层这高三层提供可靠的传输服务，还对网络层提供可靠的目的地站点信息。1、传输层概述网际层提供了主机之间的逻辑通道，即通过寻址的方式，把数据包从一个主机发到另一个主机上。如果一个主机有多个进程同时在使用网络连接，那么数据包到达主
银河麒麟--aarch64 编译安装Qt5.9.9+QtCreator4.8.2 mastlw 学习记录 qt 开发语言 arm kylin
银河麒麟aarch64编译安装Qt5.9.9+QtCreator4.8.21.Qt5.9.9编译安装1.1下载Qt5.9.9源码1.2确保系统中g++,gcc,python,perl及环境符合安装要求1.3编译与安装2.QtCreator编译安装2.1下载Qt-Creator-4.8.2源码2.2编译与安装1.Qt5.9.9编译安装目前在银河麒麟V10arm处理器下编译安装后可用的最高版本是Qt5
深度学习之基于Django+YOLOv5商标识别 Q1744828575 python plotly python
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在数字化时代，商标作为企业的重要资产，其保护和管理显得尤为重要。然而，传统的商标识别方法往往依赖于人工审查，效率低下且容易出错。随着深度学习技术的不断发展，尤其是目标检测领域的进步，自动化、高精度的商标识别成为可能。本项目旨在利用DjangoWeb框架和YOLO
WebSocket 详解：全双工通信的实现与应用 Future_yzx websocket 网络协议网络
目录一、什么是WebSocket？（简介）二、为什么需要WebSocket？三、HTTP与WebSocket的区别WebSocket的劣势WebSocket的常见应用场景WebSocket握手过程WebSocket事件处理和生命周期一、什么是WebSocket？（简介）WebSocket是一种在单个TCP连接上进行全双工通信的协议。它使得客户端和服务器之间的数据交换变得更加简单，允许服务器主动向客
SpringBoot 多租户架构，轻松驾驭复杂业务场景！喵手零基础学Java spring boot 架构后端
全文目录：开篇语前言摘要概述多租户架构的定义SpringBoot的多租户支持源码解析使用案例分享应用场景案例优缺点分析优点缺点核心类方法介绍测试用例小结总结文末开篇语哈喽，各位小伙伴们，你们好呀，我是喵手。运营社区：C站/掘金/腾讯云/阿里云/华为云/51CTO；欢迎大家常来逛逛今天我要给大家分享一些自己日常学习到的一些知识点，并以文字的形式跟大家一起交流，互相学习，一个人虽可以走的更快，但一
Dubbo 支持分布式事务吗？思维导图代码示例（java 架构) 用心去追梦 dubbo 分布式 java
Dubbo本身并不直接提供分布式事务的支持，但可以通过集成其他分布式事务解决方案来实现。常见的分布式事务管理方案包括TCC（Try-Confirm-Cancel）、Saga、XA和基于消息的事务等。在Dubbo应用中，最常用的分布式事务框架之一是Seata（以前称为Fescar），它提供了对多种分布式事务模式的支持。思维导图概述Dubbo分布式事务概念分布式系统中确保多个服务之间的操作要么全部成功
C#开发人员学习书籍推荐 Lu01 .net 学习 python
作为一名C#开发人员，持续学习和提升自己的技术水平是至关重要的。如今，技术不断更新换代，新的开发框架、语言和工具层出不穷。对于刚入行的开发者或希望深入某一领域的工程师来说，选对书籍是学习的捷径之一。本篇文章将推荐一些经典的书籍，涵盖了C#、数据库、前端开发等多个领域，帮助你在开发的道路上不断进步。1.学习SQL基础推荐书籍：《SQL必知必会（第5版）》作者：[美]本·福达（BenForta）译者：
【gopher的java学习笔记】代码分层之controller和service ThisIsClark gopher的java学习笔记 java 学习笔记
在Java的Web开发中，Controller层和Service层是两个至关重要的层次，它们各自承担着不同的职责，共同协作以实现复杂的应用程序功能。本文将详细介绍Java中Controller层和Service层的技术特点和作用。一、Controller层（控制层）Controller层是应用程序的入口点，负责接收用户的请求并处理。它通常处理来自前端或客户端的请求，并将请求转发给相应的Servic
C++11新特性之连续右尖括号（＞＞）改进画个逗号给明天" c++开发语言
1.介绍在C++11之前的泛型编程中，模版实例化有个很繁琐的地方，那就是连续右尖括号（>>）会被编译器解释为右移操作符，而不是模版参数表的结束。例如：templatestructFun{typedefTtype;};templateclassA{...};intmain(void){Fun>::typexx;//编译出错return0;}这种嵌套模版在编译过程中会出现错误，因为不支持Fun>这种写
K8S中高级存储之PV和PVC 元气满满的热码式 kubernetes 容器云原生
高级存储PV和PVC由于kubernetes支持的存储系统有很多，要求客户全都掌握，显然不现实。为了能够屏蔽底层存储实现的细节，方便用户使用，kubernetes引入PV和PVC两种资源对象。PV（PersistentVolume）PV是Kubernetes中的一个API对象，它代表集群中的一块存储，这块存储已经预先按照某种方式设置好了，并且可以被多个用户使用。PV是集群资源，由Kubernete
【llm对话系统】大模型RAG之基本逻辑 kakaZhui 人工智能数据库 AIGC chatgpt llama
大模型RAG之基本逻辑：让LLM更精准地回答你的问题（降低幻觉）你是否遇到过这样的情况：当你向LLM提问时，它可能会给出一些“一本正经胡说八道”的答案，或者无法回答一些特定领域的专业问题？为了解决这个问题，RAG(Retrieval-AugmentedGeneration，检索增强生成)技术应运而生。RAG将检索(Retrieval)和生成(Generation)结合起来，让LLM在回答问题时，能
温度虽寒，其道犹变：OpenAI接口之温度参数设置为0，为何每次回复仍有不确定性？凌漪_ 大模型 openai 采样
问题描述调用openaiAPI，使用templature=0，每次返回的内容仍有一些不同>>>client=OpenAI(...api_key=api_key,...base_url=api_base)#第一次尝试>>>response=client.chat.completions.create(model='gpt-3.5-turbo',messages=[{"role":"user","co
K8s存储之配置存储 Herry_644280825 kubernetes K8s端口&存储技术 kubernetes
1.配置存储配置存储包括ConfigMap和Secrect。1.1ConfigMapConfigMap是K8s中的一种API对象，用于存储非敏感的配置数据，存储简单的键值对或者一组文件。单个ConfigMap的数据量不能超过1MB，适合存储小规模的配置信息‌。（1）配置清单字段说明apiVersion:v1说明:指定ConfigMap的API版本。在这个例子中，我们使用的是KubernetesAP
深入浅出讲解JavaWeb后端的三层架构：Controller、Service、DAO 以及详解结合MyBatis和XML映射的DAO层设计给我吃茄子 Java后端开发三层架构 MyBatis 架构 java 后端 spring mybatis xml intellij-idea
目录1.控制层（Controller）(1)职责及作用(2)实现（3）总结2.服务层（Service）（1）职责与作用（2）实现（3）总结3.数据访问层（DAO）（1）职责及作用（2）实现（3）总结4.各层之间的关系5.三层架构的优势6.实际项目中的应用7.总结——三层架构1.MyBatis简介2.DAO层职责回顾3.DAO层结合MyBatis和XML映射的设计（1）项目结构（2）创建实体类（3）
Linux基础12-C语言篇之基本结构【入门级】 kk努力学编程 linux c语言运维
C语言基础c语言的基本结构一个简单的c语言程序功能：要求在控制台输出"helloworld!"/*************************************************************************>FileName:demo01.c>Author:xxx>Description:>CreatedTime:2025年01月20日星期一11时02分17秒*
K8S中数据存储之配置存储元气满满的热码式 kubernetes 容器云原生
配置存储在Kubernetes中，ConfigMap和Secret是两种核心资源，用于存储和管理应用程序的配置数据和敏感信息。理解它们的功能和最佳实践对于提高Kubernetes应用程序的安全性和配置管理的效率至关重要。ConfigMapConfigMap是一种API对象，允许你存储非敏感配置数据，如环境变量、数据库URL等。它以键值对的形式存储数据，便于应用程序访问必要的配置。ConfigMap
【Python知行篇】代码的曼妙乐章：探索数据与逻辑的和谐之舞 hope kc python 开发语言
Python学习指南Python是一种功能强大且易于学习的编程语言，广泛应用于数据分析、Web开发、机器学习等多个领域。本文将详细介绍如何学习Python，并涵盖从基础语法到高级应用的多个方面。每个部分都有代码示例，以帮助读者更好地理解并实践所学内容。目录Python基础面向对象编程数据结构与算法Python标准库数据分析和可视化Web开发基础机器学习初步Python优化技巧总结Python基础学
软考高级系统架构设计师系列之：分布式存储技术快乐骑行^_^ 软考高级系统架构设计师考试软考高级系统架构设计师系列分布式存储技术
软考高级系统架构设计师系列之：分布式存储技术一、分布式存储技术及其实现机制二、分布式存储系统设计中的冗余技术三、常见的缓存工作模式和适应场景四、NOSQL一、分布式存储技术及其实现机制简要说明在分布式存储系统架构设计中所使用的分布式存储技术及其实现机制，详细叙述你在具体项目中选用了哪种分布式存储技术，说明其原因和实施效果。分布式存储技术集群存储技术。集群存储系统是指架构在一个可扩充服务器集群中的文
咱们一起学C++第十一篇：之深入剖析面向对象项目设计阶段一杯年华@编程空间咱们一起学习C++tomcat hibernate spring intellij-idea spring cloud spring boot c++
咱们一起学C++第十一篇：之深入剖析面向对象项目设计阶段在C++学习的道路上，我们始终携手前行，共同探索编程的奥秘。此前，我们对项目分析阶段有了较为深入的了解，今天，我们将继续深入探讨面向对象项目开发中的设计阶段，这是将项目需求转化为实际代码架构的关键环节，对于构建高质量、可维护的软件系统具有举足轻重的作用。一、用例：系统需求的核心体现（一）用例生成需求规范说明用例在项目开发中扮演着至关重要的角色
【Python】Python参数详解 EulerBlind 语言工具 python 开发语言
目录Python参数种类Python参数定义不定参数接收限定传入参数方式具体示例位置参数示例关键词参数示例两种方法都支持的形式参数默认值（可选参数）参数默认值定义引用类型默认值异常行为参数类型声明参数类型定义申明函数返回值类型声明参数与装饰器Python参数种类总体来看，Python支持两种类型的方法参数，其类型分别为：位置参数（PositionalParameters）关键词参数（Keyword
PVE虚拟化平台之开启温度显示方法江湖有缘虚拟化 PVE linux 虚拟化
PVE虚拟化平台之开启温度显示方法一、PVE平台介绍1.1PVE简介1.2PVE特点1.3PVE主要使用场景二、本次实践介绍2.1环境介绍2.2本次实践简介2.3检查PVE状态三、pvetools介绍3.1pvetool简介3.2功能概览四、使用pvetools工具4.1下载pvetools项目4.2执行脚本五、一键安装脚本（可选）六、刷新PVE页面七、总结一、PVE平台介绍1.1PVE简介Pro
一套专业的医院实验室信息管理系统源码，.Net检验系统LIS源码，源码世界人工智能源码 LIS 检验系统实验室程序代码
一套专业的医院实验室信息管理系统，包含检验标本采集系统、条码管理系统、常规报告、微生物报告、镜检报告、质控管理系统、消息与通知管理系统、危急值管理、检验周期TAT监控管理、查询统计分析管理、主任办公管理、试剂耗材管理、等多个模块，是医院、临床检验中心开展检验业务的得力助手。同时将检验工作的整个流程置于计算机的实时监控之中，从而更有效地利用人力资源，为患者提供优质医疗服务，提升实验室整体管理水平。实
Unity-c#-协程 BuHuaX unity c#游戏引擎开发语言
Unity协程（Coroutine）详解1.协程基础概念1.1什么是协程？协程是Unity中一种特殊的程序执行方式，它允许我们将一个长时间的操作分散到多个帧中执行，而不是在一帧内完成所有操作。可以将协程理解为一种"能够暂停执行"的函数。与普通函数相比，协程具有以下特点：可暂停性：可以在执行过程中暂停可以在特定条件下恢复执行不会阻塞主线程延时执行：可以等待指定时间后继续执行可以等待某个条件满足后继续
详解AI采集框架Crawl4AI，打造智能网络爬虫朝阳区靓仔_James 人工智能爬虫神经网络深度学习 prompt 3d
使用Crawl4AI构建高效AI爬虫与数据提取工具。1介绍Crawl4AI这个开源Python库，专门用来简化网页爬取和数据提取的工作。它不仅功能强大、灵活，而且全异步的设计让处理速度更快，稳定性更好。无论是构建AI项目还是提升语言模型的性能，Crawl4AI都能帮您简化工作流程。你可以直接在Python项目中使用，或者将其集成到RESTAPI中，实现快速、稳定的数据爬取和处理。这样，无论是数据的
【Linux】Socket编程-TCP构建自己的C++服务器 Zfox_ Linux 服务器 linux tcp/ip c++c语言
个人主页：Zfox_系列专栏：Linux目录一：Socket编程TCPTCPsocketAPI详解多线程远程命令执行网络版计算器（应用层自定义协议与序列化）二：共勉一：Socket编程TCPTCPsocketAPI详解下面介绍程序中用到的socketAPI,这些函数都在sys/socket.h中socket#include#include//创建socket文件描述符(TCP/UDP,客户端+服务
Android13源码下载和编译过程详解龙之叶 android ubuntu linux
前言作为Android开发者人人都应该有一份自己Android源码,这样我们就可以随时对自己有疑惑的地方通过亲手调试来加强理解一源码下载1.1配置要求官方推荐配置请参考：AOSP使用入门文档，重点有如下几项：1.1.1硬件配置要求至少需要250GB可用磁盘空间；如果要进行构建，则还需要150GB。如果要进行多次构建，则需要更多空间。磁盘至少250GB，实测建议至少512G。1.1.2软件要求推荐使
实现一个安全且高效的图片上传接口：使用ASP.NET Core和SHA256哈希黄同学real C#后端开发 .net 安全 asp.net 哈希算法
实现一个安全且高效的图片上传接口：使用ASP.NETCore和SHA256哈希在现代Web应用程序中，图片上传功能是常见的需求之一。无论是用户头像、产品图片还是文档附件，确保文件上传的安全性和效率至关重要。本文将详细介绍如何使用ASP.NETCore构建一个安全且高效的图片上传接口，并介绍如何利用SHA256哈希算法避免重复文件存储。项目背景我们的目标是创建一个图片上传接口，支持以下特性：支持多种
深度学习-70-大语言模型LLM之基于大模型LLM与检索增强技术RAG的智能知识库皮皮冰燃深度学习人工智能深度学习语言模型
文章目录1RAG出现的背景2搭建过程2.1数据收集2.2数据处理2.2.1数据清洗与预处理2.2.2文本分块2.2.3微调数据格式统一2.3建立向量索引2.4大模型选择与微调3开源知识库项目3.1FastGPT3.2AnythingLLM3.3LangChain-Chatchat4商业化解决方案4.1百度智能云+千帆大模型知识库4.2阿里云PAI+向量检索5参考附录1RAG出现的背景自从2022年
The Simulation技术浅析（二）：模型技术爱研究的小牛 AIGC—虚拟现实算法人工智能 AIGC 机器学习深度学习
一、物理模型（PhysicalModels）1.概述物理模型基于物理定律和原理，通过模拟现实世界中物理系统的行为和相互作用来构建模型。物理模型通常用于工程、物理和化学等领域，用于预测系统在不同条件下的表现。2.关键技术力学定律：例如牛顿运动定律，用于模拟物体的运动和受力情况。流体力学：例如纳维-斯托克斯方程，用于模拟流体流动。热力学定律：例如热传导方程，用于模拟热量传递。3.过程模型公式及案例详解
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f