北方客

HDFS分布式文件系统资源管理器开发总结

HDFS，全称Hadoop分布式文件系统，作为Hadoop生态技术圈底层的关键技术之一，被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点，但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在连接的机器上。HDFS能够提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

笔者本人接触研究HDFS也有半年之久了，了解了HDFS Java API接口后，就一直设想着设计一个类似于Windows操作系统上的资源管理器一样的小工具，用来管理分布式文件资源。其实，Hadoop Web UI和HUE都自带有WEB版本的分布式文件浏览器，但是在文件信息管理方面不够讨人喜欢，可能笔者本人习惯了Windows上的资源管理器那样的操作习惯。于是利用闲暇时间，经过几个月断断续续的设计完善，最终开发出了一个类似Windows资源管理器一样的管理工具，暂且就叫做“HDFS分布式文件资源管理器”，现在把设计思路过程总结一下，贴在网络上，希望能够对感兴趣的朋友们有所帮助。成型后的资源管理器界面如下图所示：

朋友们可以看出来，笔者本人是采用Eclipse+Swing方式进行开发设计的，界面上没有动用第三方的UI组件，所以看起来稍显朴素，不过这都不是重点，关键是它在Windows和Linux下都运行良好，为笔者进行分布式文件管理提供了大大的便利。

1. 开发过程概述

笔者先大致讲述下此工具的开发过程。

第一步是封装了一下HDFS Java API接口。对组件系统提供的API接口方法进行二次封装好像已经成为了笔者本人的习惯了，如果不能按照自己的软件开发习惯调用接口方法，就总是感觉怪怪的。

第二步是功能模块设计。功能模块梳理比较轻松，一是因为自己的需求比较明确，二是因为有Windows资源管理器可以做参考。梳理后的主要功能包括几点：

目录导航树。类似Window资源管理器左侧的目录导航树。
目录文件列表。以JTable列表展示目录文件信息，类似于Windows资源管理器的List视图。
创建、重命名和删除目录。
重命名和删除文件。
上传文件（没有提供新建文件的功能）。
下载文件。
移动目录文件。
查看目录文件属性。
目录文件权限配置。

2. HDFS Java API二次封装

对HDFS Java API进行二次封装，并不仅仅是为了设计开发HDFS分布式文件系统资源管理器，还要尽量考虑日后针对HDFS的其他后续开发，所以在封装的时候，尽量让自己目光看的远一些。

封装编译后的jar文件命名为hnepri-hadoop-common.jar，里面也包含有针对HBase Java API的二次封装接口方法，所以命名为hadoop-common包，特此说明下。下图是开发工程结构图：

主要包括两个工具类文件：HadoopConfigUtil和HadoopFileUtil。其中，HadoopConfigUtil为HDFS配置管理类，负责与Hadoop建立连接和信息配置；HadoopFileUtil为HDFS文件目录操作工具类。

2.1. HadoopConfigUtil

HDFS的核心配置文件是core-site.xml和hdfs-site.xml，构建Configuration对象时读取这两个配置文件即可，如果有其他的自定义配置信息，可以将其配置在hadoop.config.properties文件。

另外需要特别强调的是，在Windows下利用API接口方法操作HDFS时会遇到权限认证的问题，类似“Permission denied: user=XXXXX,access=WRITE,inode=......”等一样的错误。这主要是由于当前用户与HDFS默认用户不一致所造成的，针对这种情况，有三种解决方案：

第一、在hdfs配置文件中，将dfs.permissions修改为false，即取消HDFS的安全权限认证机制。

第二、在hdfs文件系统中为指定目录赋予当前用户操作的权限，譬如执行hadoop fs -chmod 777 /user/hadoop等。

第三、在环境变量中创建HADOOP_USER_NAME选项，其值为HDFS对应的用户名称，譬如hadoop或者hdfs，然后重新启动计算机和Eclipse以使环境变量生效。

针对开发人员而言，我们推荐第三种解决方案。配置方法参考下图：

以下为HadoopConfigUtil类详细信息。

import java.io.File;
import java.util.HashMap;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.hdfs.DistributedFileSystem;
import com.hnepri.common.util.PropertiesUtil;
/**
 * Description: Hadoop信息配置工具类<br>
 * Copyright: Copyright (c) 2015<br>
 * Company: 河南电力科学研究院智能电网所<br>
 * @author shangbingbing 2015-01-01编写
 * @version 1.0
 */
public class HadoopConfigUtil {
    /**
     * 加载解析Hadoop自定义配置信息。<br>
     * 需在系统启动时调用此方法加载自定义配置信息，否则将采用默认配置或者无法连接Hadoop。
     */
    public static void loadHadoopConfigProperties() {
        String path = "hadoop.config.properties";
        HashMap<String,String> pps = PropertiesUtil.readProperties(path);
        HadoopConfigUtil.setHadoopConfigItemList(pps);
    }
    private static Configuration conf = null;
    /**
     * hadoop配置信息列表,其中key中存储参数名称,譬如master.hadoop；value中存储参数值,譬如master.hadoop:9000等
     */
    private static HashMap<String,String> hadoopConfigItemList = new HashMap<String,String>();
    /**
     * 获取hadoop配置信息列表
     * @return
     */
    public static HashMap<String, String> getHadoopConfigItemList() {
        return hadoopConfigItemList;
    }
    /**
     * 设置hadoop配置信息列表
     * @param hadoopConfigItemList
     */
    public static void setHadoopConfigItemList(HashMap<String, String> hadoopConfigItemList) {
        HadoopConfigUtil.hadoopConfigItemList = hadoopConfigItemList;
    }
    /**
     * 添加hadoop配置信息
     * @param key
     * @param value
     */
    public static void addHadoopConfigItem(String key,String value) {
        if(hadoopConfigItemList.containsKey(key)) {
            hadoopConfigItemList.remove(key);
        }
        hadoopConfigItemList.put(key, value);
    }
    /**
     * 删除hadoop配置信息
     * @param key
     */
    public static void removeHadoopConfigItem(String key) {
        if(hadoopConfigItemList.containsKey(key)) {
            hadoopConfigItemList.remove(key);
        }
    }
    /**
     * 获取Hadoop Configuration对象
     * @return
     */
    public static Configuration getHadoopConfig() {
        if(conf == null) {
            conf = new Configuration();
            try {
                //解决winutils.exe不存在的问题
                File workaround = new File(".");
                System.getProperties().put("hadoop.home.dir", workaround.getAbsolutePath());
                new File("./bin").mkdirs();
                new File("./bin/winutils.exe").createNewFile();
                conf.addResource("core-site.xml");
                conf.addResource("hdfs-site.xml");
                //初始化设置zookeeper相关配置信息
                if(hadoopConfigItemList != null && hadoopConfigItemList.size() > 0) {
                    for(String key : hadoopConfigItemList.keySet()) {
                        String value = hadoopConfigItemList.get(key);
                        conf.set(key, value);
                    }
                }
            }
            catch (Exception ex) {
                System.out.println(ex.toString());
            }
        }
        return conf;
    }
    /**
     * 刷新重置Hadoop配置对象
     */
    public static void initHadoopConfig() {
        conf = null;
    }
    private static FileSystem fileSystem = null;
    /**
     * 获取FileSystem文件系统对象
     * @return
     */
    public static FileSystem getFileSystem() {
        if(fileSystem == null) {
            try {
                fileSystem = FileSystem.get(getHadoopConfig());
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
        return fileSystem;
    }
    /**
     * 获取HDFS文件系统对象
     * @return
     */
    public static DistributedFileSystem getHDFS() {
        return (DistributedFileSystem)getFileSystem();
    }
}

2.2. HadoopFileUtil

在HadoopFileUtil工具类文件中，主要包括本地目录文件和HDFS目录文件的操作接口方法，这里不再罗列详细的实现代码，笔者本人会以附件的形式将代码文件贴在文章后面，有需要的朋友请自行下载查看。这里对接口方法简单分类整理下。

1) 创建目录

创建HDFS目录。
根据本地目录结构在HDFS中创建对应的目录结构。
根据HDFS目录结构在本地创建对应的目录结构。

2) 复制目录文件

将本地文件复制（上传）到HDFS指定目录中。
将HDFS文件复制（下载）到本地指定目录中。
将本地目录文件按照目录结构复制（上传）到HDFS文件系统中。
将HDFS目录文件按照目录结构复制（下载）到本地文件系统中。

3) 重命名目录文件

重命名HDFS目录名称。
重命名HDFS文件名称。

4) 删除目录文件

删除HDFS文件。
删除HDFS目录及子目录和文件。

5) 获取HDFS目录文件

获取目录信息列表。
获取文件信息列表。
获取目录文件尺寸信息。
获取目录文件权限信息。

3. 功能模块设计

3.1 左侧目录导航树

利用JTree组件构建一个目录导航树是一件很容易的事情，不过需要注意的是，当HDFS文件系统中目录数量和层级较多时，该如何加载显示它们。通常有两种方式，一是一次性加载显示所有目录，这可能比较耗时，当然如果另外启动一个线程的话，在页面上也不会出现明显的阻塞。二是逐级加载显示目录，当用户点击某个目录时，系统才开始加载其下的子目录信息。

另外一个需要注意的细节，就是JTree目录树的刷新问题，当新建、重命名或者删除目录时，需要刷新JTree目录树，理想的方法是只刷新相关的JTree分支，而不是每次都刷新整棵目录树。

HDFS文件系统的根目录路径是“/”，不过笔者本人在设计这个资源管理器时，并没有固定采用默认根目录路径，而是提供了可自定义的根目录路径接口，为什么要这样呢？因为我们考虑到日后要将此资源管理器组件嵌入到其他的窗口系统中，并可根据不同用户组权限分配设置不同的起始根目录，譬如，对于admin系统管理员等角色，根目录路径为”/”，对于hdfs角色用户，根目录路径则为“/user/hdfs”，依次类推，等等等等。效果图如下所示：

3.2 右侧目录文件列表

利用JTable组件构建右侧的目录文件列表，用不同的图标来区分文件和目录，列表中显示的内容包括：目录文件名称、文件大小、目录文件权限、所属用户、所属用户组、创建（修改）时间等。与Windows的资源管理器类似，系统不会显示目录大小信息，这是因为统计目录大小是一件比较耗时的工作。

在列表中双击目录行时，系统将打开进入此目录。但双击文件行时，系统将不执行任何操作。在这一点，朋友们可以根据自己的需要自行开发设计。

目录文件的权限信息格式与linux系统中的目录文件权限信息格式类似，HDFS Java API提供有接口方法获取和设置权限信息，笔者本人编写了一个方法，专门用来解析获取目录文件的权限信息，代码如下：

/**
 * 解析文件权限信息
 * @param fs
 * @return
 */
public static String getFilePermissionInfo(FileStatus fs) {
    String fileType = "-";
    if(fs.isDirectory()) {
        fileType = "d";
    } else if (fs.isSymlink()) {
        fileType = "l";
    }
    
    return fileType + fs.getPermission().toString();
}

3.3 管理目录文件

创建目录、重命名目录以及重命名文件的代码都比较简单明了，这里不再赘述，下面只贴出来几张效果图供朋友们参考。当删除目录时，需要先删除目录中的文件，然后才能删除目录，也就是说，HDFS是不允许直接删除非空目录的。

3.4 移动目录文件

移动目录文件其实是重命名目录文件的变相操作，是在保持目录文件名称不变的同时改变下目录文件路径而已。当移动一个目录时，会同时移动此目录下的所有子目录和文件。譬如移动某个文件，示例代码如下：

Path srcPath = new Path("/user/hdfs/2015/10/10.dat");
Path dstPath = new Path("/user/hdfs/2014/08/10.dat");
HadoopConfigUtil.getFileSystem().rename(srcPath, dstPath);

移动目录文件有两种操作方式，一是先打开目录导航树，选择目标目录，然后移动，如下图所示；二是直接在目录文件列表区域拖动要移动的目录文件到左侧目录导航树上，完成移动。

3.5 上传目录文件

上传目录文件，是指在本地文件系统中选择目录文件，将其上传到HDFS系统中。如果上传的是文件，则直接将其上传到HDFS指定目录中即可；如果上传的是目录，则需要根据本地目录结构在HDFS系统中构建对应的目录结构，然后将文件上传到对应的目录中。

HDFS文件系统中存储的一般都是大文件数据，因此在上传或者下载的时候必须有进度提醒。

下面，笔者将采用截图、代码的形式讲解下目录文件上传的大致流程。

第一，选择本地文件系统中要上传的目录文件，可一次上传多个目录文件。

JFileChooser chooser = new JFileChooser();
chooser.setFileSelectionMode(JFileChooser.FILES_AND_DIRECTORIES);
chooser.setMultiSelectionEnabled(true);
chooser.showDialog(this, "选择目录或文件");
if(chooser.getSelectedFiles().length == 0) return;
File[] files = chooser.getSelectedFiles();

第二，解析已选择的本地文件，将它们罗列在JTable列表中，以方便上传监控。

第三，根据已选择的本地目录，在HDFS系统中构建对应的目录结构。

第四，循环读取JTable文件列表，逐个上传文件，并实时更新上传进度。关键代码如下所示：

new Thread(new Runnable() {
    @Override
    public void run() {
        int rowCount = tableModel.getRowCount();
        for(int i=0;i<rowCount;i++) {
            final int rowIndex = i;
            String localFilePath = tableModel.getValueAt(rowIndex, 1).toString();
            String hdfsFilePath = pathMappingList.get(localFilePath);
            
            InputStream in = null;
            OutputStream out = null;
            try {
                File localFile = new File(localFilePath);
                final int fileSize = (int)localFile.length();
                final int[] uploadSize = new int[1];
                final DecimalFormat df = new DecimalFormat("#");
                in = new BufferedInputStream(new FileInputStream(localFilePath));
                out = HadoopConfigUtil.getFileSystem().create(new Path(hdfsFilePath),new Progressable() {
                    public void progress() {
                        uploadSize[0] += 1024*64;
                        double dblPercent = (uploadSize[0] * 1.0 / fileSize) * 100;
                        String strPercent = df.format(dblPercent);
                        tableModel.setValueAt(strPercent + "%", rowIndex, 4);
                    }
                });
                IOUtils.copyBytes(in, out, 1024*64, true);
                tableModel.setValueAt("已上传", rowIndex, 4);
            } catch (Exception ex) {
                ex.printStackTrace();
            } finally {
                if(in != null) {
                    try {
                        in.close();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
                if(out != null) {
                    try {
                        out.close();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
            }
        }
    }
}).start();

上传效果图如下所示：

3.6 下载目录文件

下载目录文件，是指在HDFS文件系统中选择目录文件，将其下载到本地文件系统中。如果下载的是文件，则直接将其下载到本地指定目录中即可；如果下载的是目录，则需要根据HDFS系统目录结构在本地系统中构建对应的目录结构，然后将文件下载到对应的目录中。

下面，笔者将采用截图、代码的形式讲解下目录文件下载的大致流程。

第一，选择HDFS文件系统中要下载的目录文件，可一次下载多个目录文件。

第二，解析已选择的HDFS文件，将它们罗列在JTable列表中，以方便下载监控。

第三，根据已选择的HDFS目录，在本地文件系统中构建对应的目录结构。

第四，循环读取JTable文件列表，逐个下载文件，并实时更新下载进度。关键代码如下所示：

new Thread(new Runnable() {
    @Override
    public void run() {
        int rowCount = tableModel.getRowCount();
        for(int i=0;i<rowCount;i++) {
            String hdfsFilePath = tableModel.getValueAt(i, 1).toString();
            String localFilePath = pathMappingList.get(hdfsFilePath);
            Path path = new Path(hdfsFilePath);
            
            InputStream in = null;
            OutputStream out = null;
            try {
                FileStatus fs = HadoopConfigUtil.getFileSystem().getFileStatus(path);
                int fileSize = (int)fs.getLen();
                in = HadoopConfigUtil.getFileSystem().open(path, 1024);
                byte[] buffer = new byte[fileSize];
                int offset = 0;
                int numRead = 0;
                double dblPercent = 0;
                DecimalFormat df = new DecimalFormat("#");
                while(offset < buffer.length && (numRead = in.read(buffer,offset,buffer.length - offset)) >= 0) {
                    offset += numRead;
                    dblPercent = (offset * 1.0 / fileSize) * 100;
                    String strPercent = df.format(dblPercent);
                    tableModel.setValueAt(strPercent + "%", i, 4);
                }
                if(offset != buffer.length) {
                    throw new IOException("不能完整地读取文件 " + hdfsFilePath);
                }
                tableModel.setValueAt("已下载", i, 4);
                
                File localFile = new File(localFilePath);
                if(localFile.getParentFile().exists() == false) {
                    localFile.getParentFile().mkdirs();
                }
                out = new FileOutputStream(localFile);
                out.write(buffer);
                out.flush();
            } catch (Exception ex) {
                ex.printStackTrace();
            } finally {
                if(in != null) {
                    try {
                        in.close();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
                if(out != null) {
                    try {
                        out.close();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
            }
        }
    }
}).start();

下载效果图如下所示：

3.7 目录文件属性

此功能窗体用于查看目录文件的详细属性信息，对于目录，则会统计此目录所包含的子目录和文件数量，以及目录的总大小。效果图如下所示：

3.8 配置目录文件权限

配置目录文件权限是一个高级别的功能，一般只开放给管理员用户，普通用户是禁用的。权限配置分两部分：文件权限和用户权限。

文件权限配置代码如下所示：

int userPermission = 7;
int groupPermission = 6;
int otherPermission = 6;
String permissionInfo = userPermission + "" + groupPermission + "" + otherPermission;
for(String filePath : filePathList) {
    Path path = new Path(filePath);
    FsPermission permission = new FsPermission(permissionInfo);
    HadoopConfigUtil.getFileSystem().setPermission(path, permission);
}

用户权限配置代码如下所示：

String userName = this.txtOwner.getText();
String groupName = this.txtGroup.getText();
for(String filePath : filePathList) {
    Path path = new Path(filePath);
    HadoopConfigUtil.getFileSystem().setOwner(path, userName, groupName);
}

效果图如下所示：

4. HDFS-BROWSER编译运行文件

笔者以“/user/hdfs”为根目录路径，编译导出了一个简单版本的HDFS-BROWSER运行文件包，各位朋友可以下载试运行一下。当然，前提是你要有一个Hadoop集群才行（本地模式、伪集群都可以，只要有HDFS服务就行），并用你的集群配置文件core-site.xml和hdfs-site.xml进行替换；另外，笔者本人是用JDK7进行编译的。

本来想把所有的jar都一块打包算了，不过hadoop相关的jar包实在太多了，取舍又很不方便，所以只保留了几个笔者本人自己开发的jar包文件，其他jar文件都删除了，需要您手动把hadoop相关的jar包文件拷贝到lib目录中，这里给出相关jar包文件的清单截图，仅供参考，如果您有耐心的话，可以剔除不需要的jar包文件。

还有，记着在环境变量中设置HADOOP_USER_NAME=hdfs，不然会出现权限不足方面的错误。配置完毕后，双击bat文件就可以启动这个资源管理器了。

下载HDFS-Browser运行文件

作者：商兵兵

单位：河南省电力科学研究院智能电网所

QQ：52190634

主页：http://www.cnblogs.com/shangbingbing

空间：http://shangbingbing.qzone.qq.com

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
nfs服务搭建 GHope
nfs是什么？基哥度娘网络文件系统(NFS)是sun微系统最初开发的分布式文件系统协议,[1]允许客户端计算机上的用户通过计算机网络访问文件很像本地存储被访问。NFS与许多其他协议一样,在开放网络计算远程过程调用(很久以前RPC)系统上建立。NFS是在请求注释(RFC)中定义的开放标准,允许任何人实现协议。NFSNFS优势：节省本地存储空间，将常用的数据存放在一台NFS服务器上且可以通过网络访问，
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Microsoft Defender SmartScreen 阻止了无法识别的应用启动。运行此应用可能会导致你的电脑存在风险。开心呆哥 microsoft
你提到的情况可能是由于Windows的安全策略导致的。当你运行批处理文件（.bat）时，Windows可能会弹出一次提示，询问是否允许该文件执行。这是为了确保用户不会意外地运行潜在的恶意脚本。有几种方法可以解决这个问题：解锁文件：在文件资源管理器中，找到你的.bat文件。右键单击文件，选择"属性"。在"常规"选项卡中，如果有一个"解锁"复选框，请勾选它。确定并尝试重新运行文件。以管理员身份运行：右
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
操作sqlserver 抛出异常 CMemoryException weixin_30484247 数据库
恭喜一下自己，还在内存中打转；并且短时间出不来了。说打开sqlserver就发现内存一直涨没有停下来的势头，怀疑是sqlserver有内存泄露——其实这是sqlserver的机制，只要内存不大于设定的最大内存，sqlserver就不释放。那么为什么会出现CMemoryException？打开资源管理器，注意到此时sqlserver占1.6G，远程管理占700M，windows自身占1G，本身的数据
掌握检索技术：构建高效知识检索系统的架构与算法23 是小旭啊人工智能
在检索专业知识层需要涵盖更高级的检索技术，包括工程架构和算法策略。一、工程架构工程架构在构建检索系统中决定了系统的可扩展性、高可用性和性能。比如需要考虑的基本点：分布式架构：水平扩展：采用分布式架构，将检索任务分布到多个节点上，实现水平扩展。这可以通过将索引数据分片存储在不同的节点上，并使用分布式文件系统或对象存储来存储大规模的索引数据。任务分配：设计任务调度器，负责将查询请求分配到空闲的节点上进
掌握检索技术：构建高效知识检索系统的架构与算法21 是小旭啊人工智能
在检索专业知识层需要涵盖更高级的检索技术，包括工程架构和算法策略。一、工程架构工程架构在构建检索系统中决定了系统的可扩展性、高可用性和性能。比如需要考虑的基本点：分布式架构：水平扩展：采用分布式架构，将检索任务分布到多个节点上，实现水平扩展。这可以通过将索引数据分片存储在不同的节点上，并使用分布式文件系统或对象存储来存储大规模的索引数据。任务分配：设计任务调度器，负责将查询请求分配到空闲的节点上进
【HDFS】【HDFS架构】【HDFS Architecture】【架构】资源存储库 hdfs 架构 hadoop
目录1Introduction介绍2AssumptionsandGoals假设和目标HardwareFailure硬件故障StreamingDataAccess流式数据访问LargeDataSets大型数据集SimpleCoherencyModel简单凝聚力模型“MovingComputationisCheaperthanMovingData”“移动计算比移动数据更便宜”PortabilityAc
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hdfs启动流程 weixin_44352020 hadoop hdfs hadoop
Namenode1.init()namenode初始化，执行加载配置文件等操作2.loadFsImage()开始加载元数据将FsImage护额徐为目录树，保存在内存中FsImage中主要包含了问价你和数据块的对应关系3.loadEditlog()加载Editlog，将Editlog中记录的元数据修改应用到内存中；4.saveCheckpoint()将内存中最新的目录树持久化为新的FsImage到磁
hdfs开机启动流程鸭梨山大哎 hadoop hdfs
第一步：加载name目录下最新的那个fsimage_xxx019文件，将里面存储的元数据（目录树结构）维护到内存中，但是还不是关机前的状态第二步：将关机前的最后使用的edits_inprogress_xxxx0160进行重命名edits_0000000000000000160-0000000000000000169操作，然后生成一个最新的edits_inprogress_xxx170文件，并修改s
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【HDFS主从集群】存在两个独立的问题和解决方案流辉fglow 大数据 #HDFS hdfs java hadoop 大数据分布式学习
主从集群存在两个独立的问题和解决方案单点“主”的两个独立的问题以下是解决方案HA高可用方案：解决单点故障导致集群整体不可用问题Federation联邦机制：解决NN压力过大问题总结一般很多技术都是主从结构（最简单的结构）优点：结构相对简单，主与从协作“主”是单点，好处有，缺点也有好处：单点NameNode，数据一致性好掌握因为一个人管，说一不二的单点“主”的两个独立的问题关键词：独立：两套独立
【HDFS】角色的架构设计流辉fglow #HDFS 大数据 hdfs hadoop 大数据学习分布式
HDFS角色的架构设计前置知识：Windows与Linux文件系统的差异HDFS中的角色及功能HDFS的架构NameNodeDataNodeNameNode元数据的持久化说明：/表示两个词是同一语义，方便你理解的前置知识：Windows与Linux文件系统的差异Windows&LInux虽然都有硬盘/分区、目录，但感受很不同的是：Windows：有很强的分区概念，要先通过不同的“盘符”去找文件在命
HDFS的启动过程 ffbc2020 HDFS HDFS
HDFS的启动过程HDFS的启动过程分为四个阶段：第一阶段：NameNode读取包含元数据信息的fsimage文件，并加载到内存；第二阶段：NameNode读取体现HDFS最新状态的edits日志文件，并加载到内存中第三阶段：生成检查点，SecondaryNameNode将edits日志中的信息合并到fsimage文件中第四阶段：进入安全模式，检查数据块的完整性HDFS的安全模式什么是安全模式安全
集群hdfs启动 sxu~源 hdfs hadoop big data
1）各个模块分开启动/停止（配置ssh是前提）常用（1）整体启动/停止HDFSstart-dfs.sh/stop-dfs.sh（2）整体启动/停止YARNstart-yarn.sh/stop-yarn.sh2）各个服务组件逐一启动/停止（1）分别启动/停止HDFS组件hdfs--daemonstart/stopnamenode/datanode/secondarynamenode（2）启动/停止Y
快捷方式指向的驱动器或网络连接不可用元凌丶 windows
由于电脑固态硬盘有问题换了个盘，数据丢失了有些软件就暂时存到了C盘。装回来之后发现任务栏的快捷方式图标显示不正确。有相关解决办法是说把【appdata】路径下的【Iconcache.db】删除然后让Windows资源管理器重启。但是这种方法有和我情况相似的同学可能解决不了。需要把快捷方式的目标路径改一下。（我只解决了自己的问题，不确定是否一样，大家举一反三应该可以找到）1，首先要找到丢失图标的快捷
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
使用c++编写com组件实现windows外壳扩展（自定义右键上下文菜单扩展）小码ssim c++windows 开发语言
一、作用允许在Windows文件资源管理器中，当用户在文件、文件夹或空白处右键点击时，根据一定的逻辑显示自定义的菜单项二、原理COM组件微软开发的一种软件架构模型，主要用于在不同编程语言之间实现二进制级别的可重用性和互操作性。它可以作为独立的模块分发，并能够在应用程序之间共享，广泛应用于Windows操作系统中的许多服务和应用程序中。（C++和C#是开发COM组件的主要语言。C++提供了最直接的访
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
Spark运行时架构 tooolik spark 架构大数据
目录一，Spark运行时架构二，YARN集群架构（一）YARN集群主要组件1、ResourceManager-资源管理器2、NodeManager-节点管理器3、Task-任务4、Container-容器5、ApplicationMaster-应用程序管理器6，总结（二）YARN集群中应用程序的执行流程三、SparkStandalone架构（一）client提交方式（二）cluster提交方式四、
Windows和Mac命令窗快速打开文件夹奔跑的呱呱牛 windows macos
Windowsexplorer.和macOSopen.命令详解1.Windowsexplorer.explorer是Windows上的文件资源管理器，用于通过命令行打开文件夹或文件。常用命令格式：explorer[选项][目标路径].表示当前目录，explorer.打开当前工作目录的文件资源管理器。常用参数：explorerC:\path\to\folder：打开指定的文件夹。explorerC:
hive表格统计信息不准确 weixin_41956627 hive hive hadoop 数据仓库
问题描述有个hive分区表，orc存储格式，有个分区，查询selectcount(1)fromtablewheredt='yyyyMMdd'结果是0，但查询select*fromtablewheredt='yyyyMMdd'又能查到数据，去hdfs对应目录下查看，也能看到有数据文件解决执行如下sqlANALYZETABLEdb.table1PARTITION(dt='20240908')COMPU
人生苦短我用Python pandas文件格式转换程序喵D 人生苦短我用Python python pandas
人生苦短我用Pythonpandas文件格式转换前言示例1excel与csv互转常用格式的方法FlatfileExcelJSONXML示例2常用格式转换简要需求依赖export方法main方法附其它格式的方法HTMLPicklingClipboardLatexHDFStore:PyTables(HDF5)FeatherParquetORCSASSPSSSQLGoogleBigQuerySTATA前
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key