booby325

Hadoop：The Definitive Guid 总结 Chapter 3 Hadoop分布式文件系统

1.HDFS的设计

HDFS设计的适合对象：超大文件(TB级别的文件)、流式数据访问(一次写入，多次读取)、商用硬件(廉价硬件)

HDFS设计不适合的对象：低时间延迟的数据访问、大量的小文件、多用户写入，任意修改文件

2.HDFS的概念

1).数据块(Block)

HDFS中Block的大小默认是64M，小于块大小的的文件并不占据整个块的全部空间(而是将文件大小作为块的大小.比如要存放的文件是1k,但是系统的Block默认是64MB,存放之后块的大小是1k,不是64MB.文件若是大于64MB,则分多快进行存储.)

使用Blocks的好处：

可以存储大文件，一个文件的大小可以大于网络中任意一个单块硬盘的容量
把存储单元抽象成块而不是文件，大大简化了存储子系统的设计：简化了数据管理、取消元数据关注
能很好适应数据复制，数据复制保证系统的容错和可用性。

2)NameNode和DataNode

HDFS 提供了两类节点

NameNode：管理者，负责管理文件系统的命名空间，维护着整个文件系统树和树内的文件和目录，同时记录着每个文件各个块所在的数据节点信息，所有信息都以保存在本地磁盘：命名空间镜像文件(namespace image)和编辑日志文件(edit log)。
DataNode：工作者，根据需要存储并检索数据块(受客户端或者NameNode调度)，并定期向NameNode发送他们所存储的块列表

另外Client端代表用户通过NameNode和DataNode交互来访问整个文件系统

没有NameNode，文件系统将无法使用，所以提供两种对NameNode实现容错机制：

备份存储持久化状态的文件系统元数据的文件
提供secondary namenode。Secondary的主要角色是定期合并命名空间镜像文件和编辑日志文件，防止edit log过大。但是secondary namenode的数据较master namenode的数据有所延迟，所有数据恢复以后肯定会有数据丢失

3).HDFS Federation

federation使用了多个独立的namenode/namespace,这样就可以水平扩展namenode，这些namenode之间是联合的，也就是说，他们之间相互独立且不需要互相协调，各自分工，管理自己的区域。
分布式的datanode被用作通用的数据块存储存储设备。每个datanode要向集群中所有的namenode注册，且周期性地向所有namenode发送心跳和块报告，并执行来自所有namenode的命令。
一个block pool由属于同一个namespace的数据块组成，每个datanode可能会存储集群中所有block pool的数据块。每个block pool内部自治，也就是说各自管理各自的block，block pool之间不能交流。一个namenode挂掉了，不会影响其他namenode。
某个namenode上的namespace和它对应的block pool一起被称为namespace volume。它是管理的基本单位。当一个namenode/nodespace被删除后，其所有datanode上对应的block pool也会被删除。当集群升级时，每个namespace volume作为一个基本单元进行升级。

如下如所示:

4).Hadoop高可用性

Hadoop2.0.0版式本中，提供了一种机制可以使处于备用状态的Namenode中的数据与处于活动状态的Namenode中的数据同步，这种机制的实现必须需要这两个NameNode可访问在一个共享存储设备(比如：来自NAS上的NFS)上的目录。

1).当namespace被处于活动状态的NameNode修改时，这个修改操作被持久化的写入到共享目录里的一个编辑日志文件里,处于备用状态的NameNode不断的查看这个共享目录中的编辑日志文件，发现这个编辑日志文件有变化，就把它们拷贝到自己的namespace里。

2).活动状态的NameNode崩溃时，备用状态的NameNode代替崩溃的NameNode成为处于活动状态的NameNdoe，而在此之前处于备用状态的NameNode会确保它从共享目录中全部读取了编辑日志中的记录，这样就确保了在失效备援以前这两个NameNode中的namespace是完全同步的。

3).为提供快速的失效备援，需要处于备份状态的NameNode结点有集群中块位置的最新信息，为了实现这一点，处于这两个NameNode管理的所有DataNodes，都需要向这两个NameNode发送块信息和心跳信息。

4).对正确操作高可用性的集群而言，至关重要的一点，是在任何时刻这两个NameNode只参有一个NameNode处于活动状态，否则namespace将会处于不一致状态，这将会导致数据丢失或其他不可知结果。

3.命令行接口

基本命令：

1).将本地数据拷贝：

% hadoop fs -copyFromLocal input/docs/quangle.txt hdfs://localhost/user/tom/quangle.tx
% hadoop fs -copyFromLocal input/docs/quangle.txt /user/tom/quangle.txt ---这里面命令可以省去hdfs://
% hadoop fs -copyFromLocal input/docs/quangle.txt quangle.txt ---使用了相对路径

2).将数据从hdfs上拷贝到本地硬盘并检查文件时候一致

% hadoop fs -copyToLocal quangle.txt quangle.copy.txt
% md5 input/docs/quangle.txt quangle.copy.tx

3).HDFS文件列表

% hadoop fs -mkdir books

% hadoop fs -ls .

Found 2 items

drwxr-xr-x - tom supergroup 0 2009-04-02 22:41 /user/tom/books

-rw-r--r-- 1 tom supergroup 118 2009-04-02 22:29 /user/tom/quangle.txt

结果当中各列分别表示：

文件模式、文件被复制的份数、文件拥有者、文件拥有者的group、文件大小，目录显示为0、、文件最后修改日期、文件最后修改时间、文件的绝对路径

4.Hadoop文件系统

Hadoop有一个对文件系统的抽象，HDFS只是其中的一个实现。Java的抽象类org.apache.hadoop.fs.FileSystem代表了Hadoop中的文件系统，还有其他的几种实现(P48)

接口：

Hadoop用Java写成，所有Hadoop文件的交互都通过Java api来完成。还有另外的与Hadoop文件系统交互的库：Thrift、C、FUSE、WebDAV等

5.Java接口

1).从Hadoop URL中读取数据

使用java.net.URL对象打开数据流，进而从中读取数据:

InputStream in = null; try { in = new URL("hdfs://host/path").openStream(); // process in
    } finally { IOUtils.closeStream(in); } }

代码示例：

下面展示了程序以标准输出方式显示Hadoop文件系统中的文件，这里采用的方法通过FsUrlStreamHandlerFactory实例调用URL中的setURLStreamHandlerFactory方法，这个操作对一个jvm只能使用一次，我们可以在静态块中调用。

public class URLCat { static { URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory()); } public static void main(String[] args) throws Exception { InputStream in = null; try { in = new URL(args[0]).openStream(); IOUtils.copyBytes(in, System.out, 4096, false); } finally { IOUtils.closeStream(in); } } }

2).通过FileSystem API读取数据

FileSystem是一个通用文件系统API，其中其对象的open方法返回的是FSDataInputStream对象，此对象支持随机访问。

Configuration对象封装了客户端或服务器的配置，通过设置配置文件读取类路径来实现

public class FileSystemCat { public static void main(String[] args) throws Exception { String uri = args[0]; Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create(uri), conf); InputStream in = null; try { in = fs.open(new Path(uri)); IOUtils.copyBytes(in, System.out, 4096, false); } finally { IOUtils.closeStream(in); } } }

运行结果：

% hadoop FileSystemCat hdfs://localhost/user/tom/quangle.txt

On the top of the Crumpetty Tree
The Quangle Wangle sat,
But his face you could not see,
On account of his Beaver Hat.

package org.apache.hadoop.fs; public class FSDataInputStream extends DataInputStream implements Seekable, PositionedReadable { // implementation elided
}

Seekable接口支持在文件中找到指定位置，其中seek()可以移到文件中任意一个绝对位置，skip()则只能相对于当前位置定位到另一个新位置，seek()是一个方法是一个相对高开销的操作，需要慎重使用。

public interface Seekable { void seek(long pos) throws IOException; long getPos() throws IOException; }

public class FileSystemDoubleCat { public static void main(String[] args) throws Exception { String uri = args[0]; Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create(uri), conf); FSDataInputStream in = null; try { in = fs.open(new Path(uri)); IOUtils.copyBytes(in, System.out, 4096, false); in.seek(0); // go back to the start of the file
            IOUtils.copyBytes(in, System.out, 4096, false); } finally { IOUtils.closeStream(in); } } }

运行结果：

% hadoop FileSystemDoubleCat hdfs://localhost/user/tom/quangle.txt

On the top of the Crumpetty Tree
The Quangle Wangle sat,
But his face you could not see,
On account of his Beaver Hat.
On the top of the Crumpetty Tree
The Quangle Wangle sat,
But his face you could not see,
On account of his Beaver Hat.

在下面代码中，read()方法最多读取length bytes。Position是相对offset的偏移，buffer存放读取的数据。readFully()方法读取length bytes的数据到buffer中，第二个readFully则是读取buffer.length bytes的数据到buffer中。以下的方法均不会改变offset的值。

public interface PositionedReadable { public int read(long position, byte[] buffer, int offset, int length) throws IOException; public void readFully(long position, byte[] buffer, int offset, int length) throws IOException; public void readFully(long position, byte[] buffer) throws IOException; }

3).写入数据

FileSystem类创建文件的方法create 参数为指定的一个Path对象

public FSDataOutputStream create(Path f) throws IOException;

重要方法Progressable，可以把数据写入数据节点的进度通知应用

package org.apache.hadoop.util; public interface Progressable { public void progress(); }

新建文件方法append()，在一个已有的文件末尾追加数据

public FSDataOutputStream append(Path f) throws IOException;

程序实例：将本地文件复制到Hadoop文件系统

public class FileCopyWithProgress { public static void main(String[] args) throws Exception { String localSrc = args[0]; String dst = args[1]; InputStream in = new BufferedInputStream(new FileInputStream(localSrc)); Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create(dst), conf); OutputStream out = fs.create(new Path(dst), new Progressable() { public void progress() { System.out.print("."); } }); IOUtils.copyBytes(in, out, 4096, true); } }

执行结果：

% hadoop FileCopyWithProgress input/docs/1400-8.txt hdfs://localhost/user/tom/
1400-8.txt
...............

create()方法返回的FSDataOutputStream对象

package org.apache.hadoop.fs; public class FSDataOutputStream extends DataOutputStream implements Syncable { public long getPos() throws IOException { // implementation elided
 } // implementation elided
}

4).目录

创建目录方法mkdir()方法，如果目录创建成功返回true

public boolean mkdirs(Path f) throws IOException;

5).查询文件系统

文件元数据：FileStatus，FileSystem的getFilesStatus()方法用于获取文件或目录的FileStatus对象

示例代码：

public class ShowFileStatusTest { ........... public void fileStatusForFile() throws IOException { Path file = new Path("/dir/file"); FileStatus stat = fs.getFileStatus(file); assertThat(stat.getPath().toUri().getPath(), is("/dir/file")); assertThat(stat.isDir(), is(false)); assertThat(stat.getLen(), is(7L)); assertThat(stat.getModificationTime(), is(lessThanOrEqualTo(System.currentTimeMillis()))); assertThat(stat.getReplication(), is((short) 1)); assertThat(stat.getBlockSize(), is(64 * 1024 * 1024L)); assertThat(stat.getOwner(), is("tom")); assertThat(stat.getGroup(), is("supergroup")); assertThat(stat.getPermission().toString(), is("rw-r--r--")); } .......... }

列出文件,下列listStatus函数能够列出目录的内容能个

public FileStatus[] listStatus(Path f) throws IOException; public FileStatus[] listStatus(Path f, PathFilter filter) throws IOException; public FileStatus[] listStatus(Path[] files) throws IOException; public FileStatus[] listStatus(Path[] files, PathFilter filter) throws IOException;

public class ListStatus { public static void main(String[] args) throws Exception { String uri = args[0]; Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create(uri), conf); Path[] paths = new Path[args.length]; for (int i = 0; i < paths.length; i++) { paths[i] = new Path(args[i]); } FileStatus[] status = fs.listStatus(paths); Path[] listedPaths = FileUtil.stat2Paths(status); for (Path p : listedPaths) { System.out.println(p); } } }

执行结果：

% hadoop ListStatus hdfs://localhost/ hdfs://localhost/user/tom
hdfs://localhost/user
hdfs://localhost/user/tom/books
hdfs://localhost/user/tom/quangle.txt

文件模式，为了处理一批文件，Hadoop提供了"通配操作"，并提供了globStatus()方法，其返回与路径相匹配的所有文件的FileStatus对象数组，并按照路径排序

public FileStatus[] globStatus(Path pathPattern) throws IOException; public FileStatus[] globStatus(Path pathPattern, PathFilter filter) throws OException;

下面列出通配及其含义：

PathFilter对象，为了弥补通配符不够准确的功能，Hadoop的FileSystem在listStatus()和globStatus()提供了可选的PathFilter对象，使我们能够通过编程方式控制通配符

package org.apache.hadoop.fs; public interface PathFilter { boolean accept(Path path); }

程序实例：用于排除匹配正则表达式路径的PathFilter

public class RegexExcludePathFilter implements PathFilter { private final String regex; public RegexExcludePathFilter(String regex) { this.regex = regex; } public boolean accept(Path path) { return !path.toString().matches(regex); } }

过滤方法调用：

fs.globStatus(new Path("/2007/*/*"), new RegexExcludeFilter("^.*/2007/12/31$"));

6).删除数据

使用FileSystem的delete()方法可以永久删除文件或目录，其中如果f是一个文件或者空目录recursive的值就会被忽略。当一个目录不为空的时候：recursive为true时，目录将连同内部的内容都会被删除，否则抛出IOException异常。

public boolean delete(Path f, boolean recursive) throws IOException;

6.数据流

1).文件读取剖析

下图显示了在读取文件时一些事件的主要顺序：

步骤如下

客户端通过调用FileSystem对象的open()方法打开需要读取的文件，对HDFS来说是调用分布式系统的一个实例DistributedFileSystem
DistributedFileSystem通过RPC调用namenode确定文件的前几个block的位置。对于每一个block，namenode返回一含有那个block拷贝的datanode地址；接下来，datanode按照距离client的距离进行排序（确定距离的方法后面有介绍）。如果client本身就是一个datanode，那么就从本地datanode节点上读取数据。
DistributedFileSystem返回一个FSDataInputStream给客户端，让他从FSDataInputStream中读取数据。FSDataInputStream接着包装一个DFSInputStream，他用来管理datanode和namenode的I/O
client调用流的read()方法。
DFSInputStream开始的时候存放了前几个blocks的datanode的地址，这时候开始连接到最近datanode上。客户端反复调用read()方法，以流式方式从datanode读取数据。
当读到block的结尾的时候，DFSInputStream会关闭到当前datanode的链接，然后查找下一个block的最好的datanode。这些操作对客户端都是透明的，客户端感觉到的是连续的流。（读取的时候就开始查找下一个块所在的地址）
读取完成之后关闭FSDataInputStream

关于容错处理问题：

在读取期间，如果client与datanode通信的时候如果发生错误的话，它会尝试读取下个紧接着的含有那个block的datanode。Client会记住发生错误datanode，这样它就不必在读取以后的块的时候再尝试这个datanode了。Client也验证从datanode传递过来的数据的checksum。如果错误的block被发现，它将在尝试从另一个datanode读取数据前把这个信息报告给namenode。

这个设计的一个重要方面是：客户端联系datanodes直接接收数据，并且客户端被namenode导向包含每块数据的最佳datanode。这样的设计可以使HDFS扩展而适应大量的客户端，因为数据传输线路是通过集群中的所有datanode的，namenode只需要相应块的位置查询服务即可（而namenode是将块的位置信息存放在内存中的，这样效率就非常高），namenode不需要提供数据服务，因为数据服务随着客户端的增加将很快成为瓶颈。

关于网络拓扑与Hadoop

Hadoop计算路径是按照如下方式进行的：

把网络看成树结构
两个节点之间的距离=第一个节点到两个节点共同祖先节点的距离+第二个节点到两个节点共同祖先节点的距离

下面是一个例子：

distance(/d1/r1/n1, /d1/r1/n1) = 0 (processes on the same node)

distance(/d1/r1/n1, /d1/r1/n2) = 2 (different nodes on the same rack)

distance(/d1/r1/n1, /d1/r2/n3) = 4 (nodes on different racks in the same data center)

distance(/d1/r1/n1, /d2/r3/n4) = 6 (nodes in different data centers)

2).文件写入剖析

下图显示了在写入文件时一些事件的主要顺序：

Client通过调用DistributedFileSystem的create()函数来请求创建文件(步骤1)
DistributedFileSystem通过对namenode发出rpc请求，在namenode的namespace里面创建一个新的文件，但是这时候并不关联任何的块(步骤2)。Namenode进行很多检查来保证不存在要创建的文件已经存在于文件系统中，还有检查是否有相应的权限来创建文件。如果这些检查都完成了，那么namenode将记录下来这个新文件的信息，否则文件创建失败，并且客户端会收到一个IOExpection。DistributedFileSystem返回一个FSDataOutputStream给客户端用来写入数据。和读的情形一样，FSDataOutputStream将包装一个DFSOutputStream用于和datanode及namenode通信。
客户端开始写数据(步骤3)。DFSDataOutputStream把要写入的数据分成包（packet），并将它们写入到中间队列（data queue）中。Data queue中的数据由DataStreamer来读取。DataStreamer的职责是让namenode分配新的块——通过找出合适的datanodes——来存储作为备份而复制的数据。这些datanodes组成提个流水线，我们假设这个流水线是个三级流水线，那么里面将含有三个节点。DataStreamer将数据首先写入到流水线中的第一个节点，
然后由第一个节点将数据包传送并写入到第二个节点，然后第二个将数据包传送并写入到第三个节点(步骤4，5)。
DFSOutputStream维护了一个内部关于packets的队列，里面存放等待被datanode确认无误的packets的信息。这个队列称为等待队列(ack queue)。一个packet的信息被移出本队列当且仅当packet被流水线中的所有节点都确认无误
当完成数据写入之后客户端调用流的close方法(步骤6)，在通知namenode完成写入之前，这个方法将flush残留的packets，并等待确认信息（acknowledgement）。namenode已经知道文件由哪些块组成(通过DataStream询问数据块的分配)，所以它在返回成功前只需要等待数据块进行最小值复制(步骤7)。

关于写入数据的时候datanode发生错误的处理

发现错误之后，首先关闭流水线，然后将没有被确认的数据放到数据队列的开头，当前的块被赋予一个新的标识，这信息将发给namenode，以便在损坏的数据节点恢复之后删除这个没有被完成的块。然后从流水线中移除损坏的datanode。之后将这个块剩下的数据写入到剩下的两个节点中。Namenode注意到这个块的信息还没有被复制完成，他就在其他一个datanode上安排复制。接下来的block写入操作就和往常一样了。

尽管可能在写入数据的时候多个节点都出现故障，但是只要默认的一个节点（dfs.replication.min）被写入了，那么这个操作就会完成。因为数据块将会在集群间复制，直到复制完定义好的次数（dfs.replication，默认3份）

关于副本的布局

第一份存放在客户端（如果客户端没在集群上，那么这个节点将被随机选择，尽管这样，系统也不会选择磁盘容量快满的，或者是比较忙的节点）
第二份存放在与第一份不同机架(Rack)的一个随机节点中
第三份存放在与第二份相同的机架中，但是不在同一个节点
接下来的就存放在集群中(例如DataCenter)的随机节点中了，系统尽量避免在一个机架中存放多份备份文件。

如下图：

3).一致模型

文件系统的一致性模型描述了读写文件过程中的数据可见性。HDFS去掉了一些POSIX对性能的要求，所以一些操作可能与你的预想不大一致

A.在文件被创建之后，希望它在文件系统的名字空间中是可见的

Path p = new Path("p");
fs.create(p);
assertThat(fs.exists(p), is(true));

B.但是任何没写入到文件的内容不保证可见，尽管你可能去flush流。所以文件看起来长度为0

Path p = new Path("p");
OutputStream out = fs.create(p);
out.write("content".getBytes("UTF-8"));
out.flush();
assertThat(fs.getFileStatus(p).getLen(), is(0L));

C.当超过一个block的数据被写入之后，第一个block对reader将是可见的，接下来的也是一样：当前正在写的block总是不可见的，已经被写入的block是可见的

D.HDFS通过FSDataOutputStream的sync()方法提供了一种强制使所有buffer同步到datanode方法。当sync()成功返回之后，HDFS保证sync之前的数据被持久化并且对所有reader可见。下面操作有点像unix系统的fsync系统调用，该调用提供一个文件描述符的缓冲数据。

Path p = new Path("p");
FSDataOutputStream out = fs.create(p);
out.write("content".getBytes("UTF-8"));
out.flush();
out.sync();
assertThat(fs.getFileStatus(p).getLen(), is(((long) "content".length())));

同步之后看到具体文件内容：

FileOutputStream out = new FileOutputStream(localFile);
out.write("content".getBytes("UTF-8"));
out.flush(); // flush to operating system
out.getFD().sync(); // sync to disk
assertThat(localFile.length(), is(((long) "content".length())));

E.在HDFS文件关闭文件还隐藏着执行sync()方法

Path p = new Path("p");
OutputStream out = fs.create(p);
out.write("content".getBytes("UTF-8"));
out.close();
assertThat(fs.getFileStatus(p).getLen(), is(((long) "content".length())));

7.通过distcp并行复制

Hadoop提供了一个非常有用的工具——distcp，来在Hadoop文件系统之间拷贝大量数据。

1).distcp的一个典型用途就是在两个HDFS集群之间传递数据。如果两个集群运行着相同版本的Hadoop，就非常适合使用hdfs方案：

% hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar

2).使用-overwrite或者-update选项改变了以前源路径和目标路径的使用方式

% hadoop distcp -update hdfs://namenode1/foo hdfs://namenode2/bar/foo

3).如果想在运行不同版本的HDFS集群之间拷贝使用HDFS协议运行distcp的话会产生错误。因为不同系统的RPC系统不兼容。为了补救，可以使用基于HTTP协议的HFTP从源文件中读取数据。但job就必须在拷贝的目标机器上运行，以便HDFS的rpc版本兼容。上面的例子可以写成下面的样子：

% hadoop distcp hftp://namenode1:50070/foo hdfs://namenode2/bar

注意：必须在uri中指定namenod的web端口号。这个端口的默认值是50070，由dfs.http.address属性值来决定。

4).保持HDFS集群的均衡

可以使用均衡器工具---balance命令

8.Hadoop存档

为了解决Hadoop存储小文件低效问题，Hadoop提供了Hadoop Archive（HAR）文件打包工具

HAR是使用archive工具打包一些文件创建的。Archive工具运行一个MapReduce job来并行处理输入文件。所以需要在一个运行MapReduce的集群上使用它。

% hadoop fs -lsr /my/files

-rw-r--r-- 1 tom supergroup 1 2009-04-09 19:13 /my/files/a

drwxr-xr-x - tom supergroup 0 2009-04-09 19:13 /my/files/dir

-rw-r--r-- 1 tom supergroup 1 2009-04-09 19:13 /my/files/dir/b

运行archive命令：

% hadoop archive -archiveName files.har /my/files/m

运行上述命令之后，产生的.har文件信息如下：

% hadoop fs -ls /my

Found 2 items

drwxr-xr-x - tom supergroup 0 2009-04-09 19:13 /my/files

drwxr-xr-x - tom supergroup 0 2009-04-09 19:13 /my/files.har

% hadoop fs -ls /my/files.har

Found 3 items

-rw-r--r-- 10 tom supergroup 165 2009-04-09 19:13 /my/files.har/_index

-rw-r--r-- 10 tom supergroup 23 2009-04-09 19:13 /my/files.har/_masterindex

-rw-r--r-- 1 tom supergroup 2 2009-04-09 19:13 /my/files.har/part-0

上面的结果显示了HAR文件的组成部分：两个索引文件以及部分文件的集合，对本例来说part文件只有一个。Part文件包含了原始文件的内容，index用来索引这些数据。

下面的命令以递归的方式列出了存档文件中的部分文件

hadoop fs -lsr har:///my/files.har

drw-r--r-- - tom supergroup 0 2009-04-09 19:13 /my/files.har/my

drw-r--r-- - tom supergroup 0 2009-04-09 19:13 /my/files.har/my/files

-rw-r--r-- 10 tom supergroup 1 2009-04-09 19:13 /my/files.har/my/files/a

drw-r--r-- - tom supergroup 0 2009-04-09 19:13 /my/files.har/my/files/dir

以下两个指令相同

% hadoop fs -lsr har:///my/files.har/my/files/dir
% hadoop fs -lsr har://hdfs-localhost:8020/my/files.har/my/files/dir

删除HAR文件指令

% hadoop fs -rmr /my/files.har

HAR的不足：

1).创建的是归档文件，没有压缩功能，所以不会节省空间

2).归档文件创建之后不能被修改，若要添加、删除文件的话，需要重新建立归档文件

3).虽然HAR文件可以作为MapReduce的输入，但是InputFormat不支持将多个文件打包到一个MapReduce split中。所以处理大量的小文件，即使是在har文件中，都将是低效的。

你可能感兴趣的:(分布式文件系统)

Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
nfs服务搭建 GHope
nfs是什么？基哥度娘网络文件系统(NFS)是sun微系统最初开发的分布式文件系统协议,[1]允许客户端计算机上的用户通过计算机网络访问文件很像本地存储被访问。NFS与许多其他协议一样,在开放网络计算远程过程调用(很久以前RPC)系统上建立。NFS是在请求注释(RFC)中定义的开放标准,允许任何人实现协议。NFSNFS优势：节省本地存储空间，将常用的数据存放在一台NFS服务器上且可以通过网络访问，
掌握检索技术：构建高效知识检索系统的架构与算法23 是小旭啊人工智能
在检索专业知识层需要涵盖更高级的检索技术，包括工程架构和算法策略。一、工程架构工程架构在构建检索系统中决定了系统的可扩展性、高可用性和性能。比如需要考虑的基本点：分布式架构：水平扩展：采用分布式架构，将检索任务分布到多个节点上，实现水平扩展。这可以通过将索引数据分片存储在不同的节点上，并使用分布式文件系统或对象存储来存储大规模的索引数据。任务分配：设计任务调度器，负责将查询请求分配到空闲的节点上进
掌握检索技术：构建高效知识检索系统的架构与算法21 是小旭啊人工智能
在检索专业知识层需要涵盖更高级的检索技术，包括工程架构和算法策略。一、工程架构工程架构在构建检索系统中决定了系统的可扩展性、高可用性和性能。比如需要考虑的基本点：分布式架构：水平扩展：采用分布式架构，将检索任务分布到多个节点上，实现水平扩展。这可以通过将索引数据分片存储在不同的节点上，并使用分布式文件系统或对象存储来存储大规模的索引数据。任务分配：设计任务调度器，负责将查询请求分配到空闲的节点上进
大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
千万级规模高性能、高并发的网络架构经验分享搬砖养女人网络架构经验分享
主题：INTO100沙龙时间：2015年11月21日下午地点：梦想加联合办公空间分享人：卫向军（毕业于北京邮电大学，现任微博平台架构师，先后在微软、金山云、新浪微博从事技术研发工作，专注于系统架构设计、音视频通讯系统、分布式文件系统和数据挖掘等领域。）架构以及我理解中架构的本质在开始谈我对架构本质的理解之前，先谈谈对今天技术沙龙主题的个人见解，千万级规模的网站感觉数量级是非常大的，对这个数量级我们
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
Hadoop HDFS中的NameNode、SecondaryNameNode和DataNode BigDataMLApplication 大数据 hadoop hadoop hdfs 大数据
HadoopHDFS中的NameNode、SecondaryNameNode和DataNode目录1.定义2.主要作用3.官方链接1.定义在HadoopHDFS（Hadoop分布式文件系统）中，有三个关键的组件：NameNode、SecondaryNameNode和DataNode。NameNodeNameNode是HDFS的主要组件之一，负责管理文件系统的命名空间、存储文件的元数据信息以及处理客
分布式文件系统FastDFS动态扩容欢醉
当用户量越来越大，则集群中某个group总会到达其极限，这时就得扩展集群的容量了。FastDFS的扩容分为对group纵向扩容和横向扩容纵向扩容指在同一个group组中增加服务器，实现数据冗余，数据备份。同一个group中最大容量取决于最小的storage的存储容量。因此如果还想继续使用此group，则需要对此group对应的所有服务器挂载同样容量的磁盘，指定store_path1……，但这样做的
HBase 傲雪凌霜，松柏长青大数据后端 hbase 数据库大数据
ApacheHBase是一个基于Hadoop分布式文件系统（HDFS）构建的分布式、面向列的NoSQL数据库，主要用于处理大规模、稀疏的表结构数据。HBase的设计灵感来自Google的Bigtable，能够在海量数据中提供快速的随机读写操作，适合需要低延迟和高吞吐量的应用场景。HBase核心概念表（Table）：HBase的数据存储在表中，与传统的关系型数据库不同，HBase的表是面向列族（Co
Hive的优势与使用场景傲雪凌霜，松柏长青后端大数据 hive hadoop 数据仓库
Hive的优势Hive作为一个构建在Hadoop上的数据仓库工具，具有许多优势，特别是在处理大规模数据分析任务时。以下是Hive的主要优势：1.与Hadoop生态系统的紧密集成Hive构建在Hadoop分布式文件系统(HDFS)之上，能够处理海量数据并进行分布式计算。它利用Hadoop的MapReduce或Spark来执行查询，具备高度扩展性，适合大数据处理。2.支持SQL-like查询语言(Hi
大数据面试题：说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？蓦然_ 大数据面试题 hive 大数据开发面试题大数据面试
1、为什么要使用Hive？Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。大多数数据仓库应用程序都是使用关系数据库进行实现的，并使用SQL作为
JuiceFS 社区版 v1.2 发布，新增企业级权限管理、平滑升级功能 Juicedata 云原生运维
JuiceFS社区版v1.2今天正式发布，这是自2021年开源以来的第三个大版本。v1.2也是一个长期支持版本（LTS）。我们将持续维护v1.2以及v1.1这两个版本，v1.0将停止更新。JuiceFS是为云环境设计的分布式文件系统，支持超过10种元数据引擎和30种以上的数据存储引擎。这些丰富的选择使得用户可以灵活应对多变的企业环境和数据存储需求；同时，JuiceFS兼容多种访问协议，包括POSI
大数据学习｜理解和对比 Apache Hive 和 Apache Iceberg 进击的小白菜数据库大数据大数据学习 apache
文章目录数据模型与存储事务支持性能优化使用场景总结数据模型与存储Hive:Hive使用的是传统的关系型数据模型，数据存储在Hadoop分布式文件系统(HDFS)中，通常是以文本格式（如CSV或TSV）或者二进制格式（如Parquet或ORC）。Hive的表定义和元数据存储在一个外部的关系数据库中，如MySQL，用于跟踪表结构、分区和其他元数据信息。Iceberg:Iceberg设计为一个现代的表格
虚拟机安装hadoop，hbase（单机伪集群模式）流~星~雨大数据相关 hadoop hbase 大数据
虚拟机安装Hadoop，Hbase工作中遇到了大数据方面的一些技术栈，没有退路可言，只能去学习掌握它，就像当初做爬虫一样（虽然很简单），在数据爆发的现在，传统的数据库mysql，oracle显然在处理大数据量级的数据时显得力不从心，所以有些特定的业务需要引进能够处理大数据量的数据库，hadoop提供了分布式文件系统（HDFS）来存储数据，又提供了分布式计算框架（mapreduce）来对这些数据进行
Hdfs的机架感知与副本放置策略 sheansavage hdfs hadoop 大数据
1.介绍Apachehadoop机架感知Hadoop分布式文件系统(Hdfs)作为ApacheHadoop生态系统的的核心组件之一,通过机架感知和副本放置策略来优化数据的可靠性,可用和性能.Hdfs的机架感知和副本放置策略是其设计的关键组成部分,有效地提高了数据的可靠性,可用性和性能,使其成为处理大规模数据的理想选择.2.机架感知2.1什么是机架感知Hadoop组件时机架感知的.例如,hdfs块放
Django 后端架构开发：存储层调优策略解析 Switch616 Python Web django 架构 python 数据库中间件后端 sqlite
Django后端架构开发：存储层调优策略解析目录数据库读写分离实现与优化分布式文件系统在Django中的应用与优化Elasticsearch存储层优化策略前端页面静态化处理数据库读写分离实现与优化数据库读写分离是一种优化数据库性能的常见手段，特别是在高并发的情况下，能够有效地分担主库的压力。读写分离通常通过将写操作指向主库，读操作指向从库的方式来实现。Django提供了丰富的支持，可以通过配置多个
HDFS的编程卍king卐然 hdfs hadoop 大数据安全 web安全经验分享
一、HDFS原理HDFS（HadoopDistributedFileSystem）是hadoop生态系统的一个重要组成部分，是hadoop中的的存储组件，在整个Hadoop中的地位非同一般，是最基础的一部分，因为它涉及到数据存储，MapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统，以流式数据访问模式存储超大文件，将数据分块存储到一个商业硬件集群内的不同机器上
Hadoop 的基本 shell 命令难以触及的高度 hadoop 大数据分布式
Hadoop的基本shell命令主要用于与Hadoop分布式文件系统（HDFS）和MapReduce进行交互。以下是一些常用的Hadoopshell命令：一、HDFS命令1.查看HDFS状态`hdfsdfsadmin-report`:显示HDFS的健康状态和容量信息。2.文件系统操作`hdfsdfs-ls[path]`:列出指定路径下的文件和目录。`hdfsdfs-du[path]`:显示指定路径
【RH134知识点问答题】第9章访问网络附加存储是芽芽哩！ Linux RH134 管理2知识点问答题 linux 运维服务器 bash
目录1.NFS的主要功能是什么？2.如何安装与配置NFS？3.说出手动挂载NFS的必要步骤。4.说出自动挂载NFS的必要步骤。5.说明创建自动挂载时的间接映射和直接映射的主要区别。1.NFS的主要功能是什么？NFS是一种分布式文件系统协议，主要功能包括：①允许远程计算机通过网络访问共享文件。②实现文件系统在客户端和服务器之间的透明访问。③支持文件的共享、读取和写入，使得多个计算机可以共享相同的文件
服务器虚拟化和云平台,云平台和服务器虚拟化区别木子Hui 服务器虚拟化和云平台
云平台和服务器虚拟化区别内容精选换一换云硬盘(ElasticVolumeService,EVS)可以为云服务器提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务，可满足不同场景的业务需求，适用于分布式文件系统、开发测试、数据仓库以及高性能计算等场景。云服务器包括弹性云服务器和裸金属服务器。云硬盘类似PC中的硬盘，需要挂载至云服务器使用，无法单独使用。您可以对已挂载的用户可以为虚拟IP地址绑定一
HDFS weixin_51987187 笔记大数据
（一）HDFS简介及其基本概念 HDFS（HadoopDistributedFileSystem）是hadoop生态系统的一个重要组成部分，是hadoop中的的存储组件，在整个Hadoop中的地位非同一般，是最基础的一部分，因为它涉及到数据存储，MapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统，以流式数据访问模式存储超大文件，将数据分块存储到一个商业硬件
SeaweedFS部署仙女陈 linux
SeaweedFS介绍SeaweedFS是一个分布式文件系统应用场景：主要用于存储处理小文件、大文件分块成小文件上传Githup地址：https://github.com/chrislusf/seaweedfs官方文档：https://github.com/chrislusf/seaweedfs/wikiseaweedfs源码解析：https://www.bbsmax.com/A/6pdDYXQK
论文阅读-Hydra: 用于持久内存和RDMA网络的分散文件系统向来痴_ 负载均衡论文网络
论文名称：Hydra:ADecentralizedFileSystemforPersistentMemoryandRDMANetworks摘要新兴的字址持久内存（PM）有可能颠覆内存和存储之间的边界。结合高速RDMA网络，分布式基于PM的存储系统提供了通过紧密耦合PM和RDMA特性来实现存储性能大幅提升的机会。然而，现有的分布式文件系统采用为传统磁盘设计的传统集中式客户端-服务器架构，导致访问延迟
GlusterFS：开源分布式文件系统的深度解析与应用场景实践超逮虾户企业级工具开源系统架构 java
引言在当今大数据时代背景下，企业对存储系统的容量、性能和可靠性提出了前所未有的挑战。GlusterFS作为一款开源的、高度可扩展的分布式文件系统，以其独特的无中心元数据设计和灵活的卷管理机制，在众多场景中脱颖而出，为解决大规模数据存储难题提供了强有力的支持。GlusterFS简介与核心概念GlusterFS简介GlusterFS是一款开源、可扩展的分布式文件系统，专为大规模数据存储和管理而设计。它
hadoop硬件配置高可用 datanode namenode硬件配置 xcagy HADOOP K8S hadoop硬件田尚滨
每个分布式文件系统分块在NameNode的内存中大小约为250个字节，此外还要加上文件和目录所需的250字节空间。500字节一个块假设我们有5000个平均大小为20GB的文件并且使用默认的分布式文件系统分块大小（64MB）同时副本因子为3，5000*20GB=102400000M=97T那么NameNode需要保存5千万个分块的信息，这些分块的大小加上文件系统的开销总共需要1.5GB的内存。但是一
精彩回顾 I DatenLord Hackathon 2023圆满结束！
DatenLordHackathon2023已经顺利完赛。达坦科技基于其跨云分布式文件系统DatenLord项目，结合AI大模型时代背景，搭建了擂台。我们邀请参赛者为DatenLord的极端场景设计并实现缓存p2p传输和同步模块。本届赛题为“ExplorethePossibilities”，旨在为感兴趣的队伍提供平台发掘和实现自己的无限可能，同时探索项目的各种可能性。比赛吸引了众多对于Rust感兴
【2019-04-28】Hadoop分布式文件系统 BigBigFlower
Hadoop自带HDFS(hadoopdistributefilesystem)。HDFS默认数据块128M。HDFS有两类工作节点：一个管理节点namenode、多个工作节点datenode，namenode维护文件系统树以及整颗树内所有的文件和目录。namenode记录每个文件中各个数据块所在的数据节点信息。但不永久保存块的位置信息，这些信息会在系统启动时根据数据节点信息重建。namenode
分布式文件系统 SpringBoot+FastDFS+Vue.js【四】良辰美景好时光 vue springboot spring boot vue.js 后端
分布式文件系统SpringBoot+FastDFS+Vue.js【四】八、文件的下载和删除功能8.1.FastDFSClient.java8.2.FileServerController.java8.3.Vue的fast.js8.4.fastdfsimg.vue8.5.效果九、总结endl八、文件的下载和删除功能8.1.FastDFSClient.java@Slf4jpublicclassFast
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include