split命令:文件切割 & wc命令:统计行数 字数 字符数

split命令:文件切割
有时候文件过大,导致不能正常使用,可以用split进行切割。

命令参数:
split [选项] [要切割的文件] [输出文件名前缀]

-a, --suffix-length=N  切割文件的后缀的位置,default 为2
-b, --bytes=SIZE       指定块的大小,可以指定size的单位,b表示512字节,k代表1K字节,m代表1M字节,还有G,T,P
-d, --numeric-suffixes 利用数据前缀,而不是字母前缀,默认是字母前缀。
-l, --lines=NUMBER     指定行数进行切割。

例:
1、对examples.desktop文件进行切割。
linux@ubuntu:~$ cat -n examples.desktop 
     1 [Desktop Entry]
     2 Version=1.0
     3 Type=Link
     4 Name=Examples
     5 Comment=Example content for Ubuntu
     6 URL=file:///usr/share/example-content/
     7 Icon=folder
     8 X-Ubuntu-Gettext-Domain=example-content
     9

linux@ubuntu:~$ split -l 1 examples.desktop  ex_
linux@ubuntu:~$ ls ex_*
ex_aa  ex_ab  ex_ac  ex_ad  ex_ae  ex_af  ex_ag  ex_ah  ex_ai
linux@ubuntu:~$ 
观察examples.desktop有9行,我们测试每一行分割成一个小文件。结果生成了ex_aa ... ex_ai9个文件。

2、对examples.desktop进行分割,以数字后缀命名。
nux@ubuntu:~$ split -l 1 --numeric-suffixes  examples.desktop cdyemail_
linux@ubuntu:~$ ls cdye*
cdyemail_00  cdyemail_02  cdyemail_04  cdyemail_06  cdyemail_08
cdyemail_01  cdyemail_03  cdyemail_05  cdyemail_07
linux@ubuntu:~$ 

3、对二进制文件进行分割,块的大小为20M
linux@ubuntu:~$ ls -h -l  data.tar.gz  #文件大小为147M,1个20M能分8个
-rw-r--r-- 1 linux linux 147M 2011-01-28 21:04 data.tar.gz
linux@ubuntu:~$ split --bytes=20M --numeric-suffixes data.tar.gz  email_
linux@ubuntu:~$ ls email_*
email_00  email_01  email_02  email_03  email_04  email_05  email_06  email_07
通过测试可以看出已经分割成8个文件了。

这个命令的功能也很好记,因为它功能很有限:


wc -c filename:显示一个文件的字节数


wc -m filename:显示一个文件的字符数


wc -l filename:显示一个文件的行数


wc -L filename:显示一个文件中的最长行的长度


wc -w filename:显示一个文件的字数


[rocrocket@rocrocket programming]$ cat wc1.txt
1 2
34 5
你好
[rocrocket@rocrocket programming]$ wc -c wc1.txt
16 wc1.txt 
[rocrocket@rocrocket programming]$ wc -m wc1.txt
12 wc1.txt 
[rocrocket@rocrocket programming]$ wc -l wc1.txt
3 wc1.txt 
[rocrocket@rocrocket programming]$ wc -L wc1.txt
4 wc1.txt 
[rocrocket@rocrocket programming]$ wc -w wc1.txt
5 wc1.txt
每行结尾的换行符也算一个字符,空格也算一个字符。


由于采用UTF-8编码,所以一个汉字在这里被转换为3字节,所以wc -c显示的结果是16,即“第一行的4个字节+第二行的5个字节+第三行的7个字节”=4+5+7=16。


而当使用-m选项时,一个汉字就作为一个字符计算,所以是4+5+3=12。


当使用-L时,是给出最长行的长度,第二行最长,有4个字符长。(显然是不把换行符计算在内)


使用-w是计算字数,一个字是一个word,所以“34”表示一个word,一个“你好”表示一个word(我试过了,当中文是连在一起的,不管多少个,在计算字数word时,只有一个),因此2+2+1=5。


插孔说说tab制表符,这个符号比较特殊,当使用-L时,制表符算7个字符(这要依据一个制表符的长度而定,在我的系统中一个制表符算7个空格长度)。而当使用-w时,制表符和空格没有两样,都作为字的间隔来看待。当用-c时,一个制表符也就算一个字符,因为它的确就只是一个字符而已。


如果你直接执行wc wc1.txt,则显示:


[rocrocket@rocrocket programming]$ wc wc1.txt 3  5 16 wc1.txt
输出信息依次是:行数 字数 字节数 文件名称。

你可能感兴趣的:(BigData)