Linux 处理数据文件

排序

处理大量数据时的一个常用命令是 sort 命令。
sort 命令参数

参数 说明
-b –ignore-leading-blanks 排序时忽略起始的空白
-C –check=quiet 不排序,如果数据无序也不要报告
-c –check 不排序,但检查输入数据是不是已排序;未排序的话,报告
-d –dictionary-order 仅考虑空白和字母,不考虑特殊字符
-f –ignore-case 默认情况下,会将大写字母排在前面;这个参数会忽略大小写
-g –general-number-sort 按通用数值来排序(跟 -n 不同,把值当浮点数来排序,支持科学计数法表示的值)
-i –ignore-nonprinting 在排序时忽略不可打印字符
-k –key=POS1[,POS2] 排序从POS1位置开始;如果指定了POS2的话,到POS2位置结束
-M –month-sort 用三字符月份名按月份排序
-m –merge 将两个已排序数据文件合并
-n –numeric-sort 按字符串数值来排序(并不转换为浮点数)
-o –output=file 将排序结果写出到指定的文件中
-R –random-sort 按随机生成的散列表的键值排序
–random-source=FILE 指定 -R 参数用到的随机字节的源文件
-r –reverse 反序排序(升序变成降序)
-S –buffer-size=SIZE 指定使用的内存大小
-s –stable 禁用最后重排序比较
-T –temporary-directory=DIR 指定一个位置来存储临时工作文件
-t –field-separator=SEP 指定一个用来区分键位置的字符
-u –unique 和 -c 参数一起使用时,检查严格排序;不和 -c 参数一起用时,仅输出第一例相似的两行
-z –zero-terminated 用NULL字符作为行尾,而不是用换行符

搜索数据

grep 命令会在输入或指定的文件中查找包含匹配指定模式的字符的行。

压缩数据

Linux文件压缩工具

名称 后缀 描述
bzip2 .bz2 采用Burrows-Wheeler块排序文本压缩算法和霍夫曼编码
compress .Z 最初的Unix文件压缩工具,已经快没人用了
gzip .gz GNU压缩工具,用Lempel-Ziv编码
zip .zip Windows上PKZIP工具的Unix实现

tar 命令最开始是用来将文件写到磁带设备上归档的,然而它也能把输出写到文件里,这种
用法在Linux上已经普遍用来归档数据了。

参数 说明
-A –concatenate 将一个已有tar归档文件追加到另一个已有tar归档文件
-c –create 创建一个新的tar归档文件
-d –diff 检查归档文件和文件系统的不同之处
–delete 从已有tar归档文件中删除
-r –append 追加文件到已有tar归档文件末尾
-t –list 列出已有tar归档文件的内容
-u –update 将比tar归档文件中已有的同名文件新的文件追加到该tar归档文件中
-x –extract 从已有tar归档文件中提取文件
-C dir 切换到指定目录
-f file 输出结果到文件或设备 file
-j 将输出重定向给 bzip2 命令来压缩内容
-p 保留所有文件权限
-v 在处理文件时显示文件
-z 将输出重定向给 gzip 命令来压缩内容

参考文献
Linux命令行与shell脚本编程大全

你可能感兴趣的:(数据,linux,Linux)