Linux数据处理--基础篇(实时更新)

一、cut 命令篇

1.1、定义

         cut命令是一个选取命令,其功能是将文件中的每一行”字节” ”字符” ”字段” 进行剪切,选取我们需要的,并将这些选取好的数据输出至标准输出。


1.2、语法  

        cut   参数  selectedNum  file

1.3、参数

        -b(bytes) :以字节为单位进行分割。这些字节位置将忽略多字节字符边界,除非也指定了 -n 标志。

        -c(characters) :以字符为单位进行分割。

        -d :自定义分隔符,默认为制表符

        -f(filed) :与-d一起使用,指定显示哪个区域。

 #例如:   cut -d "spliter" -f selectedNum file 

        -n :取消分割多字节字符。仅和 -b 标志一起使用。如果字符的最后一个字节落在由 -b 标志的 List 参数指示的范围之内,该字符将被写出;否则,该字符将被排除。

1.4、selectedNum 参数

              selectedNum :选取哪些字段、字节、字符被输出。

    剪切多个字符有很多方式,

    如 selectedNum1,3,5 //剪切每一行第 1 3 5个字符

    如 selectedNum1-5 //剪切每一行第 1-5 个字符

    如 selectedNum-5 //剪切每一行第 1-5 个字符

    如 selectedNum3- //剪切每一行第 3个字符以后的

1.5、实例

[root@hadoop01 hadoop]# cut -b 1 /etc/passwd    取该文件的第一个字节
[root@hadoop01 hadoop]# cut -b 2-3 /etc/passwd  取该文件的第2到3个字节
[root@hadoop01 hadoop]# cut -b -5 /etc/passwd   取该文件前5个字节   
[root@hadoop01 hadoop]# cut -c -5 /etc/passwd   取该文件前5个字符     
[root@hadoop01 hadoop]# cut -d ":" -f 3,4,5 /etc/passwd    取以 :分割的第3,4,5个域的内容
1.6、实例2  实现剪接功能

    间结出eth1网卡中的ip(inet addr)

[root@hadoop01 ~]# ifconfig eth1 | grep "inet addr" | cut -d ":" -f 2 | cut -d " " -f 1


二、文本三剑客之 -- Sed命令篇

官网文献参考地址:http://www.gnu.org/software/sed/manual/sed.html#Execution-Cycle

2.1 概念

        sed:Stream Editor 流编辑器。

        sed  是Linux文本三剑客之一.三剑客分别代表grep(文本过滤),sed(流编辑器),awk(gawk)(报告生成器)

                    Linux数据处理--基础篇(实时更新)_第1张图片

        sed能够完美的配合正则表达式使用,功能不同凡响。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 改变,除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件;简化对文件的反复操作;编写转换程序等。

2.2 语法





你可能感兴趣的:(Linux基础)