yu_gg198287

UNIX 系统上的文本操作简介

使用标准实用工具

本文将介绍 UNIX 平台上的文本操作，概述一些在大多数基于 UNIX 的发行版上广为使用并且已安装的标准实用工具。很多时候，因为有更现代的文本处理器（例如 Perl、Python 和 Ruby），所以这些标准实用工具常常被忽略，而系统上并非总是已经安装这些现代的文本处理器。本文将介绍性地评论这些工具，帮助想了解 UNIX 或 Linux 的新人或者想重新捡起自己遗忘的知识的老手了解这些工具。

简介

UNIX 的基本哲学之一就是创建只做一件事并将这一件事做好的程序（或进程）。这一哲学要求认真考虑接口以及结合这些更小（有望更简单）流程的方法，以产生有用的结果。文本数据通常是在这些接口之间流动。多年以来，越来越高级的文本处理工具和语言已经开发出来。从语言上来讲，早期专门处理文本的语言有 perl，后来又出现了 python 和 ruby。虽然这些语言以及其他语言都是非常强大的文本处理器，但这些工具并不是一直可行的，在生产环境下尤其如此。本文将介绍一些基本的 UNIX 文本处理命令，这些命令既可单独使用也可结合使用，可用来解决需要更新的语言才能解决的问题。对许多人来说，与长篇大论的解释相比，实例能够提供更多的信息。请注意，由于有多种可用的 UNIX 和 UNIX 类系统，因此不同实现之间的命令标志、程序行为和输出结果会略有不同。

使用 cat

cat 命令是最基本的命令之一。这个命令用来创建、追加、显示以及合并文本文件。

我们可以使用 cat 命令创建文件，方法是：使用 ‘>’ 将标准输入 (stdin) 重定向到文件。使用 ‘>’ 操作符会缩短指定输出文件的内容。在此之后输入的文本会重定向到 ‘>’ 操作符右侧指定的文件。control-d 表示文件结束，将控制权返回给 shell。

使用 cat 创建文件的示例

$ cat > grocery.list
apples
bananas
plums

$

使用 ‘>>’ 操作符将标准输入追加到现有文件。

使用 cat 追加文件的示例

$ cat >> grocery.list
carrots

使用 cat 命令不加标志，可查看 grocery.list 文件的内容。请注意文件的内容如何包含来自重定向的输入以及追加操作符的示例。

使用无标志 cat 的示例

$ cat grocery.list
apples
bananas
plums
carrots

可以使用 cat 命令对文件行进行编号。

使用 cat 计算行的示例：

$ cat -n grocery.list
     1  apples
     2  bananas
     3  plums
     4  carrots

回页首

使用 nl

nl 过滤器会从 stdin 或指定文件读取行。输出则会写入 stdout 并重定向到文件，或传到另一个进程中。nl 的行为是由不同命令行选项控制的。

在默认情况下，nl 会计算行数，与 cat -n 的功能类似。

nl 默认用法示例：

$nl grocery.list
     1  apples
     2  bananas
     3  plums
     4  carrots

使用 -b 标志指定要进行编号的行。此标志将参数作为 “类型”。该类型告诉 nl 需要给哪些行编号，使用 ‘a’ 给所有行编号，‘t’ 告诉 nl 不对空行和只有空格的行进行编号，‘n’ 指定不编号行。在示例中显示针对模式的类型 ‘p’。nl 给正则表达式模式指定的行编号，在本用例中，是以字母 ‘a’ 或 ‘b’ 开始的行。

使用 nl 对符合正则表达式的行进行编号的示例

$ nl -b p^[ba]grocery.list
     1  apples
     2  bananas
       plums
       carrots

在默认情况下，nl 行号和文本之间使用制表符进行分隔。使用 -s 指定其他分隔符，例如 ‘=’ 号。

使用 nl 指定其他分隔符的示例

$nl -s= grocery.list
     1=apples
     2=bananas
     3=plums
     4=carrots

回页首

使用 wc

wc (wordcount) 命令计算指定文件或来自 stdin 的行数、单词数（由空格分隔）和字符数。

wc 用法示例

$wc grocery.list
       4       4      29 grocery.list
$wc -l grocery.list
       4 grocery.list
$wc -w grocery.list
       4 grocery.list
$wc -c grocery.list
      29 grocery.list

回页首

使用 grep

grep 命令在指定文件或 stdin 中搜索与给定表达式相匹配的模式。grep 的输出由多个选项标志控制。

为了演示，这里新创建了一个文件，与 grocery.list 配合使用。

$cat grocery.list2
Apple Sauce
wild rice
black beans
kidney beans
dry apples

grep 基本用法示例

$ grep apple grocery.list grocery.list2
grocery.list:apples
grocery.list2:dry apples

grep 拥有相当可观的选项标志。下面的示例将演示其中几个选项的用法。

要显示文件名（处理多个文件的情况下）以及发现模式匹配的行数，在本用例中使用的模式是计算每个文件中出现单词 ‘apple’ 的行数。

grep 示例：计算文件中匹配数

$ grep -c apple grocery.list grocery.list2
grocery.list:1
grocery.list2:1

在搜索多个文件时，可以使用 -h 选项取消在输出中显示文件名。

grep 示例：取消在输出中显示文件名

$ grep -h apple grocery.list grocery.list2
apples
dry apples

在很多情况下，需要进行不区分大小写的搜索。grep 命令的 -i 选项可以在搜索时忽略大小写。

grep 示例：不区分大小写

$ grep -i apple grocery.list grocery.list2

grocery.list:apples
grocery.list2:Apple Sauce
grocery.list2:dry apples

有些时候，只需要输出文件名，不需要输出模式匹配的行。grep 提供 -l 选项，用于只输出包含匹配模式行的文件名。

grep 示例：只输出文件名

$ grep -l carrot grocery.list grocery.list2
grocery.list

行号可以显示在输出中。使用 -n 选项来包含行号。

grep 示例：包含行号

$ grep -n carrot grocery.list grocery.list2
grocery.list:4:carrots

有时期望输出与模式不匹配的行。这时就要使用 -v 选项。

grep 示例：输出不匹配行

$ grep -v beans grocery.list2
Apple Sauce
wild rice
dry apples

有时，需要的模式是一个单词，两边被空格或其他字符（例如连字符或括号）包围。grep 的多数版本都提供了 -w 选项，能方便地编写此类模式的搜索。

grep 示例：单词匹配

$ grep -w apples grocery.list grocery.list2
grocery.list:apples
grocery.list2:dry apples

回页首

流、管道、重定向、tee 和 here docs

在 UNIX 中，一个终端默认包含三个流，一个输入流，两个基于输出的流。输入流称为 stdin，通常映射到键盘（也可使用其他输入设备，或从其他进程中传入）。标准输出流称为 stdout，并通常输出到终端上，输出也可供其他进程使用（就像 stdin 一样）。另一个输出流 stderr 主要用作状态报告，通常输出到终端，如 stdout。这三个流都有各自的文件描述符，每一个流都可以从其他流中传入或重定向，即使是它们全都连接到终端。每个流的文件描述符分别是：

stdin = 0
stdout = 1
stderr = 2

这三个流可以传送或重定向到文件或其他进程。这个构造通常称为 “构建一个管道”。例如，程序员可能想将 stdout 流和 stderr 流合并，然后在终端上显示它们，再将结果保存到文件中以便检查版本问题。使用 2>&1，stderr 流以及文件描述符 2 会被重定向到 &1（指向 stdout 流）。这样就能有效地将 stderr 合并到 stdout。使用 ‘|’ 符号表示管道。管道连接左侧进程 (make) 的 stdout 和右侧进程 (tee) 的 stdin。tee 命令会复制（合并）将数据发送到终端以及文件的 stdout 流，在本示例中，称为 build.log。

合并和拆分标准流的示例

$ make –f build_example.mk 2>&1 | tee build.log

另一个重定向示例，使用 cat 命令和一些流重定向制作文本文件副本。

使用重定向制作备份文件的示例

$ cat < grocery.list > grocery.list.bak

前面使用 nl 命令为在 stdout 中显示的文件加行号。管道可用于将 stdout 流（来自 cat grocery.list）发送到另外一个进程，在本用例中，是 nl 命令。

简单管道传送到 nl 的示例

$ cat grocery.list | nl
     1  apples
     2  bananas
     3  plums
     4  carrots

先前显示的另一个示例是针对模式执行不区分大小写的搜索。这也可以使用重定向来实现（在这本用例中为来自 stdin 或使用管道，与上述简单管道示例相似）。

grep 示例：通过 stdin 重定向和管道

$ grep -i apple < grocery.list2
Apple Sauce
dry apples
$cat grocery.list2 | grep -i apple
Apple Sauce
dry apples

在某些情况下，要将文本块重定向到某个命令或文件中作为脚本的一部分。实现此操作的机制是使用 ‘here document’（或 ‘here-doc’）。要将 here-doc 嵌入到脚本，需要使用 ‘<<’ 操作符重定向下列文本，直到到达文件结束分隔符为止。在 << 操作符后指定分隔符。

示例：命令行上的基本 here-doc

$ cat << EOF
> oranges
> mangos
> pinapples
> EOF
oranges
mangos
pinapples

可将此输出重定向到文件，在本示例中，分隔符 ‘EOF’ 改为 ‘!’。然后使用 tr 命令（稍后说明）将 here-doc 中的字母全部变成大写。

示例：将基本 here-doc 重定向到文件

cat << ! > grocery.list3
oranges
mangos
pinapples
!
$ cat grocery.list3
oranges
mangos
pinapples
$tr [:lower:] [:upper:] << !
> onions
> !
ONIONS

回页首

使用 head 和 tail

head 和 tail 命令用来查看文件的顶部 (head) 或底部 (tail)。要显示文件顶部两行和底部两行，请分别使用这两个命令加 -n 选项标志。相同地，-c 选项显示文件中的前几个或最后几个字符。

示例：head 和 tail 命令的基本用法

$ head -n2 grocery.list
apples
bananas
$ tail -n2 grocery.list
plums
carrots
$ head -c12 grocery.list
apples
banan
$ tail -c12 grocery.list
ums
carrots

tail 命令的常见用途就是观察日志文件或者正在运行的进程输出，查看其中是否有问题，或者关注进程何时结束。-f (tail –f) 选项使 tail 持续观察流，即使是到达文件结束标记也继续观察，并在流包含更多数据时，持续显示输出。

回页首

使用 tr

tr 命令用来转换来自 stdin 的字符，在 stdout 中显示。tr 一般接受两个字符集合，用第二个集合中的字符替换第一个集合中的字符。有许多预定义的字符类（集合）可供 tr 使用，还有其他命令可用。

这些预定义的字符类是：

alnum：字母数字字符
alpha：字母字符
blank：空白字符
cntrl：控制字符
digit：数字字符
graph：图形字符
lower：小写字母字符
print：可打印字符
punct：标点字符
space：空间字符
upper：大写字符
xdigit：16 进制字符

tr 命令够将字符串中的小写字符转换成大写。

tr 示例：将字符串转换成大写

$ echo "Who is the standard text editor?" |tr [:lower:] [:upper:]
WHO IS THE STANDARD TEXT EDITOR?

tr 可以用来从字符串中删除指定字符。

tr 示例：从字符串中删除指定字符

$ echo 'ed, of course!' |tr -d aeiou
d, f crs!

使用 tr 将字符串中任何指定字符转换成空格。在序列中遇到多个指定字符时，它们会转换成一个空格。

-s 选项标志的行为在不同系统中表现不同。

tr 示例：将字符转变成空格

$ echo 'The ed utility is the standard text editor.' |tr -s astu ' '
The ed ili y i he nd rd ex edi or.

-s 选项标志可以用来取消字符串中多余的空格。

$ echo 'extra     spaces – 5’ | tr -s [:blank:]
extra spaces - 5
$ echo ‘extra		tabs – 2’ | tr -s [:blank:]
extra   tabs – 2

在基于 UNIX 和 Windows 系统之间转换文件时发生的常见问题就是行分隔符 (line delimiters)。在 UNIX 系统中，行分隔符为一个换行符，而在 Windows 系统中，则是用两个字符（即一个回车符和一个换行符）。使用 tr 配合某种重定向，可以解决这个格式问题。

tr 示例：消除回车符

$ tr -d '\r' < dosfile.txt > unixfile.txt

回页首

使用 colrm

使用 colrm，可以从流中剪切出文本列。在第一个示例中，使用 colrm 命令从管道的每行文本中剪切出第 4 列到行尾。然后，将同一个文件发送至 colrm，以删除第 4 列到第 5 列。

使用 colrm 删除列的示例

$ cat grocery.list |colrm 4
app
ban
plu
car
$ cat grocery.list |colrm 4 5
apps
banas
plu
carts

回页首

使用 expand 和 unexpand

expand 命令将制表符变成空格，而 unexpand 将空格变成制表符。这两个命令都接受 stdin 输入以及命令行指定文件的输入。使用 -t 选项可以设置一个或多个制表符停止位。

expand 和 unexpand 示例：

$ cat grocery.list|head -2|nl|nl
     1       1  apples
     2       2  bananas
$ cat grocery.list|head -2|nl|nl|expand -t 5
     1         1    apples
     2         2    bananas
$ cat grocery.list|head -2|nl|nl|expand -t 5,20
     1                   1 apples
     2                   2 bananas
$ cat grocery.list|head -2|nl|nl|expand -t 5,20|unexpand -t 1,5
                1                   1 apples
                2                   2 bananas

回页首

使用 comm、cmp 和 diff

为了演示这些命令，要新建两个文件。

新建演示文件：

cat << EOF > dummy_file1.dat
011 IBM 174.99
012 INTC 22.69
013 SAP 59.37
014 VMW 102.92
EOF
cat << EOF > dummy_file2.dat
011  IBM 174.99
012 INTC 22.78
013 SAP 59.37
014 vmw 102.92
EOF

diff 命令会对两个文件进行比较，报告两者之间的不同之处。diff 可接受多种选项标志。在下面示例中，首先显示默认的 diff，然后是使用 -w 选项的 diff 忽略空格，并以使用 -i 选项标志在比较中忽略大小写区别而结束。

diff 命令的示例

$ diff dummy_file1.dat dummy_file2.dat
1,2c1,2
< 011 IBM 174.99
< 012 INTC 22.69
---
> 011  IBM 174.99
> 012 INTC 22.78
4c4
< 014 VMW 102.92
---
> 014 vmw 102.92

$ diff -w dummy_file1.dat dummy_file2.dat
2c2
< 012 INTC 22.69
---
> 012 INTC 22.78
4c4
< 014 VMW 102.92
---
> 014 vmw 102.92

$ diff -i dummy_file1.dat dummy_file2.dat
1,2c1,2
< 011 IBM 174.99
< 012 INTC 22.69
---
> 011  IBM 174.99
> 012 INTC 22.78

comm 命令会对两个文件进行比较，但比较的方式与 diff 差别很大。comm 产生三列输出，仅出现在第 1 个文件（第 1 列）的行，仅出现在第 2 个文件（第 2 列）的行，两个文件中都有的常见行（第 3 列）。可使用选项标志来取消输出列。此命令可能在取消第 1 列和第 2 列时最有用，只显示两个文件中常见的行，如下所示。

comm 命令示例

$ comm dummy_file1.dat dummy_file2.dat
        011  IBM 174.99
011 IBM 174.99
012 INTC 22.69
        012 INTC 22.78
                013 SAP 59.37
014 VMW 102.92
        014 vmw 102.92

$ comm -12 dummy_file1.dat dummy_file2.dat
013 SAP 59.37

cmp 命令也会对这两个文件进行比较。但是，与 comm 或 diff 不同，cmp 命令（默认）报告这两个文件刚开始不同的字节和行号。

cmp 命令示例

$ cmp dummy_file1.dat dummy_file2.dat
dummy_file1.dat dummy_file2.dat differ: char 5, line 1

回页首

使用 fold

使用 fold 命令可以将行拆分为指定的宽度。这个命令最初是用来对无法支持换行的定宽输出设备进行文本格式化。-w 选项标志允许使用指定行宽，而不是只使用默认的 80 列。

使用 fold 示例

$ fold -w8 dummy_file1.dat
011 IBM
174.99
012 INTC
 22.69
013 SAP
59.37
014 VMW
102.92

回页首

使用 paste

paste 命令用来合并文件，将每个文件的记录逐一合并。利用重定向，可以通过将一个文件中的每个记录与另一个文件的记录合并，来新建文件。

新建演示文件：

cat << EOF > dummy1.txt
IBM
INTC
SAP
VMW
EOF
cat << EOF > dummy2.txt
174.99
22.69
59.37
102.92
EOF

paste 示例：来自多文件的行

$ paste dummy1.txt dummy2.txt grocery.list
IBM     174.99  apples
INTC    22.69   bananas
SAP     59.37   plums
VMW     102.92  carrots

-s 选项标志用来一次处理多个文件（连续地），而不是并行处理。请注意，下面的列与上面示例中的行合并。

paste 示例 2：来自多文件的行

$ paste -s dummy1.txt dummy2.txt grocery.list
IBM     INTC    SAP     VMW
174.99  22.69   59.37   102.92
apples  bananas plums   carrots

如果只指定一个文件，或者 paste 正处理 stdin，输入会默认显示在一个列中。使用 -s 选项标志，输出会显示在一个行中。由于输出缩减到一行，所以使用分隔符来分隔返回的域（默认的分隔符是制表符）。在本示例中，使用 find 命令寻找 64 位库所在的目录，然后构建一个合适的路径，附加到变量 $LD_LIBRARY_PATH 中。

paste 示例：使用分隔符

$ find /usr -name lib64 -type d|paste -s -d:
/usr/lib/qt3/lib64:/usr/lib/debug/usr/lib64:/usr/X11R6/lib/X11/locale/lib64:/usr/X11R6/
lib64:/usr/lib64:/usr/local/ibm/gsk7_64/lib64:/usr/local/lib64

$ paste -d, dummy1.txt dummy2.txt
IBM,174.99
INTC,22.69
SAP,59.37
VMW,102.92

回页首

使用 bc

在 Shell 上进行算术计算的简易方法是使用 bc（“basic calculator” 或 “bench calculator”）。有些 shell 自带了算术计算功能，有些则依靠 expr 对表达式进行运算。使用 bc，计算可以在不同的 Shell 和 UNIX 系统间移植，只要注意不同厂商的扩展即可。

bc 示例：简单计算

$ echo 2+3|bc
5

$ echo 3*3+2|bc
11

$ VAR1=$(echo 2^8|bc)
$ echo $VAR1
256

$ echo "(1+1)^8"|bc
256

bc 不仅可以执行这些简单计算。它是一个解释器，有自己内部的和用户自定义的函数、语法和流程控制，就像编程语言一样。在默认情况下，bc 在小数点右侧不包含任何数字。要提高输出的精度，需要使用特殊的 scale 变量。如示例所示，bc 支持大数字，可实现更长的精度。使用 obase 或 ibase 可以控制输入和输出数字的转换基础。在下面的示例中：

obase 改变默认的输入基（10 进制），将结果转变成 16 进制
对于 2 的平方根，scale 指定了小数点右侧的数字个数
求 2 的 128 次方演示了对大数字的支持
调用内部函数 sqrt() 计算 2 的平方根
在 ksh 中，计算和输出百分比

bc 示例：更多计算

$ echo "obase=16; 2^8-1"|bc
FF

$ echo "99/70"|bc
1

$ echo "scale=20; 99/70"|bc
1.41428571428571428571

$ echo "scale=20;sqrt(2)"|bc
1.41421356237309504880

$ echo 2^128|bc
340282366920938463463374607431768211456

$ printf "Percentage: %2.2f%%\n" $(echo .9963*100|bc)
Percentage: 99.63%

bc 的手册页面中有详细说明，并有相关示例。

回页首

使用 split

split 命令的一大作途就是将大型数据文件分解成小的文件以方便处理。在本示例中，BigFile.dat 经 wc 命令统计有 165782 行。-l 选项标志规定了 split 为每个输出文件生成的最大行数。split 支持为输出文件名指定前缀，例如下面的示例指定 BigFile_ 为前缀。其他选项支持后缀控制，在 BSD 系统上的 -p 选项标志支持按正则表达式进行拆分，就像 csplit（上下文拆分）命令一样。更多信息请参阅手册页面。

split 示例:

$ wc BigFile.dat
165782  973580 42557440 BigFile.dat

$ split -l 15000 BigFile.dat BigFile_

$ wc BigFile*
  165782  973580 42557440 BigFile.dat
   15000   87835 3816746 BigFile_aa
   15000   88483 3837494 BigFile_ab
   15000   89071 3871589 BigFile_ac
   15000   88563 3877480 BigFile_ad
   15000   88229 3855486 BigFile_ae
    7514   43817 1908914 BigFile_af
  248296 1459578 63725149 total

回页首

使用 cut

cut 命令用来 "裁剪" 文件中以列为基础小节或从 stdin 传送而来的数据。它可按字节 (-b)、字符 (-c) 和列表指定的域 (-f) 进行修剪。使用逗号分隔列表和连字符指定域列表或字节/字符位置。如果只需要输出一个位置或域，则直接指定位置或域即可。可以使用连字符指定一系列域，例如 1-3 输出 1-3 域（或位置），-2 从行开始前两个域（或字节/字符）开始输出，3- 则让 cut 从域（或位置）3 开始输出到行尾。多个域之间以逗号分隔。其他有用的标志有：-d 指定域分隔符，-s 取消没有分隔符的行。

cut 示例

$ cat << EOF > dummy_cut.dat
# this is a data file
ID,Name,Score
13BA,John Smith,100
24BC,Mary Jones,95
34BR,Larry Jones,94
36FT,Joe Ruiz,93
40RM,Kay Smith,91
EOF

$ cat dummy_cut.dat |cut -d, -f1,3
# this is a data file
ID,Score
13BA,100
24BC,95
34BR,94
36FT,93
40RM,91

$ cat dummy_cut.dat |cut -b6-
s is a data file
me,Score
John Smith,100
Mary Jones,95
Larry Jones,94
Joe Ruiz,93
Kay Smith,91

$ cat dummy_cut.dat |cut -f1- -d, -s
ID,Name,Score
13BA,John Smith,100
24BC,Mary Jones,95
34BR,Larry Jones,94
36FT,Joe Ruiz,93
40RM,Kay Smith,91

回页首

使用 uniq

uniq 命令通常用来惟一地列出输入源（通常是文件或 stdin）中的行。要正确操作，重复的行必须连续放置于输入中。uniq 命令的输入通常会进行排序，因此重复的行会进行合并。与 uniq 命令搭配使用的两个常用标志是：-c 输出每行出现的次数，-d 用来显示重复行的一个实例。

uniq 示例

$ cat << EOF > dummy_uniq.dat

13BAR   Smith   John    100
13BAR   Smith   John    100
24BC    Jone    Mary    95
34BRR   Jones   Larry   94
36FT    Ruiz    Joe     93
40REM   Smith   Kay     91
13BAR   Smith   John    100
99BAR   Smith   John    100
13XIV   Smith   Cindy   91


EOF

$ cat dummy_uniq.dat | uniq

13BAR   Smith   John    100
24BC    Jone    Mary    95
34BRR   Jones   Larry   94
36FT    Ruiz    Joe     93
40REM   Smith   Kay     91
13BAR   Smith   John    100
99BAR   Smith   John    100
13XIV   Smith   Cindy   91

$ cat dummy_uniq.dat | sort |uniq

13BAR   Smith   John    100
13XIV   Smith   Cindy   91
24BC    Jone    Mary    95
34BRR   Jones   Larry   94
36FT    Ruiz    Joe     93
40REM   Smith   Kay     91
99BAR   Smith   John    100

$ cat dummy_uniq.dat | sort |uniq -d

13BAR   Smith   John    100

$ cat dummy_uniq.dat | sort |uniq -c
   3
   3 13BAR   Smith   John    100
   1 13XIV   Smith   Cindy   91
   1 24BC    Jone    Mary    95
   1 34BRR   Jones   Larry   94
   1 36FT    Ruiz    Joe     93
   1 40REM   Smith   Kay     91
   1 99BAR   Smith   John    100

回页首

使用 sort

要按指定顺序对 stdin 或文件的内容排序，例如按字母顺序或数字顺序，则可以使用 sort 命令。在默认情况下，sort 的输出写在 stdout 中。LC_ALL、LC_COLLATE 和 LANG 等环境变量可以影响 sort 及其他命令的输出。请注意，示例文件显示了 2 个分离的重复记录，一个重复是 IBM，另一个重复是空行。

sort 示例：默认行为

$ cat << EOF > dummy_sort1.dat

014 VMW, 102.92
013 INTC, 22.69
012 sap,  59.37
011 IBM, 174.99
011 IBM, 174.99

EOF

$ sort dummy_sort1.dat


011 IBM, 174.99
011 IBM, 174.99
012 sap,  59.37
013 INTC, 22.69
014 VMW, 102.92

sort 有一个非常强大的标志，在多数情况下可以代替 uniq 命令。-u 选项标志对文件进行排序，删除重复行，以生成一个只包含惟一行的输出清单。

sort 示例：惟一排序

$ sort -u dummy_sort1.dat

011 IBM, 174.99
012 sap,  59.37
013 INTC, 22.69
014 VMW, 102.92

有时，希望将输入倒序输出。在默认情况下，sort 按从小到大（数字）和字符数据的字母顺序排序。使用 -r 选项标志可以将默认排序倒过来。

sort 示例：倒序排序

$ sort -ru dummy_sort1.dat
014 VMW, 102.92
013 INTC, 22.69
012 sap,  59.37
011 IBM, 174.99

不同情况下，可能要求根据某种域或 “键” 对文件进行排序。幸运的是，sort 的 -k 选项标志支持按位置指定排序键。域之间默认以空格分隔。

sort 示例：按键排序

$ sort -k2 -u dummy_sort1.dat

011 IBM, 174.99
013 INTC, 22.69
014 VMW, 102.92
012 sap,  59.37

如果需要区分大小写，sort 的 -f 选项标志可以在进行比较时忽略大小写。在结合如下所示的多个标志时，有些版本的 UNIX 需要用不同的顺序指定这些标志。

sort 示例：不区分大小写排序

$ sort -k2 -f -u dummy_sort1.dat

011 IBM, 174.99
013 INTC, 22.69
012 sap,  59.37
014 VMW, 102.92

以上的排序均是对字母的排序。如果需要按数字顺序对数据排序，则要使用 -n 选项标志。

sort 示例：按数字排序

$ sort -n -k3 -u dummy_sort1.dat

013 INTC, 22.69
012 sap,  59.37
014 VMW, 102.92
011 IBM, 174.99

有些输入可能不使用空格而是使用字符在行中区分域。使用 -t 选项标志指定非默认分隔符，例如逗号。

sort 示例：使用非默认分隔符对域排序

$ sort -k2 -t"," -un dummy_sort1.dat

013 INTC, 22.69
012 sap,  59.37
014 VMW, 102.92
011 IBM, 174.99

回页首

使用 join

凡是熟悉数据库查询编写的人，都认得 join 命令这个实用工具。与多数 UNIX 命令一样，这个命令的输出也显示在 stdout 中。要将文件连接 (“join”) 在一起，请逐行比较来自两个文件中指定的域。如果没有指定域，join 则会从每一行的开始进行域区匹配。默认域分隔符是空格（有些系统使用一个空格，有的则使用相邻多个空格）。找到域匹配后，会根据域匹配的两行输出一行结果。要得到合理的结果，每个文件都应该按照匹配的域进行排序。各个系统实现 join 的方式略有不同。

本示例使用 -t 指定域分隔符，并演示了在逗号分隔的第一个域（默认）上对两个文件进行连接。数据库操作人员将其看作是内部连接，只显示匹配的行。

join 示例：使用非默认域分隔符

cat << EOF > dummy_join1.dat
011,IBM,Palmisano
012,INTC,Otellini
013,SAP,Snabe
014,VMW,Maritz
015,ORCL,Ellison
017,RHT,Whitehurst
EOF

cat << EOF > dummy_join2.dat
011,174.99,14.6
012,22.69,10.4
013,59.37,26.4
014,102.92,106.1
016,27.77,31.2
EOF

cat << EOF > dummy_join3.dat
IBM,Armonk
INTC,Santa Clara
SAP,Walldorf
VMW,Palo Alto
ORCL,Redwood City
EMC,Hopkinton
EOF

$ join -t, dummy_join1.dat dummy_join2.dat
011,IBM,Palmisano,174.99,14.6
012,INTC,Otellini,22.69,10.4
013,SAP,Snabe,59.37,26.4
014,VMW,Maritz,102.92,106.1

要指定在每个文件中 “连接” 哪个域，可以使用 -j[1,2] x 选项标志（或者只使用 -1 x 或 -2 x）。选项标志 -j1 2 或 -1 2 指定第 1 个文件的第 2 个域，第 1 个文件是命令中列出的第一个文件。本示例将演示如何根据第 1 个文件的第 1 个域和第 2 个文件的第 2 个域连接文件，这个连接也是内部连接，只连接匹配的行。

join 示例：指定域

$ join -t, -j1 1 -j2 2 dummy_join3.dat dummy_join1.dat
IBM,Armonk,011,Palmisano
INTC,Santa Clara,012,Otellini
SAP,Walldorf,013,Snabe
VMW,Palo Alto,014,Maritz
ORCL,Redwood City,015,Ellison

与数据库相关示例概念一致，可以用标志实现一个左外连接 (left outer join)。左外连接包含左侧第一个文件或表中的所有行以及第二个文件或表中的匹配行。使用 -a 可以包含指定文件中的所有行。

join 示例：左外连接

$ join -t, -a1 dummy_join1.dat dummy_join2.dat
011,IBM,Palmisano,174.99,14.6
012,INTC,Otellini,22.69,10.4
013,SAP,Snabe,59.37,26.4
014,VMW,Maritz,102.92,106.1
015,ORCL,Ellison
017,RHT,Whitehurst

全外连接包含两个文件或表中的所有行，并不关心域是否匹配。可以使用 -a 选项标志指定两个文件来实现全外连接。

join 示例：全外连接

$ join -t, -a1 -a2 -j1 2 -j2 1 dummy_join1.dat dummy_join3.dat
IBM,011,Palmisano,Armonk
INTC,012,Otellini,Santa Clara
SAP,013,Snabe,Walldorf
VMW,014,Maritz,Palo Alto
ORCL,015,Ellison,Redwood City
EMC,Hopkinton
017,RHT,Whitehurst

回页首

使用 sed

sed 流编辑器 (stream editor) 是个有用的文本解析和操作实用工具，可以方便地进行文件或数据流的转换。它一次一行地读取文本，在文本行中应用指定的命令。默认输出到 stdout。sed 使用的命令可以执行多种操作，如删除缓冲区的文本、将文本附加或插入到缓冲区、写入到一个文件中，以及根据正则表达式转换文本等。

sed 替换的基本示例显示使用 -e 选项标志来指定表达式或编辑文本。在一个 sed 执行中可以指定多个表达式或编辑文本。请注意 sed 文本编辑的组件。文本编辑开始的 “s” 代表这是个替换命令。使用 “/” 作为分隔符，先指明要替换的 “IBM”。接下来，替换模式出现在两个 “/” 分隔符之间。最后，“g” 指明在当前文本缓冲区中进行全局修改。本示例的第三个演示解释了三个文本编辑的组合：用斜杠代替反斜杠，用下划线代替空格，以及删除冒号（请注意其中反斜杠 “\” 字符的转义表示方式）。

sed 示例：基本替换/多个编辑文本

$ echo "IBM 174.99" |sed –e 's/IBM/International Business Machines/g'
International Business Machines 174.99

$ echo "Oracle DB"|sed -e 's/Oracle/IBM/g' -e 's/DB/DB2/g'
IBM DB2

$ echo "C:\Program Files\PuTTY\putty.exe"| sed -e 's/\\/\//g' -e 's/ /_/g' -e 's/://g'
C/Program_Files/PuTTY/putty.exe

在下面的示例中，将创建一个文件来演示 sed 的另外一个特性。除了替换之外，筛选也是 sed 常用的功能。UNIX 的 grep 命令是常用的筛选器，在命令行上发现多种文本操作方式很常见。本示例将演示如何使用 sed 删除命令删除以 “#” 或以空格加 “#” 开始的行。同时还列出了采用相同模式的 grep 示例以作参考。

sed 示例：筛选

cat << EOF > dummy_sed.txt
# top of file
  # the next line here
# Last Name, Phone
Smith, 555-1212
Jones, 555-5555 # last number
EOF

$ sed '/^[[:space:]]*#/d' dummy_sed.txt
Smith, 555-1212
Jones, 555-5555 # last number

$ grep -v  ^[[:space:]]*# dummy_sed.txt
Smith, 555-1212
Jones, 555-5555 # last number

为了更好地理解 sed 行为，这里要多演示几个模式。为了让这些模式有文本可处理，还新建了一个文件。第一个 sed 模式显示了如何从文件列出的字符串（文件名）中删除最后 4 个字符。接着，该模式删除圆点 (“.”) 右侧的全部字符，即文件扩展名。还列出一个删除空行的模式。特殊字符 “&” 允许在输出中使用搜索模式。在本示例中，IBM 是输入模式的一部分，并使用 “&” 将其指定为输出的一部分。本系列最后展示的一个模式显示了如何使用 sed 删除从基于 Windows 系统上传输过来的文本文件的回车符。要在命令行向脚本中输入 “^M”，请先按 control-v，再按 control-m。请注意，终端的特征可能影响 control-v、control-m 组合的输入。

sed 示例：更多模式

cat << EOF > filelist.txt
PuTTY.exe

sftp.exe
netstat.exe
servernames.list
EOF

$ sed 's/....$//' filelist.txt
PuTTY

sftp
netstat
servernames.

$ sed 's/\..*$//g' filelist.txt
PuTTY

sftp
netstat
servernames

$ sed '/^$/d' filelist.txt
PuTTY.exe
sftp.exe
netstat.exe
servernames.list

$ echo "IBM 174.99" |sed 's/IBM/&-International Business Machines/g'
IBM-International Business Machines 174.99

$ cat dosfile.txt | sed 's/^M//' > unixfile.txt

sed 命令可以在指定的地址范围内操作。下面的示例显示了一些 sed 可以控制的寻址方式。“-n” 选项标志取消 sed 将每行输入显示在输出的默认行为。在第一个示例中，sed 在文件第 4 行到第 7 行上操作。请注意其中如何只显示文件最先列出的表行（行 4 到 7）。接下来，sed 只显示文件中的第一行和最后一行。有些版本的 sed 支持使用模式来指定在命令上应用地址范围。请注意在输出中，只是从表中删除了逗号，并未在注释中删除。

sed 示例：地址范围

cat << EOF > dummy_table.frag

This, is a paragraph.

row 1, 1st cell	row 1, 2nd cell
row 2, 1st cell	row 2, 2nd cell

EOF $ sed -n 4,7p dummy_table.frag row 1, 1st cell row 1, 2nd cell $ sed -n -e 1p -e \$p dummy_table.frag $ sed '/^

This, is a paragraph.

row 1 1st cell	row 1 2nd cell
row 2 1st cell	row 2 2nd cell

表达式内的模式可以进行分组，并引用在输出中。在许多环境中，这种做法很有用，例如在进行值交换或使用位置变量时。括号用来在表达式中标记出模式，必须用反斜杠 \ 转义（模式 \）。在表达式其他地方使用 \n 引用模式，其中 n 是模式在标记模式中的顺序号。将表达式分解后，可以更容易理解它的工作方式：

模式	注解
`/^#.*$/d`	`从输出中删除以 # 开始的行`
`/^$/d`	`从输出中删除空行`
`s/$[:a-z:]$:$.$ /\2:\1 /`	`这个语句标记着以冒号结尾的第一串小写字母，然后标记紧接冒号后的字符串。在输出时，这些标记的字符串会交换位置。`

sed 示例：分组模式

cat << EOF > sed_chown_example.txt
# use sed to swap the group:owner to owner:group

sudo chown dba:jdoe oraenv.ksh
sudo chown staff:jdoe sysenv.ksh
...
EOF

$ sed '/^#.*$/d;/^$/d;s/\([:a-z:]*\):\(.*\) /\2:\1 /' sed_chown_example.txt
sudo chown jdoe:dba oraenv.ksh
sudo chown jdoe:staff sysenv.ksh
...

回页首

使用 awk

awk 程序是个方便的文本操作工具，执行的工作包括文本的解析、筛选和简易格式化。它的输入来自 stdin 或文件，默认在 stdout 上显示输出。awk 有不同的发行版，并使用不同的名称，例如 nawk 和 gawk。不同版本和供应商提供的 awk 其行为也各不相同。awk 与本文介绍的其他命令不同，因为它是一个编程语言。该语言内置算术、字符串操作、流程控制以及文本格式化的函数。程序员也可以自己定义函数，创建用户自定义函数库或独立脚本。因为 awk 包含的特性如此之多，所以这里只演示少量的示例。欲了解更多信息，请参阅参考资料小节或手册页面。

在本示例中，首先将 awk 作为筛选器，只输出 Linux 系统上的完整文件系统。在默认情况下，awk 使用空白来识别各个列。该示例检查了第 5 列，因为此列显示的是磁盘已用空间百分比。如果磁盘利用率是 100%，则第一个示例会在 stdout 中输出记录。接下来的语句对第一个示例做了扩展，对消息进行格式化，可能要在电子邮件中发送，或者放在消息中写入日志文件。接下来的示例显示如何创建一个使用数值比较的匹配。

awk 示例：筛选器

$ df –k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/sda1             61438632  61381272     57360 100% /
udev                    255788       148    255640   1% /dev
/dev/mapper/datavg     6713132   3584984   3128148  54% /data
rmthost1:/archives/backup    -         -         -   -  /backups
rmthost1:/archives/          -         -         -   -  /amc
rmthost1:/archives/data2     -         -         -   -  /data2

$ df -k |awk '$5 ~ /100%/ {print $0}'
/dev/sda1             61438632  61381272     57360 100% /

$ df -k |awk '$5 ~ /100%/ {printf("full filesystem: %s, mountpoint: %s\n",$6,$1)}'
full filesystem: /, mountpoint: /dev/sda1

$ df -k |awk '$4 > 3000000  {print $0}'
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/mapper/datavg     6713132   3584984   3128148  54% /data

有时，数据不是用空白分隔的。例如 /etc/passwd 文件就是用冒号 “:” 分隔的。本示例显示了 awk 如何使用 -F 标志输出 /etc/passwd 中前 5 个条目的用户名和 UID。接下来，将通过输出 /etc/passwd 文件中第 1 列的前 3 个字符来展示 awk 的 substr() 函数。

awk 示例：域分隔符/字符串函数

$ cat /etc/passwd |awk -F: '{printf("%s %s\n", $1,$3)}' |head -5
root 0
daemon 1
bin 2
sys 3
adm 4

cat /etc/passwd |awk -F: '{printf("%s \n", substr($1,1,3))}'|head -5
roo
dae
bin
sys
adm

很多时候，系统管理员或程序员会编写自己的 awk 脚本来执行某种作业。下面示例为 awk 程序求文件中第 3 列中发现的数字的平均值。这个计算是通过手动将第 3 列数据添加到汇总变量中。NR 是一个特殊的内部变量，awk 用它来跟踪已经处理的记录数量。将总汇变量除以 NR，就得到了第 3 列的平均值。该程序会显示中间结果和数据，所以很容易理解其中的逻辑。

awk 示例：程序/算术

cat << EOF > dummy_file2.dat
011  IBM 174.99
012 INTC 22.78
013 SAP 59.37
014 vmw 102.92
EOF

$ cat avg.awk
awk 'BEGIN {total=0;}
           {printf("tot: %.2f arg3: %.2f NR: %d\n",total, $3, NR); total+=$3;}
     END {printf "Total:%.3f Average:%.3f \n",total,total/NR}'

$ cat dummy_file2.dat | avg.awk
tot: 0.00 arg3: 174.99 NR: 1
tot: 174.99 arg3: 22.78 NR: 2
tot: 197.77 arg3: 59.37 NR: 3
tot: 257.14 arg3: 102.92 NR: 4
Total:360.060 Average:90.015

回页首

基于 Shell 的字符串操作

Shell 可以是强大的编程语言。与 awk 一样，Shell 提供了丰富的选项来执行字符串操作、算术功能、数组、流程控制，以及文件操作。下面的几个示例将显示如何从某一方提取字符串的各个部分。此操作并不改变字符串的值，只是提取出需要的结果，通常用来对变量赋值。使用百分号 “%” 截断模式的右侧，并用 “#” 号截断模式的左侧。

Shell 脚本的示例：字符串提取

$ cat string_example1.sh
#!/bin/sh
FILEPATH=/home/w/wyoes/samples/ksh_samples-v1.0.ksh
echo '${FILEPATH}      =' ${FILEPATH}      "  # the full filepath"
echo '${#FILEPATH}     =' ${#FILEPATH}      "  # length of the string"
echo '${FILEPATH%.*}   =' ${FILEPATH%.*}   "  # truncate right of the last dot"
echo '${FILEPATH%%.*}  =' ${FILEPATH%%.*}  "  # truncate right of the first dot"
echo '${FILEPATH%%/w*} =' ${FILEPATH%%/w*} "  # truncate right of the first /w"
echo '${FILEPATH#/*/*/}  =' ${FILEPATH#/*/*/}  "  # truncate left of the third slash"
echo '${FILEPATH##/*/} =' ${FILEPATH##/*/} "  # truncate left of the last slash"

$ ./string_example1.sh
${FILEPATH}=/home/w/wyoes/samples/ksh_samples-v1.0.ksh # the full filepath
${#FILEPATH} = 42                                      # length of the string
${FILEPATH%.*}=/home/w/wyoes/samples/ksh_samples-v1.0  # truncate right of the last dot
${FILEPATH%%.*}=/home/w/wyoes/samples/ksh_samples-v1   # truncate right of the first dot
${FILEPATH%%/w*}=/home                                 # truncate right of the first /w
${FILEPATH#/*/*/}=wyoes/samples/ksh_samples-v1.0.ksh   # truncate left of the third slash
${FILEPATH##/*/}=ksh_samples-v1.0.ksh                  # truncate left of the last slash

例如，系统管理员可能需要将一批 .jpg 文件的扩展名全部修改成小写字母。因为 UNIX 服务器区分大小写，而有些应用程序可能要求小写扩展名，也有可能管理员只是想将文件扩展名标准化。手动或通过 GUI 界面修改大量文件可能需要几小时才能完成。下面的 shell 样例脚本显示了解决这一问题办法。该示例由两个文件组成。第一个是 setup_files.ksh，用来创建样例目录树并使用一些文件填充树。它还创建了需要修改扩展名的文件列表。第二个脚本 fix_extension.ksh 读取该文件列表，修改文件的扩展名。作为 mv 命令的一部分，% 字符串操作符用来截断文件名最后一个圆点 “.” 右侧的字符（截断扩展名）。在运行之后，两个脚本还使用 find 命令显示成果。

Shell 脚本示例：修改文件扩展名

$ cat setup_files.ksh
mkdir /tmp/mv_demo
[ ! -d /tmp/mv_demo ] && exit

cd /tmp/mv_demo
mkdir tmp JPG 'pictures 1'
touch a.JPG b.jpg c.Jpg d.jPg M.jpG P.jpg JPG_file.JPG JPG.file2.jPg file1.JPG.Jpg 'tmp/
pic 2.Jpg' 10.JPG.bak 'pictures 1/photo.JPG' JPG/readme.txt JPG/sos.JPG

find . -type f|grep -i "\.jpg$" |sort| tee file_list.txt

$ ./setup_files.ksh
./JPG.file2.jPg
./JPG/sos.JPG
./JPG_file.JPG
./M.jpG
./P.jpg
./a.JPG
./b.jpg
./c.Jpg
./d.jPg
./file1.JPG.Jpg
./pictures 1/photo.JPG
./tmp/pic 2.Jpg

$ cd /tmp/mv_demo
$ cat /tmp/fix_extension.ksh
while read f ; do
    mv "${f}" "${f%.*}.jpg"
done < file_list.txt

find . -type f|grep -i "\.jpg$" |sort

$ /tmp/fix_extension.ksh
./JPG.file2.jpg
./JPG/sos.jpg
./JPG_file.jpg
./M.jpg
./P.jpg
./a.jpg
./b.jpg
./c.jpg
./d.jpg
./file1.JPG.jpg
./pictures 1/photo.jpg
./tmp/pic 2.jpg

本着创建有用可重用工具的精神，应该将修改文件扩展名的示例做得更通用。想到的一些改进有：传递进要修改的文件名称流，例如通过管道传递。可添加选项标志来指定要修改的文件扩展名（例如 .mp3 或 .mov），并指定如何格式化文件扩展名（例如大写、小写，或大小写混合）。可能性只受程序员的想象力和时间的限制。

回页首

结束语

UNIX 提供了各种以本机方式进行文本解析的工具，在很多情况下，不需要依赖那些系统上可能没有安装的特殊解释器。本文只是宽泛地介绍了各种命令，并未对其用途进行深入探讨。本文中只对命令进行了部分演示，各个系统上实现的标志或行为可能会各有所异。UNIX 提供了更多命令和方式来实现这些相同的任务，“有不止一种的方式来完成任务”。

你可能感兴趣的:(Unix,unix)

简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
【从浅识到熟知Linux】Linux发展史 Jammingpro 从浅学到熟知Linux linux 运维服务器
归属专栏：从浅学到熟知Linux个人主页：Jammingpro每日努力一点点，技术变化看得见文章前言：本篇文章记录Linux发展的历史，因在介绍Linux过程中涉及的其他操作系统及人物，本文对相关内容也有所介绍。文章目录Unix发展史Linux发展史开源Linux官网企业应用情况发行版本在学习Linux前，我们可能都会问Linux从哪里来？它是如何发展的。但在介绍Linux之前，需要先介绍一下Un
linux 发展史种树的猴子内核 java 操作系统 linux 大数据
linux发展史说明此前对linux认识模糊一知半解，近期通过学习将自己对于linux的发展总结一下方便大家日后的学习。那Linux是目前一款非常火热的开源操作系统，可是linux是什么时候出现的，又是因为什么样的原因被开发出来的呢。以下将对linux的发展历程进行详细的讲解。目录一、Linux发展背景二、UINIX的诞生三、UNIX的重要分支-BSD的诞生四、Minix的诞生五、GNU与Free
Linux sh命令 fengyehongWorld Linux linux
目录一.基本语法二.选项2.1-c字符串中读取内容，并执行2.1.1基本用法2.1.2获取当前目录下失效的超链接2.2-x每个命令执行之前，将其打印出来2.3结合Here文档使用一.基本语法⏹Linux和Unix系统中用于执行shell脚本或运行命令的命令。sh[选项][脚本文件][参数...]⏹选项-c：从字符串中读取内容，并执行。-x：在每个命令执行之前，将其打印出来。-s：从标准流中读取内容
Python程序打包指南：手把手教你一步步完成 Python_P叔 python 数据库开发语言
最近感兴趣想将开发的项目转成Package，研究了一下相关文章，并且自己跑通了，走了一下弯路，这里记录一下如何打包一个简单的Python项目，展示如何添加必要的文件和结构来创建包，如何构建包，以及如何将其上传到Python包索引（PyPI）。首先要确保安装最新版本：#Unix/macOSpython3-mpipinstall--upgradepip#windowspy-mpipinstall--u
linux gcc 格式,Linux下gcc与gdb简介神奇的战士 linux gcc 格式
gcc编译器可以将C、C++等语言源程序、汇编程序编译、链接成可执行程序。gdb是GNU开发的一个Unix/Linux下强大的程序调试工具。linux下没有后缀名的概念。但gcc根据文件的后缀来区别输入文件的类别：.cC语言源代码文件.a由目标文件构成的库文件.C、.cc、.cppC++源码文件.h头文件.i经过预处理之后的C语言文件.ii经过预处理之后的C++文件.o编译后的目标文件.s汇编源码
Linux命令行基础——软件包管理 HHwxtx linux 运维服务器
1.软件包管理的发展初始阶段最早的软件包管理可以追溯到Unix系统的早期版本。在那时，软件通常以源代码的形式分发，并由系统管理员手动编译和安装。这种方式的管理比较原始和繁琐，因为每次安装都需要手动解决依赖关系和编译问题。软件包的引入为了简化安装过程，软件包被引入Linux，它将软件及其所有文件和资源打包在一起的集合，通常包括可执行文件、库文件、配置文件、文档和元数据（如软件名称、版本号、依赖关系等
什么是 PHP? 为什么用 PHP? 谁在用 PHP? m0_37438181 永远学习 php 开发语言
一、什么是PHP？PHP（HypertextPreprocessor，超文本预处理器）是一种广泛应用于Web开发的通用开源脚本语言。PHP主要用于服务器端编程，可以嵌入HTML中，与数据库进行交互，生成动态网页内容。它具有以下特点：简单易学：语法相对简单，容易上手，对于初学者来说是一个不错的选择。跨平台性：可以在多种操作系统上运行，如Windows、Linux、Unix等。丰富的函数库：提供了大量
讲解Linux内核操作系统——进程状态与转换 Linux加油站网络服务器运维
一.进程控制进程控制的主要功能是对系统中的所有进程实施有效的管理，它具有创建新进程、撤销已有进程、实现进程状态转换等功能。在操作系统中，一般把进程控制用的程序段称为原语，原语的特点是执行期间不允许中断，它是一个不可分割的基本单位。1.1创建进程UNIX中进程为树状层次结构，Windows下所有进程没有层次结构允许一个进程创建另一个进程，创建者称为父进程，被创建的进程称为子进程。子进程可以继承父进程
MySQL连接层-（通讯协议-线程-验证）否极泰来+ mysql
通讯协议通讯协议连接方式所支持的操作系统TCP/IPlocal,remoteAIISocketfilelocalUNIX-derivedoperatingsystemsincludingLinux,BSD,MaxOSXSharedmemorylocalWindowsNamedpipeslocalWindows1.TCP/IP（传输控制协议/互联网协议）：-是用于连接互联网上主机的一套通信协议-使用
java unix网络编程_《UNIX网络编程卷2：进程间通信(第2版)》PDF 下载 weixin_39688019 java unix网络编程
图书目录：第一部分简介第1章简介1.1概述1.2进程、线程与信息共享1.3IPC对象的持续性1.4名字空间1.5fork、exec和exit对IPC对象的影响1.6出错处理：包裹函数1.7Unix标准1.8书中IPC例子索引表1.9小结习题第2章PosixIPC2.1概述2.2IPC名字2.3创建与打开IPC通道2.4IPC权限2.5小结习题第3章SystemVIPC3.1概述3.2key_t键和
Ubuntu 常用指令和作用解析神奇椰子 ubuntu linux 运维浪浪云 centos 云计算代码规范
Ubuntu常用指令和作用解析Ubuntu是一种常见的Linux发行版，它利用了Unix的力量和开源软件的精神。掌握常用指令可以提高我们在使用Ubuntu时的效率。本文将介绍一些常见的指令及其用途。目录更新与安装软件文件与目录操作系统信息与资源监控用户与权限管理网络相关操作更新与安装软件1.1更新软件仓库sudoaptupdate作用：更新本地的包列表，以获取最新的可用包信息。1.2升级系统sud
PHP中的microtime(true)是干什么的？底层原理是什么？快点好好学习吧 php 开发语言
microtime(true)是PHP中用于获取当前Unix时间戳（包括微秒部分）的一个函数。它返回一个浮点数，表示自Unix纪元（1970年1月1日00:00:00UTC）以来的当前时间，精确到微秒。用法示例$time=microtime(true);echo$time;参数true：如果传递true作为参数，microtime()会返回一个浮点数。如果不传递参数或传递false，则返回一个字符
服务器的种类详解，让个人站长了解服务器安全过了马路却撞了大树
服务器英文名称为“Server”，指的是网络环境下为客户机（Client）提供某种服务的专用计算机，服务器安装有网络操作系统（如Windows2000Server、Linux、Unix等）和各种服务器应用系统软件（如Web服务、电子邮件服务）的计算机。这里的“客户机”指安装有DOS、Windows9x等普通用户使用的操作系统的计算机。服务器的处理速度和系统可靠性都要比普通PC要高得多，因为服务器是
unable to prepare context: path “.\r“ not found 嘟嘟嘟嘟嘟
执行sh脚本的时候，报标题错误原因是脚本是在Windows上编辑，然后上传到Linux上执行。好像是2个系统编码不一样导致的vim打开脚本进入命令行输入setff=unix再保存退出即可
Python Flask配置大灰太狼Zz python flask 后端
Flask技术文档什么是Flask？Flask是一个使用Python编写的轻量级Web应用框架。其WSGI工具箱采用Werkzeug，模板引擎则使用Jinja2。Flask使用BSD授权。Flask也被称为“microframework”，因为它使用简单的核心，用extension增加其他功能。Flask没有默认使用的数据库、窗体验证工具BSD：是Unix的衍生系统，“BSD”并不特指任何一个BS
Docker学习八：组件剖析爱打羽球的程序猿 Docker学习系列 docker 学习容器
一、Docker架构Docker整体架构采用C/S（客户端/服务器）模式，主要由客户端和服务端两大部分组成。客户端负责发送操作指令，服务端负责接收和处理指令。客户端和服务端通信有多种方式，可以在同一台机器上通过UNIX套接字通信，也可以通过网络连接远程通信。从整体架构可知，Docker组件大体分为Docker相关组件，containerd相关组件和容器运行时相关组件#在Docker安装路径下执行l
多道程序设计和分时 yanlingyun0210 操作系统操作系统
分类：（3类）多道程序设计分时简单批处理一些其他补充1多道程序设计1.设计起因：单用户通常不能总使cpu和设备在所有时间都忙碌。2.概念：在内存中同时存在多道作业，在管理程序的控制下“相互穿插运行”（交替运行）3.目的：提高cpu的利用率，充分发挥并行性。2分时（多任务）（时间片）1.分时系统：一种联机的多用户交互式操作系统（其实是多道程序设计的延伸）（每个用户都能实时得到服务）（unix就是常见
LJS送给WSW的生日礼物——happy birthday to my dear friend————（作者：LJS）肾透侧视攻城狮 docker eureka jenkins kubernetes zookeeper etcd devops
目录Linux/Unix系统教程鸟哥私房菜Linux系统教程，从入门到高级，全面覆盖，学习Linux必备IBMLinux教程来自IBM开发者社区的Linux系统教程Linux介绍MachteltGarrels的Linux系统教程BeginLinux教你使用35个Linux用户必需了解的命令Unix教程来自TheUniversityofSurrey的新手指南，告诉你Unix系统最基本的特性Unix教
docker ps -a及docker exec -it ubuntu-01 /bin/bash hhXx_琉璃 docker ubuntu bash
dockerps-a命令在Docker中用于列出Docker宿主机上所有的容器，包括正在运行的容器和已经停止的容器。这个命令是Docker用户常用的命令之一，用于查看和管理容器。命令解析：docker：这是Docker的命令行接口，用于执行Docker相关的各种操作。ps：这个命令来源于Unix/Linux中的进程查看命令ps（processstatus），但在Docker上下文中，它被用来列出D
C语言要点归纳 ChenK21_idea C/C++c语言
摘自：《C语言入门经典（第4版）》（美）lvorHorton.著杨浩.译北京.清华大学出版社【1】知识要点1C程序创建4个基本步骤：编辑，编译，链接，执行。编辑过程就是创建和修改C程序的源代码，我们编写的程序指令称为源代码。C编译器带一个编辑器，提供编写、管理、开发与测试程序的环境，有时也称为“集成开发环境（IDE）”。在UNIX或Linux上，最常用的的文本编辑器是vi，也可以使用emacs编辑
苹果系统如何快速访问服务器,在Mac OS X中快速访问4种方式的根目录 | MOS86 迈瑞婚礼苹果系统如何快速访问服务器
像其他形式的unix一样，MacOSX的根目录只是/，但是从Finder还可以使用主硬盘驱动器的名称。默认情况下是MacintoshHD，较新版本的OSX已经开始隐藏用户的根文件夹，因为大多数用户根本不需要访问根目录。如果您将MacintoshHD重命名为其他内容，则在必要时，您需要在整个演练中替换您的姓名。1使用转到文件夹键盘快捷键Go到文件夹很容易是OSXFinder中最有用的键盘快捷键之一，
macOS High Sierra 显示隐藏文件 MaxZing
Mac中很多配置是放在.xxx这种文件夹下的；在大部分Unix系统下，点开头的文件默认都是隐藏的。默认状态所以在Mac中要通过Finder来查看这种文件的话，需要在终端执行一下命令，让所有文件默认显示。defaultswritecom.apple.finderAppleShowAllFiles-booleantruekillallFinder执行后result如果想恢复成隐藏的样子，也很简单。de
Linux ：epoll ET 模式下文件描述符出现饥饿的情况技术探索者 linux 知识 epoll
背景（饥饿问题）使用epollET模式时,epoll_wait返回就绪文件描述符集合,然后我们循环处理,但这时如果有一个文件描述符上有大量输入(不间断的输入流),因为我们ET模式需要一直读到返回EAGIN/EWOULDBLOCK,那我们就会一直在处理这个文件描述符,而导致其他文件描述符得不到处理,这就是采用边缘触发时有可能出现的文件描述符饥饿情况处理方法参考Linux/Unix系统编程手册63.4
go.path/filepath — 兼容操作系统的文件路径操作 Generalzy GO golang 开发语言后端
path/filepath包涉及到路径操作时，路径分隔符使用os.PathSeparator。不同系统，路径表示方式有所不同，比如Unix和Windows差别很大。本包能够处理所有的文件路径，不管是什么系统。注意，路径操作函数并不会校验路径是否真实存在。目录path相对路径和绝对路径funcIsAbsfuncAbs路径的切分和拼接funcSplitfuncJoinfuncSplitList解析路径
ubuntu配置samba在win10访问 axk0909 ubuntu 服务器 linux
买了个云服务器，想在win上直接访问，先弄个sambaSamba是在Linux和UNIX系统上实现SMB协议的一个免费软件，由服务器及客户端程序构成。SMB（ServerMessagesBlock，信息服务块）是一种在局域网上共享文件和打印机的一种通信协议，它为局域网内的不同计算机之间提供文件及打印机等资源的共享服务。1在ubuntu安装sambasudoapt-getinstallsamba2编
Ubuntu22 CMake安装使用教程小朱在敲代码 linux c++c语言 ubuntu
1.CMake简介CMake是一个跨平台的自动化构建系统工具，它被用来管理和控制软件构建过程。CMake使用一个称为CMakeLists.txt的文本文件来描述项目的构建过程。这个文件包含了项目所需的各种设置和指令，比如源文件的位置、编译选项、链接器选项等。CMake并不是一个编译器，而是一个前端工具，它可以生成不同构建系统的脚本，如UnixMakefiles、Ninjabuildfiles、MS
Linux基础入门 --9 DAY 安红豆. Linux学习 linux 运维服务器
文本处理工具之神vimvi和vim简介一、vi编辑器vi是Unix及类Unix系统（如Linux）下最基本的文本编辑器，全称为“visualinterface”，即视觉界面。尽管其名称中包含“visual”，但vi编辑器实际上工作在字符模式下，并不提供图形界面。vi编辑器以其强大的功能和灵活性著称，是Linux系统中不可或缺的工具之一。vi编辑器具有三种主要的工作模式：命令模式（CommandMo
UNIX IPC方法的分类常敲代码手不生 Linux 操作系统 unix 服务器 java tcp/ip 信息与通信 linux
和单进程程序一样，简单的就是最好的。在使用更复杂、更晚出现的技法前，应该通过实证所有出现更早的，更简单的技法都不管用了1、管道、重定向和过滤器管道是对"做单件事情并做好“的哲学理念的践行；约定：每个程序一开始（至少）有两个I/O数据流可用：从标准输入和标准输出（文件描述符数字分别为0和1）。许多程序都可以写作过滤器，从标准输入顺序读取数据，并且只向标准输出写数据。通常，这些数据流分别和用户键盘和显
NUMA架构 weixin_34220623 数据库内存管理操作系统
最近在学习.NET的并行计算技术，学到一个服务器NUMA架构，NUMA架构在中大型系统上一直非常盛行，也是高性能的解决方案，在系统延迟方面表现都很优秀。Windows一向都没有在NUMA架构上有多少表现机会，AMD的多路系统大多也会用在UNIX/Linux上。Intel如期进入了NUMA架构的怀抱，英特尔最新的服务器处理器至强5500是一项重大的结构变革。与上一代至强处理器相比，至强5500采用了
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round