qinglinsan

Linux下文本的高效处理

1 引言
2 关于输入
3 文本输出
- 3.1 整个输出
- 3.2 部分输出
4 文本搜索
- 4.1 grep (Global Regular Expression Print)
- 4.2 fgrep
- 4.3 egrep
- 4.4 rgrep
- 4.5 agrep (approximate grep)
- 4.6 zgrep
- 4.7 sgrep (structured grep)
- 4.8 nrgrep (Nondeterministic Reverse grep)
5 文本摘要
- 5.1 wc (word count)
- 5.2 md5sum
6 排序去重
- 6.1 sort
- 6.2 tsort (topological sort)
- 6.3 uniq
- 6.4 comm
- 6.5 shuf (shuffle)
7 操作字段
- 7.1 cut
- 7.2 paste
- 7.3 join
8 操作字符
- 8.1 tr (translate)
- 8.2 expand
- 8.3 unexpand
- 8.4 colrm (COLumn ReMove)
9 文本切割
- 9.1 split
- 9.2 csplit (context split)
10 文本编码
- 10.1 iconv
- 10.2 enca
11 文本格式化
- 11.1 column
- 11.2 fold
- 11.3 fmt
12 微语言
- 12.1 sed (Stream EDitor)
- 12.2 awk (Alfred V. Aho, Peter J. Weinberger, Brian W. Kernighan.)
13 语言
14 实例
- 14.1 我的正则会数学
15 参考文献

1 引言

所谓的文本处理是指对文本进行查找、替换、删除、排序等操作, linux在文本处理方面提供了大量优秀的工具, 使得在linux下进行文本处理极其的方便.

我们平常的工作中, 经常会用到文本处理, 比如日志分析, 比如文本抽取, 等等, 所以掌握好文本处理, 将会对我们的工作起到极大的作用.

下面我就来逐个介绍下这些强大的工具, 对于我觉得大家可能比较熟知的工具及用法, 我会略过, 或者粗讲下.

2 关于输入

Linux哲学中, 为了更好的组合各种命令达到更加强大的功能, 大多数文本处理命令的输入既可以是文件, 也可以是标准输入, 如果没有指定输入文件, 则默认从标准输入读数据. 输出都是标准输出, 方面传给管道线的下一个命令, 想要输出到文件的话, 重定向下即可. 下面介绍的这些命令, 如无特殊说明, 则都可以从文件或者标准输入读入数据.

3 文本输出

3.1 整个输出

echo
```
输入为命令行参数
```
非常常用的命令, 主要用作输出字符串. 如果只是为了向管道线的下一个命令传输入的话, 可以使用Here String:
```
echo xxx | md5sum
md5sum <<< xxx
```
后者速度上应该会快一点, 不需要经过管道.
- -n
  
  不输出换行符(默认输出换行符)
- -e
  
  解释转义符, 常用的转义符 \t, \n; 这个命令还有个最常用的用途就是输出ANSI颜色:
```
echo -e '\033[1;31mHello, \033[0m\033[1;33mworld!\033[0m'
```
  Hello, world!
  
  这个工具可以更方便的输出ANSI颜色.
- -E
  
  不解释转义符

printf
```
输入为命令行参数
```
更强大的输出你想要的文本的命令, 类似C里面的printf
```
printf '\033[1;31m%s, \033[0m\033[1;33m%d\033[0m and \u4e2d\u6587!\n' "Hello" 34
```
Hello, 34 and 中文!

不过此命令较echo来说, 使用率会低很多, 大多数情况下echo就能搞定了.

yes [STRING]
```
输入为命令行参数
```
不停的输出字符串STRING, 默认是y. 这个命令用处比较少, 但会有用, 比如测试tail命令.

cat (concatenate)

此命令最大的用途应该就是显示特殊字符了, 如果你告诉我你经常用它给管道线的下一个命令传输入的话, 那么就太浪费了:
```
cat file | grep xxx
grep xxx file
```
前者相比后者多启动了一个进程, 还经过了管道. file很大的话, 性能差距很容易就看出来了.
- -E
  
  在行尾显示$, 有时候行尾是空格或者TAB, 看不清行尾是哪里, 加了这个选项就知道了
- -T
  
  输出的时候用^I代替TAB符号, 这样很容易知道那一坨空白到底谁是TAB了
- -v
  
  用^和M-表示法输出不可打印字符
```
taoshanwen@taoshanwen-laptop ~$ echo -e '\r' | cat -v
^M
```
- -e
  
  相当于-vE
- -t
  
  相当于-vT
- -A
  
  相当于-vET, 一般这个选项用的最多
- -n
  
  显示行号, 应该有同学感兴趣
- -b
  
  只对非空行显示行号, 有人感兴趣吗?
- -s
  
  对连续的空行只输出一个空行, 见过好多同学有这样的需求

tac

看名字知道了, 它和cat是反的, 倒着输出, 先输出最后一行, 接着是倒数第二行, 最后输出的是第一行
- -s, –separator=STRING
  
  设定分隔符, 代替\n分割文本

rev (reverse)

这个命令和cat也是反的, 不过它不像tac那样, 它输出行的顺序和cat也是一样的, 不过输出每行的时候, 先输出最后一个字符, 接着是倒数第二个字符, 最后才是第一个字符, 下面这个命令可以把输入全部倒过来:
```
tac | rev
```

nl (number lines)

更强大的行号显示工具, 可以控制行号的格式, 宽度. 没有特殊的需求, 用cat -n就够了.

3.2 部分输出

head

只显示文本的开头几行, 比如head -2只显示前面2行

tail

这个命令相对head来说, 最常用的用途就是不停的打印文件的最新内容了(tail -f)
- -n, -K, –lines=K
  
  显示尾部K行, -n +K显示第K行到文本尾部的所有内容
- -f, –follow[={name|descriptor}]
  
  这个选项表示如果文件尾部有新数据追加进来, 也会显示出来. 这个选项可以根据文件名(name)和文件描述符(descriptor)来监视文件是否有更新. 默认是descriptor.
- –retry
  
  当文件不可访问时, 进行重试, 这个选项和–follow=name组合起来比较有用
- -F
  
  相当于–follow=name –retry

4 文本搜索

4.1 grep (Global Regular Expression Print)

非常常用的命令, 打印文本中匹配模式的行, 下面的选项最好都能掌握.

grep [OPTIONS] PATTERN [FILE...]
grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]

-E, –extended-regexp

使用扩展正则表达式(ERE), 默认的是基础正则表达式(BRE), BRE中元字符?, +, {, |, (, )失去特殊意义(你是否遇到grep "a|b"是否不能打印出含有a或者b的行?), 想要表达特殊意义的话, 需要用转义字符进行转义(\), \?, \+等

-F, –fixed-strings

把pattern当作一个固定的字符串, 不进行正则解析. 当你要搜索非正则的固定字符串时(还可能含有正则元字符), 这个选项会非常有用, 而且由于不需要解析正则, 速度会快些.

-P, –perl-regexp

把pattern解析为perl的正则(PCRE), 由于perl的正则强大而简洁, 所以可以多尝试着使用这个选项.

-i, –ignore-case

搜索pattern的时候, 忽略大小写. 如果没有这个选项, 可以使用PCRE, 比如:
```
grep -P "(?i)AB"
```

-v, –invert-match

显示不能匹配pattern的行

-e pattern

如果你想要指定多个搜索pattern, 或者你想要搜索的pattern由减号(-)开头(如果直接grep pattern的话, 会被解析为grep的选项), 就可以用这个选项了.

-f FILE, –file=FILE

从文件中获取pattern, 每行一个pattern

-x, –line-regexp

pattern必须要匹配整行, 这个选项等价于 "^pattern$"

-w, –word-regexp

pattern必须要匹配整个单词, 这个选项等价于 "\bpattern\b"

-c, –count

不打印匹配的行, 只打印匹配的行数, 等价于grep pattern | wc -l

–color[=WHEN], –colour[=WHEN]

用颜色高亮出匹配的:

(require 'coding-settings)
   ("C-x U"   revert-buffer-with-coding-system-no-confirm-sb)))
   ("C-x M-C" set-buffer-file-coding-system)))
  (set-buffer-file-coding-system 'unix))
  (set-buffer-file-coding-system 'dos))

-m NUM, –max-count=NUM

当发现NUM个匹配行后, 停止扫描剩下的文本.

-q, –quiet, –silent

不打印任何信息, 发现匹配即退出, 并返回0, 否则返回1. 我们经常只是想查看整个文本里面是否有匹配, 这时候这个选项就非常有用了, 速度会快很多.

-o, –only-matching

只显示匹配pattern的字符串, 匹配行的其余部分不显示

-n, –line-number

在匹配行前面打印行号

有时候想看看匹配行周围都是啥, 下面这几个选项就非常有用了:

-A NUM, –after-context=NUM

打印匹配行的后面NUM行

-B NUM, –before-context=NUM

打印匹配行的前面NUM行

-C NUM, -NUM, –context=NUM

打印匹配行的周围NUM行

-a, –text

有时候文件中含有一些非可打印字符, grep可能会把它识别成二进制文件, 这时候grep只会打印出是否匹配pattern的信息, 并不会打印匹配的每行, 这个选项会强制grep把该文件当文本文件处理

-R, -r, –recursive

递归处理文件夹下的所有文件

-l, –files-with-matches

不打印匹配的行, 只打印匹配的文件

-L, –files-without-match

和-l相反, 不打印匹配的行, 只打印不匹配的文件

-h, –no-filename

搜索多个文件时, 会在每行前面输出文件名, 如果你不喜欢, 使用此选项吧.

4.2 fgrep

grep -F

4.3 egrep

grep -E

4.4 rgrep

grep -r

4.5 agrep (approximate grep)

grep的模糊匹配版本

4.6 zgrep

对压缩文件进行grep, 接受的选项和grep完全一样

4.7 sgrep (structured grep)

对结构化的文本, 如SGML、XML、HTML进行搜索、抽取, 功能非常强大

4.8 nrgrep (Nondeterministic Reverse grep)

类似agrep

5 文本摘要

5.1 wc (word count)

最主要的用途就是统计行数

-l, –lines

最常用的选项, 统计行数

-L, –max-line-length

输出文本最长行的长度

-w, –words

输出单词数

-m, –chars

输出字符数

-c, –bytes

输出字节数

5.2 md5sum

打印文本的md5, 主要用作文件校验, 防止文件传输时发生错误或者被篡改. -c选项检查md5是否正确

6 排序去重

6.1 sort

非常常用的命令, 啥序都能排

-r, –reverse

逆序排序, 默认是按从小到大排, -r后就从大到小了

-c, –check, –check=diagnose-first

检查输入文件是否是有序的, 不是的话, 会打印哪行开始不是有序的

-C, –check=quiet, –check=silent

类似-c, 但是不打印错误信息, 只返回错误码1

-k, –key=POS1[,POS2]

这个应该是sort最nb的地方了, 可以精确控制要排序的对象. POS具备这样的形式:
```
F[.C][OPTS]
```
其中, F是字段号, C是字符号, OPTS是排序选项, 可以每个字段排序的规则不一样. F, C都是从1开始
```
sort -t ' ' -k1,1d -k2.2,2n <<-EOF
bb 113
aa 224
cc 323
dd 444
cc 513
EOF

aa 224
bb 113
cc 513
cc 323
dd 444
```

-u, –unique

对输出结果进行去重, 只输出重复的记录中的第一条记录

-m, –merge

对有序的输入文件进行归并, 这个选项使得你能够在多核机器上优化大数据集的排序

-s, –stable

使得sort成为稳定排序

-T, –temporary-directory=DIR

设定指定的临时文件夹, 存放中间数据. 当你排序非常大的文件时, 而且/tmp所在的分区空间不够时, 就会用到该选项了

-n, –numeric-sort

把输入当整数来排序, 可以有负数, 但是不能含有加号(+)的正数, 这种输入用-g搞定吧

-g, –general-numeric-sort

把输入当作数值来排序, 可以有浮点数. 如果输入是整数的话, 就用-n搞定吧, 人家性能高些.

-h, –human-numeric-sort

可以排序2K, 1G等带单位的数字, 很爽啊, 想排序某文件夹下所有文件和文件的大小吗:
```
du -sh * | sort -h
```

-M, –month-sort

按月份进行排序, `JAN' < `FEB' < … < `DEC'

-d, –dictionary-order

按字典序排序, 忽略字母、数字、空白字符外的所有字符

-V, –version-sort

你开发的软件有很多版了没? 排下吧, 根据版本号

-t, –field-separator=SEP

设置字段分隔符, 默认为空白字符. 可惜的是, 这个字段分隔符只能为单个字符

-b, –ignore-leading-blanks

忽略前导空白字符

-f, –ignore-case

忽略大小写

-i, –ignore-nonprinting

忽略不可打印字符

-R, –random-sort

随机排序, 我想你会用到它的, 反正我用过几次. 不过排序结果不完全随机, 因为sort会先对每行进行hash, 然后对hash值进行排序, 所以相同的行一定会排到一块. 不过也许, 这正是你想要的. 如果你想更乱或者更加强大的功能的话, 看这里

陷阱

你是否经常sort一个中文文件却得不到正确结果? 那就对了, 你肯定没设置好语言环境(locale), 试试LC_ALL=C sort吧. sort会根据本地语言环境对输入文本进行排序. LC_ALL=C表示会根据字节值来排序. 或许你说我怎么见到的都是LANG=C sort啊, 来, 我们看看bash info上关于LANG和LC_ALL的解释:
```
LANG   Used to determine the locale category for any category not specifically selected with a variable starting with LC_.
LC_ALL This variable overrides the value of LANG and any other LC_ variable specifying a locale category.
LC_COLLATE
       This variable determines the collation order used when sorting the results of pathname expansion, and  determines  the
       behavior  of  range  expressions,  equivalence  classes, and collating sequences within pathname expansion and pattern
       matching.
```
- LANG
  
  如果你没有用LC_来设定某个分类的locale, 将会使用LANG来决定这个分类的locale
- LC_ALL
  
  该变量会覆盖LANG和LC_
- LC_COLLATE
  该变量设置排序时的locale
所以, sort时, 设置LC_ALL是最保险的做法.

6.2 tsort (topological sort)

拓朴排序, 该命令可能会用的比较少

tsort <<EOF
a b c
d
e f
b c d e
EOF

输出:

a
b
c
d
e
f

6.3 uniq

也是非常常用的一个命令. 这个命令主要用来对有序序列进行去重, 所以它常和sort联合起来使用, 但是sort -u本身就有去重的功能, 所以当你仅仅只是为了去重时, sort -u就可以帮你搞定了(当输入文本巨大时, 可以用hash来去重提高性能, 比如awk的关联数组), 所以呢, 当年需要对重复的数据进行统计时, 会用到uniq. 当然其实uniq相比sort -u而言, 对重复数据有更加强大的处理

-c, –count

在每行文本前面输出重复次数

-d, –repeated

只显示重复的行, 重复的行只显示一行

-D, –all-repeated[=delimit-method]

显示所有重复的行, 注意该选项与选项-d的区别

-u, –unique

只打印不重复的行

-i, –ignore-case

比较的时候不区分大小写

-f, –skip-fields=N

不比较前面N个字段, 字段分隔符为空白字符

-s, –skip-chars=N

不比较前面N个字符

-w, –check-chars=N

每行最多比较前面N个字符

实例演示

大家看了uniq上面几个选项后, 是不是有uniq没有太大用处的感觉? 这都是错觉, 下面我给大家演示下uniq在集合运算(统计中有大量的应用)方面巧妙的应用.
- 并集
```
sort A B | uniq
```
- 交集
  
  sort A B | uniq -d
- 差集(A-B)
  
  sort A B B | uniq -u

缺陷
- 不能控制字段分隔符
- 不能像sort -k那样精确的控制要比较的对象

6.4 comm

逐行比较两个有序文件, 分三列输出文件1独有的行、文件2独有的行、文件12共有的行,

$ cat ab
ax
by
cz

$ cat ac
ax
bd
cz

$ comm ab ac
        ax
    bd
by
        cz

-1

不输出第一列(文件1独有的行)

-2

不输出第二列(文件2独有的行)

-3

不输出第三列文件3独有的行

–check-order

检查输入文件是否有序

–nocheck-order

不检查输入文件是否有序

–output-delimiter=STR

设定输出分隔符, 默认为TAB

实例演示
- 交集
  
  comm -12 <(sort A) <(sort B)
- 差集(A-B)
  
  comm -23 <(sort A) <(sort B)

6.5 shuf (shuffle)

如果sort -R产生的结果还不够乱的话, 我想这个命令应该就是你需要的了. 该命令产生完全乱序的结果, 而且速度应该比sort -R快(shuf不用排序), 还有功能更强大

-e, –echo

对命令行参数乱序

-i, –input-range=LO-HI

对LO到HI之间的数字进行乱序, 比如shuf -i 12-100

7 操作字段

7.1 cut

挺常用的一个命令, 能非常方便的取某个字段

-f, –fields=LIST

选择要输出的字段

-c, –characters=LIST

选择要输出的字符

-b, –bytes=LIST

选择要输出的字节

-d, –delimiter=DELIM

设定字段分隔符, 默认是TAB. 可惜的是, 该分隔符也只能是单个字符.

–complement

取设定的选择LIST的补集

-s, –only-delimited

忽略不包含分隔符的行, 默认操作是输出整行

–output-delimiter=STRING

设定输出分隔符

LIST

-f, -c, -b选项使用的列表, 可以有下面几种形式:
- N
  
  第N个字段/字节/字符
- N-
  
  从第N个到最后一个
- M-N
  
  从第M个到第N个
- -M
  
  从第一个到第N个
列表可以有多个, 之间以逗号分割, 比如:
```
cut -f1-3,4-7
```

7.2 paste

这个命令很有意思, 把两个文件按行粘贴到一块, 曾经我想自己写个程序搞定这个需求, 后来发现linux下竟然已经有这玩意了(linux总能给你带来惊喜)

$ cat num2
1
2
$ cat let3
a
b
c
$ paste num2 let3
1       a
2       b
        c

-d, –delimiters=LIST

paste两个文件的时候, 默认是用TAB分割, 这个选项设定分隔符, 同为可惜的是, 只能为单个字符(主要是paste可以粘贴多个文件, 这个选项的第二个字符用来分割第二个和第三个文件)

-s, –serial

默认paste是竖着粘贴的, 加了这个选项后, 就横着粘贴了:
```
$ paste -s num2 let3
1       2
a       b       c
```

7.3 join

这是一个稍微高级点的命令, 它把输入文件当成一个key/value对, 然后会把同一个key的所有value粘贴到一块, 来个例子:

$ cat file1
a 1
b 2
c 3
$ cat file2
a 4
c 6
$ join file1 file2
a 1 4
c 3 6

join默认把第一额字段当作key, 字段之间以空格分割, 作为key的字段必须有序.

-i, –ignore-case

比较字段时, 忽略大小写

-t CHAR

使用CHAR作为字段分隔符, 又是只能为单个字符(杯具…)

-1 FIELD

设定第一个文件的key为第FIELD个字段

-2 FIELD

设定第二个文件的key为第FIELD个字段

-j FIELD

-1 FIELD -2 FIELD

-a FILENUM

join默认只打印拥有相同key的行, 该选项会打印第FILENUM个文件中没有匹配上的行

-v FILENUM

和-a选项有点类似, 该选项只打印第FILENUM个文件中没有匹配上的行, 不会打印匹配上的行

–check-order

检查输入文件作为key的字段是否有序

–nocheck-order

不检查输入文件作为key的字段是否有序

-o FIELD-LIST

高级的控制输出对象的选项, FIELD-LIST中的每个元素具有下面这样的形式:
- 0
  
  表示做为key的字段
- M.N
  
  M为文件号, 取值为0或者1, N为字段号, M.N就是取第M个文件第N个字段
每个元素之间以逗号或者空格分割

-e EMPTY

-o选项中, 可能文件M中没有字段号N, 这时候输出的时候用EMPTY代替.

8 操作字符

8.1 tr (translate)

主要对文本中的字符进行替换、删除.

该命令只支持标准输入, 不支持从文件输入.
tr仅支持单字节字符.

tr [OPTION]... SET1 [SET2]

字符集合可以由一系列的字符构成, 也可以具有以下形式:

CHAR1-CHAR2

从CHAR1到CHAR2的所有字符
[CHAR*]

这种形式只能出现在SET2中, 表示拷贝CHAR直到SET2和SET1的长度相等
[CHAR*REPEAT]

REPEAT个CHAR
[:alnum:]

所有的字母和数字
[:alpha:]

所有的字母
[=CHAR=]

和CHAR属于同一个字符类中的所有字符

当提供2个字符集合时, 表示把SET1中的字符替换成SET2中的对应的字符, 比如:

tr a A < file # 把文件file中的小写a都变成大写A
tr '[:lower:]' '[:upper:]' < file # 把文件file全部大写

-d, –delete

删除出现在集合1中的所有字符. 下面的命令把文件file中所有的行连成一行:
```
tr -d "\r\n" < file
```

-s, –squeeze-repeats

把SET1中连续的字符都替换成1个字符, 当SET2也提供时, 首先执行删除连续字符操作, 然后才执行替换操作

-c, -C, –complement

使用SET1的补集

-t, –truncate-set1

首先把SET1中的字符截断到和SET2长度相等

陷阱

经常见到有同学对会含有中文的文件用上面的方法进行大小写转换:
```
# 终端编码为GB18030编码
$ tr '[:upper:]' '[:lower:]' <<< 琄
琸
```
为什么琄会变成琸呢?

上面我们说到, tr是按字节来处理的, 而GB18030编码第二个字节编码范围为0×40-0×7E和0×80-0×FE, 这样, 第二个字节就可能出现ASCII码, 我们来看下上面2个汉字的GB18030编码值:
```
$ od -c  <<< 琄
0000000 254   K  \n
0000003
$ od -t x1  <<< 琄
0000000 ac 4b 0a
0000003

$ od -c  <<< 琸
0000000 254   k  \n
0000003
$ od -t x1  <<< 琸
0000000 ac 6b 0a
0000003
```
看来确实如此, 琄的第二个字节是字符大K, 琸的第二个字节是字符小k.

看来, 如果文本里含有多字节字符, 使用tr的时候得小心咯.

8.2 expand

每个编辑器对TAB的显示设置不一样, 有的显示为8个字符, 有的显示为4个字符, 这样就造成了在A编辑器下排版很漂亮, 到了B编辑器下变得一团糟, 所以编码的时候最好使用空白字符代替TAB(Emacs中这样设置: (setq-default indent-tabs-mode nil), ), expand命令也可以帮你把TAB转换成空格

-i, –initial

不转换非空白字符后的TAB

-t, –tabs=NUMBER

设置一个TAB转换成几个空格, 默认是8

8.3 unexpand

Makefile缩进的时候, 必须是TAB, 所以有时候又需要把空格变成TAB, 就靠unexpand了

-a, –all

转换所有的空格, 默认情况下只转换开头的空格

–first-only

只转换开头的空格

-t, –tabs=N

几个空格转换成一个TAB, 默认是8

8.4 colrm (COLumn ReMove)

colrm [start [stop]]

该命令只支持标准输入, 不支持从文件输入.

删除每行从start到stop之间的字符, 如果stop没有指定的话, 则删除到末尾. 需要注意的是, TAB被认为占8列(不知道为啥这样搞)

9 文本切割

9.1 split

切割文本INPUT成文件PREFIXaa, PREFIXab … 默认每个文件1000行, PREFIX为x

split [OPTION]... [INPUT [PREFIX]]

-l, –lines=NUMBER

按行切割, 每个输出文件NUMBER行, 比较常用的切割方式

-b, –bytes=SIZE

按字节切分

-C, –line-bytes=SIZE

每个文件最多SIZE个自己, 但是每行都完整的保存到一个输出文件中, 即不像-b那样, 可能一个整行被拆分到多个文件中去

-d, –numeric-suffixes

使用数字做为后缀名

9.2 csplit (context split)

根据模式切割文件, 简单了解即可

csplit [OPTION]... FILE PATTERN...

10 文本编码

10.1 iconv

经常会用到, 主要用来转换编码

–list, -l

列出可以识别的编码

-c

转换的时候, 忽视无效的字符, 如果没有加这个选项, iconv碰到这个无效字符会直接报错退出, 所以最好加上这个选项

10.2 enca

我们经常需要知道文件的编码, 这个命令帮你搞定

11 文本格式化

打扮一下你的文本吧.

11.1 column

按列漂亮的输出:

$ (printf "PERM LINKS OWNER GROUP SIZE DAY HH:MM NAME\n"; ls -l | sed 1d) | column -t

PERM        LINKS  OWNER       GROUP       SIZE   DAY         HH:MM  NAME
drwxr-xr-x  3      taoshanwen  taoshanwen  4096   2012-04-03  22:54  ai
drwxr-xr-x  26     taoshanwen  taoshanwen  4096   2012-04-15  11:59  algorithm
drwxr-xr-x  2      taoshanwen  taoshanwen  4096   2012-04-09  13:35  arch
drwxr-xr-x  5      taoshanwen  taoshanwen  4096   2012-04-03  22:47  c-c++
drwxr-xr-x  6      taoshanwen  taoshanwen  4096   2012-04-14  20:33  CIP
drwxr-xr-x  5      taoshanwen  taoshanwen  4096   2012-04-03  22:47  computer-chess
drwxr-xr-x  2      taoshanwen  taoshanwen  4096   2012-04-15  00:23  computer-go
drwxr-xr-x  3      taoshanwen  taoshanwen  4096   2012-04-10  16:25  database
drwxr-xr-x  3      taoshanwen  taoshanwen  4096   2012-04-15  00:57  distributed
drwxr-xr-x  5      taoshanwen  taoshanwen  4096   2012-04-03  22:47  genetic-prog
drwxr-xr-x  3      taoshanwen  taoshanwen  4096   2012-04-03  22:47  infosec
drwxr-xr-x  2      taoshanwen  taoshanwen  4096   2011-03-19  20:40  iphone
drwxr-xr-x  20     taoshanwen  taoshanwen  4096   2012-04-15  00:38  java
drwxr-xr-x  94     taoshanwen  taoshanwen  16384  2012-04-17  20:01  linux
drwxr-xr-x  7      taoshanwen  taoshanwen  4096   2012-04-10  19:29  math
drwxr-xr-x  2      taoshanwen  taoshanwen  4096   2012-04-17  15:37  mysql
drwxr-xr-x  2      taoshanwen  taoshanwen  4096   2011-10-19  17:04  nosql
drwxr-xr-x  11     taoshanwen  taoshanwen  4096   2012-04-16  12:54  other
drwxr-xr-x  2      taoshanwen  taoshanwen  4096   2012-04-07  14:03  perl
drwxr-xr-x  3      taoshanwen  taoshanwen  4096   2012-04-15  00:18  python
drwxr-xr-x  6      taoshanwen  taoshanwen  4096   2012-04-03  22:50  ruby
drwxr-xr-x  52     taoshanwen  taoshanwen  4096   2012-04-15  00:59  search-engine
drwxr-xr-x  9      taoshanwen  taoshanwen  4096   2012-04-15  00:23  software-engineering
drwxr-xr-x  5      taoshanwen  taoshanwen  4096   2010-10-11  22:56  svnroot
drwxr-xr-x  7      taoshanwen  taoshanwen  4096   2012-04-14  20:33  web
drwxr-xr-x  66     taoshanwen  taoshanwen  12288  2012-04-17  23:47  work

11.2 fold

将一个比较长的文本行输出进行"折行".

11.3 fmt

将输入按照指定宽度进行折行, 功能较fold强大些

12 微语言

下面介绍文本处理中两个最强大的命令sed和awk, 它们已经具有一些程序设计语言的特征了, 特别是awk, 所以, 我们的脚本中, 放眼望去, 皆是awk阿. 熟练掌握这两个命令, 你的文本处理功力将会极大的提升阿.

12.1 sed (Stream EDitor)

sed是一个流编辑器, 类似ed(行编辑器, 通过各种命令编辑文件), 它提供了各种替换、删除的命令, 使得这些编辑操作能自动化起来.

工作流程

sed维护2快内存(也可以理解为2个变量, 或者说是2个寄存器), 分别叫做 pattern space 和 hold space, sed对每行输入执行下面的循环:
1. 读入输入行, 去掉尾部的换行符, 存入pattern space
2. 执行sed命令, 每条sed命令都可以有个地址与它关联, 这个地址就类似于条件语句, 只有这个条件语句通过验证时, 其对应的命令才会执行
3. 执行完所有的sed命令后, 如果没有指定sed的-n选项, 将会打印pattern space的内容, 然后再输出换行符. 最后继续读入下一行, 进行下一次的循环
每次循环开始时, pattern space的内容会被清空, hold space则不会

地址格式

sed地址可以具有以下的形式:
- NUMBER
  
  指定执行命令的行号, 只有在这行, 对应的命令才会被执行, 行号从1开始, 另外, 如果没有指定-i或者-s选项的话, 所有的输入文件会被当成一个输入流, 行号就会一直累加的
- FIRST~STEP
  
  在FIRST、FIRST+STEP、FIRST+2*STEP、、FIRST+3*STEP行执行对应的命令
- $
  
  最后一行
- REGEXP
  
  在匹配上正则REGEXP的行执行对应的命令, 如果REGEXP中含有/, 需要用\转义
- \%REGEXP%
  在匹配上正则REGEXP的行执行对应的命令, %也可以是其他字符, 如果REGEXP中含有%, 需要用\转义
- /REGEXP/I, \%REGEXP%I
  忽略大小写
- /REGEXP/M, \%REGEXP%M
  可以匹配多行, M表示multi-line
如果没有指定地址的话, 表示所有行对执行命令. 还可以提供2个地址, 指定一个地址范围, 这2个地址之间以逗号分割, 比如:
```
ADDRESS1,ADDRESS2
```
这样, 第一次匹配上ADDRESS1的行与第一次匹配上ADDRESS2的行之间的所有行都会执行对应的命令.

GNU sed还支持下面几种地址范围:
- ADDR1,+N
  
  匹配ADDR1, 以及接下来的N行
- ADDR1,~N
  
  匹配ADDR1, 直到行号为N倍数的行
在地址或者地址范围后加感叹号(!), 表示取反.

常用命令

由于sed默认会打印pattern space, 所以不加任何命令的话, 就和cat一样, 打印所有的输出:
```
$ cat ab
ab
ab
ac
ad
ae
ac
ab

$ sed "" ab
ab
ab
ac
ad
ae
ac
ab
```
- d
  
  删除pattern space, 立即进入下一轮循环.
  
  ls输出的时候, 第一行有个摘要, 如果不想显示的话, 这样:
```
ls -l | sed 1d
```
- p
  
  打印pattern space.
  
  输出文件ab第5到第10行:
```
sed -n 5,10p ab
```
- q [EXIT-CODE]
  
  立即以返回码EXIT-CODE(默认为0)退出sed, 如果没有加-n选项的话, 当前的模式空间也会打印出来.
  
  如果文件很大的话, 下面的方法输出文件ab第5到第10行会快很多:
```
sed -n "5,10p; 10q" ab
```
- n
  
  如果没有加-n的话, 打印模式空间, 然后直接进入下一轮循环.
  
  不打印第18行:
```
sed -n "p; 18n"
```
- { COMMANDS }
  
  一组命令, 这组命令共用同一个地址.
  
  打印第8行:
```
sed -n "8 {p; q}"
```
- s/REGEXP/REPLACEMENT/FLAGS
  
  这个命令估计是大家用的最多的命令了. 前面几个命令大家不知道的情况下, 可能通过其他命令解决了, 但是这个命令的功能除了awk, 其他的做不了, 而sed比awk更简洁.
  这个命令主要是对pattern space进行替换, 对匹配REGEXP的部分用REPLACEMENT进行替换, 用来分割的/可以由其他字符组成, 比如s:REGEXP:REPLACEMENT:FLAGS. REPLACEMENT可以由原始的字符组成, 也可以由下面带有特殊意义的串组成:
  - &
    
    匹配REGEXP的部分
  - \d
    
    d为1-9的数字, \d表示REGEXP中第d个括号匹配的部分, 比如REGEXP为:
```
a(..(..))
```
    pattern space为abcde, 那么\1为bcde, \2为de
  - \L
    
    把REPLACEMENT中的字符变成小写, 直到遇到\U和\E. 比如:
```
$ cat ab
AB
AB
ac
ad
ae
ac
AB

$ sed -r 's/(AB)/\L\1YYY/' ab
abyyy
abyyy
ac
ad
ae
ac
abyyy
```
    上例中, 本来\1应该是AB, 但是\L把它全变成小写了. 而且后面的YYY也变成小写了.
  - \l
    
    把下一个字符变成小写
  - \U
    
    把REPLACEMENT中的字符变成大写, 直到遇到\L和\E.
  - \u
    
    把下一个字符变成大写
  - \E
    
    结束\L和\U的作用
  s命令后的FLAGS可以由下面几种:
  - g
    
    s命令默认只替换第一个匹配, g可以让它全部替换
  - NUMBER
    
    替换第NUMBER个匹配
  - p
    
    如果发生了替换, 打印模式空间.
    
    搜索文件ab中xxx并替换成yyy打印出来:
```
sed s/xxx/yyy/p ab
```
  - i, I
    
    正则匹配忽略大小写
- y/SOURCE-CHARS/DEST-CHARS/
  
  类似tr命令, 用DEST-CHARS对应的字符替换出现在SOURCE-CHARS中的字符. 和s命令一样, 分隔符/也可以是其他字符.
- =
  
  打印行号. 下面的命令类似grep -n:
```
sed  -n '/xxx/ {=; p}'
```

高级命令
- h
  
  用pattern space替换hold space
- H
  
  先在hold space追加换行符, 再往hold space追加pattern space
- g
  
  用hold space替换pattern space
- G
  
  先在pattern space追加换行符, 再往pattern space追加hold space
- x
  
  交换pattern space和hold space的内容
- D
  
  删除模式空间的第一行. 如果模式空间中还有内容的话, 开始进入下一轮循环, 但不读入输入. 如果没有内容的话, 读入输入并进行下一轮循环.
- N
  
  追加换行符到pattern space, 并读入下一行输入追加到pattern space, 如果已经没有任何输入, 直接退出sed, 不再处理任何命令.
- P
  
  大写p, 打印pattern space第一行
- z
  
  清空pattern space

专家命令
- : LABEL
  
  设定标签, 类似C语言中设定一个标签, 然后可以goto之
- b [LABEL]
  
  跳转到标签, 如果没有提供标签的话, 直接进入下一轮循环
- t [LABEL]
  
  这轮循环中, 如果s命令替换成功过, 则跳转到标签. 如果没有提供标签的话, 直接进入下一轮循环
- T LABEL
  
  和t LABEL相反, s命令替换失败, 才跳转到标签

命令选项
- -n, –quiet, –silent
  
  禁止自动打印pattern space
- -i[SUFFIX], –in-place[=SUFFIX]
  
  原地编辑文件, 文本修改后会直接影响到输入文件
- -r, –regexp-extended
  
  启用扩展正则, 默认是基础正则
- -s, –separate
  
  把每个文件当作单独的输入流, 而不是一个输入流

给我一个寄存器, 我可以干好多事

各位看完上面所说的sed命令后, 是不是觉得sed只能做一些替换、删除等操作，为什么称为微语言呢, 我之所以把它归到微语言这一类是有原因的, 它具有下面几个语言的特征:
1. 有条件判断能力, sed的地址就是一种条件判断, 还有标签命令也是条件判断
2. 有流程控制能力, 标签命令就可以做到
3. 有变量, 虽然很少, 只有2个, 但是仍然可以干好多事了, 看下面的例子
更多的例子参加sed info
- tac
  
  模拟tac
```
sed -n '1!G; $p; h'
```
- 为数字字串增加逗号分隔符号，将1234567变为1,234,567
```
sed -r ':a; s/(.*[0-9])([0-9]{3})/\1,\2/; ta' <<< 124523536543652
```

12.2 awk (Alfred V. Aho, Peter J. Weinberger, Brian W. Kernighan.)

awk是文本处理的利器, 前面那些命令能干的事它都能搞定.

工作流程

awk的工作方式有点类似sed, sed是地址+命令, awk则是pattern+action, pattern是要匹配的模式, action是要执行的命令, pattern可以由下面几种形式:
- BEGIN
  
  awk程序开始处理输入时
- END
  
  awk程序结束处理输入时
- BEGINFILE
  
  awk程序开始处理每个文件时
- ENDFILE
  
  awk程序结束处理每个文件时
- regular expression
- relational expression
  
  关系表达式
- pattern && pattern
- pattern || pattern
- pattern ? pattern : pattern
- (pattern)
- ! pattern
- pattern1, pattern2
action要以大括号括起来, 比如:
```
awk '0{print} 1{print}' .emacs
```

内置变量
- ARGC
  
  awk输入参数的个数, 不包括awk自己
- ARGV
  
  命令行参数
- ARGIND
  
  当前处理的文件在ARGV中的位置, ARGV[ARGIND]表示当前正在处理的文件, 可以通过这个变量来对不同的输入文件做不同的处理
- FNR (File Number Record)
  
  当前文件的记录总数
- NR (Number Record)
  
  目前处理的记录总数
- NF (Number of Field)
  
  当前记录的字段数

网络编程

awk能开发网络程序, 你相信吗?

$ cat test.awk
#!/usr/bin/awk -f

BEGIN {
    str = "GET /index.html HTTP/1.1\r\nHost: www.baidu.com\r\n\r\n"
    print str |& "/inet/tcp/0/www.baidu.com/80"
    "/inet/tcp/0/www.baidu.com/80" |& getline
    print
}

$ awk -f test.awk
HTTP/1.1 200 OK

陷阱
- tolower/toupper
  
  和tr一样, 这2个函数也是对字节进行处理
- 判断元素是否存在
  
  你是否这样判断某元素是否存在于某数组:
```
if (a[e] != 2) { ... }
```
  如果输入很大的话, 过会你就会发现你的awk占了很多内存, 原因就是a[e]的时候, 如果awk发现a中没有e, 就会把e插入到a中, 这样一来内存自然越来越大, 正确的判断方法是:
```
if (!(e in a)) { ... }
```
  用过python的朋友可能会这样写:
```
if (e not in a) { ... }
```
  很不幸, 没有这样的语法, 而且还不报错, 我猜awk把e not连接成一个字符串了…

13 语言

a2p
s2p
perl
python

14 实例

14.1 我的正则会数学

multi-sort

15 参考文献

相关命令的info及coreutils的info
高级Bash脚本编程指南: 文本处理命令
Survey of Global Regular Expression Print (GREP) Tools

你可能感兴趣的:(Linux下文本的高效处理)

Python中的决策树算法探索基本原理 myCOTB Python 算法 python 决策树
Python中的决策树算法探索决策树是一种简单而直观的机器学习算法，广泛应用于分类和回归任务中。它通过对数据进行分割，构建一个树形结构，从而做出决策。本文将探讨决策树的基本原理，并演示如何使用Python中的scikit-learn库实现决策树算法。决策树的基本原理决策树的基本思想是通过对数据进行分割，逐步缩小数据的范围，从而使得每个叶节点（终节点）中的样本属于同一类别或具有相似的特征。决策树的构
代码随想录算法营Day29 ｜ 39. 组合总和， 40.组合总和II ，131.分割回文串寂枫zero 算法 python leetcode
39.组合总和这题主要考在对startIndex的控制上，因为每个元素可以重复拿取，所以在startindex上我们不需要在下一次backtrack的时候进行加1操作，继续使用当前的startIndex即可。classSolution:defcombinationSum(self,candidates:List[int],target:int)->List[List[int]]:res=[]sub
C++ Primer 数组 c-c-developer C++Primer c++数据结构
欢迎阅读我的【C++Primer】专栏专栏简介：本专栏主要面向C++初学者，解释C++的一些基本概念和基础语言特性，涉及C++标准库的用法，面向对象特性，泛型特性高级用法。通过使用标准库中定义的抽象设施，使你更加适应高级程序设计技术。希望对读者有帮助！目录3.5数组定义和初始化内置数组显式初始化数组元素字符数组的特殊性理解复杂的数组声明访问数组元素检查下标的值指针和数组指针也是迭代器指针运算解引用
Vue 组件化开发指南：父子组件传值、emit、refs、事件总线、Provide/Inject prince_zxill vue.js javascript 前端前端框架
Vue组件化开发指南：父子组件传值、emit、refs、事件总线、Provide/InjectVue组件化开发指南：父子组件传值、emit、refs、事件总线、Provide/Inject一、Vue组件化开发概述1.1组件的优势1.2组件的生命周期二、核心篇：组件间传值2.1父子组件传值2.1.1父组件向子组件传值（Props）2.1.2双向绑定（v-model）2.2`emit`：子组件向父组件
基于深度学习的车牌检测识别系统 —— 使用YOLOv5实现车牌检测与识别 2025年数学建模美赛深度学习 YOLO 人工智能分类 ui
目录引言项目背景与目标1.1项目背景1.2项目目标系统设计与架构2.1系统功能概述2.2系统架构数据准备与处理3.1数据集选择与收集3.2数据标注3.3数据集划分YOLOv5模型训练与优化4.1YOLOv5配置文件4.2安装YOLOv5并开始训练4.3模型评估与优化车牌识别与推理5.1加载模型进行推理5.2UI界面设计总结与展望引言车牌识别（LicensePlateRecognition，LPR）
Python中format()用法武当豆豆 Python语法 python
一、概览自python2.6开始，新增了一种格式化字符串的函数str.format()，此函数以大括号{}来标明被替换的字符串，通过{}和:来代替之前的%，从而快速处理各种字符串。二、格式1、语法格式str.format()：str是指字符串实例对象，常用格式为：‘’.format()。2、参数格式‘{[index][:[fill]align][sign][#][width][.precision
生成随机数量的中文字符串武当豆豆来时的路 python
1、通过Unicode码，生成随机数量字符串importrandomdefrandom_chinese():lis=[]put=''a=random.randint(10,30)#改变随机范围，确定随机中文字符串长度foriinrange(1000):ifi
python find函数凌冰_ python 前端开发语言
一、find函数作用：用于判断字符串是否含有子串；若包含子串，则返回所在字符串第一次出现的位置索引若不包含子串，则返回-1二、find函数语法：字符串.find(self,sub,start=None,end=None)源码：sub：指定检索的字符串（子串）beg：开始索引，默认为0,包含起始位置。end：结束索引，默认为字符串的长度，不包含结束位置。三、find函数的使用str='赤地万里第10
CPP-存储区域无帧起手 CPP学习开发语言
CPP支持手动开辟和释放内存，所以对于内存的理解非常重要！在C++中，内存存储通常可以大致分为几个区域，这些区域根据存储的数据类型、生命周期和作用域来划分。这些区域主要包括：代码区（CodeSegment/TextSegment）：存储程序执行代码（即机器指令）的内存区域。这部分内存是共享的，只读的，且在程序执行期间不会改变。举例说明：当你编译一个C++程序时，所有的函数定义、控制结构等都会被转换
数据结构（AVL树、B-Tree、B+Tree）秋意钟算法数据结构
AVL树AVL树是一种自平衡的二叉搜索树，它的特点是每个节点的左子树和右子树的高度差（平衡因子）的绝对值不超过1。这种平衡性保证了AVL树在进行查找、插入和删除操作时都能保持较高的效率。平衡因子在AVL树中，每个节点都维护一个额外的信息，即平衡因子。平衡因子定义为该节点的左子树高度减去右子树高度（或右子树高度减去左子树高度，但通常以前者为准）。平衡因子的值只能为-1、0或+1。旋转操作当在AVL树
Vue3.0 的 ref 和 reactive对比 csnan Vue 前端 javascript vue.js
从定义数据角度对比：ref用来定义：基本类型数据。reactive用来定义：对象（或数组）类型数据。备注：ref也可以用来定义对象（或数组）类型数据,它内部会自动通过reactive转为代理对象。从原理角度对比：ref通过Object.defineProperty()的get与set来实现响应式（数据劫持）。reactive通过使用Proxy来实现响应式（数据劫持）,并通过Reflect操作源对象
Express连接postgres数据库叁拾舞数据库 express 数据库
文章目录Express介绍创建express项目连接postgres数据库创建查询接口创建插入接口Express介绍Express是一个基于Node.js的轻量级Web框架，用于快速构建RESTfulAPI和Web应用。它提供了路由、中间件、模板引擎等功能，是Node.js开发中最流行的框架之一。创建express项目新建【express-pgAdmin】文件夹，并用cmd打开，运行如下命令，使用
Python基础：【习题系列】列表、元组、字典和集合若北辰 Python基础 python 开发语言
在Python中，用于创建空列表的语法是什么？（A）A．[]B．()C．{}D．None答案：A难易程度：易答案解析：在Python中，空列表可以通过空方括号[]来创建。知识点：列表；Python数据结构在Python中，以下哪个方法用于向列表添加元素？（B）A．insertB．appendC．addD．push答案：B难易程度：易答案解析：append()方法用于在列表末尾添加一个元素。知识点：
开工大吉：CRM系统助力企业高效管理与业绩腾飞迈富时营销与销售解决方案迈富时CRM系统大数据人工智能机器学习开源软件数据挖掘
开工大吉！新春伊始，正是规划新目标、提升效率的好时机。今天，我想和大家分享一个在现代商业中不可或缺的工具——CRM销售管理系统。无论是初创企业还是成熟公司，CRM都能帮助你更好地管理客户关系、提升销售效率，甚至为企业创造更大的价值。这篇文章将从多个角度深入解析CRM的功能、优势以及它如何助力你的新年目标。什么是CRM？为什么它如此重要？CRM（CustomerRelationshipManagem
算法设计与分析: 5-31 喷漆机器人问题 dijk Algorithm 回溯法计算机算法设计与分析 Java 计算机算法设计与分析喷漆机器人问题回溯法 Java
5-31喷漆机器人问题问题描述F大学开发出一种喷漆机器人Rob，能用指定颜色给一块矩形材料喷漆。Rob每次拿起一种颜色的喷枪，为指定颜色的小矩形区域喷漆。喷漆工艺要求，一个小矩形区域只能在所有紧靠它上方的矩形区域都喷过漆后，才能开始喷漆，且小矩形区域开始喷漆后必须一次性喷完，不能只喷一部分。为Rob编写一个自动喷漆程序，使Rob拿起喷枪的次数最少。对于给定的矩形区域和指定的颜色，计算Rob拿起喷枪
机器学习之决策树！决策树算法实战：葡萄酒品质预测风清扬雨人工智能机器学习算法决策树 python
决策树算法实战：葡萄酒品质预测Hey小伙伴们，今天我们将通过一个有趣的案例来探索决策树算法在葡萄酒品质预测中的应用。想象一下，只需几个关键指标，就能预测一瓶葡萄酒的品质，是不是很神奇呢？让我们一起用Python和决策树算法，揭开葡萄酒的秘密吧！数据集介绍我们将使用著名的UCIMachineLearningRepository中的“葡萄酒品质”数据集。这个数据集包含了葡萄酒的各种化学成分和物理特性，
测压表压力表计量表针头针尾检测数据集VOC+YOLO格式4862张4类别 FL1623863129 数据集深度学习机器学习人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：4862标注数量(xml文件个数)：4862标注数量(txt文件个数)：4862标注类别数：4标注类别名称(注意yolo格式类别顺序不和这个对应，而以labels文件夹classes.txt为准):["base","ma
洛谷打印三角形葡萄989 算法 c++开发语言
#includeusingnamespacestd;intn,i,cnt;intmain(){scanf("%d",&n);for(i=1;i0){//按照剩余的空位判断i-=2;for(intj=0;j
7-4 学生成绩排序葡萄989 数据结构算法
#include#include#include#defineMAX_STUDENTS100//学生结构体typedefstruct{charid[10];charname[20];intscores[3];doubleaverage;}Student;//交换两个学生结构体的函数voidswap(Student*a,Student*b){Studenttemp=*a;*a=*b;*b=temp;
PTA使用函数找出数组中的最大值葡萄989 算法数据结构
本题要求实现一个找出整型数组中最大值的函数。函数接口定义：intFindArrayMax(inta[],intn);其中a是用户传入的数组，n是数组a中元素的个数。函数返回数组a中的最大值#include#defineMAXN10intFindArrayMax(inta[],intn);intmain(){inti,n;inta[MAXN];scanf("%d",&n);for(i=0;imax)
STM32单片机学习记录（11.29）宣宣猪的小花园. STM32 stm32 无人机嵌入式硬件单片机
一、STM326.4-PWM驱动程序1.PWM基本结构：运行控制——时基单元——输出比较单元——GPIO。2.PWM程序编写步骤：（1）RCC开启时钟，将要用的TIM外设和GPIO外设的时钟打开；（2）配置时基单元（包括时钟源选择）；（3）配置输出比较单元（包括CCR值、输出比较模式、极性选择、输出使能等参数）；（4）配置GPIO，将其初始化为复用推挽输出配置；（5）运行控制，启动计数器。3.有关
STM32单片机学习记录（12.27）宣宣猪的小花园. STM32 stm32 无人机嵌入式硬件单片机
一、STM328.2-DMA数据转运1.关于寄存器汇编（1）寄存器实际地址=起始地址+偏移；（2）可使用结构体访问寄存器（使用结构体依次占用地址，再用函数调取地址）。2.配置DMA：（1）定义DMA转运的源端数组（uint8_tDataA[]：0x0_；uint8_tDataB[]：全局默认为0）和目的数组；（2）初始化DMA，将DataA的数据转运到DataB；（3）配置主函数。3.初始化DMA
STM32单片机学习记录（11.17）宣宣猪的小花园. STM32 stm32 无人机嵌入式硬件单片机
一、STM324.1-OLED调试工具1.常见调试方法：（1）串口调试：通过串口通信，将调试信息发送到电脑端，电脑用串口助手使用调试信息。优势：可自行显示函数、数据、图像等；弊端：需要电脑且只能以信息流的方式显示；（2）显示屏调试：直接将显示屏连接到单片机，将调试信息打印在显示屏上（屏幕太小内容有限）；（3）Keil调试模式：借助Keil的调试功能，可使用单步运行、设置断点、查看寄存器及变量等功能
Dom疑点解析爱意随风起^O^ javascript 前端
一:创建一个按钮，通过id获取按钮节点对象，比通过其他方式有什么好处？通过id获取按钮节点对象主要有以下好处：-唯一性：在HTML文档中，id属性的值是唯一的。这意味着可以精准地定位到想要的那个特定按钮，不会像使用标签名获取节点（如getElementsByTagName）那样可能获取到多个同类型的元素，从而避免了误操作其他非目标元素。例如，如果页面有多个按钮，通过id可以确保只对特定的目标按钮进
React Native第三方组件库汇总 2401_85124812 作者\/react native react.js javascript
项目地址:https://github.com/wix/react-native-ui-lib9，ReactNativePaperReactNativePaper是一个跨平台的UI组件库，它遵循MaterialDesign指南，提供了全局主题支持和可选的babel插件，用以减少捆绑包大小。ReactNativePaper项目地址:https://github.com/callstack/react
【大数据学习 | 面经】yarn的资源申请和分配的单位-Container Vez'nan的幸福生活大数据 yarn hadoop hbase hive
在yarn中，资源的申请和分配是以container为单位进行的，而不是直接以application和task为单位。每个提交到yarn上的应用程序（application）都有一个对应的ApplicationMaster（AM）。这个AM负责与ResourceManager（RM）通信，以请求容器（containers），这些容器用于运行应用程序的任务（tasks）。因此，虽然资源是以conta
conda升级python版本讓丄帝愛伱后端技术 conda python 开发语言
打开终端或命令提示符，并激活你要使用的conda环境。你可以使用以下命令来激活环境：condaactivate确认当前环境中已安装的Python版本。可以使用以下命令来查看：condalistpython更新conda本身。可以使用以下命令来更新conda：condaupdateconda确认是否有可用的Python版本可以升级。可以使用以下命令来查看可用的Python版本：condasearch
k8s二进制集群之Kube ApiServer部署 smart_ljh k8s二进制搭建 kubernetes 贪心算法容器 k8s apiserver
创建kube工作目录（仅在主节点上创建即可）同样在我们的部署主机上创建apiserver证书请求文件根据证书文件生成apiserver证书仅接着创建TLS所需要的TOKEN创建apiserver服务的配置文件（仅在主节点上创建即可）创建apiserver服务管理配置文件对所有master节点分发证书&TOKEN都安装好了，下面我们启动一下apiserver服务最后完成了，怎么来验证apiserve
Python中find()的用法武当豆豆 Python语法 python
Python中find()函数是字符串对象的方法，只能在字符串上调用，用于检测查询字符串中的目标字符（串），并返回索引。有目标字符（串），则返回目标字符（串）第一次出现的索引（字符串中字符索引从左到右，从0开始计算）；无目标字符（串），则返回-1。语法：str.find(string,start,end)str：待查询的字符串。string：待检测的目标字符（串），可为单个字符或多个字符组成的字符
PHY接口技术文档：PCI Express、SATA、USB 3.0架构 v5.2 方浩坤Harriet
PHY接口技术文档：PCIExpress、SATA、USB3.0架构v5.2【下载地址】PHY接口技术文档PCIExpressSATAUSB3.0架构v5.2分享本仓库提供了一份关于物理层接口（PHYInterface）的技术文档，详细介绍了PCIExpress、SATA和USB3.0的架构设计。该文档版本为v5.2，涵盖了这些接口技术的最新发展和关键技术细节项目地址:https://gitcod
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb