Jiangxl~

Linux-文本处理三剑客awk详解＋企业真实案例（变量、正则、条件判断、循环、数组、分析日志）

文本处理 awk

1.awk简介

awk是一种编程语言，用于在Linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其他命令的输出，它支持用户自定义函数和动态正则正则表达式等先进功能，是Linux/unix下的一个强大的编程工具。它在命令行中使用，但更多是作为脚本来使用。

awk的处理文本和数据的方式是这样的，它逐行扫描文件从第一行到最后一行，寻找匹配的特定模式的行，并在这些行上进行你想要的操作，如果没有指定处理动作，则把匹配的行显示到标准输出（屏幕），如果没有指定模式，则所有被操作所指定的行都被处理。

2.awk的两种命令格式

awk [options] ‘commands’ filenames

awk [options] -f awk-scripts-file filenames

=options：===

-F 定义输入字段分隔符，默认的分隔符是空格或制表符

==command：

BEGIN{} {} END{}

行处理前行处理行处理后

awk 'BEGIN{print 1/2}{print "ok"}END{print "-----------"}' /etc/hosts
0.5
ok
ok
ok
---------
在行处理前执行1/2，在处理每一行后打印ok，在行处理后在打印--------，整个命令的原理：先进行行前处理，也就是打印出1/2的值也就是0.5，然后根据awk的原理，不指定处理哪一行默认都进行处理，因此每当处理一行后都会打印ok，最后在每一行都处理结束后打印-------------

BEGIN{}通常用于定义一些变量

awk 'BEGIN{FS=":";OFS="---"}{print $1,$2}' /etc/passwd		//在BEGIN中定义FS的值以：进行分隔，FS表示输入时分隔符为xxx，OFS表示输出的符号为xxx，这里定义为---

3.awk命令格式：

awk ‘pattern’ filename

示例

awk -F: '/root/' /etc/passwd
过滤出包含root的行

awk ‘{action}’ filename

示例

awk -F ":" '{print $1}' /etc/passwd
以分号分隔，打印出第一列

awk ‘pattern {action}’ filename

示例

awk -F ":" '/root/{print $1,$2}' /etc/passwd
以分号作为分隔符，打印出包含root的行并打印第一列

awk 'BEGIN{FS=":";OFS="---"} /root/{print $1,$2,$3}' passwd.txt
以BEGIN行前处理定义FS的分隔符，OFS定义输出分隔符，匹配包含root的行并打印1,2,3列

df | grep '/' | awk '$4>100000 {print $4,$(NF)}'
df命令列出磁盘空间后，使用grep命令过滤/的行，在使用awk过滤一下$4大于100000的行在打印第4列和最后一列

4.awk工作原理

awk -F: '{print $1,$2,$3}' /etc/passwd
1.awk使用一行作为输入，并将这然后一行赋给内部编码$0,每一行也可称为一个记录，以换行符结束
2.然后，行被:(默认为空格或者制表符，但是由于我们使用了-F也就是重新定义了分隔符，因此在这里为:)分解成字段（或域），每个字段存储在已经编号的变量中，从$1开始，最多达100个字段
3.awk如何知道用空格来分隔字段的呢？因为有一个内部变量FS来确定字段分隔符，初始时，FS赋为空格
4.awk打印字段时，将以设置的方法使用print函数打印，awk在打印的字段间加上空格，因为$1,$3之间有一个逗号，逗号比较特殊，它映射为另一个内部变量，称为输出字段分隔符OFS，OFS默认为空格
5.awk输出后，将文件中获取另一行，并将其存储在$0中，覆盖原来的内容，然后将新的字符串分隔成字段并进行处理，该过程将持续到所有行处理完毕

5.awk记录与字段相关内部变量

man awk可以看到所有的awk帮助信息

$0：awk变量$0保存当前记录的内容

awk -F":" '{print $0}' passwd.txt

NR：The total number of input records seen so far

显示行号总数，例如有两个文件同时输出到屏幕，行号会接着之前文件的继续加之，NR是总的

awk -F":" '{print NR,$0}' passwd.txt /etc/hosts
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin
4 adm:x:3:4:adm:/var/adm:/sbin/nologin
5 lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
6 sync:x:5:0:sync:/sbin:/bin/sync
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
8 halt:x:7:0:halt:/sbin:/sbin/halt
9 mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
10 operator:x:11:0:operator:/root:/sbin/nologin
11 127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
12 ::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

如果把NR放在了后面则在行尾加上行号
awk -F":" '{print $0,NR}' passwd.txt /etc/hosts
root:x:0:0:root:/root:/bin/bash 1
bin:x:1:1:bin:/bin:/sbin/nologin 2
daemon:x:2:2:daemon:/sbin:/sbin/nologin 3
adm:x:3:4:adm:/var/adm:/sbin/nologin 4
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin 5
sync:x:5:0:sync:/sbin:/bin/sync 6
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown 7
halt:x:7:0:halt:/sbin:/sbin/halt 8
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin 9
operator:x:11:0:operator:/root:/sbin/nologin 10
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4 11
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6 12

awk也可以结合sed命令来使用，sed命令不输出行号，所以可以结合awk来实现
awk -F":" '{print NR,$0}' passwd.txt  |sed '1,3s/.*/#&/'

FNR：The input record number in the current input file

FNR的不像NR多个文件的行数都写在一块，FNR是当前输入文件的行号

awk -F":" '{print FNR,$0}' passwd.txt /etc/hosts 
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin
4 adm:x:3:4:adm:/var/adm:/sbin/nologin
5 lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
6 sync:x:5:0:sync:/sbin:/bin/sync
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
8 halt:x:7:0:halt:/sbin:/sbin/halt
9 mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
10 operator:x:11:0:operator:/root:/sbin/nologin
1 127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
2 ::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

NF：保存记录的字段数，$1,$2,$3的个数

一般都会把NF放在最后，审美

NF与 $N F 的区别： N F 是打印字段的个数，$ NF是打印最后一列

awk -F":" '{print NR,$0,NF}' passwd.txt
1 root:x:0:0:root:/root:/bin/bash 7
2 bin:x:1:1:bin:/bin:/sbin/nologin 7
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin 7
4 adm:x:3:4:adm:/var/adm:/sbin/nologin 7
5 lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin 7
6 sync:x:5:0:sync:/sbin:/bin/sync 7
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown 7
8 halt:x:7:0:halt:/sbin:/sbin/halt 7
9 mail:x:8:12:mail:/var/spool/mail:/sbin/nologin 7
10 operator:x:11:0:operator:/root:/sbin/nologin 7

awk -F":" '{print NR,$0,NF,$NF}' passwd.txt
1 root:x:0:0:root:/root:/bin/bash 7 /bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin 7 /sbin/nologin
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin 7 /sbin/nologin
4 adm:x:3:4:adm:/var/adm:/sbin/nologin 7 /sbin/nologin
5 lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin 7 /sbin/nologin
6 sync:x:5:0:sync:/sbin:/bin/sync 7 /bin/sync
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown 7 /sbin/shutdown
8 halt:x:7:0:halt:/sbin:/sbin/halt 7 /sbin/halt
9 mail:x:8:12:mail:/var/spool/mail:/sbin/nologin 7 /sbin/nologin
10 operator:x:11:0:operator:/root:/sbin/nologin 7 /sbin/nologin

FS：输入字段分隔符，默认空格

awk -F":" '{print $1}' passwd.txt /etc/hosts
root
bin
daemon
adm
lp
sync
shutdown
halt
mail
operator
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4

多重匹配分隔符[ :\t]表示以空格冒号制表符作为分隔符，出现对应的符号就进行分隔
awk -F"[ :\t]" '{print $1,$2,$3,$4}' passwd.txt /etc/hosts
root x 0 0
bin x 1 1
daemon x 2 2
adm x 3 4
lp x 4 7
sync x 5 0
shutdown x 6 0
halt x 7 0
mail x 8 12
operator x 11 0
127.0.0.1   localhost
  1 

也可以使用BEGIN作为分隔符
awk 'BEGIN{FS=":"} {print $1}' passwd.txt
awk -F: '/root/{print $1,$2,$3,$4}' passwd.txt

OFS：输出字段分隔符

awk 'BEGIN{FS=":";OFS="+++"}/root/{print $1,$2,$3}' passwd.txt

RS：输入记录分隔符，可以将一行换成多行

以冒号分隔
awk 'BEGIN{RS=":"}{print $0}' passwd.txt
以空格分隔
awk 'BEGIN{RS=" "}{print $0}' passwd.txt

ORS：输出记录分隔符，可以将多行合并成一行

awk 'BEGIN{ORS=""}{print $0}' passwd.txt
awk 'BEGIN{ORS=" "}{print $0}' passwd.txt

字段分隔符：FS OFS 默认空格或者制表符

记录分隔符：RS ORS 默然换行符

6.格式化输出

print函数

使用print函数时打印非变量的字符时一定要用引号引起来

输出当前的月份和年份
date | awk '{print "month: "$2 "\nyear: "$1}' 
month：03月
year: 2020年

输出passwd.txt文件中的用户名和uid
awk -F":" '{print "username is: "$1 "\tuid is: "$3}' passwd.txt
awk -F":" '{print "username and uid: "$1,$3}' passwd.txt

printf 函数

awk -F ":" '{printf "%-15s %-10s %-15s\n",$1,$2,$3}' passwd.txt			//设置字符长度
awk -F ":" '{printf "%-15s| %-10s| %-15s\n",$1,$2,$3}' passwd.txt
awk -F ":" '{printf "%-25s| %-20s| %-25s|\n","username:"$1,"userpass:"$2,"useruid:"$3}' passwd.txt	

%s字符类型
%d数值类型
%f浮点类型
占15个字符
-表示左对齐，默认右对齐
printf默认不会再行尾自动换行，加\n

7.模式匹配

7.1正则表达式：

匹配记录（整行）：

awk '/^root/' passwd.txt
awk '$0 ~ /^root/' passwd.txt		//$0匹配root开头的行，~表示匹配
awk '!/^root/' passwd.txt 		//除了root的行
awk '$0 !~ /^root/' passwd.txt		//$

匹配字段：匹配操作符（~ !~）

awk -F":" '$1 ~ /^root/' /etc/passwd		//匹配
awk -F":" '$NF !~ /bash$/' /etc/passwd	//非匹配

7.2关系运算符

运算符	含义	实例
<	小于	$1<100
<=	小于或等于	$1<=100
==	等于	$1==100
!=	不等于	$1!=100
>=	大于等于	$1>=100
>	大于	$1>100

字符串建议用双引号引起来
awk -F ":" '$3 == 0' /etc/passwd			//$3等于0
awk -F ":" '$3 < 10' /etc/passwd		//$3小于10
awk -F ":" '$NF == "/bin/bash"' /etc/passwd		//最后一列等于/bin/bash
awk -F ":" '$1 == "root"' /etc/passwd		//$1等于root
awk -F ":" '$1 ~ /root/' /etc/passwd	//$1匹配正则root的行
awk -F ":" '$1 !~ /root/' /etc/passwd	//$1不匹配root，就是不包含
df | grep '/' |awk '$4 < 1000'

7.3条件表达式：

awk -F":" '$3>300 {print $0}' /etc/passwd		//如果$3这一列大于300那么久打印整行
awk -F":" '{if($3>300) print $0}' /etc/passwd//如果$3这一列大于300那么久打印整行
awk -F":" '{if($3>300){print $3}else{print $1}}' /etc/passwd

7.4算术运算：+ - * / % ^

awk -F":" '{if($3 * 5 > 10){print $1,$3}}' passwd.txt		//如果$3*5的结果大于10，那么就打印$1,$3
awk -F":" '{if($3 + 5 > 10){print $1,$3}}' passwd.txt
awk -F":" '{if($3 - 5 < 10){print $1,$3}}' passwd.txt
awk -F":" '{if($3 / 5 < 10){print $1,$3}}' passwd.txt
awk -F":" '{if($3^5 > 10){print $1,$3}}' passwd.txt

7.5逻辑操作符和复合模式

&& 逻辑与 a&&b

|| 逻辑或 a||b

! 逻辑非 !a

awk -F ":" '$1~/root/ && $3<=15' /etc/passwd
awk -F ":" '$1~/root/ || $3<=15' /etc/passwd
awk -F ":" '!($1~/root/ || $3<=15)' /etc/passwd

8.awk示例

awk '/root/' passwd.txt			//匹配root的行
awk '/^root/' passwd.txt		//匹配以root开头的行
awk '$3 ~ /^root/ '	passwd.txt	//$3匹配root开头
awk '/^(no|so)/' passwd.txt		//匹配no或者so开头的行
awk '{print $3,$2} ' passwd.txt		//打印第三列和第二列

awk '{print $0}' passwd.txt		//打印整行
awk '{print "Number of fields" NF}' passwd.txt		//打印每一行的字段数
awk '/root/{print $3,$2}' file		//匹配root的行并打印$3和$2两列
awk '/E/' passwd.txt //匹配E的行

awk '/^[ns]/{print $1}' datafile	//匹配以n或s开头的行并打印$1
awk '$5 ~ /\.[7-9]+' datafile	//$5匹配.开头在跟一个7-9出现一次或多次
awk 

awk '$4 ~ /China$/{print $8}' datafile	//$4匹配china结尾的并打印$8
awk '/Tj/{print $0}' datafile	//匹配Tj的行并打印
awk '{print $1}' /etc/passwd	
awk -F ":" '{print $1}' /etc/passwd
awk -F ":" '{print "Number of felds: "NF}' /etc/passwd
awk -F"[ :]" '{print NF}' /etc/passwd	//指定多个分隔符，空格或者冒号都进行分隔
awk -F"[ :]+" '{print NF}' /etc/passwd	//空格或者分隔符出现一次或多次
awk '$7 == 5' datafile		//$7等于5
awk '$2 == "CT"{print $1,$2}' datafile	//$2等于CT的行并打印$1和$2
awk '$7 != 5' datafile		//$7不等于5

awk '$7 < 5 {print $4,$7}' datafile		//$7小于5打印第四列和第七列
awk '$6 > .9{print $1,$6}' datafile		//$6大于0.9则打印第一列和第六列
awk '$8 <= 17 {print $8}' datafile		//$8下雨等于17则打印第八列
awk '$8 > 10 && $8 <17' datafile		//$8大于10并且$8小于17
综上可以使用if的方式:awk '{if($7 != 5){print $1,$2}}' datafile

awk '$2 == "NW" || $1 ~ /south/ {print $1,$2}' datafile		//$2等于NW或者$1匹配south的行然后打印$1和$2
awk '!($8 == 13){print $8}' datafile	//如果$8不等于13就打印$8
awk '/southem/{print $5 + 10}' datafile	//匹配suouthem并打印$5+10

awk '/southem/{print $8 - 10}' datafile		//$8减10
awk '/southem/{print $8 / 2}' datafile		//$8除于2
awk '/southem/{print $8 * 2}' datafile		//$8乘2
awk '/southem/{print $8 % 2}' datafile		//$8余数2

awk '$3 ~ /^Suan/ {print "Percentage:"$6 + .2 "volume: "$8}'		//$3匹配Suan开头的行，打印$6+0.2并打印$8
awk '/^western/,'/^eastern/' datafile
awk '{print ($7 > 4 ? "high: "$7: "low" $7)}' datafile     //如果$7大于4则打印$7否则打印$7可以使用if else实现
awk '$3 == "Chirs"{$3 = "Chiristian"; print $0}' datafile		//$3等于chirs则将$3赋值chiristian 并打印$0
awk '/Derek/ {$8+=12;print $8}' datafile		//$8=$8+12
awk '{$7%=3; print $7}' datafile	//$7=$7 % 3

9.awk脚本编程

表达式用()，命令语句用{}

9.1.条件判断

if语句：
格式：{if(表达式){语句1，语句2}}
awk -F ":" '{if($3 == 0){print $1 "is administrator"}}' /etc/passwd		//如果$3=0就打印$1是管理员
awk -F ":" '{if($3>0 && $3<1000){count++;}} END{print count}' /etc/passwd.txt 		//如果$3大于0并且$3大于1000那么count++也就是每当条件成立一次，count的值就会加1，最后在打印cront的值，如果想加一次都显示值则在{count++;print count}即可
ps -ef | awk '{if($1 ~ /root/ ){i++}} END{print "root用户开启的进程个数为: "i}'	//打印root用户开启了多少个进程

if..else语句：
格式：{if(表达式){语句;语句;...}else{语句;语句;...}}
awk -F ":" '{if($3==0){i++} else{j++}} END{print "管理员个数: "i;print "系统用户个数: "j}' /etc/passwd		//如果$3=0则i的值每次加1，否则j每次加1,
awk -F ":" '{if($3==0){i++}else{j++}} END{print "管理员个数: "i "\n系统用户个数: "j}' /etc/passwd		//可以使用一个print，并使用\n进行还行

if...else if...else语句
格式：'{if(表达式1){语句;语句}else if(表达式2){语句;语句} else if(表达式3){语句;语句} else{语句}}'
awk -F":" '{if($3==0){i++} else if($3>999){j++} else{s++}} END{print i;print j;print s}' /etc/passwd
awk -F":" '{if($3==0){i++} else if($3<999){j++} else{s++}} END{print "管理员个数: "i;print "程序用户个数: "j;print "普通用户个数: "s}' /etc/passwd		//如果$3=0则i的值每次都加1，如果$3小于999则j的值每次都加1，如果都不匹配则s的值每次加1，管理员的个数匹配i，程序用户个数匹配j，普通用户个数匹配s

9.2.循环

在awk中while循环和for循环的区别在于：while是将初值、累加分开写的如{i=1;while(i<=10){print $i;i++}}而for是都写在一起的，和shell中的for格式相同如{for(i=1;i<=10;i++){print $i}}

while循环

awk 'BEGIN{i=1;while(i<=10){print i; i++}}'		//行前处理，先赋初值i=1，当i的值小于等于10的时候打印i的值，每次循环i的值加1,print i后面必须加分号，不然会打印两次 
awk -F":" '{i=1;while(i<=NF){print $i; i++}}' passwd.txt		//符初值，如果i小于等于字段个数，则打印$i列也就是第一次$1第一列，第二次$2第二列每次循环玩i的值都加1
awk -F":" '/^root/{i=1;while(i<=NF){print $i; i++}}' passwd.txt		//匹配到root开头的行，然后进行循环
root1
x2
03
04
root5
/root6
/bin/bash7
awk -F ":" '/^root/{i=1;while(i<=7){print $i;i++}}' passwd.txt
awk -F '{i=1;while(i<=NF){print $i;i++}}' b.txt		//分别打印每行每列

9.3.for循环

awk 'BEGIN{for(i=1;i<=10;i++){print i}}'	//跟shell中的for循环一样
awk -F":" '{for(i=1;i<=NF;i++){print $i}}' passwd.txt
awk -F":" '/root/{for(i=1;i<=NF;i++){print $i}}' passwd.txt

9.4.数组

注意：遍历时，i in user是索引不是数组值，print i,state和print i;state不一样其中“，”表示在同一行显示，";"表示换行，需要增加print

格式：awk ‘{数组[索引]++} END{for(i in 数组){print i,数组[i]}}’

sort -k表示按第几列排序 -n 排序，-r表示逆序，就是降序

awk -F":" '{username[++i]=$1} END{print username[1]}' passwd.txt		//定义一个数组，数组的索引是++i也就是第一次索引位1，第二次索引位2，数组的元数每次都是该行的第一列，最后打印数组

awk -F":" '{username[++i]=$1} END{print username[2]}' passwd.txt

awk -F":" '{username[i++]=$1} END{print username[0]}' passwd.txt

数组遍历：
netstat -ant | awk '{state[++i]=$NF} END{for (j in state){print j,state[j]}}' | sort -k1 -n		//将最后一列作为数组的值，最后遍历索引，打印数组值，在用sort排序小，-k表示对第几列进行排序
awk -F":" '{username[++j]=$1} END{for(i in username){print i,username[i]}}' passwd.txt

练习
awk -F":" '{shells[$NF]++} END{for(i in shells){print i,shells[i]}}' /etc/passwd		//统计各种登录shell出现的次数，这里使用shells[$NF]++而不是shells[++i]=$NF是因为我们要统计这一列出现的次数，将每一行的这一列都做成索引
统计网站访问状态
netstat -n | awk '/^tcp/{state[$NF]++} END{for(i in state){print i,state[i]}}'	//导出系统并发数，以tcp开头的行最后一列作为数组索引，每当出现一次值就加1，最后遍历，等同于netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'，二者不同在于数组定义方面，后者是在数组名前就进行了++而前者是在索引定义好后++,效果一致。
netstat -ant | grep ":888" | awk '{state[$NF]++} END{for (i in state){print i,state[i]}}' | sort -k2 -n | head		//将结果排序
ss命令实现
ss -an | grep ":888" |awk '{state[$2]++} END{for (i in state){print i,state[i]}}'
ss -an | grep ":888" |awk '{state[$2]++} END{for (i in state){print i,state[i]}}' | sort -k2 -n | head

统计访问ip的次数
netstat -ant | grep ":888" | awk -F"[ :\t]+" '{ips[$6]++} END{for (i in ips){print i,ips[i]}}'
ss -ant 
ss -ant | grep ":888" | awk -F"[ :\t]+" '{ips[$6]++} END{for (i in ips){print i,ips[i]}}'

统计ip时去掉listen
ss -ant | grep ":888" |awk -F"[: \t]+" '!/LISTEN/{ips[$(NF-2)]++} END{for (i in ips){print i,ips[i]}}' | sort -k2 -nr
netstat -ant | grep ":888" | awk -F"[: \t]+" '!/LISTEN/{ips[$(NF-3)]++} END{for (i in ips){print i,ips[i]}}' | sort -k2 -nr

9.5.分析nginx、Apache日志

统计一天内访问量

grep '08/Mar/2020' access.log|wc -l

统计日志中ip的访问次数

日志输出一般为下图

192.168.81.43 - - [08/Mar/2020:16:56:50 +0800] “GET /favicon.ico HTTP/1.1” 404 570 “http://192.168.81.250:888/know_system/” “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.80 Safari/537.36”

awk ‘{ips[$1]++} END{for (i in ips){print i,ips[i]}}’

解释：由于我们要统计整个文件中每一行$1列的内容出现的次数，每出现一次，值就加一，因此我们在定义数组时，就把$1的内容作为索引，每出现一次就加1，ips[$1]++，最后在遍历这个数组，打印索引后面跟着索引的值，索引就是$1的内容，值就是$1出现了多少次

实现思路：将需要统计的内容（某一字段）作为数组索引，每次加1
如果需要判断出现的次数，也看结合之前学过的if进行判断，但要写在遍历完数组的部分，例如{if(ips[i]>100){print i,ips[i]}}

1.使用grep实现
grep '08/Mar/2020' access.log | awk '{ips[$1]++} END{for (i in ips){print i,ips[i]}}' | sort -k2 -nr
192.168.81.5 25
192.168.81.210 87
192.168.81.134 987
192.168.81.14 765
192.168.81.32 19
192.168.81.99 17
192.168.81.172 176
192.168.81.43 78
192.168.81.1 346
192.1.32.8 1790
192.168.81.2 99

2.awk实现
awk '/08\/Mar\/2020/{ips[$1]++} END{for (i in ips){print i,ips[i]}}' access.log | sort -k2 -nr
192.1.32.8 1790
192.168.81.134 987
192.168.81.14 765
192.168.81.1 346
192.168.81.172 176
192.168.81.2 99
192.168.81.210 87
192.168.81.43 78
192.168.81.5 25
192.168.81.32 19

3.只输出日志中访问次数最多ip的前五个
awk '/08\/Mar\/2020/{ips[$1]++} END{for (i in ips){print i,ips[i]}}' access.log | sort  -k2 -nr | head -5
192.1.32.8 1790
192.168.81.134 987
192.168.81.14 765
192.168.81.1 346
192.168.81.172 176

4.只输出日志中访问次数超过100的ip
awk '/08\/Mar\/2020/{ips[$1]++} END{for(i in ips){if(ips[i]>100){print i,ips[i]}}}' access.log | sort -k2 -nr
92.1.32.8 1790
192.168.81.134 987
192.168.81.14 765
192.168.81.1 346
192.168.81.172 176
awk '/08\/Mar\/2020/{ips[$1]++} END{for(i in ips){print i,ips[i]}}' access.log | awk '$2>100' | sort -k2 -nr
192.1.32.8 1790
192.168.81.134 987
192.168.81.14 765
192.168.81.1 346
192.168.81.172 176

9.6…awk函数

统计用户名为4个字符的用户

awk -F":" '$1~/^....$/{i++;print $1} END{print "count is "i}' /etc/passwd		//利用正则4个.表示四个任意子，最后打印
awk -F":" '{if($1~/^....$/){i++;print $1}} END{print "count is "i}' /etc/passwd

length函数实现
awk -F":" 'length($1)==4{i++;print $1} END{print "count is "i}' /etc/passwd
awk -F":" '{if(length($1)==4){i++;print $1}} END{print "count is "i}' /etc/passwd

9.7.awk引入外部变量

首先定义外部变量：var=bash
gsub是全局替换，sub是单个替换
注意：不能使用单引号，gsub/sub后面要有括号
何时用不同的引号：在函数中尽量使用双引号，在函数外面可用使用单引号，'''$i'''
方法一：在双引号情况下使用
var=bash
echo "unix scripts" | awk "gsub(/unix/,\"$var\")"		//全局替换
	bash scripts
echo "unix scripts unix unix" | awk "sub(/unix/,\"$var\")"		//只替换一次
	bash scripts unix unix 
echo "unix scripts unix unix" | awk "gsub(/unix/,\"$var\")"
	bash scripts bash bash
	
方法二：使用单引号的情况
可以使用两个双引号然后里面套入单引号
var=bash
echo "unix scripts unix unix" | awk 'gsub(/unix/,"'"$var"'")'
函数外使用单引号
[root@localhost d11_awk_wbclgjsz]# df -hT
文件系统                类型      容量  已用  可用 已用% 挂载点
/dev/mapper/centos-root xfs        47G  7.6G   40G   17% /
devtmpfs                devtmpfs  894M     0  894M    0% /dev
tmpfs                   tmpfs     910M     0  910M    0% /dev/shm
tmpfs                   tmpfs     910M   11M  900M    2% /run
tmpfs                   tmpfs     910M     0  910M    0% /sys/fs/cgroup
/dev/sr0                iso9660   4.3G  4.3G     0  100% /media
/dev/sdb1               xfs       100G   39M  100G    1% /my_scripts
/dev/sda1               xfs      1014M  180M  835M   18% /boot
tmpfs                   tmpfs     182M     0  182M    0% /run/user/0
tmpfs                   tmpfs     182M   12K  182M    1% /run/user/42
[root@localhost d11_awk_wbclgjsz]# df -h | awk '{if($(NF-1)>10){print $NF":"$(NF-1)}}'
挂载点:已用%
/:17%
/run:2%
/media:100%
/boot:18%
显然结果是不对的，因为倒数第二列有百分号，因此不能计算，我们可以使用int函数,将函数部分引起来int($5)>10
[root@localhost d11_awk_wbclgjsz]# df -h | awk '{if (int($(NF-1))>10){print $NF":"$(NF-1)}}'
下面开始进入正题，引入外部变量
i=10
df -h |awk '{if(int($5)>'''$i'''){print $6":"$5}}'

方法三：使用awk参数-v将外部变量引入
使用这种方法不需要在使用引号和$符号
echo "unix scripts unix aaa" | awk -v "var=bash" 'gsub(/unix/,var)'		
awk -v "user=root" -F":" '{if($1==user){print $0}}' /etc/passwd

10.awk企业真实实例

10.1过滤出网卡中的所有ip，不包含ipv6的地址

思路：首先ip在inet的行，正好是第二列，因此不必使用grep，直接使用awk '/inet/'即可匹配到包含inet的行，我们不要ipv6的地址，因此可以使用正则匹配，也就是$2第二列的值要匹配192.168.81.250这样的值也就是$2~/[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}/如果匹配成功就打印第二列

ifconfig | awk '/inet/{if($2~/([0-9]{1,3}.){3}[0-9]{1,3}/){print $2}}'
192.168.81.250
127.0.0.1
192.168.122.1

ifconfig |awk '/inet/{if($2~/[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}/){print $2}}'
192.168.81.250
127.0.0.1
192.168.122.1

因为包含ipv4的行时inet看开头的，inet6是ipv6的因此使用词首词尾定界符即可
ifconfig | awk '/\/{print $2}'

10.2获取内存使用情况，如果超过80就提示error，否则就提示ok

思路：free -m查出来的结果第三列是使用的，第二列是总大小，使用的除以总大小乘以100就是磁盘使用情况，一定要主要是Mem开头的，因为我们要差的是内存，最后如果大于等于80就报错，否则就正常

free -m | awk '/^Mem/{if($3 / $2 *100 >= 80){print "free is error"} else{print "free is ok"}}'
free is ok

free -m | awk '/^Mem/{if($3 / $2 *100 >= 10){print "free is error"} else{print "free is ok"}}'
free is error

10.3获取磁盘使用情况

思路：定义一个外部变量，只打印使用超过10%的，由于第第五列包含%因此我们使用int函数只比较数值
df -h | awk -v "used=10" '{if(int($5)>used){print $6":"$5}}'
/:17%
/media:100%
/boot:18%

10.4清空本机arp缓存

arp -n		//查看arp缓存
Address                  HWtype  HWaddress           Flags Mask            Iface
192.168.81.2             ether   00:50:56:fb:50:ed   C                     ens33
192.168.81.1             ether   00:50:56:c0:00:08   C                     ens33

arp -n | awk '/^[0-9]/{print "arp -d "$1}'		//只是把清arp缓存的命令打印出来
arp -d 192.168.81.2
arp -d 192.168.81.1

arp -n | awk '/^[0-9]/{print "arp -d "$1}'  | bash		//也可以将打印结果交给bash来处理，相当于在bash执行输出的结果

arp -n | awk '/^[0-9]/{print $1}' | xargs -I {} arp -d {}		//也可以只打印$1然后将输出的结果通过xargs -I保存到{}中，然后使用arp -d {}获取{}中的东西然后清理掉，xargs -I {}中的{}相当于接收在传给arp -d {} 

xargs -I {} 同样适用于导出线程
ps aux | grep 'java' |  grep -v 'grep'| awk '{print $2}' | xargs -I {} jstack -l {}

10.5打印出/etc/hostswe你按中最后一个字段

awk '{print $NF}' /etc/hosts

10.6打印目录下面文件夹的名称

ll /my_scripts/ | awk '/^d/{print $NF}'

你可能感兴趣的:(文本处理三剑客)

Go 错误处理指北：Defer、Panic、Recover 三剑客后端go异常处理错误面试
首发地址：https://mp.weixin.qq.com/s/FRa0A51DGQ6MiKO6PUu6wQGo语言中的错误处理不仅仅只有iferr!=nil，defer、panic和recover这三个相对来说不不如iferr!=nil有名气的控制流语句，也与错误处理息息相关。本文就来讲解下这三者在Go语言中的应用。Deferdefer是一个Go中的关键字，通常用于简化执行各种清理操作的函数。d
Linux三剑客之grep命令详解 promise524 Linux linux 服务器 python shell bash 后端运维
grep是Linux中最常用的文本搜索工具，用于在文件或文本输出中查找与指定模式匹配的行。它支持基本正则表达式、扩展正则表达式、多文件搜索、递归搜索等多种功能，非常适合过滤、搜索和提取文本内容。1.grep的基本语法grep[选项]模式[文件...]模式：搜索的文本模式，可以是普通字符串或正则表达式。[文件...]：要搜索的文件。如果没有指定文件，grep会从标准输入中读取数据。2.常用选项-i：
使用HTMLSectionSplitter进行智能HTML文档分割 afTFODguAKBF html python 前端
使用HTMLSectionSplitter进行智能HTML文档分割引言在处理大型HTML文档时，将其分割成更小的、语义相关的部分是一个常见需求。这不仅有助于提高文本处理的效率，还能保持文档的结构和上下文信息。本文将介绍LangChain库中的HTMLSectionSplitter，这是一个强大的工具，可以根据HTML结构智能地分割文档。HTMLSectionSplitter简介HTMLSectio
Linux三剑客与管道使用许琳珊
一、管道1、什么是管道linux提供管道符“|”将两个命令隔开，管道符左边命令的输出就会作为管道符右边命令的输入2、例子echo"hello123"|grep"hello"二、正则1、什么是正则正则表达式就是记录文本规则的代码2、正则的用法常用元字符代码说明.匹配除换行符以外的任意字符\w匹配字母或数字或下划线或汉字\s匹配任意的空白符\d匹配数字\b匹配单词的开始或结束^匹配字符串的开始$匹配字
Java 正则表达式详解艾伦~耶格尔 Java初级 java 正则表达式开发语言学习
正则表达式(RegularExpression，简称regex)是一种强大的文本处理工具，可以用来匹配、搜索和替换文本中的特定模式。在Java中，正则表达式由java.util.regex包提供支持。1.理解正则表达式语法正则表达式使用特殊的字符和符号来定义匹配模式。一些常用的元字符如下：.:匹配任意单个字符*:匹配前面的字符零次或多次+:匹配前面的字符一次或多次?:匹配前面的字符零次或一次[]:
python的pandas库帅维维 python pandas 开发语言
什么是pandasPandas是一个开源的第三方Python库，它从Numpy和Matplotlib的基础上构建而来，享有数据分析“三剑客之一”的盛名。Pandas已经成为Python数据分析的必备高级工具，目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。数据结构Pandas中除了Panel数据结构,还引入了两种新的数据结构——Series和DataFrame,这两种数据结构都建立在Nu
Linux三剑客-sed krb___ linux 运维服务器
前言：sed是StreamEditor（字符流）的缩写，简称流编辑器。sed是操作、过滤和转换问吧内容的强大工具。sed是一次读取一行数据常用功能包括结合正则表达式对文件实现快速增删改查，其中查询的功能中最常用的两大功能是过滤（过滤指定字符串），取行（取出指定行）sed命令语法：sed[选项][sed内置命令字符][输入文件]选项参数解释-n取消默认sed的输出，常与sed内置命令p一起使用-i直
月之暗面对谈 Zilliz：长文本和 RAG 如何选择？冻感糕人~ 人工智能大数据算法自然语言处理 ai大模型 RAG 机器学习
01长文本与RAG通用对比准确率：通常情况下长文本优于RAG长文本：可更加综合的去分析所有相关的内容，提取相关数字，生成图表，效果尚可。RAG：更适合找到一段或者是几段可能相关的段落。如果希望大模型能够对问题有全局的认识，比较困难。如，根据上市公司的2020年财务报表，绘制图表，直接用RAG可能效果就不是很好。长文本在准确性上表现好的原因，以及长度与准确性选择长文本处理之后，会做对齐和专门的Ben
文本处理三剑客之--awk Hu_O&M linux bash 运维开发语言
一、简介awk是一个处理文本的编程语言工具，能用简短的程序处理标准输入或文件、数据排序、计算以及生成报表等等。awk处理的工作方式与数据库类似，支持对记录和字段处理，这也是grep和sed不能实现的。在awk中，缺省的情况下将文本文件中的一行视为一个记录，逐行放到内存中处理，而将一行中的某一部分作为记录中的一个字段。用1,2,3...数字的方式顺序表示行（记录）中的不同字段。用$后跟数字，引用对应
Linux 运维三剑客：grep、sed 和 awk 实战案例与命令参数详解 Lyle_Tu Linux 云计算运维运维 linux chrome 云计算服务器
在Linux运维中，grep、sed和awk是三个非常强大的文本处理工具，它们在处理文本数据时发挥着重要作用。本文将通过一些实战案例，展示这三个工具的使用方法和强大功能，并对它们的命令参数进行详解。grep：文本搜索利器grep是一个强大的文本搜索工具，它使用正则表达式来匹配文本模式。以下是grep的一些常用命令参数：-i：忽略大小写进行匹配。-v：反向查找，只打印不匹配的行。-n：显示匹配行的行
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南快撑死的鱼 Python算法精解 python 人工智能开发语言
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南情感分析（SentimentAnalysis）是自然语言处理（NLP）领域中的一个重要分支，旨在从文本中识别出情绪、态度或意见等主观信息。在中文文本处理中，由于语言特性不同于英语，如何高效、准确地分词和提取关键词成为情感分析的关键步骤之一。在这篇文章中，我们将深入探讨如何使用Python和Jieba库进行中文情感分析，
国产AI大模型Kimi爆火！概念梳理我爱学AI 人工智能 ai 大模型
在人工智能（AI）技术的飞速发展浪潮中，一款名为Kimi的国产大模型近期在资本市场上引起了广泛关注，成为了AI领域的新星。Kimi，由国内AI创业公司月之暗面科技有限公司（MoonshotAI）开发，凭借其卓越的长文本处理能力和丰富的应用场景，迅速在AI对话助手市场中脱颖而出。3月18日，根据月之暗面官方微信公众号消息，支持200万字上下文的Kimi即日启动“内测”。根据机器之心数据显示，尚未上线
Docker Compose——MySQL 8.x，adminer，gitlab，Jenkins，tomcat 小龙Hibernation docker 运维 docker mysql
DockerComposedocker三剑客之一#下载1.25.0dockercomposesudocurl-L"https://github.com/docker/compose/releases/download/1.25.0/docker-compose-$(uname-s)-$(uname-m)"-o/usr/local/bin/docker-compose#添加可执行权限sudochmo
【专题】2024年中国AI人工智能基础数据服务研究报告合集PDF分享（附原数据表）拓端研究室人工智能
原文链接：https://tecdat.cn/?p=37516随着人工智能技术的迅猛发展，AI基础数据服务行业迎来了前所未有的发展机遇。报告合集显示，2023年中国AI基础数据服务市场规模达到45亿元，且未来五年复合增长率有望达到30.4%。多模态大模型、长文本处理能力提升以及大模型小型化技术成为AI领域热点研究方向，从而推动了对高质量数据的大量需求。阅读原文，获取专题报告合集全文，解锁文末403
600 条最强 Linux 命令总结素年槿夏 linux 运维服务器
600条最强Linux命令总结1.基本命令2.关机3.文件和目录4.文件搜索5.挂载一个文件系统6.磁盘空间7.用户和群组8.文件的权限，使用“+”设置权限，使用“-”用于取消9.文件的特殊属性，使用“+”设置权限，使用“-”用于取消10.打包和压缩文件11.RPM包12.YUM软件包升级器13.deb包14.查看文件内容15.文本处理16.字符设置和文件格式转换17.文件系统分析18.初始化一个
Linux基础入门 --9 DAY 安红豆. Linux学习 linux 运维服务器
文本处理工具之神vimvi和vim简介一、vi编辑器vi是Unix及类Unix系统（如Linux）下最基本的文本编辑器，全称为“visualinterface”，即视觉界面。尽管其名称中包含“visual”，但vi编辑器实际上工作在字符模式下，并不提供图形界面。vi编辑器以其强大的功能和灵活性著称，是Linux系统中不可或缺的工具之一。vi编辑器具有三种主要的工作模式：命令模式（CommandMo
Vue2、Vue3中 CSS 样式穿透 lsy1234565 css 前端 javascript
Vue2一、箭头三剑客(原生css)>>>.类名>>>.类名{样式}二、（sass、less中）：/deep//deep/.类名{样式}三、（sass、less中）：::v-deep::v-deep.类名{样式}Vue3一、：:deep():deep(样式选择器)二、：::v-deep()::v-deep(样式选择器)
Linux 系统入门：高级系统管理与文本处理 Switch616 操作系统 linux chrome 运维数据库服务器架构
Linux系统入门：高级系统管理与文本处理目录⚙️Linux系统进程管理进阶Linux高效文本、文件处理命令Shell脚本入门⚙️Linux系统进程管理进阶在Linux系统中，进程管理是保持系统高效运行的核心。通过深入理解进程的概念及其管理方式，能够更好地优化系统资源，提升性能。Linux提供了多种工具和命令来监控和控制进程，从而实现对系统资源的高效管理。✨进程查看与监控ps命令：用于显示当前系统
黄章辟谣，发言稳军心，真魅友助攻发长文支持文话儿人
说到近日手机界的大事，还是要数魅族副总裁李楠的离职，至此魅族“三剑客”白永祥、杨颜、李楠悉数卸任，并且在李楠离职后数日有消息称魅族内部也裁员将近30%，大批专卖店撤店，一个城市内仅仅留下了几个魅族专营店，而且深圳最大的魅族专卖店也已经变身华为专卖店，魅族这样的动作，也让不少自媒体造谣魅族倒闭的传言。造谣魅族倒闭，煤油齐发声虽然在这样“招黑体质”下，煤油仍在“舆论”处发声表达了自己的对一直以来使用魅
5 - Shell编程之正则表达式与文本处理工具活老鬼 Shell脚本正则表达式 linux 服务器运维
目录一、正则表达式1.概述2.基本正则表达式2.1元字符（字符匹配）2.2表示匹配次数2.3位置锚定3.扩展正则表达式二、文本处理器1.sort命令-对文本文件进行排序，默认以字母排序2.uniq命令-找出或删除文本文件中连续出现的重复行3.tr命令-用于字符转换4.cut命令-对字段进行截取和剪裁一、正则表达式1.概述由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意义
6 - Shell编程之sed与awk编辑器活老鬼 Shell脚本 linux 运维服务器
目录一、sed1.概述2.sed命令格式3.常用操作的语法演示3.1输出符合条件的文本3.2删除符合条件的文本3.3替换符合条件的文本3.4插入新行二、awk1.概述2.awk命令格式3.awk工作过程4.awk内置变量5.awk用法示例5.1按行输出文本5.2按字段输出文本一、sed1.概述sed是一个强大的文本处理工具，其名称是StreamEditor（流编辑器）的缩写。它被设计用于根据用户定
学习运维第五天:文本处理工具和正则表达式运维小白。。学习运维正则表达式
文本编辑工具之神VIM使用vim初步vim命令格式vim[OPTION]...FILE...#常用选项+n##打开文件后让光标处于第N行的行首，+默认尾行+/PATTERN#让光标处于第一个被PATTERN匹配到的行行首-bfile#二进制方式打开文件-dfile1file2…#比较多个文件，相当于vimdiff-mfile#只读打开文件-efile#直接进入ex模式，相当于执行exfile-yf
Fabric.js中fabric.Textbox的深入解析软考鸭 fabric fabric
在Web开发中，文本处理是一个重要的环节，尤其是在图形编辑和画布应用中。Fabric.js作为一个强大的Canvas库，提供了丰富的API来处理图形和文本。其中，fabric.Textbox是Fabric.js中用于创建和管理文本框对象的类。本文将深入解析fabric.Textbox，包括其API函数定义和代码示例解释，帮助开发者更好地理解和使用这个类。一、fabric.Textbox概述fabr
拾情经年，历久弥新，青春不散哈哈郡主
“相见情已深，未语可知心。”——记一同走过的经年过往相遇时我们正值懵懂少年，对于世界充满着好奇和激情，感情纯粹而挚诚。在没有苹果8只有8袋苹果的时代里，一张糖纸一幅漫画都足以引起我们所有的关注和热情。那时候的你安静乖巧，班花级女神；而我活脱张扬，假小子一个。很奇怪，这样的你我不仅结下了这么深的缘分，你还给我带来了另一个密友——你的双胞胎妹妹，俨然组成了“美丽三剑客”这个铁杆组合。自此以后，我们走进
Shell 编程之正则表达式与文本处理器爱笑的文化正则表达式 mysql 数据库
文章目录正则表达式概述元字符总结扩展正则表达式sed工具awk工具sort工具uniq工具tr工具正则表达式概述正则表达式的定义正则表达式又称正规表达式、常规表达式。在代码中常简写为regex、regexp或RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。正则表达式用途对于一般计
文本数据分析-（TF-IDF）（2）红米煮粥数据分析 tf-idf python
文章目录一、TF-IDF与jieba库介绍1.TF-IDF概述2.jieba库概述二、TF-IDF与jieba库的结合1.结合2.提取步骤三，代码实现1.导入必要的库读取文件：3.将文件路径和内容存储到DataFrame4.加载自定义词典和停用词5.分词并去除停用词TF-IDF（TermFrequency-InverseDocumentFrequency）与jieba库在文本处理领域有着紧密的联系
php与硬件交互开发,一文打通前后端与软硬件交互 weixin_39946534 php与硬件交互开发
前言之前看了一篇文章，直接把我之前所学的很多知识瞬间打通了，这里也给大家分享出来。主要关于如何把前端，后端，以及硬件相结合起来，其实方法有很多种，这里只是给一个思路。首先分别介绍一下软件(前后端)，硬件，以及软硬件的交互。前端前端就是指我们用户所能够看到的页面，比如Web网页，安卓APP；以Web页面为例，Web页面可以利用一些现有的样式实现炫酷效果，熟悉前端的小伙伴应该知道前端三剑客：html5
Django必会三剑客(render、HttpResponse、redirect) 泛滥的青春里谁是谁的谁ゝ python Django django render HttpResponse redirect django三剑客
Django必会三剑客(render、HttpResponse、redirect)导包路径fromdjango.shortcutsimportrender,HttpResponse,redirectHttpResponse用于返回字符串fromdjango.shortcutsimportrender,HttpResponse,redirectdeftest(request):returnHttpR
【numpy1】ipython模块、jupyter模块、Anaconda主要功能、notebook详细功能、数据分析三剑客、numpy实现BMI指数林光虚霁晓数据分析 ipython jupyter 数据分析
1ipython模块2jupyter模块3Anaconda软件3.1Anaconda主要功能3.2notebook详细功能3.3快捷键使用4数据分析三剑客5numpy模块5.1numpy下载5.2numpy实现BMI指数1ipython模块传统的cmd窗口下进入python解释器编写代码的缺点1.代码不会自动缩进2.代码不会自动提示3.代码颜色过于单调并且也没有行数提示ipython模块下载pip
Linux三剑客之sed命令详解 promise524 linux shell bash sed 运维后端
sed（StreamEditor）是Linux中的一种流编辑器，主要用于文本的过滤和转换。与大多数文本编辑器不同，sed用于非交互式的文本处理，常被用在批处理任务中。它可以对输入的文本流进行逐行处理，并根据脚本或命令对文本进行修改。1.sed的基本语法sed[选项]'script'[文件]script：sed脚本，由命令和模式组成，用来定义对文本进行的操作。[文件]：需要处理的文本文件。如果不指定
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s