寅鸷

linux文本三剑客之 awk

转载用于保存以防遗失，个人对原文进行了多处内容的添加。

原文：Linux三剑客之awk命令 - 琴酒网络 - 博客园

awk逐行读取txt文件

awk '{print NR": " $0}' test.txt

awk分割字符串，并输出每一个字段

str="one,two,three,four"
echo $str |awk -F ',' 'BEGIN{print "\n"}{for(i=1;i<=NF;i++){print $i}}END{print "\n"}'

awk将读取到的值赋值给shell变量：

$ str="one;two;three"
$ example=$(echo $str | awk -F ';' '{print $1}')
$ echo $example
one
$ example=$(echo $str | awk -F ';' '{print $2}')
$ echo $example
two

awk简介

awk其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。实际上 AWK 的确拥有自己的语言： AWK 程序设计语言，三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，还有无数其他的功能。

awk 是一种很棒的语言，它适合文本处理和报表生成，其语法较为常见，借鉴了某些语言的一些精华，如 C 语言等。在 linux 系统日常处理工作中，发挥很重要的作用，掌握了 awk将会使你的工作变的高大上。 awk 是三剑客的老大，利剑出鞘，必会不同凡响。

使用

1	`awk` `'{pattern + action}'` `{filenames}`

尽管操作可能会很复杂，但语法总是这样，其中 pattern 表示 AWK 在数据中查找的内容，而 action 是在找到匹配内容时所执行的一系列命令。花括号({})不需要在程序中始终出现，但它们用于根据特定的模式对一系列指令进行分组。 pattern就是要表示的正则表达式，用斜杠括起来。

awk语言的最基本功能是在文件或者字符串中基于指定规则浏览和抽取信息，awk抽取信息后，才能进行其他文本操作。完整的awk脚本通常用来格式化文本文件中的信息。

通常，awk是以文件的一行为处理单位的。awk每接收文件的一行，然后执行相应的命令，来处理文本。

awk 的原理

通过一个简短的命令，我们来了解其工作原理。

[root@Gin scripts] # awk '{print $0}' /etc/passwd

root:x:0:0:root: /root : /bin/bash

bin:x:1:1:bin: /bin : /sbin/nologin

.....................................................

[root@Gin scripts] # echo hhh|awk '{print "hello,world"}'

hello,world

[root@Gin scripts] # awk '{print "hiya"}' /etc/passwd

hiya

...............................................

你将会见到/etc/passwd 文件的内容出现在眼前。现在，解释 awk 做了些什么。调用 awk时，我们指定/etc/passwd 作为输入文件。执行 awk 时，它依次对/etc/passwd 中的每一行执行 print 命令。

所有输出都发送到 stdout，所得到的结果与执行 cat /etc/passwd 完全相同。
现在，解释{ print }代码块。在 awk 中，花括号用于将几块代码组合到一起，这一点类似于 C 语言。在代码块中只有一条 print 命令。在 awk 中，如果只出现 print 命令，那么将打印当前行的全部内容。再次说明， awk 对输入文件中的每一行都执行这个脚本。

$ awk -F ":" '{ print $1 }' /etc/passwd

$ awk -F ":" '{ print $1 $3 }' /etc/passwd

$ awk -F ":" '{ print $1 " " $3 }' /etc/passwd

$ awk -F ":" '{ print "username: " $1 "\t\tuid:" $3" }' /etc/passwd

-F参数：指定分隔符，可指定一个或多个

print 后面做字符串的拼接

下面通过几实例来了解下awk的工作原理：

实例一：只查看test.txt文件(100行)内第20到第30行的内容(企业面试)

[root@Gin scripts] # awk '{if(NR>=20 && NR<=30) print $1}' test.txt

20

21

22

23

24

25

26

27

28

29

30

实例二：已知test.txt文件内容为：

1 2	`[root@Gin scripts]` `# cat test.txt` `I am Poe,my qq is 33794712`

请从该文件中过滤出'Poe'字符串与33794712，最后输出的结果为：Poe 33794712

1 2	`[root@Gin scripts]` `# awk -F '[ ,]+' '{print $3" "$7}' test.txt` `Poe 33794712`

BEGIN 和 END 模块

通常，对于每个输入行， awk 都会执行每个脚本代码块一次。然而，在许多编程情况中，可能需要在 awk 开始处理输入文件中的文本之前执行初始化代码。对于这种情况， awk 允许您定义一个 BEGIN 块。

因为 awk 在开始处理输入文件之前会执行 BEGIN 块，因此它是初始化 FS(字段分隔符)变量、打印页眉或初始化其它在程序中以后会引用的全局变量的极佳位置。awk 还提供了另一个特殊块，叫作 END 块。 awk 在处理了输入文件中的所有行之后执行这个块。通常， END 块用于执行最终计算或打印应该出现在输出流结尾的摘要信息。

实例一：统计/etc/passwd的账户人数

[root@Gin scripts] # awk '{count++;print $0;} END{print "user count is ",count}' passwd

root:x:0:0:root: /root : /bin/bash

..............................................

user count is 27

count是自定义变量。之前的action{}里都是只有一个print,其实print只是一个语句，而action{}可以有多个语句，以;号隔开。这里没有初始化count，虽然默认是0，但是妥当的做法还是初始化为0:

[root@Gin scripts]

# awk 'BEGIN {count=0;print "[start] user count is ",count} {count=count+1;print $0} END{print "[end] user count is ",count}' passwd

[start] user count is 0

root:x:0:0:root: /root : /bin/bash

...................................................................

[end] user count is 27

实例二：统计某个文件夹下的文件占用的字节数

1 2	`[root@Gin scripts]` `# ll \|awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ",size}'` `[end]size is 1489`

如果以M为单位显示:

1 2	`[root@Gin scripts]` `# ll \|awk 'BEGIN{size=0;} {size=size+$5;} END{print "[end]size is ",size/1024/1024,"M"}'` `[end]size is 0.00142002 M`

awk运算符

awk 赋值运算符：a+5;等价于： a=a+5;其他同类

1 2	`[root@Gin scripts]` `# awk 'BEGIN{a=5;a+=5;print a}'` `10`

awk逻辑运算符：

1 2	`[root@Gin scripts]` `# awk 'BEGIN{a=1;b=2;print (a>2&&b>1,a=1\|\|b>1)}'` `0 1`

判断表达式 a>2&&b>1为真还是为假，后面的表达式同理

awk正则运算符：

1 2	`[root@Gin scripts]` `# awk 'BEGIN{a="100testaa";if(a~/100/) {print "ok"}}'` `ok`

1 2	`[root@Gin scripts]` `# echo\|awk 'BEGIN{a="100testaaa"}a~/test/{print "ok"}'` `ok`

关系运算符：

如： > < 可以作为字符串比较，也可以用作数值比较，关键看操作数如果是字符串就会转换为字符串比较。两个都为数字才转为数值比较。字符串比较：按照ascii码顺序比较。

[root@Gin scripts] # awk 'BEGIN{a="11";if(a>=9){print "ok"}}' #无输出

[root@Gin scripts] # awk 'BEGIN{a=11;if(a>=9){print "ok"}}'

ok

[root@Gin scripts] # awk 'BEGIN{a;if(a>=b){print "ok"}}'

ok

awk 算术运算符：

说明，所有用作算术运算符进行操作，操作数自动转为数值，所有非数值都变为0。

[root@Gin scripts] # awk 'BEGIN{a="b";print a++,++a}'

0 2

[root@Gin scripts] # awk 'BEGIN{a="20b4";print a++,++a}'

20 22

这里的a++ , ++a与javascript语言一样：a++是先赋值加++；++a是先++再赋值

三目运算符 ?:

[root@Gin scripts] # awk 'BEGIN{a="b";print a=="b"?"ok":"err"}'

ok

[root@Gin scripts] # awk 'BEGIN{a="b";print a=="c"?"ok":"err"}'

err

常用 awk 内置变量

注：内置变量很多，参阅相关资料

字段分隔符 FS

FS="\t" 一个或多个 Tab 分隔

[root@Gin scripts] # cat tab.txt

ww CC IDD

[root@Gin scripts] # awk 'BEGIN{FS="\t+"}{print $1,$2,$3}' tab.txt

ww CC IDD

FS="[[:space:]+]" 一个或多个空白空格，默认的

[root@Gin scripts] # cat space.txt

we are studing awk now!

[root@Gin scripts] # awk -F [[:space:]+] '{print $1,$2,$3,$4,$5}' space.txt

we are

[root@Gin scripts] # awk -F [[:space:]+] '{print $1,$2}' space.txt

we are

FS="[" ":]+" 以一个或多个空格或：分隔

[root@Gin scripts] # cat hello.txt

root:x:0:0:root: /root : /bin/bash

[root@Gin scripts] # awk -F [" ":]+ '{print $1,$2,$3}' hello.txt

root x 0

字段数量 NF

[root@Gin scripts] # cat hello.txt

root:x:0:0:root: /root : /bin/bash

bin:x:1:1:bin: /bin : /sbin/nologin :888

[root@Gin scripts] # awk -F ":" 'NF==8{print $0}' hello.txt

bin:x:1:1:bin: /bin : /sbin/nologin :888

记录数量 NR

1 2	`[root@Gin scripts]` `# ifconfig eth0\|awk -F [" ":]+ 'NR==2{print $4}' ## NR==2也就是取第2行` `192.168.17.129`

RS 记录分隔符变量
将 FS 设置成"\n"告诉 awk 每个字段都占据一行。通过将 RS 设置成""，还会告诉 awk每个地址记录都由空白行分隔。

[root@Gin scripts] # cat recode.txt

Jimmy the Weasel

100 Pleasant Drive

San Francisco,CA 123456

Big Tony

200 Incognito Ave.

Suburbia,WA 64890

[root@Gin scripts] # cat awk.txt

#!/bin/awk

BEGIN {

FS= "\n"

RS= ""

}

{

print $1 "," $2 "," $3

}

[root@Gin scripts] # awk -f awk.txt recode.txt

Jimmy the Weasel,100 Pleasant Drive,San Francisco,CA 123456

Big Tony,200 Incognito Ave.,Suburbia,WA 64890

OFS 输出字段分隔符

[root@Gin scripts] # cat hello.txt

root:x:0:0:root: /root : /bin/bash

bin:x:1:1:bin: /bin : /sbin/nologin :888

[root@Gin scripts] # awk 'BEGIN{FS=":"}{print $1","$2","$3}' hello.txt

root,x,0

bin,x,1

[root@Gin scripts] # awk 'BEGIN{FS=":";OFS="#"}{print $1,$2,$3}' hello.txt

root #x#0

bin #x#1

ORS 输出记录分隔符

[root@Gin scripts] # cat recode.txt

Jimmy the Weasel

100 Pleasant Drive

San Francisco,CA 123456

Big Tony

200 Incognito Ave.

Suburbia,WA 64890

[root@Gin scripts] # cat awk.txt

#!/bin/awk

BEGIN {

FS= "\n"

RS= ""

ORS= "\n\n"

}

{

print $1 "," $2 "," $3

}

[root@Gin scripts] # awk -f awk.txt recode.txt

Jimmy the Weasel,100 Pleasant Drive,San Francisco,CA 123456

Big Tony,200 Incognito Ave.,Suburbia,WA 64890

awk 正则

正则应用

规则表达式

awk '/REG/{action} ' file,/REG/为正则表达式，可以将$0 中，满足条件的记录送入到：action 进行处理

[root@Gin scripts] # awk '/root/{print $0}' passwd ##匹配所有包含root的行

root:x:0:0:root: /root : /bin/bash

operator:x:11:0:operator: /root : /sbin/nologin

[root@Gin scripts] # awk -F: '$5~/root/{print $0}' passwd ## 以分号作为分隔符，匹配第5个字段是root的行

root:x:0:0:root: /root : /bin/bash

[root@Gin scripts] # ifconfig eth0|awk 'BEGIN{FS="[[:space:]:]+"} NR==2{print $4}'

192.168.17.129

布尔表达式awk '布尔表达式{action}' file 仅当对前面的布尔表达式求值为真时， awk 才执行代码块。

[root@Gin scripts] # awk -F: '$1=="root"{print $0}' passwd

root:x:0:0:root: /root : /bin/bash

[root@Gin scripts] # awk -F: '($1=="root")&&($5=="root") {print $0}' passwd

root:x:0:0:root: /root : /bin/bash

awk 的 if、循环和数组

条件语句

awk 提供了非常好的类似于 C 语言的 if 语句。

{

if ($1== "foo" ){

if ($2== "foo" ){

print "uno"

} else {

print "one"

}

}elseif($1== "bar" ){

print "two"

} else {

print "three"

}

使用 if 语句还可以将代码：

1	`!` `/matchme/` `{ print $1 $3 $4 }`

转换成：

{

　　 if ( $0 !~ /matchme/ ) {

　　　　print $1 $3 $4

　　}

循环结构

我们已经看到了 awk 的 while 循环结构，它等同于相应的 C 语言 while 循环。 awk 还有"do...while"循环，它在代码块结尾处对条件求值，而不像标准 while 循环那样在开始处求值。

它类似于其它语言中的"repeat...until"循环。以下是一个示例：do...while 示例

{

count=1do {

print "I get printed at least once no matter what"

} while ( count !=1 )

}

与一般的 while 循环不同，由于在代码块之后对条件求值， "do...while"循环永远都至少执行一次。换句话说，当第一次遇到普通 while 循环时，如果条件为假，将永远不执行该循环。

for 循环

awk 允许创建 for 循环，它就象 while 循环，也等同于 C 语言的 for 循环：

for ( initial assignment; comparison; increment ) {

code block

}

以下是一个简短示例：

for ( x=1;x<=4;x++ ) {

print "iteration" , x

}

此段代码将打印：

iteration1

iteration2

iteration3

iteration4

break 和 continue

此外，如同 C 语言一样， awk 提供了 break 和 continue 语句。使用这些语句可以更好地控制 awk 的循环结构。以下是迫切需要 break 语句的代码片断：

while 死循环

while (1) {

print "forever and ever..."

}

while 死循环 1 永远代表是真，这个 while 循环将永远运行下去。

以下是一个只执行十次的循环：

#break 语句示例

x=1

while (1) {

　　print "iteration" , x

　　 if ( x==10 ) {

　　　　 break

　　}

　　x++

}

这里， break 语句用于“逃出”最深层的循环。 "break"使循环立即终止，并继续执行循环代码块后面的语句。continue 语句补充了 break，其作用如下：

x=1while (1) {

if ( x==4 ) {

x++

continue

}

print "iteration" , x

if ( x>20 ) {

break

}

x++

}

这段代码打印"iteration1"到"iteration21"， "iteration4"除外。如果迭代等于 4，则增加 x并调用 continue 语句，该语句立即使 awk 开始执行下一个循环迭代，而不执行代码块的其余部分。如同 break 一样，

continue 语句适合各种 awk 迭代循环。在 for 循环主体中使用时， continue 将使循环控制变量自动增加。以下是一个等价循环：

for ( x=1;x<=21;x++ ) {

if ( x==4 ) {

continue

}

print "iteration" , x

}

在while 循环中时，在调用 continue 之前没有必要增加 x，因为 for 循环会自动增加 x。

数组

AWK 中的数组都是关联数组,数字索引也会转变为字符串索引

{

cities[1]=”beijing”

cities[2]=”shanghai”

cities[“three”]=”guangzhou”

for ( c in cities) {

print cities[c]

}

print cities[1]

print cities[“1”]

print cities[“three”]

}

for…in 输出，因为数组是关联数组，默认是无序的。所以通过 for…in 得到是无序的数组。如果需要得到有序数组，需要通过下标获得。

数组的典型应用

用 awk 中查看服务器连接状态并汇总

netstat -an| awk '/^tcp/{++s[$NF]}END{for(a in s)print a,s[a]}'

ESTABLISHED 1

LISTEN 20

统计 web 日志访问流量，要求输出访问次数，请求页面或图片，每个请求的总大小，总访问流量的大小汇总

awk '{a[$7]+=$10;++b[$7];total+=$10}END{ for (x in a)print b[x],x,a[x]| "sort -rn -k1" ;print

"total size is :" total}' /app/log/access_log

total size is :172230

21 /icons/poweredby .png 83076

14 / 70546

8 /icons/apache_pb .gif 18608

a[$7]+=$10 表示以第 7 列为下标的数组( $10 列为$7 列的大小)，把他们大小累加得到

$7 每次访问的大小，后面的 for 循环有个取巧的地方， a 和 b 数组的下标相同，所以一

条 for 语句足矣

常用字符串函数

字符串函数的应用

替换

awk 'BEGIN{info="this is a test2010test!";gsub(/[0-9]+/,"!",info);print info}' this is a test ! test !

在 info 中查找满足正则表达式， /[0-9]+/ 用”!”替换，并且替换后的值，赋值给 info 未

给 info 值，默认是$0

查找

1 2	`awk` `'BEGIN{info="this is a test2010test!";print index(info,"test")?"ok":"no found";}'` `ok` `#未找到，返回 0`

匹配查找

1 2	`awk` `'BEGIN{info="this is a test2010test!";print match(info,/[0-9]+/)?"ok":"no found";}'` `ok` `#如果查找到数字则匹配成功返回 ok，否则失败，返回未找到`

截取

1 2	`awk` `'BEGIN{info="this is a test2010test!";print substr(info,4,10);}'` `s is a tes` `#从第 4 个字符开始，截取 10 个长度字符串`

分割

awk 'BEGIN{info="this is a test";split(info,tA," ");print length(tA);for(k in tA){print k,tA[k];}}' 4

4 test 1 this 2 is 3 a

#分割 info,动态创建数组 tA,awk for …in 循环，是一个无序的循环。并不是从数组下标

1…n 开始

你可能感兴趣的:(shell,字符串,python,java,linux,正则表达式)

Bongo-Cat-Crew:用Python打造动态音乐猫元楼
本文还有配套的精品资源，点击获取简介：在这个项目中，我们创建了一个将音乐、游戏和编程结合的创新体验，允许玩家通过动态猫声分类与节奏游戏OSU!互动。Python的使用使得音乐节奏识别、猫声分类逻辑和游戏接口交互成为可能。项目的核心包含了音乐节奏分析、游戏模式识别和猫声动画实现等技术要点，旨在为玩家提供独特的交互乐趣。1.Python在项目中的应用和角色1.1Python在IT行业中的普及Pytho
基于python的api扫描器系统的设计与实现
博主介绍：✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌温馨提示：文末有CSDN平台官方提供的老师Wechat/QQ名片:)Java精品实战案例《700套》2025最新毕业设计选题推荐：最热的500个选题o(￣▽￣)ｄ介绍在当今数字化社会，网络安全问题日益突出，为了有效识别和防范网络威胁，开发一款全面的Web应用渗透测试系统至关重要。本研究基于Py
基于小样本的高光谱图像分类任务：CMFSL方法及Python实现 pk_xz123456 仿真模型算法深度学习分类 python 人工智能深度学习机器学习
基于小样本的高光谱图像分类任务：CMFSL方法及Python实现1.引言高光谱图像分类是遥感图像处理领域的重要研究方向，它在农业监测、环境评估、军事侦察等领域有着广泛的应用。与传统RGB图像不同，高光谱图像包含数百个连续的光谱波段，能够提供丰富的光谱信息。然而，高光谱图像分类面临着维度灾难、样本获取困难等挑战，特别是在小样本条件下，传统分类方法往往表现不佳。针对这一问题，本文介绍一种基于小样本的高
ubuntu创建、删除虚拟环境 screenCui ubuntu linux
your_name是自己起的环境名字创建虚拟环境首先通过xshell等工具与服务器建立链接。然后进行以下两步：激活condasource~/.bashrc2.创建虚拟环境condacreate-nyour_namepython=3.7退出以及删除虚拟环境退出虚拟环境condadeactivate删除虚拟环境condaremove-nyour_name--all
python画图修改字体为新罗马字体
#设置字体为新罗马字体font={'family':'serif','serif':['TimesNewRoman'],'size':20,'style':'normal'}plt.rc('font',**font)plt.rc('axes',labelsize=20)如果跑出来不是新罗马字体，那是服务器没装新罗马字体的问题，切换环境到本地就可以了。（本地一般都有新罗马字体）
python序列化任意结构到dict YoungHong1992 python 开发语言
defserialize(obj:Any)->Any:"""因为Param没有序列化的接口，无法直接转为dict或json，因此编写该函数,把Param转为dict"""ifisinstance(obj,np.ndarray):returnobj.tolist()#将numpy.ndarray转换为列表elifisinstance(obj,(int,float,str,bool)):#基本数据类型
Python包版本分析工具开发：从PyPI私有源快速提取元数据 YoungHong1992 python windows 开发语言
importsubprocessimportreimportosimportsysimporttempfileimportzipfilefromemail.parserimportParserfromtypingimportList,Dict,Optional,Anyfromjinja2importEnvironmentfrompackaging.versionimportparseasparse
Spring MVC 框架解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Spring MVC深度解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Spring Cloud服务治理精讲 Java廖志伟 Java场景面试宝典 Spring Cloud Service Governance Distributed Systems
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
领域设计关键技术解析 Java廖志伟 Java场景面试宝典
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Python爬虫实战：使用Scrapy和Selenium高效爬取USPTO美国专利数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 开发语言 selenium 测试工具
引言在当今的知识经济时代，专利数据蕴含着巨大的商业和技术价值。美国专利商标局(USPTO)作为全球最大的专利数据库之一，收录了数百万项专利信息，这些数据对于企业竞争分析、技术趋势预测和学术研究都具有重要意义。本文将详细介绍如何使用Python构建一个高效、稳定的USPTO专利数据爬虫系统。一、USPTO专利数据库概述1.1USPTO数据库结构USPTO提供了多种访问专利数据的途径：专利全文和图像数
Python爬虫实战：爬取百度学术摘要信息全流程详解与代码示例 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 学习 dubbo 百度
1.前言随着学术资源数字化的普及，百度学术成为学者们常用的论文搜索平台。获取大量论文摘要信息对于文献综述、知识图谱构建等研究极为重要。本文将系统讲解如何利用Python编写爬虫，批量抓取百度学术上的论文摘要。我们将结合最新Python爬虫技术，涵盖基础同步爬虫、异步爬虫、多线程，全面实战演示。2.项目背景与目标百度学术支持通过关键词搜索论文，展示论文标题、作者、期刊、摘要等信息。目标是：根据关键词
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
macOS运行python程序遇libiomp5.dylib库冲突错误解决方案 screenCui macos python 开发语言
用途说明在macOS系统运行某些涉及OpenMP或多线程的Python程序（如PyTorch、NumPy等科学计算库）时，可能会出现libiomp5.dylib库冲突的错误。设置os.environ['KMP_DUPLICATE_LIB_OK']='True'允许系统加载重复的动态链接库，临时解决冲突问题。典型错误场景错误信息通常包含以下内容：OMP:Error#15:Initializingli
Python项目如何读取nacos配置 Tizzy JJ 服务器 python pycharm
目录一、nacos配置示例二、python读取nacos配置一、nacos配置示例在Nacos中创建yaml格式配置（DataID:your-data-id）#Nacos配置文件(your-data-id.yaml)app:env:productionversion:1.2.3apis:deepseek:api_key:"sk-your-deepseek-key-here"timeout:30da
JVM内存区域划分需要重新演唱 jvm
JVM内存区域划分1.JVM内存区域概述JVM的内存区域主要分为以下几个部分：程序计数器（ProgramCounterRegister）Java虚拟机栈（JavaVirtualMachineStacks）本地方法栈（NativeMethodStacks）堆（Heap）方法区（MethodArea）运行时常量池（RuntimeConstantPool）直接内存（DirectMemory）每个区域都有
Linux 磁盘管理、文件系统、VLM和配额：从基础到实战指南燕841 linux 运维服务器
在Linux系统运维中，磁盘管理是保障系统稳定运行的核心环节。无论是服务器扩容、新硬盘挂载，还是灵活调整存储空间，都离不开对磁盘分区、文件系统和逻辑卷的深入理解。本文将从磁盘基础讲起，逐步解析分区策略、文件系统创建、挂载管理及LVM逻辑卷技术，助你轻松驾驭Linux存储管理。一、磁盘基础：机械与固态计算机的存储核心是硬盘，从存储介质上可分为两类：机械硬盘（HDD）：依靠盘片旋转和磁头读写数据，内部
C语言——字符串两种声明初始化方式、输入输出及常见处理函数 hardStudy_h c语言开发语言
C语言中的字符串是一个字符数组，它以空字符（\0）作为结束标志。这意味着字符串中的字符是连续存储在内存中的，而字符串的末尾会自动添加一个\0字符来表示字符串的结束。这种表示方式使得C语言在处理字符串时非常灵活，但也要求程序员在创建和修改字符串时小心处理，以避免缓冲区溢出等安全问题。字符串的声明和初始化1.字符数组初始化当你使用字符数组来定义字符串时，你可以在声明时直接初始化它，或者稍后通过其他方式
Linux——虚拟机网络配置
进行虚拟机网络配置是确保虚拟机能够正常访问网络、与宿主机及其他设备进行通信的关键步骤。虚拟机网络配置允许用户根据实际需求选择合适的网络模式，并调整网络参数以满足特定的网络环境要求。虚拟机常见的三种网络模式包括桥接模式、NAT模式和主机模式，每种模式在配置、特点和对网络的影响上都有所不同：一、桥接模式（比较消耗IP地址）配置特点：虚拟机的网络适配器与物理网络适配器直接连接，虚拟机和物理网络中的其他设
com本质论 pdf_如何使用PDF Arranger来对PDF文件进行编排和修改 weixin_39797780 com本质论 pdf creatprocess 操作文件 delphi fedora如何隐藏顶部状态栏 linux .bash_profile文件 linux c++编程 pdf
PDFArranger是一个十分简单的GUI应用程序，能够帮助您拆分或合并PDF文档，以及旋转，裁剪和重新编排页面。所有前面提到的任务都可以通过交互式和直观的图形界面轻松完成。Pdfarranger是pdfshuffler的fork以及pikepdf的前端。PDFArranger在许多流行的GNU/Linux操作系统和MicrosoftWindows上都能良好地运行。它是使用GTK+和Python
基于Matplotlib，在个人电脑上实现无代码、易于使用的绘图体验 wh3933 matplotlib 信息可视化
在科学研究、商业分析和学术出版等领域，数据可视化是沟通洞见、展示成果的关键环节。强大的Python绘图库Matplotlib为此提供了无限可能，但其陡峭的学习曲线和对编程能力的硬性要求，将大量非程序员的领域专家拒之门外。这些专家——包括科学家、分析师、学者和学生——虽然在各自领域具备深厚的知识，却常常因不熟悉编程而难以高效地创建高质量、可定制的图表。他们目前或受限于Excel等功能有限的软件，或需
阿里也出手了！十分钟接入Spring Cloud Alibaba AI 体验JAVA微服务AI人工智能，可接通义千问等模型， Java斌十分钟学会Java AI 人工智能 java 微服务
什么是SpringAISpringAI是从著名的Python项目LangChain和LlamaIndex中汲取灵感，它不是这些项目的直接移植，它的成立信念是，「下一波生成式人工智能应用程序将不仅适用于Python开发人员，而且将在许多编程语言中无处不在」。我们可以从SpringAI的官网描述中，总结出SpringAI的几个核心的关键词：提供抽象能力简化AI应用的开发模型与向量支持AI集成与自动配置
python----下载安装，配置环境 m0_73882020 python
1.下载老版本2.7.18参考链接：Python版本Python2.7.18|Python.org2.配置环境手动添加Python到PATH右键点击此电脑→属性→高级系统设置→环境变量；在系统变量中找到Path，点击编辑→新建，添加以下两条路径：D:\download\xz\python\D:\download\xz\python\Scripts\路径就是在你的安装Python保存后重启命令提示符
Linux 常用命令大全（2025简明版） clk6607 大数据
一、文件和目录操作命令说明ls列出目录内容ls-l以列表形式显示（含权限）cd/path切换目录pwd显示当前路径mkdirdir创建目录mkdir-pdir/subdir递归创建目录rmfile删除文件rm-rdir删除目录（递归）rm-rfdir强制删除目录cpa.txtb.txt拷贝文件cp-rsrc/dest/拷贝目录mvoldnew移动/重命名文件或目录touchfile.txt创建空文
PDFArranger 1.12.0版本发布：专业PDF文档管理工具的新特性解析
PDFArranger1.12.0版本发布：专业PDF文档管理工具的新特性解析pdfarrangerSmallpython-gtkapplication,whichhelpstheusertomergeorsplitPDFdocumentsandrotate,cropandrearrangetheirpagesusinganinteractiveandintuitivegraphicalinter
Flask 框架：深入浅出理解其工作原理与机制 chilavert318 熬之滴水穿石 flask python 后端
今天写不发相关连载了，而是将我近段时间接触到的内容做次分享。这几天，使用了开源的DashGO框架，了解到了这个开源的底层是Flask框架。所以花了点时间了解一下，现在Web开发领域，各种框架层出不穷，看了一下Flask的源码，作为一款轻量级的PythonWeb框架，还是凸显了简洁、灵活的特点。今天就深入浅出地将我理解的Flask讲解出来。一、Flask是什么简单来说，Flask是一个使用Pytho
分布式生成 ID 策略的演进和最佳实践，含springBoot 实现（Java版本）
一、背景在单体架构中，ID通常使用数据库自增或UUID即可满足需求。但在微服务、分布式环境中，这些方式存在性能瓶颈、重复冲突、时序不全等问题。因此，分布式ID生成策略应运而生，用于确保在高并发、跨节点、异地部署的系统中，生成全局唯一、趋势递增、高性能的ID。二、演进历程单机自增ID（如数据库自增）Java原生UUID工具类生成（如雪花算法、KeyUtil等）中间件分布式协调（如Zookeeper、
取消短按power键做出对应的功能
frameworks/base/policy/src/com/android/internal/policy/impl/PhoneWindowManager.java@@publicbooleanisForegroundActivity(Stringpackage_name){cancelPendingScreenshotChordAction();if(interceptPowerKeyUp(c
Java零基础之自定义异常类！菜鸟不学编程 Java从入门到放弃 java 开发语言
你好，欢迎来到我的博客！我是【菜鸟不学编程】我是一个正在奋斗中的职场码农，步入职场多年，正在从“小码农”慢慢成长为有深度、有思考的技术人。在这条不断进阶的路上，我决定记录下自己的学习与成长过程，也希望通过博客结识更多志同道合的朋友。 ️主要方向包括Java基础、Spring全家桶、数据库优化、项目实战等，也会分享一些踩坑经历与面试复盘，希望能为还在迷茫中的你提供一些参考。我相信：写作
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><