说故事的五公子

Linux文本处理详细教程

1. 文本处理

本节将介绍Linux下使用Shell处理文本时最常用的工具： find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk；提供的例子和参数都是常用的；我对shell脚本使用的原则是命令单行书写，尽量不要超过2行；如果有更为复杂的任务需求，还是考虑python吧；

1.1. find 文件查找

查找txt和pdf文件:

find . \( -name "*.txt" -o -name "*.pdf" \) -print

正则方式查找.txt和pdf:

find . -regex  ".*\(\.txt|\.pdf\)$"

-iregex：忽略大小写的正则

否定参数 ,查找所有非txt文本:

find . ! -name "*.txt" -print

指定搜索深度,打印出当前目录的文件（深度为1）:

find . -maxdepth 1 -type f

定制搜索

按类型搜索

find . -type d -print  //只列出所有目录

-type f 文件 / l 符号链接 / d 目录

find支持的文件检索类型可以区分普通文件和符号链接、目录等，但是二进制文件和文本文件无法直接通过find的类型区分出来；

file命令可以检查文件具体类型（二进制或文本）:

$file redis-cli  # 二进制文件
redis-cli: ELF 64-bit LSB executable, x86-64, version 1 (SYSV), dynamically linked (uses shared libs), for GNU/Linux 2.6.9, not stripped
$file redis.pid  # 文本文件
redis.pid: ASCII text

所以,可以用以下命令组合来实现查找本地目录下的所有二进制文件:

ls -lrt | awk '{print $9}'|xargs file|grep  ELF| awk '{print $1}'|tr -d ':'

- 按时间搜索
  
  -atime 访问时间 (单位是天，分钟单位则是-amin，以下类似）-mtime 修改时间（内容被修改）-ctime 变化时间（元数据或权限变化）

最近第7天被访问过的所有文件:

find . -atime 7 -type f -print

最近7天内被访问过的所有文件:

find . -atime -7 -type f -print

查询7天前被访问过的所有文件:

find . -atime +7 type f -print

按大小搜索：

w字 k M G 寻找大于2k的文件:

find . -type f -size +2k

按权限查找:

find . -type f -perm 644 -print //找具有可执行权限的所有文件

按用户查找:

find . -type f -user weber -print// 找用户weber所拥有的文件

找到后的后续动作

删除

删除当前目录下所有的swp文件:

find . -type f -name "*.swp" -delete

另一种语法:

find . type f -name "*.swp" | xargs rm

执行动作（强大的exec）

将当前目录下的所有权变更为weber:

find . -type f -user root -exec chown weber {} \;

注：{}是一个特殊的字符串，对于每一个匹配的文件，{}会被替换成相应的文件名；

将找到的文件全都copy到另一个目录:

find . -type f -mtime +10 -name "*.txt" -exec cp {} OLD \;

结合多个命令

如果需要后续执行多个命令，可以将多个命令写成一个脚本。然后 -exec 调用时执行脚本即可:

-exec ./commands.sh {} \;

-print的定界符

默认使用’\n’作为文件的定界符；

-print0 使用’\0’作为文件的定界符，这样就可以搜索包含空格的文件；

1.2. grep 文本搜索

grep match_patten file // 默认访问匹配行

常用参数

-o 只输出匹配的文本行 VS -v 只输出没有匹配的文本行
- -c 统计文件中包含文本的次数
  
  grep -c “text” filename
-n 打印匹配的行号
-i 搜索时忽略大小写
-l 只打印文件名

在多级目录中对文本递归搜索(程序员搜代码的最爱）:

grep "class" . -R -n

匹配多个模式:

grep -e "class" -e "vitural" file

grep输出以0作为结尾符的文件名（-z）:

grep "test" file* -lZ| xargs -0 rm

综合应用：将日志中的所有带where条件的sql查找查找出来:

cat LOG.* | tr a-z A-Z | grep "FROM " | grep "WHERE" > b

查找中文示例：工程目录中utf-8格式和gb2312格式两种文件，要查找字的是中文；

查找到它的utf-8编码和gb2312编码分别是E4B8ADE69687和D6D0CEC4

查询:

grep：grep -rnP "\xE4\xB8\xAD\xE6\x96\x87|\xD6\xD0\xCE\xC4" *即可

汉字编码查询：http://bm.kdd.cc/

1.3. xargs 命令行参数转换

xargs 能够将输入数据转化为特定命令的命令行参数；这样，可以配合很多命令来组合使用。比如grep，比如find； - 将多行输出转化为单行输出

cat file.txt| xargs

n 是多行文本间的定界符

将单行转化为多行输出

cat single.txt | xargs -n 3

-n：指定每行显示的字段数

xargs参数说明

-d 定义定界符（默认为空格多行的定界符为 n）
-n 指定输出为多行
-I {} 指定替换字符串，这个字符串在xargs扩展时会被替换掉,用于待执行的命令需要多个参数时
-0：指定0为输入定界符

示例:

cat file.txt | xargs -I {} ./command.sh -p {} -1

#统计程序行数
find source_dir/ -type f -name "*.cpp" -print0 |xargs -0 wc -l

#redis通过string存储数据，通过set存储索引，需要通过索引来查询出所有的值：
./redis-cli smembers $1  | awk '{print $1}'|xargs -I {} ./redis-cli get {}

1.4. sort 排序

字段说明

-n 按数字进行排序 VS -d 按字典序进行排序
-r 逆序排序
-k N 指定按第N列排序

示例:

sort -nrk 1 data.txt
sort -bd data // 忽略像空格之类的前导空白字符

1.5. uniq 消除重复行

消除重复行

sort unsort.txt | uniq

统计各行在文件中出现的次数

sort unsort.txt | uniq -c

找出重复行

sort unsort.txt | uniq -d

可指定每行中需要比较的重复内容：-s 开始位置 -w 比较字符数

1.6. 用tr进行转换

通用用法

echo 12345 | tr '0-9' '9876543210' //加解密转换，替换对应字符
cat text| tr '\t' ' '  //制表符转空格

tr删除字符

cat file | tr -d '0-9' // 删除所有数字

-c 求补集

cat file | tr -c '0-9' //获取文件中所有数字
cat file | tr -d -c '0-9 \n'  //删除非数字数据

tr压缩字符

tr -s 压缩文本中出现的重复字符；最常用于压缩多余的空格:

cat file | tr -s ' '

字符类
tr中可用各种字符类：

alnum：字母和数字alpha：字母digit：数字space：空白字符lower：小写upper：大写cntrl：控制（非可打印）字符print：可打印字符

使用方法：tr [:class:] [:class:]

tr '[:lower:]' '[:upper:]'

1.7. cut 按列切分文本

截取文件的第2列和第4列

cut -f2,4 filename

去文件除第3列的所有列

cut -f3 --complement filename

-d 指定定界符

cat -f2 -d";" filename

- cut 取的范围
  
  N- 第N个字段到结尾-M 第1个字段为MN-M N到M个字段
- cut 取的单位
  
  -b 以字节为单位-c 以字符为单位-f 以字段为单位（使用定界符）

示例:

cut -c1-5 file //打印第一到5个字符
cut -c-2 file  //打印前2个字符

截取文本的第5到第7列

$echo string | cut -c5-7

1.8. paste 按列拼接文本

将两个文本按列拼接到一起;

cat file1
1
2

cat file2
colin
book

paste file1 file2
1 colin
2 book

默认的定界符是制表符，可以用-d指明定界符:

paste file1 file2 -d ","
1,colin
2,book

1.9. wc 统计行和字符的工具

$wc -l file // 统计行数

$wc -w file // 统计单词数

$wc -c file // 统计字符数

1.10. sed 文本替换利器

首处替换

sed 's/text/replace_text/' file   //替换每一行的第一处匹配的text

全局替换

sed 's/text/replace_text/g' file

默认替换后，输出替换后的内容，如果需要直接替换原文件,使用-i:

sed -i 's/text/repalce_text/g' file

移除空白行

sed '/^$/d' file

变量转换

已匹配的字符串通过标记&来引用.

echo this is en example | sed 's/\w+/[&]/g'
$>[this]  [is] [en] [example]

子串匹配标记

第一个匹配的括号内容使用标记 1 来引用

sed 's/hello\([0-9]\)/\1/'

双引号求值

sed通常用单引号来引用；也可使用双引号，使用双引号后，双引号会对表达式求值:

sed 's/$var/HLLOE/'

当使用双引号时，我们可以在sed样式和替换字符串中指定变量；

eg:
p=patten
r=replaced
echo "line con a patten" | sed "s/$p/$r/g"
$>line con a replaced

其它示例

字符串插入字符：将文本中每行内容（ABCDEF）转换为 ABC/DEF:

sed 's/^.\{3\}/&\//g' file

1.11. awk 数据流处理工具

awk脚本结构

awk ' BEGIN{ statements } statements2 END{ statements } '

工作方式

1.执行begin中语句块；

2.从文件或stdin中读入一行，然后执行statements2，重复这个过程，直到文件全部被读取完毕；

3.执行end语句块；

print 打印当前行

使用不带参数的print时，会打印当前行

echo -e "line1\nline2" | awk 'BEGIN{print "start"} {print } END{ print "End" }'

print 以逗号分割时，参数以空格定界;

echo | awk ' {var1 = "v1" ; var2 = "V2"; var3="v3"; \
print var1, var2 , var3; }'
$>v1 V2 v3

使用-拼接符的方式（”“作为拼接符）;

echo | awk ' {var1 = "v1" ; var2 = "V2"; var3="v3"; \
print var1"-"var2"-"var3; }'
$>v1-V2-v3

特殊变量： NR NF $0 $1 $2

NR:表示记录数量，在执行过程中对应当前行号；

NF:表示字段数量，在执行过程总对应当前行的字段数；

$0:这个变量包含执行过程中当前行的文本内容；

$1:第一个字段的文本内容；

$2:第二个字段的文本内容；

echo -e "line1 f2 f3\n line2 \n line 3" | awk '{print NR":"$0"-"$1"-"$2}'

打印每一行的第二和第三个字段

awk '{print $2, $3}' file

统计文件的行数

awk ' END {print NR}' file

累加每一行的第一个字段

echo -e "1\n 2\n 3\n 4\n" | awk 'BEGIN{num = 0 ;
print "begin";} {sum += $1;} END {print "=="; print sum }'

传递外部变量

var=1000
echo | awk '{print vara}' vara=$var #  输入来自stdin
awk '{print vara}' vara=$var file # 输入来自文件

用样式对awk处理的行进行过滤

awk 'NR < 5' #行号小于5
awk 'NR==1,NR==4 {print}' file #行号等于1和4的打印出来
awk '/linux/' #包含linux文本的行（可以用正则表达式来指定，超级强大）
awk '!/linux/' #不包含linux文本的行

设置定界符

使用-F来设置定界符（默认为空格）:

awk -F: '{print $NF}' /etc/passwd

读取命令输出

使用getline，将外部shell命令的输出读入到变量cmdout中:

echo | awk '{"grep root /etc/passwd" | getline cmdout; print cmdout }'

在awk中使用循环

for(i=0;i<10;i++){print $i;}
for(i in array){print array[i];}

eg:以下字符串，打印出其中的时间串:

2015_04_02 20:20:08: mysqli connect failed, please check connect info
$echo '2015_04_02 20:20:08: mysqli connect failed, please check connect info'|awk -F ":" '{ for(i=1;i<=;i++) printf("%s:",$i)}'
>2015_04_02 20:20:08:  # 这种方式会将最后一个冒号打印出来
$echo '2015_04_02 20:20:08: mysqli connect failed, please check connect info'|awk -F':' '{print $1 ":" $2 ":" $3; }'
>2015_04_02 20:20:08   # 这种方式满足需求

而如果需要将后面的部分也打印出来(时间部分和后文分开打印):

$echo '2015_04_02 20:20:08: mysqli connect failed, please check connect info'|awk -F':' '{print $1 ":" $2 ":" $3; print $4;}'
>2015_04_02 20:20:08
>mysqli connect failed, please check connect info

以逆序的形式打印行：(tac命令的实现）:

seq 9| \
awk '{lifo[NR] = $0; lno=NR} \
END{ for(;lno>-1;lno--){print lifo[lno];}
} '

awk结合grep找到指定的服务，然后将其kill掉

ps -fe| grep msv8 | grep -v MFORWARD | awk '{print $2}' | xargs kill -9;

awk实现head、tail命令

head

awk 'NR<=10{print}' filename

tail

awk '{buffer[NR%10] = $0;} END{for(i=0;i<11;i++){ \
print buffer[i %10]} } ' filename

打印指定列

awk方式实现

ls -lrt | awk '{print $6}'

cut方式实现

ls -lrt | cut -f6

打印指定文本区域

确定行号

seq 100| awk 'NR==4,NR==6{print}'

确定文本

打印处于start_pattern 和end_pattern之间的文本:

awk '/start_pattern/, /end_pattern/' filename

示例:

seq 100 | awk '/13/,/15/'
cat /etc/passwd| awk '/mai.*mail/,/news.*news/'

awk常用内建函数

index(string,search_string):返回search_string在string中出现的位置

sub(regex,replacement_str,string):将正则匹配到的第一处内容替换为replacement_str;

match(regex,string):检查正则表达式是否能够匹配字符串；

length(string)：返回字符串长度

echo | awk '{"grep root /etc/passwd" | getline cmdout; print length(cmdout) }'

printf 类似c语言中的printf，对输出进行格式化:

seq 10 | awk '{printf "->%4s\n", $1}'

1.12. 迭代文件中的行、单词和字符

1. 迭代文件中的每一行

while 循环法

while read line;
do
echo $line;
done < file.txt

改成子shell:
cat file.txt | (while read line;do echo $line;done)

awk法

cat file.txt| awk '{print}'

2.迭代一行中的每一个单词

for word in $line;
do
echo $word;
done

3. 迭代每一个字符

${string:start_pos:num_of_chars}：从字符串中提取一个字符；(bash文本切片）

${#word}:返回变量word的长度

for((i=0;i<${#word};i++))
do
echo ${word:i:1);
done

以ASCII字符显示文件:

$od -c filename

你可能感兴趣的:(Linux文本处理详细教程)

太强了！这款命令行工具可以在 Linux 文件目录快速自动跳转杰哥的IT之旅
作者：JackTian文章首发于公众号：【杰哥的IT之旅】在Linux终端下，跳转目录有时觉得会很麻烦，需要敲很长的命令路径才能进入指定的目录。autojump是提供了一种快速进行文件目录自动跳转的命令行工具。它会将命令行最常用的目录记录保存到数据库里，所以在使用它时，必须先访问目录，然后才能跳转到所要进入的目录。它会根据访问的目录频次添加不同的权重，访问的目录越频繁，权重越高，排名就越靠前，跳转
手动搭建PHP环境：步步为营，解锁Web开发奔跑吧邓邓子项目攻略 php 手动搭建php环境
目录一、引言二、准备工作2.1明确所需软件2.2下载软件三、Windows系统搭建步骤3.1安装Apache服务器3.2安装PHP3.3集成Apache与PHP3.4安装MySQL3.5配置PHP连接MySQL四、Linux系统搭建步骤（以Ubuntu为例）4.1更新系统4.2安装Apache4.3安装MySQL或MariaDB4.4安装PHP及其扩展五、macOS系统搭建步骤5.1安装Homeb
Linux系统修改时区以及校准时间
Linux系统修改时区以及校准时间修改时区（切换到root用户下执行suroot）删除系统自带的loacltime的文件rm-f/etc/loacltime将系统内置的时区文件Shanghai软连接到/etc/localtime（建议直接复制执行）ln-s/usr/share/zoneinfo/Asia/Shanghai/etc/localtime这个时候，就已经修改成功了，可以执行date看一下
Linux 交叉编译分享 Mr_-G 编程入门 Linux 底层软件开发 linux 运维服务器交叉编译嵌入式底层软件
一、交叉编译的基本概念与应用场景1.1交叉编译的定义交叉编译是指在一个操作系统平台上编译出能在另一个不同架构或操作系统平台上运行的程序的过程。通俗地说，就是"在A机器上编译出能在B机器上运行的程序"，其中A和B的硬件架构、操作系统可能完全不同。在传统的本地编译中，编译环境与运行环境是一致的，例如在x86_64的Linux系统上编译并运行程序。而交叉编译的核心特点在于编译环境与目标运行环境的分离，这
Rust 开发环境搭建与插件 pumpkin84514 rust rust 开发语言后端
生成完整文章用户请求写一篇完整的CSDN文章，要求根据之前的建议生成。文章要包含结构清晰、标题、代码示例、常见提示、跨平台Rust工具链安装差异等内容。文章需准确，包括插件和使用提示，CLI程序示例等。主要内容包括：介绍、Rust工具链安装（Windows/macOS/Linux差异）、VSCode安装与扩展列表、扩展细节与使用、开发者常见提示（如rust-analyzer功能、crate使用等）
第二章 Linux常用命令及使用胖虎大魔王
目录操作cdusr/:切换到该目录下usr目录cd..:切换到上一层目录cd/:切换到系统根目录mkdir:目录名称创建目录ls:目录名称查询该目录下所有的目录和文件ls[-a]:目录名称查询该目录下所有的目录和文件,包含隐藏文件ls[-l]:目录名称查询该目录下所有的目录和文件的详细信息find/-name:目录名称查找/root下的目录(文件)mv:目录名称新目录名称修改目录名称mv:目录名称
python的pywebview库结合Flask和waitress开发桌面应用程序简介 czliutz python 笔记 python flask 开发语言
pywebview的用途与特点用途pywebview是一个轻量级Python库，用于创建桌面应用程序（GUI）。它通过嵌入Web浏览器组件（如Windows的Edge/IE、macOS的WebKit、Linux的GTKWebKit），允许开发者使用HTML/CSS/JavaScript构建界面，并用Python处理后端逻辑。这种方式结合了Web技术的灵活性和Python的强大功能，适合快速开发跨平
Rust交叉编译自动化实战
告别手动编译地狱！用GitLabRunner让Rust程序跨平台自动构建还在为不同平台手动编译Rust程序而烦恼？还在为环境配置不一致而抓狂？今天带你解锁Rust交叉编译的自动化大法，让你的CI/CD流水线飞起来！痛点在哪里？作为一个Rust开发者，你是否遇到过这些让人头疼的问题：平台差异：在Mac上开发，部署到Linux服务器，每次都要手动交叉编译环境配置：依赖库版本不一致，OpenSSL找不到
Windows安装子系统部署服务并实现外部访问，WSL安装Ubuntu、CentOS、openEuler子系统，最全保姆级教程，手把手教会你。 Mr.L-OAM linux系统运维服务器运维
1环境准备1.1系统设置打开powershellwin+r输入poweroff如果后面操作提示需要提升权限，此处在搜索栏输入powershell右键以管理员身份运行官网文档1.1.1适用于Linux的Windows子系统dism.exe/online/enable-feature/featurename:Microsoft-Windows-Subsystem-Linux/all
Linux Ubuntu安装教程|附安装文件➕安装教程仰望天空—永强软件工程数学建模硬件工程 linux python
[软件名称]:LinuxUbuntu18.0[软件大小]:1.8GB[安装环境]:VMware[夸克网盘接]链接：https://pan.quark.cn/s/971f685256ef（建议用手机保存到网盘后，再用电脑下载）更多免费软件见https://docs.qq.com/sheet/DRkdWVFFCWm9UeGJP
Linux 0.01源码深入解析羊迪
本文还有配套的精品资源，点击获取简介：Linux0.01源码代表了Linux操作系统的起点，揭示了其基本架构和内核设计原理。通过源码分析，开发者可以了解早期的进程管理、内存管理、文件系统、设备驱动、中断处理、系统调用等关键概念。此外，源码还展现了如何进行编译和构建，为想要深入理解操作系统和开源精神的开发者提供了一份宝贵的学习资源。1.Linux0.01源码概述Linux操作系统的核心是其内核，而L
Linux应用软件编程（多任务：进程2) 04aaaze linux 运维服务器
一.进程消亡1.进程退出（1）从main函数return退出进程（2）exit，_exit,_Exitexit：退出进程会刷新缓冲区（库函数）_exit,_Exit:系统调用，退出进程不会刷新缓冲区voidexit(intstatus);void_exit(intstatus);void_Exit(intstatus);功能：退出一个进程参数：status：退出时的状态值（可以传递给父进程）EXI
Python正则表达式
正则表达式是文本处理的强大工具，本文将系统全面地介绍正则表达式的所有知识点，结合Python的re模块，帮助读者从零开始掌握正则表达式的使用。1.正则表达式基础概念1.1什么是正则表达式？正则表达式（RegularExpression，简称regex或RE）是一种用于描述字符串匹配规则的表达式，它并不是Python特有的，而是计算机科学中的一个通用概念。核心功能：验证：检查字符串是否符合特定格式（
Foldseek快速蛋白质结构比对
1.下载和安装Foldseek如果只是单个蛋白质结构的序列比对，我们只需要用Foldseek的网站服务https://search.foldseek.com/search上传我们的蛋白质结构并选择想要进行比对的数据库即可，这里不做重点讲解。做生物信息学研究，我们难免需要批量对多个目标蛋白进行大规模结构比对，这需要我们下载安装本地版软件。Foldseek有Linux和MacOS二个版本的本地软件（这
Linux：线程同步之信号量还下着雨ZG Linux杂谈 linux
信号量(1)What（什么是信号量）提供一种计数器的方式控制对共享资源的访问；当计数器大于0时，请求资源成功并计数器-1；当计数器小于0时，线程阻塞，等待其它线程执行signal（V操作）唤醒它(2)Why（信号量的作用）实现线程的同步与互斥：通过信号量的设计，可以实现对共享资源的串行访问实现线程的等待与通知机制：当信号量小于0时，当前线程将被阻塞；当信号量大于0时，会唤醒一个阻塞在信号量上的线程
tar排除特定文件 hi error.cn 前端服务器数据库经验分享
tar排除特定文件在Linux系统中，tar命令是一个非常强大的工具，用于归档和压缩文件或目录。有时候，你可能需要在创建归档文件时排除某些特定的文件或者目录。本文将详细介绍如何使用tar命令来排除特定文件。1.使用--exclude参数tar命令中常用的参数之一是--exclude，它可以用来指定要从归档中排除的文件或目录。基本格式如下：tar[选项]--exclude='模式'-czvf归档文件
14 款命令行常用工具的替代品！杰哥的IT之旅
作者：JackTian文章首发于公众号：【杰哥的IT之旅】大家好，我是杰哥。在Linux操作系统下，ls(list)可以说是我们日常使用率较高的命令了，它主要用来显示目标列表，输出信息可以进行彩色加亮显示，以分区不同类型的文件。关于ls[^1]的语法、选项、实例、扩展知识，这里就不详细介绍了。一、lsdlsd[^2]是一个基于Rust语言编写的ls命令替代品，增加了颜色、图标、树视图、更多格式选项
Shell 脚本编程全面学习指南
前言Shell脚本编程是Linux和Unix系统管理、自动化任务的核心工具之一。通过Shell脚本，你可以自动化重复性操作、简化复杂流程、提高系统管理效率，甚至构建完整的自动化运维工具。本文将带你从基础到进阶，全面学习Shell脚本编程，涵盖语法、结构、调试、最佳实践等内容。一、Shell简介与环境搭建1.1什么是Shell？Shell是命令行解释器，是用户与操作系统内核之间的桥梁。它接收用户输入
MySQL(147)如何进行跨平台迁移？辞暮尔尔-烟火年年 mysql adb 数据库
跨平台迁移涉及将数据库从一个操作系统或平台迁移到另一个，例如从Windows迁移到Linux，或从不同架构的硬件之间进行迁移。这个过程比同平台迁移更加复杂，需要特别注意数据库的兼容性、数据编码、文件路径等问题。以下是一步一步的指导，详细介绍如何进行跨平台数据库迁移。一、准备工作1.确认源与目标平台源平台：当前运行数据库的操作系统和硬件平台。目标平台：新的操作系统和硬件平台。2.安装数据库软件在目标
磁盘性能测试参数平凡之路001
LINUX性能测试参数：•测试随机写IOPS：fio-direct=1-iodepth=128-rw=randwrite-ioengine=libaio-bs=4k-size=1G-numjobs=1-runtime=1000-group_reporting-filename=iotest-name=Rand_Write_Testing•测试随机读IOPS：fio-direct=1-iodepth
从零开始学 Linux：循序渐进的学习指南我爱学嵌入式 Linux基础 linux 服务器
Linux作为一款开源、稳定且安全的操作系统，在服务器领域、嵌入式开发、云计算等场景中占据着举足轻重的地位。对于程序员、运维工程师或IT爱好者而言，掌握Linux技能已成为一项核心竞争力。但面对命令行界面和复杂的系统架构，很多初学者往往感到无从下手。本文将为你梳理一条清晰的Linux学习路径，助你从入门到精通。一、明确学习目标：为什么学Linux？学习Linux前需明确目标，不同目标对应不同的学习
C#程序唯一性守护：用互斥锁（Mutex）实现进程级安全控制的实战指南
为什么程序重复启动是个"毒瘤"？在软件开发中，程序重复启动可能导致以下灾难性后果：资源冲突：多个实例争夺数据库连接、文件句柄等有限资源数据污染：并发写入配置文件导致内容错乱界面混乱：多个窗口同时弹出，用户体验崩坏安全漏洞：恶意程序通过伪造实例窃取数据而互斥锁（Mutex）是Windows/Linux系统提供的原生机制，能完美解决这些问题。相比文件锁、注册表标记等传统方案，Mutex具有以下不可替代
linux如何使用jstack分析线程状态 ycllycll linux
在高并发，多线程环境下的java程序经常需要分析线程状态，本本是一个分析步骤无具体讲解（具体命令可自行google学习）一般流程：1.使用jps-l查看有哪些java程序在运行2.使用top查看步骤1中进程号（pid或者vmid）所占用cpu以及内存情况（或者省略步骤1）3.使用top-Hppid查看具体该pid下各个线程所占用的cpu情况（进程下的线程有一个nid，后面需要用到）4.使用jsta
Linux: rsync+inotify实时同步及rsync+sersync实时同步能不能别报错 linux系统运维 linux 服务器运维
rsync+sersync和rsync+inotify是两种常用的实时文件同步方案，用于监控源目录变化并自动同步到目标位置。以下是对两者的详细对比和配置指南：核心区别方案原理优点缺点rsync+inotify使用Linux内核的inotify监控文件变化，触发rsync同步原生支持，无需额外依赖需手动编写脚本，稳定性依赖实现rsync+sersync基于inotify和rsync，封装为独立工具，
打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析程序员威哥最新爬虫实战项目 python 开发语言
前言：数据时代的信息洪流，如何做到“千人千面”？在信息爆炸的时代，每天都有成千上万条新闻资讯涌现。如何从海量内容中挖掘出用户感兴趣的资讯？这不仅仅是爬虫技术的问题，更是数据建模与智能推荐算法的落地挑战。本篇文章将带你从零出发，构建一个具有实际应用价值的“个性化新闻阅读推荐系统”，从数据采集（爬虫）、文本处理（NLP）、兴趣建模（TF-IDF/协同过滤/Embedding）到推荐展示，覆盖整个推荐系
gitlab修改DNS解析配置文件中东大鹅 gitlab linux git
在Linux（CentOS7.9）云服务器上解压gitlab时提示需要Python的环境[root@rainyun-v1vct1josrc]#rpm-ivhgitlab-ce-10.8.4-ce.0.el7.x86_64.rpmwarning:gitlab-ce-10.8.4-ce.0.el7.x86_64.rpm:HeaderV4RSA/SHA1Signature,keyIDf27eab47:N
CentOS7 /sysroot挂载失败 Reak.C linux 运维服务器
K8S重启完后进不了系统，提示/sysroot挂载失败测试了使用"镜像救援模式"和"进入紧急模式"两种方法我的情况是“进入紧急模式”方法有效在系统启动界面按“e”，进入编辑找到"linux16"开头的行，在该行末尾加入rd.break，按Ctrl+X启动系统#xfs文件系统使用xfs_repair修复xfs文件系统。对于其他文件系统执行fsck.xxx（xxx根据实际情况ext3、ext4）命令，
linux下修改文件及保存的命令 ananRunner
进入vi的命令vifilename打开或新建文件，并将光标置于第一行首vinfilename打开文件，并将光标置于第n行首vi/patternfilename打开文件，并将光标置于第一个与pattern匹配的串处vi-rfilename在上次正用vi编辑时发生系统崩溃，恢复filenamevifilename.....filename打开多个文件，依次进行编辑插入文本类命令i在光标前l在当前行首a
隐藏Bash历史记录：实用技巧与最佳方法 weishi122 bash chrome 开发语言 Linux Bash 安全系统管理
隐藏Bash历史记录Mon1stOct18您是否曾经登录到Linux机器，开始运行命令，然后想起bash历史记录会记录您运行的一切？我偶尔会这样做，所以我想我应该研究一下有哪些选项可以隐藏这个错误。以下是我的发现，如果您有其他想法，请联系我。正常退出：历史记录正常写入。杀死：在服务器端运行-不写入历史记录。我检查了是否需要-9，但不需要，基本的kill就足以关闭进程并阻止写入文件。杀死：在客户端运
自己开发QEMU硬件模拟器 - versatilepb开发板 EE工程师硬件仿真模拟 arm开发 c语言开源软件
Versatilepb开发板网上的小伙伴们说Versatilepb是目前QEMU官方组织模拟的最完善的一款开发板，作者无从可查，不过经过作者实际验证有一点可以确定就是在添加网络设备这一块，Versatilepb是没问题的。原本作者想在raspi2b上做有关Linux的开发实验，但当作者在配置SSH服务时，却总是有问题，查了相关资料得知QEMU模拟的raspi2b不支持nic，只支持usb-ne
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin