curl cat grep awk

[root@192 home]# cat fozhidao.sh 
#curl https://www.yourenxsw.com/novel/22220/ > main.txt
#cat main.txt | grep href
#cat main.txt | grep href > href.txt


curl https://fozhidao.cc/book/56302276 | iconv -f gbk -t utf8 > fozhidao.txt  
cat fozhidao.txt | grep "\.html" 
cat fozhidao.txt | grep "\.html" | awk -F'"' '{ print $2 " " $3 }' | sed "s:::g" | sed "s:>::g" 

## shell字符串截取八种方法

假设有变量: var=http://www.aaa.com/123.htm

1. # 号截取,删除左边字符,保留右边字符。
代码如下:

echo ${var#*//}
其中 var 是变量名,# 号是运算符,*// 表示从左边开始删除第一个 // 号及左边的所有字符
即删除 http://
结果是 :www.aaa.com/123.htm

2. ## 号截取,删除左边字符,保留右边字符。
代码如下:

echo ${var##*/}
##*/ 表示从左边开始删除最后(最右边)一个 / 号及左边的所有字符
即删除 http://www.aaa.com/

结果是 123.htm

3. %号截取,删除右边字符,保留左边字符
代码如下:

echo ${var%/*}
%/* 表示从右边开始,删除第一个 / 号及右边的字符

结果是:http://www.aaa.com

4. %% 号截取,删除右边字符,保留左边字符
代码如下:

echo ${var%%/*}
%%/* 表示从右边开始,删除最后(最左边)一个 / 号及右边的字符
结果是:http:

5. 从左边第几个字符开始,及字符的个数
代码如下:

echo ${var:0:5}
其中的 0 表示左边第一个字符开始,5 表示字符的总个数。
结果是:http:

6. 从左边第几个字符开始,一直到结束
代码如下:

echo ${var:7}
其中的 7 表示左边第8个字符开始,一直到结束。
结果是 :www.aaa.com/123.htm

7. 从右边第几个字符开始,及字符的个数
代码如下:

echo ${var:0-7:3}
其中的 0-7 表示右边算起第七个字符开始,3 表示字符的个数。
结果是:123

8. 从右边第几个字符开始,一直到结束
代码如下:

echo ${var:0-7}
表示从右边第七个字符开始,一直到结束。
结果是:123.htm
————————————————
版权声明:本文为CSDN博主「戴国进」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/JineD/article/details/124196546

shell脚本:

#curl https://www.yourenxsw.com/novel/22220/ > main.txt
#cat main.txt | grep href
#cat main.txt | grep href > href.txt

URL_PREFIX="https://fozhidao.cc"

#curl https://fozhidao.cc/book/56302276 | iconv -f gbk -t utf8 > fozhidao.txt  
#cat fozhidao.txt | grep "\.html" 
#cat fozhidao.txt | grep "\.html" | awk -F'"' '{ print $2 " " $3 }' | sed "s:::g" | sed "s:>::g" > pairs.txt
#cat fozhidao.txt | grep "\.html" | awk -F'=' '{ print $2 }' | awk -F'<' '{ print $1 }' >pairs2.txt

cat fozhidao.txt | grep "\.html" | awk -F'=' '{ print $2 }' | awk -F'<' '{ print $1 }'  | sed "s:\"::g" >pairs2.txt

i=0
for line in `cat pairs2.txt`
do
    ((i++))
    url=${line%>*}
    title=${line#*>}
    echo "$i:$line $url $title"
    curl $URL_PREFIX$url | iconv -f gbk -t utf8 > $title.txt
done


 

你可能感兴趣的:(数据库,java,mysql)