早上起床的时候看网易公开课,想下载到本地观看,于是就写了一个shell脚本,从页面抓取公开课的链接,然后下载到本地。顺便深入研究了一下curl工具的使用,以下是总结。
利用curl 可以把url资源以指定的文件名另存为到本地
curl -o lesson0.mp4 http://60.2.157.160/mov.bn.netease.com/movieMP4/2012/3/F/F/S7S94H7FF.mp4使用-O (大欧) 选项可以自动从url解析出文件名另存为到当前目录
curl -O http://60.2.157.160/mov.bn.netease.com/movieMP4/2012/3/F/F/S7S94H7FF.mp4文件就会以S7S94H7FF.mp4 为文件名进行保存。但是如果执行:
curl -O http://www.sina.com.cn那么就会产生错误:“Remote file name has no length!” 无法去解析文件名。
通过 -I 参数可以只查看Http响应头
curl -I http://www.sina.com.cn
公开课的视频有很多,假设我们要全部下载,该怎么做?去循环?每次都去curl请求一次?就像这样:
for video in 1 2 3 4; do curl -o video${video}.mp4 http://xxx.com/video${video}.mp4 done其实今天才发现只需要一条命令就能够搞定:
curl -o 'video#1.mp4' 'http://xxx.com/video[1-4].mp4'这样就可以下载所有的视频,并且所有的视频都会依次以video1.mp4 video2.mp4...这样来在本地进行保存。
另外范围的通配符还支持前面置0的做法:
curl -O http://www.curltest.com/test[00-99].mp3就会自动下载test00.mp3 到 test99.mp3
另外还可以指定步长:
curl -O http://www.curltest.com/test[00-99:2].mp3嗯,感觉跟Python的range差不多吧。挺高端的。
除了表示范围的通配符,还可以提供词汇列表的通配:
curl -O http://www.urltest.com/{minzufeng,tante}.mp3
如果curl请求的地址产生重定向,那么使用-L参数会自动重定向,比如:
curl -L http://www.sina.com会自动重定向到www.sina.com.cn
可以使用-X参数来指定http的请求方式,默认的情况下curl发起的是GET请求。
curl -X POST 发起post请求
curl -X UPDATE 发起update请求
cookie: --cookie "name1=XXX;name2=XXX" http://www.curltest.com
referer: --referer "<script>alert('I am admin, bitch!');</script>"
ua: --user-agent "<script>alert('I am admin, bitch!');</script>"
可以使用-F参数来提交form表单, -F参数允许有多个
curl -X post -F "name=chihz" -F "age=22" -F "headImg=@/home/samchi/images/mypic.jpg" http://curltest.com
其中 -F "headImg=@/home/samchi/images/mypic.jpg" 为文件上传。
curl支持按照范围来进行文件下载,通过-r参数就可以实现:
curl -O -r'0-500' http://60.2.157.160/mov.bn.netease.com/movieMP4/2012/3/F/F/S7S94H7FF.mp4这样就会下载文件的前500个byte, 如果一个大文件,我们可以通过先使用curl -I拿到Content-Length, 然后分配固定个进程,为每个进程制定一个下载的范围,这样就可以实现多进程下载,下载完毕之后再将每个进程下载的文件进行合并就可以。
for example:
#!/bin/bash read -p"please input the target url:" target_url read -p"please input the processor number:" ps_num read -p"please input the target file name:" target_file_name content_length=$(curl -I $target_url|grep 'Content-Length'|awk -F':' '{print$2}') content_length=$(echo $content_length) #like trim function echo "the content length is:$content_length" part_size=$((content_length / ps_num)) echo "Part size is $part_size" i=1 while [ $i -le "$ps_num" ]; do begin=$(((i-1)*part_size)) end=$((i * part_size - 1)) if [ $i -eq $ps_num ]; then end=$content_length fi i=$((i+1)) echo "begin:$begin" echo "end:$end" nohup curl -o "${target_file_name}_part_$i" -r "$begin-$end" "$target_url" & done
不过这个最后还有个问题就是不能有个主进程去监控每个工作进程的完成情况,到时侯去自己合并数据,需要自己手工去合并,比如:
cat 1.txt 2.txt 3.txt > all.txt
另外发现http协议有很多东西需要自己去发掘,我觉着我应该去好好读读最近流行的那本HTTP权威指南了。