urllib.request.urlretrieve进度提示

  • 维基百科词条提取WikiExtractor.py

python WikiExtractor.py anwiki-20161220-pages-articles-multistream.xml -o extracted
后台运行,并默认记录日志

nohup python WikiExtractor.py anwiki-20161220-pages-articles-multistream.xml -o extracted &  
# nohup   ---no hang up

后台运行,并记录日志到指定文件file(标准输出)

nohup python WikiExtractor.py anwiki-20161220-pages-articles-multistream.xml -o extracted >file &  
  • 更改目录及子目录权限
chmod -R a+w AA/
# -R 循环
  • 重定向和输入输出

http://www.jianshu.com/p/79579843e579

  • urllib.request.urlretrieve进度提示
from xinyilangs import xinyi_langs
from urllib.request import urlretrieve
import os

url = 'https://dumps.wikimedia.org/backup-index.html'
langs = xinyi_langs
file_list = ['https://dumps.wikimedia.org/{}/20161220/{}-20161220-pages-articles-multistream.xml.bz2'.format(lang, lang) for lang in langs]
def cbk(a, b, c):    
  '''回调函数        
    @a: 已经下载的数据块        
    @b: 数据块的大小        
    @c: 远程文件的大小    
  '''    
  per = 100.0 * a * b / c    
  if per > 100:        
    per = 100    
  print('%.1f%% of %.2fM' % (per,c/(1024*1024)))

dir = os.path.join(os.getcwd(), 'xml_bz2')
os.mkdir(dir)
for lang,file in zip(langs,file_list):    
  file_name = os.path.join(dir, '{}.xml.bz2'.format(lang))

你可能感兴趣的:(urllib.request.urlretrieve进度提示)