网页源代码批量提取下载链接字符串-非正则 | Python3

代码改编自水似冰的博客 | https://blog.csdn.net/qq_30650153/article/details/77773189 

感谢启发

本脚本以 http://www.hao6v.com/mj/2017-04-27/28999.html 页面的源代码为对象
以 ed2k、thunder、magnet 三类下载链接为提取对象编写
无法确定个别影视剧下载网站源代码是否可以提取

代码思想为通过下载链接头尾部的特定格式字符识别并存入新的文件,并非使用正则表达式,编程新手,欢迎各位朋友交流

# encoding=utf-8

sc_txt = open('source_code.txt', 'r')  # 打开存有网页源代码的 source_code.txt 文件(需提前将源代码存入此文件)
sc_list = list(sc_txt.read())  # 源代码文件内容以每个字符为一项组成列表 sc_list
dl_list = []  # 创建空列表 dl_list 准备存入下载链接

# 在整个 sc_list 字符串里以开头结尾的固定字符查找下载链接然后写入 dl_list 中
# 开头固定字符为'

 

你可能感兴趣的:(下载链接字符串,python3)