自动处理资源遇到的坑

第一阶段目标:

自动下载目标网站的符合条件的所有资源
自动删除资源里的广告并打包压缩,丢弃只有广告的资源
记录资源相关信息:来源网址、网页标题、处理后的压缩包名称、处理后的压缩包大小、资源格式、上传者、无格式文本内容
自动上传资源压缩包

遇到的坑:

  • 压缩包,注释带广告。需要解压,并重新压缩,添加自己的广告注释
  • 含网页快捷方式。需要删除原有快捷方式,并添加自己的网页快捷方式
  • doc文档末尾有二维码图片。需要替换成自己的二维码图片
  • mp3标签信息含广告。需要替换成自己的广告
  • ppt文档插入了文字广告,并且标签信息含广告。需要删除广告页面,并且替换标签信息
  • wmv标签信息含广告。需要删除广告信息
  • mp4/wma标签信息含广告。需要删除广告信息
  • 部分压缩包是空包,只放了一两张广告图片。需要过滤掉这类资源
  • 部分压缩包是空包,只放了一份广告文档。需要过滤掉这类资源
  • 部分资源页面已经过期,自动跳转到其他页面。需要检测出异常链接,并记录下来,方便核实
  • 部分资源包含.ini和.db文件。需要过滤掉这类文件
  • 有的文件写的docx格式,其实需要改成doc格式;
  • doc需要转docx,ppt需要转pptx才能处理;
  • PPT中有广告图片,目前发现有两种广告图片。需要根据图片大小替换图片
  • 替换广告图片后的PPT,有的无法直接打开,需要修复。直接打包
  • 有的资源已经损坏,无法打开。直接丢弃
  • 有的内容无法插入数据库,需要提取出中英文数字
  • 有的资源路径太长,代码报错找不到文件路径。需要先缩短文件夹名和文件名

小程序:

资源整理后,弄个小程序,方便公开下载资源。
小程序码:
自动处理资源遇到的坑_第1张图片

你可能感兴趣的:(技术党)