Python爬虫进阶:搭建属于自己的美少女图片站

关注我的你应该已经学会了:爬取妹子图整站数据(教程已下架)

于是有人不禁会问:拿几十G的图片有什么用呢?

有什么用呢?我也自问。于是下面这个网站就诞生了......

小姐姐 ( 施工重地,闲人免入!女生请绕道~)

如果你想通过爬虫自动采集数据(比如:mm131、mmjpg、妹子图等各大美女图片站),并与前端网页对接,将采集到的数据自动呈现到网页上,从而搭建一个属于自己的图片站。那么,以下内容就是为你准备的!按着步骤来一定可以实现你想要的,当你对这个项目有了自己的认知后,就可以考虑二次开发精进创作~

(以下操作默认你已经拥有域名、服务器,安装了宝塔面板以及能通过Xshell连接,我也写了一篇小白教程帮你解决这些问题)

准备好就开始吧!

解析域名

(以我在用的GoDaddy域名为例)

  • 访问GoDaddy官网并登录
  • 打开域名管理器-DNS管理-添加记录
    类型:A
    主机:随意(比如:mm)
    指向:填入服务器的ip地址
    TTL:1/2小时

创建站点

  • 进入宝塔面板,添加站点
    设置根目录为:/root/94imm,同时创建MySQL数据库,PHP版本设置为纯静态

  • 进入网站根目录,上传源代码文件
    修改silumz文件夹下settings.py文件中的数据库配置,将程序目录下的silumz.sql文件导入数据库

DATABASES = {
    'default': {
        'ENGINE': 'django.db.backends.mysql',
        'NAME': '数据库名',
        'USER': '数据库用户名',
        'PASSWORD': '数据库密码',
        'HOST': '127.0.0.1',
        'PORT': '3306',
    }
}

启动项目

  • 打开Xshell,进入程序目录
    安装所需的Python第三方库:pip3 install -r requirements.txt
  • 执行启动命令:uwsgi --ini uwsgi.ini

反向代理

  • 进入宝塔面板,管理创建的站点
  • 设置反向代理,目标URL为:http://127.0.0.1:8000

到这一步,项目网站就搭建好了,但此时网站还没有数据,需要运行爬虫程序爬取。爬虫程序位于crawler目录下,每一个文件都是独立的,可单独执行。第一次运行时,可修改爬虫参数采集全站,之后修改参数为采集第一页,配合定时任务,实现自动采集和发布

自动采集和发布

(以crawler_mm131.py爬虫程序为例)

  • 修改程序中的数据库配置
dbhost = {
    "host": "127.0.0.1",
    "dbname": "数据库名",
    "user": "数据库用户名",
    "password": "数据库密码"
}
  • 打开Xshell,进入程序目录
    启动爬虫:python3 crawler_mm131.py
  • 配合宝塔面板设置自动采集


  • 重启网站:sh /root/94imm/restart.sh
    完成采集后清空cache文件或重启网站就能生效哦~

进阶技巧

1.网站采集数据后,如果点击图集无法跳转,则需要在数据库中手动添加图片分类

  • 进入宝塔面板,找到相应的数据库,点击“管理”
  • 点击“images_type”-“插入”-在字段id和type的对应框中输入数字和图片类型


    在爬虫文件中可以找到需要输入的信息,比如crawler_mm131.py中有性感美女和清纯妹子两个分类,分类id分别为1和3


2.发布本地图片

  • 进入爬虫程序目录crawler,运行AutoPost.py,根据提示输入本地图片所在路径,输入自动发布时间

3.图片压缩

  • 部分网站可能未对图片进行压缩,一张图1M甚至几M,既降低传输速度又占空间
  • 进入爬虫程序目录crawler,运行Compress.py,根据提示输入,默认10个线程压缩,如果服务器配置高可适当增加,只压缩图片质量,尺寸不变

4.删除图集

  • 进入爬虫程序目录crawler,运行delete_img.py,根据提示输入图集链接“/article/59885/”中的数字59885即可,会同时删除数据库记录和采集的图片

5.下载采集未完成的图片

  • 进入爬虫程序目录crawler,运行down_img.py,自动查找数据库中存在但static/images目录中不存在的记录重新下载。并删除只有采集记录没有图片的数据
项目源码

https://pan.baidu.com/s/1Gj7UJ0XWuh2bI9IIZnv4ZA 提取码:72oo

你可能感兴趣的:(Python爬虫进阶:搭建属于自己的美少女图片站)