自己开发的WMCMS采集程序分享

WMCMS官网:http://www.weimengcms.com/index.html

本采集程序采用.net core编写,可以在linux上运行。

首先在centos上安装.net core运行环境,方法看这篇文章:https://blog.csdn.net/hiliqi/article/details/79788755

然后将程序目录上传到centos服务器任意目录。

进入目录,使用命令dotnet WmBookListBot.dll就能运行了。

说说采集程序的运作原理:程序运行会首先读取config.json这个文件,根据相应的配置来运行程序。这里对各个配置字段做一下说明:

crawlSite:要爬取的目标网站

pubSite:要发布的目标网站

cookie:要发布的网站的登录cookie,可以利用F12获取

novelTypeId:对应的分类ID,可以在wmcms的后台看到

crawlModel:两个值->list和book,值为List的时候,会爬取网站的书籍列表页,值为book的时候,会爬取书籍详情页

crawlListPageUrl:要爬取的列表页Url,crawlModel值为List时使用

"crawlStartListPage": 2, 书籍列表起始页,会自动替换crawlUrl里的变量i

  "crawlEndListPage": 39 //书籍列表最终页,会自动替换crawlUrl里的变量i

在程序爬取书籍列表时,会同时向1.log文件写入爬取的书籍详情页url地址,后面可以根据这些url来爬取对应的书籍详情。

要爬取书籍详情页,只需要将crawlModel的值改为book,程序便会读取1.log文件,来根据里面的url来爬取书籍详情页。可以手动配置1.log这个文件。

采集程序下载地址:链接:https://pan.baidu.com/s/1pvwejZ2-NVy-Z-17N9ubqQ 密码:vq2w

你可能感兴趣的:(自己开发的WMCMS采集程序分享)