使用正则表达式采集整站小说数据

背景

开源小说漫画系统小说精品屋已经诞生了1年时间了,其间很多同学咨询过我数据抓取的原理,我这里抽出空余时间详细说明一下小说爬虫模块的设计与实现。

爬虫模块设计与实现(多爬虫源配置)

  1. 创建application-crawl.yml配置文件,配置不同网站的正则表达式规则。
#爬取的网站名称类型 1:笔趣岛 ,2:笔趣塔, 3:顶点,4:百书斋,5:笔趣阁,6: 笔趣窝,默认百书斋  更多网站解析中,敬请期待
biquta:
  crawlsource:
    index-url: https://m.biquta.la
    list-page-url: https://m.biquta.la/class/{0}/{1}.html
    book-url-pattern: href="/(\d+_\d+)/"
    score-pattern: (\d+\.\d+)分
book-name-pattern:

([^/]+)

author-pattern: 作者:([^/]+)< status-pattern: 状态:([^/]+) cat-pattern: 类别:([^/]+) update-time-pattern: 更新:(\d+-\d+-\d+\s\d+:\d+:\d+) pic-pattern: ([^<]+)

catalog-url-pattern: 查看完整目录 catalog-pattern: ([^/]+) biqudao: crawlsource: index-url: https://m.biqudao.net list-page-url: https://m.biqudao.net/bqgeclass/{0}/{1}.html book-url-pattern: href="/(bqge\d+)/" score-pattern: (\d+\.\d+)分
book-name-pattern:

([^/]+)

author-pattern:
  • 作者:([^/]+)
  • status-pattern: 状态:([^/]+) cat-pattern: 类别:([^/]+) update-time-pattern: 更新:(\d+-\d+-\d+\s\d+:\d+:\d+) pic-pattern:

    你可能感兴趣的:(java,springboot,java,爬虫)