真实

  • Java 爬虫学习
    https://www.cnblogs.com/quanxi/p/Crawler_Summary.html

  • java从零到变身爬虫大神(一)
    https://www.cnblogs.com/TTyb/p/5784581.html

  • GitHub 上有哪些优秀的 Java 爬虫项目?
    https://www.zhihu.com/question/31427895/answer/140473534

  • yasserg/crawler4j
    https://github.com/yasserg/crawler4j

  • web magic
    http://webmagic.io/
    http://webmagic.io/docs/zh/

你去看webmagic的文档,webmagic,应该是文档最全的 小爬虫应该这些都够用,大项目应该都要二次开发
什么量级?淘宝、天猫、京东的商品。 全站吗?我也不知道什么量,根据关键词或者分类,一次爬一个关键词或者一个分类。比如
“口红”,一个关键词大概多少量?我看之湖上有爬京东图书的,反爬方式应该一致

爬虫搞来的数据,可以做商业应用吗?统计数据,不是原始数据。比如分析 口红在这三个电商平台的中位价格
如果量大的话,你就得多个机器,通过消息队列传送

  • 爬虫究竟是合法还是违法的?
    https://www.zhihu.com/question/291554395/answer/521381679

  • XPath 教程
    http://www.w3school.com.cn/xpath/index.asp

  • jsoup教程
    https://www.jianshu.com/p/fd5caaaa950d

  • Java网络爬虫(十四)–多线程爬虫(抓取淘宝商品详情页URL)
    https://blog.csdn.net/championhengyi/article/details/79416748
    https://github.com/dhengyi/multithreading-crawlers
    真实_第1张图片

你可能感兴趣的:(真实)