抓取亚马逊某一品类top100上的所有图片

这篇是上一篇抓文字爬虫的升级版。这次新增了抓图片。
您需要安装nodejs的运行环境(搜nodejs即可下载)
如果可以顺便在安装一个sublime(搜sublime即可下载),因为发现txt行尾插入换行'\n'会失效

const http=require('https');
const fs=require('fs');
const cheerio=require('cheerio');
const request=require('request');


for(i=1;i<=5;i++){
  var url=`https://www.amazon.co.uk/Best-Sellers-Home-Garden-Cups-Mugs-Saucers/zgbs/home-garden/3149384031/ref=zg_bs_pg_1?_encoding=UTF8&pg=${i}`;
  http.get(url,function(res){
    var html='';
    res.setEncoding('utf-8');

    res.on('data',function(chunk){
        html+=chunk;
      });
    res.on('end',function(){
      var $=cheerio.load(html);
      var groups=$('.zg_itemImmersion');
      groups.each(function(item){
        var group=$(this);
        var groupRank=group.find('.zg_rankNumber').text().trim();
        var groupTitle=group.find('.p13n-sc-truncate').text().trim();
        var groupPoint=group.find('.a-icon-star').text().trim();
        var groupReivewNum=group.find('.a-size-small').text().trim();
        var groupPrice=group.find('.p13n-sc-price').text().trim();
        var groupContent=groupRank+'^'+groupTitle+'^'+groupPoint+'^'+groupReivewNum+'^'+groupPrice+'\n';
        var imgSrc=group.find('img').attr('src');
        fs.appendFile('input.txt',groupContent,function(err){
          if(err){
            console.log(err);
          }
        });
        request(imgSrc).pipe(fs.createWriteStream('./image/'+groupRank+'jpg'));
      });
    });
});
}

最后可以把所有图片都抓下来


抓取亚马逊某一品类top100上的所有图片_第1张图片
1.png

正好会有100张图片。
并且在input文件中,整整齐齐的会有这100天的基本信息


抓取亚马逊某一品类top100上的所有图片_第2张图片
2.png

你可能感兴趣的:(抓取亚马逊某一品类top100上的所有图片)