http://www.alexa.com/的网址点进去是网站的一些排名信息,如下图:
如何快速扒下来这些网址呢?
按下F12,调出开发者工具,运行一个简单的脚本即可。
http://www.alexa.com/topsites/category;0/Top/Shopping
代码如下:
var site = document.getElementsByClassName('desc-paragraph');var arrays=[]; for(var i=0;i<site.length;i++){arrays.push('www.'+site[i].innerText.toLowerCase());};console.log(arrays);
补遗漏:
var site = document.getElementsByClassName('desc-paragraph');var arrays=[]; for(var i=0;i<site.length;i++){arrays.push('http:\\/\\/.*\\.'+site[i].innerText.toLowerCase().replace(/\./g,"\\.")+'\\/.*|');};var urls=''; for(var i=0;i<arrays.length;i++){urls+=arrays[i]}; console.log(urls);