用Java做爬虫爬取王者荣耀的英雄头像

大家好,今天我和大家分享一下用Java做爬虫爬取王者荣耀的英雄头像。

首先我们需要王者荣耀的网址,然后获取连接,通过IO读取网页的源代码,用正则表达式筛选我们需要的代码,在每个筛选对象(图片的地址)前面加上协议名https:再访问我们筛选的对象(图片),最后用多线程加IO下载到指定的本地目录中。

配置文件:hero.Proprety。写配置文件时注意转义字符

addressURL=https://pvp.qq.com/web201605/herolist.shtml
yourPattern=//game\\.gtimg\\.cn/images/yxzj/img201606/heroimg/.+?\\.jpg
yourDir=C:\\Users\\HP\\Desktop\\myhero
charsetName=GBK
protocol=https:
spile=/

代码:这里我写了怎么读取配置文件。在获取连接后,我们要判断响应状态码是200才能进行后面的操作。在筛选网页代码时,我这里是通过readLine()每次读取一行来进行正则表达式的匹配的。我用/截取的筛选的对象的最后一部分当作图片的名称。(如果想要获取英雄的名称,需要单独用一个方法来重新用正则表达式匹配英雄名称。)

public class Worm2 extends Thread {
    //要爬取的网站网址
    private static String addressURL;
    //要爬取的内容的正则表达式
    private static String yourPattern;
    //爬取

你可能感兴趣的:(爬虫,正则表达式,java)