JAVA爬虫---验证码识别技术(一)

        Python中有专门的图像处理技术比如说PIL,可以对验证码一类的图片进行二值化处理,然后对图片进行分割,进行像素点比较得到图片中的数字。这种方案对验证码的处理相对较少,运用相对普遍,很多验证码图片可以通过这个方式得到识别,当然还需要一部分的降噪处理。

        什么是图片二值化处理:简单也就是把一张五颜六色的验证码处理成一张只由黑白构成的验证码,这个是为了方便后期我们和保存的黑白单一数字、字母进行像素点比较。

        什么是降噪处理:简单的解释就是把验证码中的干扰去掉一部分,降噪不可能完全降,但是可以处理一大部分就是对识别的一种进步,毕竟如果降噪处理不行,对后期的像素点比较和结果值影响比较大。

        今天我们用图片的RGB的色彩比对技术,用JAVA对图片进行一次二值化处理,然后识别。

   原图片:     

二值化后图片:

我们针对这个网页的验证码需要在自己库中保存的模板类型:.....这一类是用于后期像素点比较得到图片本身数值的准备。

那么基本流程我们知道了,我们就开始

第一步:图片下载:

网页的抓取有时候会有验证码的识别,这样我们就需要对http请求的包进行解析,有的验证码可以在js中解析得到,有的是直接返回该网页页面,反正可以找到这个img图片进行下载到本地就行,此处不一一赘述。

第二部:对下载到本地的图片进行二值化处理:

在这里我自己写了一个脚本,供大家使用和参考:


public class MyImgDel  {
    //todo splitNums可以根据你给到的图片色差进行调整,在你自己使用时,可以针对splitNums做一个循环,每次加多少,得到不同的色差比的二值化后的图片,因为不同的图片可能干扰线、干扰点颜色原因,二值化后会有差异
    //todo splitWidthNum:把图片根据长度切分的分数,这个可以根据你图片中的数字个数进行切分
    public static final int splitNums=4000000;
    public static final int splitWidthNum=5;
    public static void main(String[] args) {
        String path="F://test1.png";
        try{
            BufferedImage img=removeBackgroud(path);
            ImageIO.write(img, "PNG", new File("F://test1-1.png"));
        }catch (Exception e){
            e.printStackTrace();
        }
    }


    public static BufferedImage removeBackgroud(String picFile)
            throws Exception {
        BufferedImage img = ImageIO.read(new File(picFile));

        img = img.getSubimage(1, 1, img.getWidth()-2, img.getHeight()-2);
        int width = img.getWidth();
        int height = img.getHeight();
        double subWidth = (double) width/(splitWidthNum+0.0);
        Map map = new HashMap();
        for (int i = 0; i < splitWidthNum; i++) {

            //todo 以下是对图片进行二值化处理,在这里我的思路是规定,色差范围在splitNums到负splitNums之间的,算是同色,放入同一个色值,放入一个map中,map中的Key放色值,value放这个色值得个数,后期就根据这个色值来对验证码进行二值化
            for (int x = (int) (1 + i * subWidth); x < (i + 1) * subWidth && x < width - 1; ++x) {
                for (int y = 0; y < height; ++y) {
                    if (isWhite(img.getRGB(x, y)) == 1){
                        continue;
                    }
                    Map map2 = new HashMap();
                    for (Integer color : map.keySet()) {
                        map2.put(color,map.get(color));
                    }

                    for (Integer color : map2.keySet()) {
                        System.out.println(Math.abs(color)-Math.abs(img.getRGB(x, y)));
                        if (Math.abs(color)-Math.abs(img.getRGB(x, y))-splitNums){
                            map.put(color, map.get(color) + 1);
                        }else{
                            map.put(img.getRGB(x, y), 1);
                        }
                    }
                    if (map.isEmpty()){
                        map.put(img.getRGB(x, y), 1);
                    }
                }
            }
            System.out.println("==============================");

            int max = 0;
            int colorMax = 0;
            for (Integer color : map.keySet()) {
                if (max < map.get(color)) {
                    max = map.get(color);
                    colorMax = color;
                }
            }

            for (int x = (int) (1 + i * subWidth); x < (i + 1) * subWidth&& x < width - 1; ++x) {
                for (int y = 0; y < height; ++y) {
                    int ress=Math.abs(img.getRGB(x, y))-Math.abs(colorMax);
                    if (ress-splitNums) {
                        img.setRGB(x, y, Color.WHITE.getRGB());
                    } else {
                        img.setRGB(x, y, Color.BLACK.getRGB());
                    }
                }
            }
        }
        return img;
    }

    //todo 判断是否为白色的方法
    public static int isWhite(int colorInt) {
        Color color = new Color(colorInt);
        if (color.getRed() + color.getGreen() + color.getBlue()>600) {
            return 1;
        }
        return 0;
    }

}

处理到这里我们就可以得到一个二值化后的图片了。

然后我们就要开始对二值化后的图进行等分,然后和我们样本库中的图片进行一次像素比对。

 

你可能感兴趣的:(JAVA-爬虫)