防爬虫 - 利用自定义字体实现数据防采集

效果

  • 页面看到的和源代码不一致。
  • 比如 1 => 0xaaa,2 => 0xbbb。

技术

  • 利用自定义 web-font 实现的。

原理

  • 使用 web-font ,我们自己创建一套字体,设置自定义的字符映射关系表。
  • 该方案适用于数字与英文,中文防采集不适合使用这种方法,因为中文的字体库太大了。

实现方法

  • 选择系统自带的 Arial.ttf 字体,以这个字体为例。
  • https://everythingfonts.com/ttf-to-svg 上传ttf文件,转换成svg格式,另存为my_webfont.svg。
  • https://icomoon.io/app/#select 选择 Import Icons 按钮,导入my_webfont.svg后选择我们要使用的字符,比如0-9,然后点击 Generate Font 按钮。
  • 我们这里修改映射关系,尽量复杂一点且没有规律。
0 => e1f2
1 => efab
2 => eba3
3 => ecfa
4 => edfd
5 => effa
6 => ef3a
7 => e6f5
8 => ecb2
9 => e8ae
  • 设置映射关系后,点击download下载字体。
  • 字体文件全部命名为 my_webfont.*。

代码

 'e1f2',
        1 => 'efab',
        2 => 'eba3',
        3 => 'ecfa',
        4 => 'edfd',
        5 => 'effa',
        6 => 'ef3a',
        7 => 'e6f5',
        8 => 'ecb2',
        9 => 'e8ae'
    );

    for($i=0,$len=strlen($num); $i<$len; $i++){
        $n = substr($num, $i, 1);
        if(is_numeric($n)){
            $result .= '&#x'.$font_map[$n].';';
        }else{
            $result .= $n;
        }
    }

    return $result;
}

$data = array(
    array('金刚:骷髅岛', 4921.98, 5),
    array('美女与野兽', 971.36, 12),
    array('欢乐喜剧人', 590.27, 5),
    array('一条狗的使命', 389.76, 26),
    array('领袖1935', 271.27, 1),
);

?>


 
  
  利用自定义web-font实现数据防采集
  
 

 
  '.PHP_EOL;
        echo ''.PHP_EOL;
        echo ''.PHP_EOL;
        echo ''.PHP_EOL;
        echo ''.PHP_EOL;
        echo ''.PHP_EOL;
    }
?>
  
排名 片名 实时票房(万) 上映天数
'.($i+1).''.$data[$i][0].''.get_font_num($data[$i][1]).''.get_font_num($data[$i][2]).'天

Thanks ~

你可能感兴趣的:(防爬虫 - 利用自定义字体实现数据防采集)