爬取marintraffic图像相关

简述

因中心工程和科研需求,需要下载大量船只的图片。而在marintraffic这个网站上拥有大量的船只,并且包含的信息极其丰富,可以满足我们科研和工程的需求。因此希望在此网站上下载船只图片。

marintraffic这个网站的数据比较规整,可以在这里看到所有船只的信息。包括国别、MMSI、IMO、NAME、最近发现的位置等;

爬取marintraffic图像相关_第1张图片
所有船只.PNG

在这里可以根据某一艘船的shipid找到该船在这个网站上的所有图片,图片包含的信息也比较丰富,包括图片本身信息、拍摄人和船只的诸多信息,非常有价值。

爬取marintraffic图像相关_第2张图片
船只信息.PNG

我们需要的信息

我们的目标是获取船只唯一标识语船只图像的对应关系,我们希望得到的标识是MMSI、IMO、Vessel Name等


爬取marintraffic图像相关_第3张图片
有用的信息.PNG

找到一艘船的所有图像是根据它在这个网站上的唯一标识shipid得到的

根据shipid获得船只图像.PNG

所以我们希望得到的是这样的一个对应关系的数据库
shipid-MMSI-IMO-NAME
也就是这个网页源代码里的这些

对应关系.PNG

下载图片注意

我们希望下载得到的图片保存得比较有规律,
一个shipid一般对应多个图片,我们希望将这多个图片以方便管理的方式存放。同时保存每张图片的拍摄时间和地点,地点包括地点名称和经纬度

爬取marintraffic图像相关_第4张图片
图片信息.PNG

资源

网站上大概有1923545个图片,按照平均每分钟下载15张的速度看,单线程下载需要80多天才能下载完,由于网站限制不能连续下载,根据之前学长的经验再1-10秒的随机时间下载是可以避免网站的爬虫检测的。当然我试过8秒也可以,具体多少合适还不清楚。但是如果网站认为该计算机涉嫌爬虫行为,就会加入黑名单,几个星期下载不了,因此这个爬虫需要协调时间,计算机台数等信息再合理的时间下载完。

另外这个网站上的每个图像都有大小两种尺寸,我们希望把这两种尺寸都下载下来,如果两种尺寸合起来按50kB算,大概需要100G左右的存储空间

爬取marintraffic图像相关_第5张图片
小尺寸.PNG
大尺寸

这是我几个星期前用的一个代码,可参考了解网站特点。

你可能感兴趣的:(爬取marintraffic图像相关)