python 采集美食图片做迁移学习

本文利用 通过关键字爬取百度图片 设计的 API:labeldownloadimg.exe 来做一个美食分类。

1 通过 API 下载指定类别的美食

我们先创建文件 美食.txt,然后利用 labeldownloadimg.exe 将满足要求的图片下载到本地磁盘。其中指定每类图片下载 张 (超过 相关性可能会很差)。

foods = ['烤鸭', '羊肉串', '水煮肉片', '鸡汤', '烧饼', '面条', '包子', '饺子']

dir_name = r'E:\Data\URLimg\foods'

with open(dir_name+'\美食.txt', 'w') as fp:
    fp.write(','.join(foods))

2 去除重复的图片

由于搜索引擎大都是按照与关键词的相关性来对图片进行排序的,所以我们可以通过肉眼观察大概截止到哪个位置,然后删除之后所有图片就粗略删除了大部分不相关的图片。剩下的图片中一般还会有一些不相关的图片,我们可以将其视为噪声,噪声的大小取决于使用图片搜索引擎的结果质量。代码实现见 用 Python 实现哈希算法检测重复图片。

你可能感兴趣的:(python 采集美食图片做迁移学习)