某少儿不宜网站图片拍摄位置分析,Python批量读取图片GPS位置!

1. python读取图片exif属性中的GPS信息

  • 智能手机或平板如果在拍照时开启定位服务,照片中就会记录拍照位置信息和拍摄时间。如果将原始照片直接发送发布到网上,无意中就泄漏了自己的位置信息,有恶意企图的人可能会通过照片分析出你的家庭住址和工作单位。
  • python有很多工具库可以解析图片的exif元数据信息,笔者喜欢使用exifread这个库。

2. 完整代码(需要使用python3)

  • 图片exif属性中的经纬度是“度,分,秒”的形式,如:[25, 34, 5927/100],需要转换成类似“16.439683,39.941649999”这样的形式。
  • 除经纬度外,还要读取GPS元数据中的东西半球和南北半球标识。
  • 经纬度转换成地理位置需要调用地图服务接口,本程序代码采用百度的逆地理编码服务API接口,调用接口需要申请服务密钥。
  • 笔者自己利用手机拍照测试,程序分析后得到的位置信息基本没有误差。
#!/bin/python
#coding:utf8
import os
import exifread
import re
import sys
import requests
import json

__author__ = 'DaDaLuLa'


#************************************************************************
#代码功能:                                                               #
#   1.读取所有图片文件的exif信息                                            #
#   2.提取图片中的经纬度,将度、分、秒转换为小数形式                           #
#   3.利用百度地图API接口将经纬度转换成地址形式                               #    
#************************************************************************


#遍历文件夹及子文件夹中的所有图片,逐个文件读取exif信息
def get_pic_GPS(pic_dir): 
    items = os.listdir(pic_dir) 
    for item in items: 
        path = os.path.join(pic_dir, item) 
        if os.path.isdir(path): 
            get_pic_GPS(path) 
        else: 
            imageread(path)

#将经纬度转换为小数形式 
def convert_to_decimal(*gps):
    #度
    if '/' in gps[0]:
        deg = gps[0].split('/')
        if deg[0] == '0' or deg[1] == '0':
            gps_d = 0
        else:
            gps_d = float(deg[0]) / float(deg[1])
    else:
        gps_d = float(gps[0])
    #分
    if '/' in gps[1]:
        minu = gps[1].split('/')
        if minu[0] == '0' or minu[1] == '0':
            gps_m = 0
        else:
            gps_m = (float(minu[0]) / float(minu[1])) / 60
    else:
        gps_m = float(gps[1]) / 60
    #秒
    if '/' in gps[2]:
        sec = gps[2].split('/')
        if sec[0] == '0' or sec[1] == '0':
            gps_s = 0
        else:
            gps_s = (float(sec[0]) / float(sec[1])) / 3600
    else:
        gps_s = float(gps[2]) / 3600

    decimal_gps = gps_d + gps_m + gps_s
    #如果是南半球或是西半球
    if gps[3] == 'W' or gps[3] == 'S' or gps[3] == "83" or gps[3] == "87":
        return str(decimal_gps * -1)
    else:
        return str(decimal_gps)


#读取图片的经纬度和拍摄时间
def imageread(path):
    f = open(path,'rb')
    GPS = {}
    Data = ""
    try:
        tags = exifread.process_file(f)
    except:
        return 
    '''
    for tag in tags:               
        print(tag,":",tags[tag])
    '''
        
        
    #南北半球标识
    if 'GPS GPSLatitudeRef' in tags:
        GPS['GPSLatitudeRef'] = str(tags['GPS GPSLatitudeRef'])
    else:
        GPS['GPSLatitudeRef'] = 'N' #缺省设置为北半球

    
    #东西半球标识
    if 'GPS GPSLongitudeRef'in tags:
        GPS['GPSLongitudeRef'] = str(tags['GPS GPSLongitudeRef'])
    else:
        GPS['GPSLongitudeRef'] = 'E' #缺省设置为东半球
    
    #海拔高度标识
    if 'GPS GPSAltitudeRef' in tags:
        GPS['GPSAltitudeRef'] =  str(tags['GPS GPSAltitudeRef'])
    
    #获取纬度
    if 'GPS GPSLatitude' in tags:
        lat = str(tags['GPS GPSLatitude'])
        #处理无效值
        if lat == '[0, 0, 0]' or lat == '[0/0, 0/0, 0/0]':
            return
            
        deg, minu, sec = [x.replace(' ', '') for x in lat[1:-1].split(',')]
        #将纬度转换为小数形式
        GPS['GPSLatitude'] = convert_to_decimal(deg, minu, sec,GPS['GPSLatitudeRef'])
    
    #获取经度
    if 'GPS GPSLongitude' in tags:
        lng = str(tags['GPS GPSLongitude'])
    
        #处理无效值
        if lng == '[0, 0, 0]' or lng == '[0/0, 0/0, 0/0]':
            return
            
        deg, minu, sec = [x.replace(' ', '') for x in lng[1:-1].split(',')]
        #将经度转换为小数形式
        GPS['GPSLongitude'] = convert_to_decimal(deg, minu, sec,GPS['GPSLongitudeRef'])#对特殊的经纬度格式进行处理

    #获取海拔高度
    if 'GPS GPSAltitude' in tags:
        GPS['GPSAltitude'] = str(tags["GPS GPSAltitude"])

    #获取图片拍摄时间
    if 'Image DateTime' in tags:
        GPS["DateTime"] = str(tags["Image DateTime"])
    elif "EXIF DateTimeOriginal" in tags:
        GPS["DateTime"] = str(tags["EXIF DateTimeOriginal"])

    if 'GPSLatitude' in GPS:
        #将经纬度转换为地址
        convert_gps_to_address(GPS)

#利用百度全球逆地理编码服务(Geocoder)Web API接口服务将经纬转换为位置信息
def convert_gps_to_address(GPS):
    secret_key = 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'#百度密钥
    lat, lng = GPS['GPSLatitude'], GPS['GPSLongitude']
    #注意coordtype为wgs84ll(GPS经纬度),否则定位会出现偏差
    baidu_map_api = "http://api.map.baidu.com/geocoder/v2/?coordtype=wgs84ll&location={0},{1}&output=json&pois=0&ak={2}".format(lat,lng,secret_key)
    content = requests.get(baidu_map_api).text
    gps_address = json.loads(content)
    #结构化的地址
    formatted_address = gps_address["result"]["formatted_address"]
    #国家(若需访问境外POI,需申请逆地理编码境外POI服务权限)
    country = gps_address["result"]["addressComponent"]["country"]
    #省
    province = gps_address["result"]["addressComponent"]["province"]
    #城市
    city = gps_address["result"]["addressComponent"]["city"]
    #区
    district = gps_address["result"]["addressComponent"]["district"]
    #语义化地址描述
    sematic_description = gps_address["result"]["sematic_description"]
    #将转换后的信息写入文件 
    with open("gps_address.csv","a+") as csv:
            csv.write(GPS["DateTime"] + "|" + formatted_address + "|" + country + "|" + province + "|" + city + "|" + district + "|" + sematic_description + "\n")            

if __name__ == "__main__":
    get_pic_GPS("./photo/")
  • 从网站下载多张照片,测试运行结果如下:
    2017:07:27 22:02:52|天津市河东区长征路8号|中国|天津市|天津市|河东区|水利家园东79米
    2018:10:28 17:53:32|广东省广州市天河区员村二横路|中国|广东省|广州市|天河区|程界子富新村内
    2017:08:30 05:52:54|山东省济南市济阳县经四路|中国|山东省|济南市|济阳县|嘉景苑南
  • 某少儿不宜网站图片拍摄位置分析,Python批量读取图片GPS位置!_第1张图片

3. 某色情网站照片GPS批量提取

  • 笔者无意中发现,互联网上传播的一些色情图片保留了完整的GPS等元数据信息。为了分析色情图片的拍摄位置,从某网站爬取了34万张少儿不宜的图片。利用上文中的程序进行分析,共获取了3000余张图片包含的经纬度信息,利用百度地图API接口转换成对应的精确地理位置信息
    photo.jpg
  • 经程序分析后获取的部分数据如下(多数位置信息能够精确所在的小区和酒店,以下结果对具体地址加*号处理):
    2017:10:16 15:13:43|四川省成都市双流县华阳大道4段-200|中国|四川省|成都市|双流县|成都栢顿*大酒店内
    2017:10:16 15:43:39|四川省成都市双流县华阳大道4段-200|中国|四川省|成都市|双流县|泊尔*酒店
    2017:10:24 19:41:37|四川省成都市双流县华阳大道4段-200|中国|四川省|成都市|双流县|泊尔*酒店
    2017:08:31 22:04:58|山东省潍坊市诸城市|中国|山东省|潍坊市|诸城市|万*家园内
    2017:08:31 22:05:20|山东省潍坊市诸城市|中国|山东省|潍坊市|诸城市|万*家园内
    2017:08:31 22:04:29|山东省潍坊市诸城市|中国|山东省|潍坊市|诸城市|万*家园内
    2017:08:31 22:07:36|山东省潍坊市诸城市|中国|山东省|潍坊市|诸城市|万*家园内
    2018:01:24 23:21:23|河南省许昌市长葛市铁东路|中国|河南省|许昌市|长葛市|幸*小区
    2018:01:24 23:21:20|河南省许昌市长葛市铁东路|中国|河南省|许昌市|长葛市|幸*小区
    018:08:31 22:56:52|广东省深圳市宝安区航城大道|中国|广东省|深圳市|宝安区|南航明*花园内
    2018:11:14 21:43:42|广东省深圳市宝安区航城大道|中国|广东省|深圳市|宝安区|南航明*花园内
    2018:06:21 21:43:45|辽宁省沈阳市于洪区中央大街|中国|辽宁省|沈阳市|于洪区|沈阳世纪高尔*俱乐部内
    2018:08:23 19:04:38|辽宁省沈阳市大东区滂江街|中国|辽宁省|沈阳市|大东区|龙之*畅园内
    2018:10:24 23:16:13|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水墨*青内
    2018:10:24 23:12:40|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水墨*青内
    2018:10:24 23:34:06|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水墨*青内
    2018:10:24 23:12:30|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水墨*青内
    2017:10:10 07:37:31|广东省深圳市宝安区澳桂路|中国|广东省|深圳市|宝安区|尚品*居内
    2017:10:10 07:37:36|广东省深圳市宝安区澳桂路|中国|广东省|深圳市|宝安区|尚品*居内
    2017:10:21 20:28:06|江苏省徐州市云龙区大工巷1号楼2楼|中国|江苏省|徐州市|云龙区|建*小区内
    2017:10:21 20:22:25|江苏省徐州市云龙区大工巷1号楼2楼|中国|江苏省|徐州市|云龙区|建*小区内
    2017:11:07 16:02:51|广东省深圳市宝安区澳桂路|中国|广东省|深圳市|宝安区|尚品*居内
    2017:11:07 16:02:50|广东省深圳市宝安区澳桂路|中国|广东省|深圳市|宝安区|尚品*居内
    2018:04:04 15:40:21|上海市宝山区春雷路372号|中国|上海市|上海市|宝山区|上海中*医院内
    2018:04:04 15:40:14|上海市宝山区春雷路372号|中国|上海市|上海市|宝山区|上海中*医院内
    2017:10:16 22:42:54|浙江省温州市永嘉县|中国|浙江省|温州市|永嘉县|西后村附近37米
    2018:11:14 21:44:13|广东省深圳市宝安区宝安大道5005-9|中国|广东省|深圳市|宝安区|汇*居内
    2013:05:13 00:20:17|四川省成都市成华区建设北路2段-4号|中国|四川省|成都市|成华区|电子科技大学(沙河校区)内
    2017:10:30 11:47:33|广东省汕头市龙湖区长平路东段|中国|广东省|汕头市|龙湖区|汕头龙光喜来*酒店内,龙光世纪大厦南59米
    2017:10:30 11:35:11|广东省汕头市龙湖区金环南路|中国|广东省|汕头市|龙湖区|汕头龙光喜来*酒店内,龙光世纪大厦内0米
    2017:07:28 23:11:27|山东省济南市济阳县纬一路|中国|山东省|济南市|济阳县|雅*园-四区内
    2017:07:29 05:20:51|山东省济南市济阳县纬一路|中国|山东省|济南市|济阳县|雅*园-四区内
    2017:07:28 23:12:03|山东省济南市济阳县纬一路|中国|山东省|济南市|济阳县|雅*园-四区内
    2018:01:09 13:14:27|河北省沧州市任丘市燕山南道|中国|河北省|沧州市|任丘市|源*美璟商业广场内,源*大酒店内
    2017:12:31 11:28:04|浙江省杭州市江干区秋涛北路38号|中国|浙江省|杭州市|江干区|浙江大学医学院附属邵逸夫医院(庆春院区)西南298米
    2017:12:31 11:24:09|浙江省杭州市江干区秋涛北路52号3023|中国|浙江省|杭州市|江干区|杭州钱*精品酒店内
    2018:01:13 10:47:13|浙江省杭州市上城区浣纱路18号|中国|浙江省|杭州市|上城区|浙江烟草大楼东54米
    2017:12:31 11:30:59|浙江省杭州市江干区秋涛北路52号3023|中国|浙江省|杭州市|江干区|杭州钱*精品酒店内
    2018:06:21 21:43:45|辽宁省沈阳市于洪区中央大街|中国|辽宁省|沈阳市|于洪区|沈阳世纪高*俱乐部内
    2018:08:23 19:04:38|辽宁省沈阳市大东区滂江街|中国|辽宁省|沈阳市|大东区|龙之*畅园内
    2018:10:24 23:16:13|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水*丹青内
    2018:10:24 23:12:40|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水*丹青内
    2018:10:24 23:34:06|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水*丹青内
    2018:10:24 23:12:30|辽宁省沈阳市于洪区十一号街|中国|辽宁省|沈阳市|于洪区|水*丹青内
    2017:08:07 21:47:14|江苏省苏州市张家港市小河坝西路|中国|江苏省|苏州市|张家港市|尚*国际内
    2017:05:01 23:17:23|江苏省苏州市张家港市小河坝西路|中国|江苏省|苏州市|张家港市|尚*国际内
    2017:05:01 22:56:49|江苏省苏州市张家港市小河坝西路|中国|江苏省|苏州市|张家港市|尚*国际内
    2017:05:01 23:13:07|江苏省苏州市张家港市小河坝西路|中国|江苏省|苏州市|张家港市|尚*国际内
    2017:09:15 09:29:44|陕西省西安市未央区浐灞二路|中国|陕西省|西安市|未央区|滹*小区西69米
    2017:09:15 09:25:36|陕西省西安市未央区浐灞二路|中国|陕西省|西安市|未央区|泘*小学内
    2017:09:15 09:27:12|陕西省西安市未央区浐灞二路|中国|陕西省|西安市|未央区|滹*锦绣-北区内
    2017:09:15 09:25:38|陕西省西安市未央区浐灞二路|中国|陕西省|西安市|未央区|泘沱小学内
    2018:08:23 23:06:26|福建省南平市建阳市黄溪路93号|中国|福建省|南平市|建阳市|金*大酒店(上水南路店)内
    2017:09:15 21:53:39|四川省成都市成华区和锦路|中国|四川省|成都市|成华区|成都*畔生活酒店(成都火车东站魅力店)
    2017:06:30 23:22:51|福建省福州市闽侯县广贤路|中国|福建省|福州市|闽侯县|福建华南*职业学院(旗山校区)内
    2017:12:04 00:32:06|福建省福州市仓山区永南路|中国|福建省|福州市|仓山区|领*新城内
    2017:08:06 10:07:41|四川省成都市新都区詹家湾路|中国|四川省|成都市|新都区|润*花园内

4. 拍摄位置分析

  • 拍摄地分析
  1. 利用python的科学库numpy、数据分析库panda、绘图库matplotlib和数据可视化库pyecharts,对获取的不良图片拍摄位置数据进行处理,分析不良图片拍摄地分布情况。
  2. 本文进对数据进行粗略分析,展示结果仅作一般性观察分析,不代表笔者任何观点和倾向。
#代码在notebook中执行
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.sans-serif'] = ['Simhei']
df = pd.read_csv('gps_address.csv',sep='|')
fig = plt.figure(figsize=(15,20))
data = df["province"].value_counts()
num_of_province = data.values
plt.barh(range(len(num_of_province),0,-1),num_of_province,height=0.7,color='steelblue',alpha=0.8)
plt.title("各省分布情况",fontsize=20)
plt.xlabel("数量",fontsize=15)
plt.ylim(0,len(num_of_province)+1)
plt.yticks(range(len(num_of_province),0,-1),data.index,fontsize=15)
for x,y in enumerate(np.sort(num_of_province)):
    plt.text(y + 0.5,x + 0.9,'%s' % y,fontsize=18 )
plt.show()

某少儿不宜网站图片拍摄位置分析,Python批量读取图片GPS位置!_第2张图片

 

province.png

fig = plt.figure(figsize=(15,40))
data = df["city"].value_counts()
num_of_city = data.values
plt.barh(range(len(num_of_city),0,-1),num_of_city,height=0.8,color='steelblue',alpha=0.8)
plt.title("城市分布情况",fontsize=20)
plt.xlabel("数量",fontsize=15)
plt.yticks(range(len(num_of_city),0,-1),data.index,fontsize=15)
plt.ylim(0,len(num_of_city)+2)
for x,y in enumerate(np.sort(num_of_city)):
    plt.text(y +0.2,x + 0.8,'%s' % y,fontsize=18 )
plt.show()

某少儿不宜网站图片拍摄位置分析,Python批量读取图片GPS位置!_第3张图片

 

city.png

  • 各省分布情况地图展示
from pyecharts import Map, Geo
import re
provinces = list(df["province"].value_counts().index)
provinces = [re.sub("壮族自治区|自治区|省|市","",x) for x in provinces]
print(provinces)

pro_values = list(df["province"].value_counts().values)
city = list(df["province"].value_counts().index)
city_values = list(df["province"].value_counts().values)

geo = Geo("各省分布情况", "", title_color="#fff",
          title_pos="center", width=1000,
          height=600, background_color='#404a59')
geo.add("", provinces, pro_values, visual_range=[0, 200], maptype='china',visual_text_color="#fff",
        symbol_size=10, is_visualmap=True)

geo

某少儿不宜网站图片拍摄位置分析,Python批量读取图片GPS位置!_第4张图片

 

各省分布情况.png

  • 城市分布情况地图展示
city = list(df["city"].value_counts().index)
city= [re.sub("白族自治州|市","",x) for x in city]
city_values = list(df["city"].value_counts().values)
geo = Geo("城市分布情况", "", title_color="#fff",title_pos="center", width=1000,height=600, background_color='#404a59')
geo.add("", city, city_values, visual_range=[0, 200], maptype='china',visual_text_color="#fff", symbol_size=10, is_visualmap=True)
geo

某少儿不宜网站图片拍摄位置分析,Python批量读取图片GPS位置!_第5张图片

 

城市分布情况.png

你可能感兴趣的:(Python技术,爬虫技术,编程,mysql,javascript,jquery,typescript,自然语言处理)