获取chrome80谷歌浏览器存储的指定网站Cookie数据方法详解

一、引言

说起来很惭愧,作为一个开了爬虫专栏的博主,对于需要登录再访问网站的爬虫应用,采用的是通过浏览器开发者模式获取Cookie,再拷贝到网站访问的代码中构建http请求头的方式来实现的。

这两天仔细研究了一下谷歌浏览器Cookie的访问,发现是可以直接通过代码获取浏览器访问指定网站的Cookie的,但网站上相关方法都是基于chrome 80以前的版本,而此版本及以后的版本以前的方法都不行。最后找到了CSDN博友“whenyouarebigger”的《chrome 80+ sqlite3 cookie 解密》,找到了问题的原因。

根据whenyouarebigger博文的介绍做了些测试,发现该文介绍的内容还有些问题,不能直接运行,另外也没有构造成可以应用直接在请求头中使用的Cookie。通过对比浏览器的Cookie,最终找到了问题原因,终于彻底解决了该问题,今天总结出来供大家参考一下。

二、Chrome浏览器加解密的机制介绍

2.1、chrome80以前的版本的加解密机制

chrome80以前的版本的加解密是直接通过DPAPI来进行加解密的:

  1. DPAPI是Windows系统级对数据进行加解密的一种接口,用户无需自实现加解密代码,DPAPI提供了经过验证的高质量加解密算法,提供了用户接口对密钥存储数据加解密,实现透明并提供较高的安全保证
  2. DPAPI提供了两个用户态接口:CryptProtectData加密数据、CryptUnprotectData解密数据。
    因此chrome80以前的版本可以直接调用CryptUnprotectData对加密数据进行解密。

2.2、chrome80以后版本的加解密机制

chrome80以后版本的加解密机制与上面的大不同,其具体步骤为:

  1. 从环境变量HOMEPATH对应目录的\Google\Chrome\User Data\子目录下的Local State文件中读取读取一个值为os_crypt下的encrypted_key;
    :Local State文件为chrome用于存储本地状态(包括浏览器的不少状态信息,插件的详细信息等)的json文件。
  2. 将encrypted_key用base64进行解密,然后去除前5个字符,再通过dpapi解密剩余字符的值保存为key;
  3. 将加密数据截取3-14位保存为Nonce,15位开始后的其他数据保存为cipherbytes加密数据,然后使用key作为密钥通过asegcm进行解密。

三、其他相关知识介绍

  1. chrome 的Cookie保存在本地环境变量LOCALAPPDATA对应目录的\Google\Chrome\User Data\Default子目录下的Cookies文件中,而whenyouarebigger博文中使用`=os.environ[‘HOMEPATH’]+r’\AppData\Local\Google\Chrome\User Data\Default\Cookies’这种方式获取的路径缺少了驱动器路径;
  2. 谷歌Cookies是一个sqlite3的数据库,可以通过Python的sqlite3模块连接打开访问数据;
  3. 谷歌浏览器中的Cookie是一段小型文本数据,其数据由一个或多条记录组成,每条记录间用分号分隔,每条记录包括一个名称(Name)、一个值(Value)和其它几个用于控制Cookie有效期、安全性、使用范围的可选属性组成。Name/Value设置Cookie的名称及相对应的值,对于认证Cookie,Value值包括Web服务器所提供的访问令牌;
  4. 谷歌浏览器中的Cookie,可以通过Sql语句select name,encrypted_value from cookies where host_key ='hostname'获取,name为cookie名字,encrypted_value 为加密的cookie值,hostname为:’.’+网站域名,如‘.baidu.com
  5. 为了对Cookie数据进行解密,需要使用json、base64、win32crypt和cryptography库或模块,其中json、base64是Python内置的标准库,win32crypt模块是pywin32库的模块,可以实现DPAPI方式的加解密,cryptography是一个单独的标准Python加解密库,可以提供asegcm方式的加解密。pywin32和cryptography库如果缺少则需要先安装,可以使用如下安装命令:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pywin32
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple cryptography
  1. 通过sqlite3获取Cookie数据,必须设定数据库连接的text_factory = bytes,因为加密数据为字节类型,不是字符串类型,否则就会在获取数据时报错“Could not decode to UTF-8 column 'encrypted_value' with text 'v10�M�gVI�}�.^�P=-���"���E4��'”类似的错误。这是《chrome 80+ sqlite3 cookie 解密》中没有介绍的;
  2. 由于指定通过sqlite3获得的Cookie数据都是UTF-8格式的bytes类型,而作为Cookie名的Name需要是str类型,必须要进行类型转换;
  3. 获取的Cookies是一条条记录,需要拼装成一个字符串,每条记录间用分号隔开。

`

四、案例实现代码

下面的代码根据上述介绍提供的完整获取Chrome浏览器存储的百度相关的Cookies的实现代码:

# -*- coding:'utf-8' -*-
import time,traceback,sqlite3,os,json,base64

from win32crypt import CryptUnprotectData
from cryptography.hazmat.primitives.ciphers.aead import AESGCM 

def decryptString(key,data):
    nonce,cipherbytes=data[3:15],data[15:]
    aesgcm=AESGCM(key)
    plainbytes=aesgcm.decrypt(nonce,cipherbytes,None)
    plaintext=plainbytes.decode('utf-8')

    return plaintext

def getKey():
    LocalState = os.environ['LOCALAPPDATA'] + r'\Google\Chrome\User Data\Local State'
    with open(LocalState, 'r', encoding='utf-8') as f:
        base64_encrypted_key = json.load(f)['os_crypt']['encrypted_key']
    encrypted_key_with_header=base64.b64decode(base64_encrypted_key)
    encrypted_key=encrypted_key_with_header[5:]
    key = CryptUnprotectData(encrypted_key,None,None,None,0)[1]
    return key


def getChromeCookie(hostsUrl):
    cookiepath=os.environ['LOCALAPPDATA']+r"\Google\Chrome\User Data\Default\Cookies" 
    if not os.path.exists(cookiepath):
        raise Exception('Cookies file not exist!')

    sql = f"select name,encrypted_value from cookies where host_key = '.{hostsUrl}'"
  
    try:
        conn = sqlite3.connect(cookiepath)
        conn.text_factory =  bytes 
        res=conn.execute(sql).fetchall()
        conn.close()
    except Exception as e:
        print(e)
    key = getKey()
    cookieList=[]
    for row in res:
        cookieList.append( f'{str(row[0],encoding = "utf-8")}={decryptString(key, row[1])}')
    cookie = ';'.join(cookieList)
    return cookie


print(getChromeCookie('baidu.com'))

五、小结

本文详细介绍了chrome80以上谷歌浏览器版本的加密数据解密方法、获取浏览器缓存本地文件中Cookie的方法及背景知识,并提供了获取浏览器中指定网站完整Cookie数据的实现代码,该代码获取的Cookie数据可以直接作为http请求头的Cookie值。

写博不易,敬请支持:

如果阅读本文于您有所获,敬请点赞、评论、收藏,谢谢大家的支持!

关于老猿的付费专栏

  1. 付费专栏《https://blog.csdn.net/laoyuanpython/category_9607725.html 使用PyQt开发图形界面Python应用》专门介绍基于Python的PyQt图形界面开发基础教程,对应文章目录为《 https://blog.csdn.net/LaoYuanPython/article/details/107580932 使用PyQt开发图形界面Python应用专栏目录》;
  2. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10232926.html moviepy音视频开发专栏 )详细介绍moviepy音视频剪辑合成处理的类相关方法及使用相关方法进行相关剪辑合成场景的处理,对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/107574583 moviepy音视频开发专栏文章目录》;
  3. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10581071.html OpenCV-Python初学者疑难问题集》为《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的伴生专栏,是笔者对OpenCV-Python图形图像处理学习中遇到的一些问题个人感悟的整合,相关资料基本上都是老猿反复研究的成果,有助于OpenCV-Python初学者比较深入地理解OpenCV,对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/109713407 OpenCV-Python初学者疑难问题集专栏目录 》
  4. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10762553.html Python爬虫入门 》站在一个互联网前端开发小白的角度介绍爬虫开发应知应会内容,包括爬虫入门的基础知识,以及爬取CSDN文章信息、博主信息、给文章点赞、评论等实战内容。

前两个专栏都适合有一定Python基础但无相关知识的小白读者学习,第三个专栏请大家结合《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的学习使用。

对于缺乏Python基础的同仁,可以通过老猿的免费专栏《https://blog.csdn.net/laoyuanpython/category_9831699.html 专栏:Python基础教程目录)从零开始学习Python。

如果有兴趣也愿意支持老猿的读者,欢迎购买付费专栏。

跟老猿学Python!

☞ ░ 前往老猿Python博文目录 https://blog.csdn.net/LaoYuanPython ░

你可能感兴趣的:(老猿Python,爬虫,老猿Python精品文章,python,编程语言,谷歌Chrome浏览器,Cookie,爬虫)