网络安全系列-II: Python语言本身存在的安全陷阱

由于使用了标准库和通用框架,Python开发人员相信他们开发的应用程序是安全、可靠的。

然而在Python中,有一些特性可能会被开发人员误解或误用。通常而言,只有极少的细节会使开发者们疏忽大意,从而在代码中引入严重的安全漏洞

本文着重讲解Python中的7个安全陷阱。
这些安全陷阱是在开发人员社区中鲜为人知的。通过对每个陷阱及其影响的解释,希望提高开发人员的安全意识。
如果你正在使用这些特性中的任何一个,请确保检查你的Python代码,避免引入严重的安全漏洞。

与Python相关的CVE,请参见在nvd.nist.go网站上的搜索结果

CVE 的英文全称是“Common Vulnerabilities & Exposures” 通用漏洞披露,可以在nvd.nist.gov上网站上查询指定软件的CVE
网络安全系列-II: Python语言本身存在的安全陷阱_第1张图片

1. IP 地址归一化

漏洞描述

在 Python < 3.8 中,IP 地址会被 ipaddress 库归一化,因此前缀的零会被删除。这种行为乍一看可能是无害的,但它已经在 Django 中导致了一个高严重性的漏洞(CVE-2021-33571)。攻击者可以利用归一化绕过校验程序,发起服务端请求伪造攻击(SSRF,Server-Side Request Forgery)。

如何利用

攻击者可以传入 127.000.00.1 这样的 IP 地址,在第 7 行的黑名单列表中找不到。然后,第 9 行代码使用 ipaddress.IPv4Address 将 IP 归一化为 127.0.0.1。因此,攻击者就能够绕过 SSRF 校验器,并向本地网络地址发送请求。

import requests
import ipaddress

def send_request(request):
    ip = request.GET['ip']
    try:
        if ip in ["127.0.0.1", "0.0.0.0"]:
            return HttpResponse("Not allowed!")
        ip = str(ipaddress.IPv4Address(ip))
    except ipaddress.AddressValueError:
        return HttpResponse("Error at validation!")
    requests.get('https://' + ip)
    return HttpResponse("Request send!")

2. URL 查询参数解析

漏洞描述

在 Python < 3.7 中,urllib.parse.parse_qsl 函数允许使用“;”和“&”字符作为 URL 的查询变量的分隔符。有趣的是“;”字符不能被其它语言识别为分隔符。

如何利用

假设一个公司的WEB网站:中前端是一个 PHP 程序,后端则是一个 Python 程序。

攻击者向 PHP 前端发送以下的 GET 请求:
GET https://victim.com/?a=1;b=2
PHP 前端只识别出一个查询参数“a”,其内容为“1;b=2”。PHP 不把“;”字符作为查询参数的分隔符。现在,前端会将攻击者的请求直接转发给内部的 Python 程序:

GET https://internal.backend/?a=1;b=2
如果使用了 urllib.parse.parse_qsl,Python 程序会处理成两个查询参数,即“a=1”“b=2”。这种查询参数解析的差异可能会导致致命的安全漏洞,比如 Django 中的 Web 缓存投毒漏洞(CVE-2021-23336)。

3. Unicode 编码碰撞

漏洞描述

Unicode 支持用多种形式来表示字符,并将这些字符映射到码点。然而有许多不同的人类语言,Unicode 试图将它们统一起来。这就意味着不同的字符很有可能拥有相同的“layout”。
例如,小写的土耳其语 ı(没有点)的字符是英语中大写的 I。在拉丁字母中,字符 i 也是用大写的 I 表示。在 Unicode 标准中,这两个不同的字符都以大写形式映射到同一个码点。

这种行为是可以被利用的,实际上已经在 Django 中导致了一个严重的漏洞(CVE-2019-19844)

如何利用

假设数据库中存在一个邮箱地址为 [email protected] 的用户。那么,攻击者可以简单地传入foo@mıx.com 作为第 6 行中的 email,其中 i 被替换为土耳其语 ı。第 7 行代码将邮箱转换成大写,结果是 [email protected]。这意味着找到了一个用户,因此会发送一封重置密码的邮件。

然而,邮件被发送到第 6 行未转换的邮件地址,也就是包含了土耳其语的 ı。换句话说,其他用户的密码被发送到了攻击者控制的邮件地址

from django.core.mail import send_mail
from django.http import HttpResponse
from vuln.models import User

def reset_pw(request):
    email = request.GET['email']
    result = User.objects.filter(email__exact=email.upper()).first()
    if not result:
        return HttpResponse("User not found!")
    send_mail('Reset Password','Your new pw: 123456.', '[email protected]', [email], fail_silently=False)
    return HttpResponse("Password reset email send!")

4. MakeDirs 权限

漏洞描述

os.makdirs 函数可以在操作系统中创建一个或多个文件夹。它的第二个参数 mode 用于指定创建的文件夹的默认权限。在下面代码的第 2 行中,文件夹 A/B/C 是用 rwx------ (0o700) 权限创建的。这意味着只有当前用户(所有者)拥有这些文件夹的读、写和执行权限。

def init_directories(request):
    os.makedirs("A/B/C", mode=0o700)
    return HttpResponse("Done!")

在 Python < 3.6 版本中,创建出的文件夹 A、B 和 C 的权限都是 700。但是,在 Python > 3.6 版本中,只有最后一个文件夹 C 的权限为 700,其它文件夹 A 和 B 的权限为默认的 755。

如何利用

在 Python > 3.6 中,os.makdirs 函数等价于 Linux 的这条命令:mkdir -m 700 -p A/B/C
有些开发者没有意识到版本之间的差异,这已经在 Django 中造成了一个权限越级漏洞(CVE-2020-24583)

5. 绝对路径拼接

漏洞描述

os.path.join(path, *paths) 函数用于将多个文件路径连接成一个组合的路径。第一个参数通常包含了基础路径,而之后的每个参数都被当做组件拼接到基础路径后。

然而,这个函数有一个少有人知的特性。如果拼接的某个路径以 /开头,那么包括基础路径在内的所有前缀路径都将被删除,该路径将被视为绝对路径。下面的示例揭示了开发者可能遇到的这个陷阱。

def read_file(request):
    filename = request.POST['filename']
    file_path = os.path.join("var", "lib", filename)
    if file_path.find(".") != -1:
        return HttpResponse("Failed!")
    with open(file_path) as f:
        return HttpResponse(f.read(), content_type='text/plain')

在第 3 行中,使用 os.path.join 函数将用户输入的文件名构造出目标路径。在第 4 行中,检查生成的路径是否包含”.“,防止出现路径遍历漏洞。

如何利用

攻击者传入的文件名参数为”/a/b/c.txt“,那么第 3 行得到的变量 file_path 会是一个绝对路径(/a/b/c.txt)。即 os.path.join 会忽略掉”var/lib“部分,攻击者可以不使用“.”字符就读取到任何文件。尽管 os.path.join 的文档中描述了这种行为,但这还是导致了许多漏洞(Cuckoo Sandbox Evasion, CVE-2020-35736)。

5.扩展的 Zip Slip

漏洞描述

在 Web 应用中,通常需要解压上传后的压缩文件。在 Python 中,很多人都知道 TarFile.extractall 与 TarFile.extract 函数容易受到 Zip Slip 攻击。攻击者通过篡改压缩包中的文件名,使其包含路径遍历(…/)字符,从而发起攻击。

这就是为什么压缩文件应该始终被视为不受信来源的原因。zipfile.extractallzipfile.extract 函数可以对 zip 内容进行清洗,从而防止这类路径遍历漏洞。

但是,这并不意味着在 ZipFile 库中不会出现路径遍历漏洞。下面是一段解压缩文件的代码。

def extract_html(request):
    filename = request.FILES['filename']
    zf = zipfile.ZipFile(filename.temporary_file_path(), "r")
    for entry in zf.namelist():
        if entry.endswith(".html"):
            file_content = zf.read(entry)
            with open(entry, "wb") as fp:
                fp.write(file_content)
    zf.close()
    return HttpResponse("HTML files extracted!")

第 3 行代码根据用户上传文件的临时路径,创建出一个 ZipFile 处理器。第 4 - 8 行代码将所有以“.html”结尾的压缩项提取出来。第 4 行中的 zf.namelist 函数会取到 zip 内压缩项的名称。注意,只有 zipfile.extract 与 zipfile.extractall 函数会对压缩项进行清洗,其它任何函数都不会。

如何利用

在这种情况下,攻击者可以创建一个文件名,例如“…/…/…/var/www/html”,内容随意填。该恶意文件的内容会在第 6 行被读取,并在第 7-8 行写入被攻击者控制的路径。因此,攻击者可以在整个服务器上创建任意的 HTML 文件。

如上所述,压缩包中的文件应该被看作是不受信任的。如果你不使用 zipfile.extractall 或者 zipfile.extract,你就必须对 zip 内文件的名称进行“消毒”,例如使用 os.path.basename。否则,它可能导致严重的安全漏洞,就像在 NLTK Downloader (CVE-2019-14751)中发现的那样。

7. 不完整的正则表达式匹配

漏洞描述

正则表达式(regex)是大多数 Web 程序不可或缺的一部分。我们经常能看到它被自定义的 Web 应用防火墙(WAF,Web Application Firewalls)用来作输入验证,例如检测恶意字符串。在 Python 中,re.match 和 re.search 之间有着细微的区别,我们将在下面的代码片段中演示。

def is_sql_injection(request):
pattern = re.compile(r".(union)|(select).")
name_to_test = request.GET[‘name’]
if re.search(pattern, name_to_test):
return True
return False
在第 2 行中,我们定义了一个匹配 union 或者 select 的模式,以检测可能的 SQL 注入。这是一个糟糕的写法,因为你可以轻易地绕过这些黑名单,但我们已经在线上的程序中见过它。在第 4 行中,函数 re.match 使用前面定义好的模式,检查第 3 行中的用户输入内容是否包含这些恶意的值。

如何利用

然而,与 re.search 函数不同的是,re.match 函数不匹配新行。例如,如果攻击者提交了值 1=1 \n union select,这个输入就匹配不上正则表达式。因此,检查可以被绕过,失去保护作用。

总而言之,不建议使用正则表达式黑名单进行任何安全检查。

参考

10-unknown-security-pitfalls-for-python
Hack the Stack with LocalStack: Code Vulnerabilities Explained
Code security: now there’s a tool for developers

你可能感兴趣的:(网络安全,Python,漏洞,安全,陷阱,网络安全)