Go:如何管理数据库超时和取消事务

Go的一个重要特性是可以在数据库查询时通过上下文实例取消查询(只要数据库驱动程序支持取消)。从表面上看,使用这个功能非常简单。但一旦你开始挖掘细节,就会发现有很多细微差别和相当多的陷阱……尤其是当你在web应用程序或API环境中使用这个功能时。

所以在这篇文章中,我想解释如何在web应用程序中取消数据库查询,要注意哪些奇怪的用法和边界情况,并对你可能遇到的一些情况提供解决方案。

首先,为什么要取消数据库查询?我想到了两个原因:

  • 当查询的完成时间比预期的长很多时。如果出现这种情况,则说明有问题—可能是针对特定查询,也可能是针对数据库或应用程序。在这种情况下,您可能想经过一段时间后取消查询(这样资源可以得到释放,数据库连接返回到sql.DB连接池),打印错误并返回一个500内部服务器错误给客户端。
  • 当客户端在查询完成之前意外断开。出现这种情况的原因有很多,比如用户关闭浏览器选项卡或终止进程。在这个场景中,没有什么真正的“错误”,但是无需给客户端返回响应,所以您可以取消查询并释放资源。

模拟长时间运行的查询

让我们从第一种情况开始。为了演示这一点,我将编写一个非常简单的web应用程序,该程序使用pq驱动库对PostgreSQL数据库执行SELECT pg_sleep(10) SQL查询。pg_sleep(10)函数将使查询在返回之前休眠10秒,本质上模拟一个运行缓慢的查询。

package main

import (
    "database/sql"
    "fmt"
    "log"
    "net/http"

    _ "github.com/lib/pq"
)

var db *sql.DB

func slowQuery() error {
    _, err := db.Exec("SELECT pg_sleep(10)")
    return err
}

func main() {
    var err error

    db, err = sql.Open("postgres", "postgres://user:pa$$word@localhost/example_db")
    if err != nil {
        log.Fatal(err)
    }

    if err = db.Ping(); err != nil {
        log.Fatal(err)
    }

    mux := http.NewServeMux()
    mux.HandleFunc("/", exampleHandler)

    log.Println("Listening...")
    err = http.ListenAndServe(":5000", mux)
    if err != nil {
        log.Fatal(err)
    }
}

func exampleHandler(w http.ResponseWriter, r *http.Request) {
    err := slowQuery()
    if err != nil {
        serverError(w, err)
        return
    }

    fmt.Fprintln(w, "OK")
}

func serverError(w http.ResponseWriter, err error) {
    log.Printf("ERROR: %s", err.Error())
    http.Error(w, "Sorry, something went wrong", http.StatusInternalServerError)
}

如果您运行这段代码,然后向应用程序发出一个GET /请求,应该会发现请求挂起了10秒,然后才最终得到一个“OK”响应。像这样:

$ curl -i localhost:5000/
HTTP/1.1 200 OK
Date: Fri, 17 Apr 2020 07:46:40 GMT
Content-Length: 3
Content-Type: text/plain; charset=utf-8

OK

注意:上面的应用程序代码结构被有意地简化了。在实际的项目中,我建议使用依赖注入使得sql.DB连接池和日志对象在处理程序中可用,而不是使用全局变量。关于数据库的连接管理可以阅读Go:访问数据库代码组织方式

添加上下文超时

现在我们已经有了模拟一个长时间运行的查询代码,让我们对查询执行一个超时,这样如果查询没有在5秒内完成,它就会自动取消。
要做到这一点,我们需要:
1、使用context.withtimeout()函数来创建一个context.Context。具有5秒超时时间的上下文实例。
2、使用ExecContext()方法执行SQL查询,并将context.Context作为函数参数。
如下所示:

package main

import (
    "context" 
    "database/sql"
    "fmt"
    "log"
    "net/http"
    "time"

    _ "github.com/lib/pq"
)

var db *sql.DB

func slowQuery(ctx context.Context) error {
    // 创建一个5秒超时的新子上下文,使用提供的ctx参数作为父上下文。
    ctx, cancel := context.WithTimeout(ctx, 5*time.Second)
    defer cancel()

    //将新的上下文作为db.ExecContext第一个参数
    _, err := db.ExecContext(ctx, "SELECT pg_sleep(10)")
    return err
}

...

func exampleHandler(w http.ResponseWriter, r *http.Request) {
    //  将请求上下文传递给slowQuery(),以便它可以用作父上下文。
    err := slowQuery(r.Context())
    if err != nil {
        serverError(w, err)
        return
    }

    fmt.Fprintln(w, "OK")
}

...

这里我想强调和解释几点:

  • 我们将r.Context传给slowQuery函数作为父上下文。正如后面将看到的,这个很重要,因为这意味着请求上下文上的任何取消信号都能够“扩散”到我们在ExecContext()中使用的上下文。
  • defer cancel()这行很重要,是因为它确保和子上下文相关的资源在slowQuery()函数返回前被释放。如果不调用cancel()函数的话,可能会造成内存泄漏:资源不会被释放,直到父r.Context()被取消或5秒超时被命中(无论哪个最先发生)。
  • 超时倒计时从使用context.withtimeout()创建子上下文的那一刻开始。如果你想对此进行更多的控制,你可以使用context.WithDeadline()函数,它允许你设置一个显式的超时时间。

我们来试试。如果再次运行应用程序并发出GET /请求,在5秒的延迟之后,你会得到这样的响应:

$ curl -i localhost:5000/
HTTP/1.1 500 Internal Server Error
Content-Type: text/plain; charset=utf-8
X-Content-Type-Options: nosniff
Date: Fri, 17 Apr 2020 08:21:14 GMT
Content-Length: 28

Sorry, something went wrong

如果你回到运行应用程序的终端窗口,应该看到类似这样的日志信息:

$ go run .
2021/09/22 10:21:07 Listening...
2021/09/22 10:21:14 ERROR: pq: canceling statement due to user request

这条日志信息可能看起来有点奇怪...直到你意识到错误消息实际上来自PostgreSQL。从这个角度看,它是有意义的:我们的web应用程序是用户在5秒后取消查询。

具体来说,在5秒后上下文超时,pq驱动发送一个取消信号给PostgreSQL数据库。然后PostgreSQL终止正在运行的查询(从而释放资源)。客户端被发送了一个500 Internal Server Error的响应,并且错误消息被记录下来,这样我们就知道什么地方出错了。

更准确地说,我们的子上下文(具有5秒超时的那个)有一个Done channel,当超时到达时,它将关闭Done channel。SQL查询运行时,我们的数据库驱动程序pq也在运行一个后台goroutine,侦听这个Done channel。如果该channel被关闭,将发送取消信号给PostgreSQL。PostgreSQL终止查询,作为对原始pq goroutine的响应,发送我们上面看到的错误消息。然后将该错误消息返回给slowQuery()函数。

处理关闭的连接

我们再试一种情况。使用curl来创建一个GET /请求,然后非常快速地(在5秒内)按Ctrl+C来取消请求。

如果您再次查看应用程序的日志,会看到另一行日志,其中包含与我们之前看到的完全相同的错误消息。

$ go run .
2021/09/22 10:21:07 Listening...
2021/09/22 10:21:14 ERROR: pq: canceling statement due to user request
2021/09/22 10:41:18 ERROR: pq: canceling statement due to user request

这里发生了什么?
在本例中,r.context请求上下文(我们在上面的代码中将其用作父上下文)被取消,因为客户端关闭了连接。

对于传入服务器的请求,如果客户端连接关闭或者ServeHTTP方法返回,请求上下文都会被canceled。

这个取消信号发送到我们的子上下文,它的Done channel关闭,并且pq驱动程序以与之前完全相同的方式终止正在运行的查询。

考虑到这一点,我们看到同样的错误消息就不足为奇了…从PostgreSQL的角度来看,发生的事情与超时时完全相同。

但从我们的web应用程序的角度来看,情况是非常不同的。客户端连接被关闭可能有许多不同的原因。从应用程序的角度来看,这并不是一个真正的错误,尽管将其作为告警记录下来可能是明智的。

幸运的是,可以通过在子上下文上调用ctx.Err()方法来区分这两个场景。如果上下文被取消(由于客户端关闭连接),那么ctx.Err()将返回context. canceled。如果超时,它将返回context.DeadlineExceeded。如果同时达到了最后期限并且取消了上下文,那么ctx.Err()将以最先出现的错误为准。

这里需要指出的另一件重要的事情是:在PostgreSQL查询开始之前就可能发生超时/取消。例如,您可能在sql.DB连接池上设置了MaxOpenConns()最大连接数,如果达到了连接数限制,并且所有连接都在使用中,那么查询将由sql.DB“排队”,直到连接可用。在这种情况下(或任何其他导致延迟的情况下),超时/取消很有可能在空闲数据库连接可用之前发生。在这种情况下,ExecContext()将直接返回ctx.Err()值作为响应。

如果在QueryContext()方法中,当使用Scan()处理数据时,也可能发生超时/取消。如果发生这种情况,Scan()将直接返回ctx.Err()值作为错误。据我所知,database/sql文档中并没有提到这种行为,但我在Go 1.14中碰到过这种情况。

把所有这些情况放在一起,一个明智的方法是检查“pq: canceling statement due to user request"错误,然后在slowQuery()函数返回之前用ctx.Err()中的错误包装它。

在我们的处理程序中,我们可以使用errors.Is()函数来检查slowQuery()的错误是否等于context.Canceled,并对错误进行管理。像这样:

package main

import (
    "context"
    "database/sql"
    "errors" // New import
    "fmt"
    "log"
    "net/http"
    "time"

    _ "github.com/lib/pq"
)

var db *sql.DB

func slowQuery(ctx context.Context) error {
    ctx, cancel := context.WithTimeout(ctx, 5*time.Second)
    defer cancel()

    _, err := db.ExecContext(ctx, "SELECT pg_sleep(10)")
    //如果得到"pq: canceling statement..." 对其进行封装并返回
    if err != nil && err.Error() == "pq: canceling statement due to user request" {
        return fmt.Errorf("%w: %v", ctx.Err(), err)
    }

    return err
}

...

func exampleHandler(w http.ResponseWriter, r *http.Request) {
    err := slowQuery(r.Context())
    if err != nil {
       //检查返回的错误是否等于context.Canceled,如果相等,记录告警。
        switch {
        case errors.Is(err, context.Canceled):
            serverWarning(err)
        default:
            serverError(w, err)
        }
        return
    }

    fmt.Fprintln(w, "OK")
}

func serverWarning(err error) {
    log.Printf("WARNING: %s", err.Error())
}

...

如果您现在再次运行这个应用程序,并发出两个不同的GET /请求—一个超时,另一个取消—您应该会在应用程序日志中清楚地看到不同的消息,如下所示:

$ go run .
2021/09/22 13:09:25 Listening...
2021/09/22 13:09:45 ERROR: context deadline exceeded: pq: canceling statement due to user request
2021/09/22 13:09:47 WARNING: context canceled: pq: canceling statement due to user request

其他上下文感知的方法

database/sql包为sql.DB的大部分操作提供了上下文感知变量,包括PingContext(),QueryContext(),和QueryRowContext()。我们更新main函数使用PingContext()代替Ping().

在这种情况下没有使用request context作为父context,所以需要用context.Background()创建一个空的父上下文。

...

func main() {
    var err error

    db, err = sql.Open("postgres", "postgres://user:pa$$word@localhost/example_db")
    if err != nil {
        log.Fatal(err)
    }

    // 用context.Background()作为父上下文创建一个10秒超时的子上下文
    ctx, cancel := context.WithTimeout(context.Background(), 10*time.Second)
    defer cancel()

    //  在测试连接池时使用此选项。
    if err = db.PingContext(ctx); err != nil {
        log.Fatal(err)
    }

    mux := http.NewServeMux()
    mux.HandleFunc("/", exampleHandler)

    log.Println("Listening...")
    err = http.ListenAndServe(":5000", mux)
    if err != nil {
        log.Fatal(err)
    }
}

...

可以为所有请求设置一个全局超时吗?

当然,你可以在你的路由上创建并使用一些中间件,为当前的请求上下文添加一个超时,类似如下:

func setTimeout(next http.Handler) http.Handler {
    return http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
        ctx, cancel := context.WithTimeout(r.Context(), 5*time.Second)
        defer cancel()

        // 这个可以基于已有上下文创建新的请求上下文。
        r = r.WithContext(ctx)
        next.ServeHTTP(w, r)
    })
}

如果你采用这种方法,有几件事要注意:

  • 超时从创建上下文的那一刻开始,因此在数据库查询之前,处理程序中运行的任何代码都计入超时。
  • 如果在一个处理程序中执行多个查询,那么它们都必须在同一时间内完成。
  • 即使派生的子上下文具有不同的超时时间,该超时也将继续适用。因此,可以在子上下文中设置更早的超时,但不能使其更长。

http.TimeoutHandler

Go提供了http.TimeoutHandler中间件函数来封装你的web处理程序或router/servemux。这与上面的中间件类似,因为它在请求上下文上设置了一个超时…所以上面的警告也适用于使用这个。

然而http.TimeoutHandler还向客户端发送503 服务不可用响应和一个HTML错误消息。如果你在开发中使用这个,就不需要向客户端发送错误响应了。

context在事务中的使用

database/sql包提供了一个BeginTx()方法,可以使用它来启动上下文感知的事务。重要的是理解您提供给BeginTx()的上下文应用于整个事务。在上下文超时/取消的情况下,事务中的查询将自动回滚。

为事务中的所有查询传递相同的上下文作为参数是完全没问题的,在这种情况下,它可以确保它们在任何超时/取消之前全部(作为一个整体)完成。或者你想要每个查询单独的超时,可以创建超时时间不同的子上下文。这些子上下文必须根据BeginTx()传入的上下文创建,否则可能会存在BeginTx()中的上下文已经超时/取消并自动回滚,而代码还在执行查询。如果这种情况发生会收到“sql: transaction has already been committed or rolled back”错误。

你可能感兴趣的:(Go:如何管理数据库超时和取消事务)