架构文摘

百度工程师浅谈分布式日志

作者 | 文库基础架构

导读

introduction

我们做软件开发时，或多或少的会记录日志。由于日志不是系统的核心功能，常常被忽视，定位问题的时候才想起它。本文由浅入深的探讨不起眼的日志是否重要，以及分布式架构下的日志运维工具应该具备哪些能力，希望感兴趣的读者能从本文获得一些启发，有所帮助。

全文8832字，预计阅读时间23分钟。

GEEK TALK

什么是日志

日志是一种按照时间顺序存储记录的数据，它记录了什么时间发生了什么事情，提供精确的系统记录，根据日志信息可以定位到错误详情和根源。按照APM概念的定义，日志的特点是描述一些离散的（不连续的）事件。

日志是按照错误级别分级的，常见的错误级别有 FATAL / WARNING / NOTICE / DEBUG / TRACE 5种类型。通常我们会在项目里面定义一个日志打印级别，高于这个级别的错误日志会数据落盘。

GEEK TALK

什么时候记录日志

在大型网站系统架构里面，日志是其中的重要功能组成部分。它可以记录下系统所产生的所有行为，并按照某种规范表达出来。我们可以使用日志系统所记录的信息为系统进行排错，优化性能。通过统计用户行为日志，帮助产品运营同学做业务决策。在安全领域，日志可以反应出很多的安全攻击行为，比如登录错误，异常访问等。日志能告诉你很多关于网络中所发生事件的信息，包括性能信息、故障检测和入侵检测。还可以为审计进行审计跟踪，日志的价值是显而易见的。

GEEK TALK

日志的价值

GEEK TALK

分布式架构的日志运维

4.1 为什么要有运维工具

微服务发展迅猛的今天，松耦合的设计层出不穷，为简化服务服务带来了极大的便利。业务方向分工明确，研发同学只需要关心自己模块的版本迭代上线就好。随着整个业务架构的扩大，服务实例的数量迎来了爆炸性的增长，往往带来以下问题：

由不同团队开发，使用不同的编程语言，日志格式不规范统一；
微服务迭代速度快，日志漏记、级别使用错误、难以提取有效信息；
容器实例分布在成千上万台服务器上，横跨多个数据中心，异构部署，难以串联请求链路。

没有工具的情况下，需要登录服务实例，查看原始日志，在日志文件中通过grep、awk方式获得自己想要的信息。但在规模较大的场景中，此方法效率低下，面临问题包括日志量太大不易归档、文本搜索太慢、不方便多维度查询。这时候需要更加高效的运维工具来代替人工访问日志。常见解决思路是建立集中式日志收集系统，将所有节点上的日志统一收集，管理，访问。

4.2 运维工具建设

我们希望通过原始日志可以理解系统行为，这需要建设具备性能分析，问题定位的能力的工具平台。它能够支持：

在故障发生前，分析风险和系统瓶颈；
在故障发生时，及时通知，快速定位解决问题；
在故障发生后，有历史数据迅速复盘。

通过建设具备日志即时收集、分析、存储等能力的工具平台。用户可以快速高效地进行问题诊断、系统运维、流量稳定性监控、业务数据分析等操作。比如搭建链路追踪系统，能追踪并记录请求在系统中的调用顺序，调用时间等一系列关键信息，从而帮助我们定位异常服务和发现性能瓶颈，提升了系统的『可观测性』。前面提到日志在APM标准的定义下日志的特点是描述一些离散的（不连续的）事件。这里说下APM是什么，方便更好的构建监控方面的知识体系。

GEEK TALK

APM和可观测性

APM 是Application Performance Managment的缩写，即：“应用性能管理”。可以把它理解成一种对分布式架构进行观测分析优化的理念和方法论。监控系统（包括告警）作为SLA体系的一个重要组成部分，不仅在业务和系统中充当保镖发现问题、排查问题的作用。

随着系统不断演进完善，我们可以获得越多帮助于了解业务和系统的数据和信息，这些信息可以更进一步的帮助我们进行系统上的优化，由于可以梳理请求链路得出用户的浏览偏好，甚至可以影响业务上的关键决策。

整体来说，整个APM体系就是将大三类数据（logs、metrics、trace）应用到四大模块中（收集、加工、存储、展示），并在四个难点（程序异构，组件多样，链路完整，时效采样）上不断优化。

可观测性是APM的一大特征，主要由以下三大支柱构成，分别是Logging(日志)，Metrics(指标)，以及Tracing(应用跟踪)。

Logging：自动埋点/手动埋点，展现的是应用运行而产生的事件或者程序在执行的过程中间产生的一些日志，可以详细解释系统的运行状态，但是存储和查询需要消耗大量的资源。
Metrics：服务、端点、实例的各项指标，是一种聚合数值，存储空间很小，可以观察系统的状态和趋势，对于问题定位缺乏细节展示，最节省存储资源。
Tracing：同一TraceId的调用序列，面向的是请求，可以轻松分析出请求中异常点，资源可能消耗较大，不过依据具体功能实现相对可控。

5.1 Metrics和Prometheus

Metrics：指标。

I think that the defining characteristic of metrics is that they are aggregatable: they are the atoms that compose into a single logical gauge, counter, or histogram over a span of time.

大致上可理解为一些可进行聚合计算的原子型数据。举些例子：cpu占用情况、系统内存占用、接口响应时间、接口响应QPS、服务gc次数、订单量等。这些都是根据时间序列存储的数据值，可以在一段时间内进行一些求和、求平均、百分位等聚合计算。指标在监控系统中不可或缺，我们都需要收集每种指标在时间线上的变化，并作同比、环比上的分析。metrics的存储形式为有时间戳标记的数据流，通常存储在TSDB（时间序列数据库）中。

Metrics侧重于各种报表数据的收集和展示，常用在大规模业务的可用性建设、性能优化、容量管理等场景，通过可视化仪表盘可高效地进行日常系统巡检、快速查看应用健康状况，可以精准感知可用性和性能问题，为产品的稳定运行保驾护航。

Prometheus 是一个开源的监控解决方案，它能够提供监控指标数据的采集、存储、查询以及监控告警等功能。作为云原生基金会(CNCF)的毕业项目，Prometheus 已经在云原生领域得到了大范围的应用，并逐渐成为了业界最流行的监控解决方案之一。

下图为Prometheus的工作流程，可以简单理解为：Prometheus server定期拉取目标实例的采集数据，时间序列存储，一方面通过配置报警规则，把触发的报警发送给接收方，一方面通过组件Grafana把数据以图形化形式展示给用户。

5.2 Logging和ELK

Logging：日志。

I think that the defining characteristic of logging is that it deals with discrete events.

日志是系统运行时发生的一个个事件的记录。Logging的典型特征就是它和孤立的事件（Event）强关联，一个事件的产生所以导致了一条日志的产生。举个例子就是一个网络请求是一个事件，它被云端接到后Nginx产生了一个访问log。大量的不同外部事件间基本是离散的，比如多个用户访问云端业务时产生的5个事件间没有必然的关系，所以在一个服务节点的角度上看这些事件产生的日志间也是离散的。

关于日志管理平台，相信很多同学听说过最多的就是ELK（elastic stack），ELK是三款软件的简称，分别是Elasticsearch、 Logstash、Kibana组成。在APM体系中，它可以实现关键字的分布式搜索和日志分析，能够快速定位到我们想要的日志，通过可视化平台的展示，能够从多个维度来对日志进行细化跟踪。

Elasticsearch基于java，是个开源分布式搜索引擎，它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。

Kibana基于nodejs，是一款开源的数据分析和可视化平台，它是Elastic Stack成员之一，设计用于和Elasticsearch协作。您可以使用Kibana对Elasticsearch索引中的数据进行搜索、查看、交互操作。您可以很方便的利用图表、表格及地图对数据进行多元化的分析和呈现。

Logstash基于java，是一个开源的用于收集,分析和存储日志的工具，能够同时从多个来源采集数据，转换数据，然后将数据发送到最喜欢的存储库中（我们的存储库当然是ElasticSearch）。

下面是ELK的工作原理：

ELK中的L理解成Logging Agent比较合适。Elasticsearch和Kibana是存储、检索和分析log的标准方案。在高负载的ELK平台迭代实践中，常常采用一些优化策略。比如：ElasticSearch 做冷热数据分离，历史索引数据关闭；Filebeat更加轻量，对资源消耗更少，替代Logstash作为数据收集引擎；增加消息队列做数据缓冲，通过解耦处理过程实现削峰平谷，帮助平台顶住突发的访问压力。

ELK的缺点也是明显的，部署这样一套日志分析系统，不论是存储还是分析所需要占用的机器成本是挺大的。业务日志是时时打印的，大规模的在线服务一天日志量可能达到TB级别，如果采用ELK平台，在保证关键日志信息入库的同时，有针对性的对所需日志文件进行采集和过滤是必不可少的。

5.3 Tracing、OpenTracing和Apache SkyWalking

.Tracing：链路。

I think that the single defining characteristic of tracing , then, is that it deals with information that is request-scoped.

链路可理解为某个最外层请求下的所有调用信息。在微服务中一般有多个调用信息，如从最外层的网关开始，A服务调用B服务，调用数据库、缓存等。在链路系统中，需要清楚展现某条调用链中从主调方到被调方内部所有的调用信息。这不仅有利于梳理接口及服务间调用的关系，还有助于排查慢请求产生的原因或异常发生的原因。

Tracing最早提出是来自Google的论文《Dapper, a Large-Scale Distributed Systems Tracing Infrastructure》，它让Tracing流行起来。而Twitter基于这篇论文开发了Zipkin并开源了这个项目。再之后业界百花齐放，诞生了一大批开源和商业Tracing系统。

Tracing 以请求的维度，串联服务间的调用关系并记录调用耗时，即保留了必要的信息，又将分散的日志事件通过Span层串联，帮助我们更好的理解系统的行为、辅助调试和排查性能问题。它的基本概念如下两点：

Trace(调用链)：OpenTracing中的Trace（调用链）通过归属于此调用链的Span来隐性的定义。一条Trace（调用链）可以被认为是一个由多个Span组成的有向无环图（DAG图），可以简单理解成一次事务；
Span(跨度)：可以被翻译为跨度，可以被理解为一次方法调用，一个程序块的调用，或者一次RPC/数据库访问，只要是一个具有完整时间周期的程序访问，都可以被认为是一个Span。

对于一个组件来说，一次处理过程产生一个 Span，这个 Span 的生命周期是从接收到请求到返回响应这段过程，在单个Trace中，存在多个Span。

举个例子，比如一个请求用户订单信息的接口，流量分发到了应用层实例（Span A）来处理请求，应用层实例（Span A）需要请求订单中心服务实例（Span B）来获取订单数据，同时请求用户中心服务实例（Span C）来获取用户数据。基础服务B、C可能还有其他依赖服务链路，则如下图所示结构，Span间的因果关系如下：

[Span A]  ←←←(the root span)
            |
     +------+------+
     |             |
 [Span B]      [Span C] ←←←(Span C 是 Span A 的孩子节点, ChildOf)
     |             |
 [Span D]      +---+-------+
               |           |
           [Span E]    [Span F] >>> [Span G] >>> [Span H]
                                       ↑
                                       ↑
                                       ↑
                         (Span G 在 Span F 后被调用, FollowsFrom)

OpenTracing是一个中立的（厂商无关、平台无关）分布式追踪的API 规范，提供统一接口，可方便开发者在自己的服务中集成一种或多种分布式追踪的实现。由于近年来各种链路监控产品层出不穷，当前市面上主流的工具既有像Datadog这样的一揽子商业监控方案，也有AWS X-Ray和Google Stackdriver Trace这样的云厂商产品，还有像Zipkin、Jaeger这样的开源产品。

云原生基金会(CNCF) 推出了OpenTracing标准，推进Tracing协议和工具的标准化，统一Trace数据结构和格式。OpenTracing通过提供平台无关、厂商无关的API，使得开发人员能够方便添加（或更换）追踪系统的实现。比如从Zipkin替换成Jaeger/Skywalking等后端。

在众多Tracing产品中，值得一提的是国人自研开源的产品Skywalking。它是一款优秀的APM工具，专为微服务、云原生架构和基于容器架构而设计，支持Java、.Net、NodeJs等探针方式接入项目，数据存储支持Mysql、Elasticsearch等。功能包括了分布式链路追踪，性能指标分析和服务依赖分析等。2017年加入Apache孵化器，2019年4月17日Apache董事会批准SkyWalking成为顶级项目，目前百度厂内有一些业务线采用skywalking作为主要的日志运维平台。

5.4 Metrics，Logging和 Tracing 结合

指标、日志、链路在监控中是相辅相成的。现在再来看上图中，两两相交的部分：

通过指标和日志维度，我们可以做一些事件的聚合统计，例如，绘制流量趋势图，某应用每分钟的错误日志数
通过链路和日志系统，我们可以得到某个请求详细的请求信息，例如请求的入参、出参、链路中途方法打印出的日志信息；
通过指标和链路系统，我们可以查到请求调用信息，例如 SQL执行总时长、各依赖服务调用总次数；

可见，通过这三种类型数据相互作用，可以得到很多在某种类型数据中无法呈现的信息。例如下图是一个故障排查的示例，首先，我们从消息通知中发现告警，进入metrics指标面板，定位到有问题的数据图表，再通过指标系统查询到详细的数据，在logging日志系统查询到对应的错误，通过tracing链路追踪系统查看链路中的位置和问题（当然也可以先用链路追踪系统进行故障的定位，再查询详细日志），最后修复故障。这是一个典型的将三个系统串联起来应用的示例。

GEEK TALK

文库在日志运维上的实践

6.1 汇聚监控

文库App对于域名、中间件、依赖服务等流量稳定性，机器资源的监控，基于厂内现有的解决方案（Bns+Argus监控系统+Sia可视化平台）实现。工作流程可以理解为：

在日志采集平台（Argus）配置数据采集规则，异常判断规则和报警配置规则；
通过服务实例映射配置（Bns）获取到要采集日志的实例列表，实例服务的log format要符合采集规则的正则表达式；
Agent上报日志分析数据给MQ消化，MQ存入TSDB；
日志汇聚后的分析计算结果符合异常判断规则，则触发对应配置的报警规则；
报警规则可以配置多维度分级分时间和不同方式提醒到接收人。同时，通过配置群聊机器人对包括资源，接入层，运行层，服务及底层依赖的等服务，依据阀值进行基本实时的监控报警；
可视化平台（Sia）通过 metric 配置从 TSDB 中读出相应数据，进行图形化展示。

6.2 批量查询

即时日志捞取工具在我们业务开发中也是比较常见的，通常通过批量并发执行远程服务器指令来实现，解决依次执行的繁锁，让运维操作更安全便捷。

这种工具不依赖agent，只通过ssh就可以工作，一般通过中控机或者账户密码等方式做ssh访问控制，执行grep，tail等命令获取日志，然后对logs进行分析，可以解决日常中很多的需求。简化代码如下。

package main


import (
  "fmt"
  "log"
  "os/exec"
  "runtime"
  "sync"
)


// 并发环境
var wg sync.WaitGroup


func main() {
  runtime.GOMAXPROCS(runtime.NumCPU())
  instancesHost := getInstances()
  wg.Add(len(instancesHost))
  for _, host := range instancesHost {
    go sshCmd(host)
  }
  wg.Wait()
  fmt.Println("over!")
}


// 执行查询命令
func sshCmd(host string) {
  defer wg.Done()
  logPath := "/xx/xx/xx/"
  logShell := "grep 'FATAL' xx.log.20230207"
  cmd := exec.Command("ssh", "PasswordAuthentication=no", "ConnectTimeout=1", host, "-l", "root", "cd", logPath, "&&", logShell)
  out, err := cmd.CombinedOutput()
  fmt.Printf("exec: %s\n", cmd)
  if err != nil {
    fmt.Printf("combined out:\n%s\n", string(out))
    log.Fatalf("cmd.Run() failed with %s\n", err)
  }
  fmt.Printf("combined out:\n%s\n", string(out))
}


// 获取要查询的实例ip地址库
func getInstances() []string {
  return []string{
    "x.x.x.x",
    "x.x.x.x",
    "x.x.x.x",
  }
}

把如上代码部署在中控机上ssh免密登录，通过go run batch.go或执行go build后的二进制文件，可以实现批量查询日志的基础能力。在此基础上增加传参，可以实现指定集群实例，指定exec命令，并发度控制，优化输出等功能。

6.3 链路跟踪

文库自研的全链路日志跟踪平台，支持trace全链路日志跟踪，指标汇聚，关键信息高亮，搜索范围覆盖nginx，nodejs，php，go等异构微服务，还支持动态绘制调用链路图。用户可以通过查询tracid的方式获得一个请求链路的http分析，调用服务的次数汇聚，日志list和拓扑链路图。

透传trace的底层流程是在接入层nginx扩展生成的一个20 -26位长、编码了nginx所在机器ip和请求时间的纯数字字符串。这个字符串在请求日志、服务运行日志、rpc日志中记录，通过Http Header向下透传，在服务间调用过程中，在当前层记录调用的下一层实例ip:port信息，保证trace参数维持。

绿色的节点为链路调用的起始节点，一般是文库接入层。鼠标hover到哪个节点会title展示详情，并在整个链路中隐去与之不相关的节点链路。如果节点有fatal，warning的日志，节点背景色会以红色，黄色展示。

GEEK TALK

日志的坏味道

信息不明确。后果：执行效率降低；
格式不规范。后果：不可读，无法采集；
日志过少，缺乏关键信息。后果：降低定位问题效率；
参杂了临时、冗余、无意义的日志。后果：生产打印大量日志消耗性能；
日志错误级别使用混乱。后果：导致监控误报；
使用字符串拼接方式，而非占位符。后果：可维护性较低；
代码循环体打非必要的日志。后果：有宕机风险；
敏感数据未脱敏。后果：有隐私信息泄露风险；
日志文件未按小时分割转储。后果：不易磁盘空间回收；
服务调用间没有全局透传trace信息。后果：不能构建全链路日志跟踪。

GEEK TALK

日志 good case

能快速的定位问题；
能提取有效信息，了解原因；
了解线上系统的运行状态；
汇聚日志关键信息，可以发现系统的瓶颈；
日志随着项目迭代，同步迭代；
日志的打印和采集、上报服务，不能影响系统的正常运行。

GEEK TALK

结语

在万物上云的时代，通过搭建合适的日志运维平台来赋予数据搜索、分析和监控预警的能力，让沉寂在服务器的日志"动"起来，可以帮助我们在数据分析，问题诊断，系统改进的工作中更加顺利的进行，希望本文的内容对大家的实践有所帮助。

END

架构师交流群

「架构君」建立了读者架构师交流群，大家可以添加小编微信进行加群。欢迎有想法、乐于分享的朋友们一起交流学习。

扫描添加好友邀你进架构师群，加我时注明【姓名+公司+职位】

强势开源一款小程序！
2021-11-07
强力推荐一个完善的物流（WMS）管理项目（附代码）
2021-10-23
推荐一个 Spring Boot + MyBatis + Vue 音乐网站
2021-10-19
分享一套家庭理财系统（附源码）
2021-09-20
推荐一个互联网企业级别的开源支付系统
2021-09-04
推荐一套开源通用后台管理系统（附源码）
2021-08-21
一款神仙接私活儿软件，吊到不行！
2021-07-31
基于 SpringBoot 的仿豆瓣平台【源码分享】
2021-07-18
干掉 Wordpress！这个开源建站神器有点吊！
2021-06-18
从朋友那里搞了 20 个实战项目，速领！
2021-06-12

如有收获，点个在看，诚挚感谢

你可能感兴趣的:(分布式,数据库)

消息队列MQ 不辉放弃 kafka 大数据开发数据库
消息队列（MessageQueue，简称MQ）是一种基于异步通信模式的中间件技术，核心作用是在分布式系统中实现消息的存储、传递和缓冲，解决不同组件/服务之间的通信耦合问题，提升系统的灵活性、可靠性和可扩展性。一、核心概念与本质消息队列的本质是一个“存储消息的容器”，但它并非简单的存储工具，而是通过一套规则（如消息路由、持久化、确认机制等）实现“生产者”和“消费者”的解耦通信：生产者（Produce
如何区分Bug是前端问题还是后端问题？海姐软件测试缺陷管理 bug 前端
在软件测试中，精准定位Bug的归属（前端or后端）是高效协作的关键。以下是系统化的排查方法，结合技术细节和实战技巧：1.核心判断逻辑「数据vs展示」二分法：后端问题：数据本身错误（API返回错误数据/逻辑错误/数据库问题）前端问题：数据正确但展示异常（UI渲染错误/交互逻辑问题）2.四步定位法第一步：抓包分析（必做）工具：ChromeDevTools>Network/Fiddler/Charles
工具篇：（二）MacOS 下载 MySQL 并进行配置连接，使用 VSCode 创建 Node 项目-亲测有效全栈探索者chen mysql macos 工具 macos mysql vscode
MacOS下载MySQL并进行配置连接，使用VSCode创建Node项目我们将介绍如何在macOS上下载和配置MySQL数据库，并使用VSCode创建一个Node.js项目进行测试。通过这些步骤，您将能够顺利地设置开发环境并进行基本的数据操作。一、删除之前的MySQL配置和软件在macOS系统中，下载并配置MySQL客户端之前，清理掉之前的MySQL配置和相关软件是一个关键步骤。以下是详细的操作流
SmartETL中数据库操作与流程解耦的设计与应用
正如ETL这个概念本身所指示的，数据库读写访问是ETL的最常用甚至是最主要的操作。现代信息系统的设计与运行基本都是围绕数据库展开的，很多应用的核心功能都是对数据库的CRUD（创建、检索、更新、删除）操作。SmartETL框架设计之初就考虑到了这个情况，在早期就根据团队的技术栈，实现了对MongoDB、MySQL、ElasticSearch、ClickHouse等数据库的Extract操作（即Loa
tp5 model 使用
在thinkphp3.X的时候我们经常使用M，D方法实例化一个model，然后通过model对数据进行增删改查操作。在tp5的时候，如果再想用上面的方法，必须先定义model，刚开始的时候怎么定义都说找不到类，后来不知道怎么回事就好了，例如数据库中有表user，在application\index\model目录下建立文件User.php,然后里面这样写几个关键点：一定要写usethink\Mod
Apache Ignite 的 SQL 功能和分布式查询机制
这段内容讲的是ApacheIgnite的SQL功能和分布式查询机制。我们可以从几个关键点来理解：一、Ignite是一个分布式SQL数据库✅特点：符合ANSI-99SQL标准水平扩展（可扩展到多个节点）容错（fault-tolerant）支持两种数据分布方式：分区（Partitioned）：数据分布在多个节点上复制（Replicated）：每个节点都有完整数据副本二、SQL功能支持✅DML语句：Ig
[特殊字符] HarmonyOS实战：跨设备文件传输系统的「无缝传送」秘籍
作为一个曾在会议室传1GB演示视频传到崩溃的开发者，今天要分享HarmonyOS分布式文件传输的实战！当初用断点续传功能救了我差点被毙掉的方案，现在把这些救命技巧全公开~一、文件传输的「崩溃瞬间」与需求上周给客户演示方案时，3台设备互传视频差点翻车：断网重传：会议室WiFi突然卡，传了一半的视频要重来多设备共享：手机、平板、电脑都要同步最新版PPT权限控制：怕客户误删源文件，得限制编辑权限Harm
Apache Ignite异常处理与故障管理指南张栋涓Kerwin
ApacheIgnite异常处理与故障管理指南概述在分布式系统中，异常处理和故障管理是确保系统稳定性的关键环节。ApacheIgnite作为一个高性能的内存计算平台，提供了完善的异常处理机制和故障管理策略。本文将深入解析Ignite中的异常类型、处理方式以及关键故障处理机制，帮助开发者构建更健壮的Ignite应用。Ignite常见异常类型及处理IgniteAPI定义了多种异常类型，每种异常都有其特
Kafka单条消息长度限制详解及Java实战指南
在分布式消息系统中，Kafka以其高吞吐、低延迟的特性成为主流选择。但很多开发者在使用时会遇到一个常见问题：单条消息长度限制。本文将深入剖析Kafka的消息大小限制机制，并提供Java解决方案。一、Kafka消息长度限制核心参数Kafka通过多级配置控制消息大小，关键参数如下：配置项作用范围默认值说明message.max.bytesBroker1MB(1048588)Broker允许的最大消息尺
【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践小康师兄系统架构设计师笔记系统架构大数据 Lanbda Kappa 数据湖批处理
文章目录一、前言二、传统数据库遇到的问题2.1问题的根源2.2传统解决方法三、大数据基础3.1大数据处理技术3.2大数据利用过程3.3大数据处理系统面临的挑战3.4大数据具有的属性和特征四、Lanbda架构4.1批处理层4.2加速层4.3服务层五、Kappa架构5.1实时层5.2服务层六、Lambda和Kappa对比七、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统架构设计师——导读关注【小
阿里P8架构大神分享纯手写“kafka文档”看完直呼太牛！ chenxuyuana kafka java 分布式
什么是KafkaKafka是由Linkedin公司开发的，它是一个分布式的，支持多分区、多副本，基于Zookeeper的分布式消息流平台，它同时也是一款开源的基于发布订阅模式的消息引擎系统。kafka的外在表现很像消息系统，允许发布和订阅消息流，但是它和传统的消息系统有很大的差异：首先，kafka是个现代分布式系统，以集群的方式运行，可以自由伸缩其次，kafka可以按照要求存储数据，保存多久都可以
达梦数据库监控观测最佳实践
概述达梦企业管理器简称DEM，架构如下：概略来说，每个数据库主机安装代理程序DMAgent，在监控方面，它将指标发送至DEM服务端，用户可访问DEM控制台查看数据主机和实例的监控指标，在DEM进行配置后可通过http://:8080/dem/metrics端点暴露主机和数据库的Prometheus指标，观测云DataKit可从此端点采集指标完成达梦数据库集成。前提条件监控目标可通过DMAgent上
如何选择数据库？从真实案例看 PostgreSQL 与 MySQL 的优劣权衡
关系型数据库是几乎所有互联网应用的基础。在众多开源选项中，PostgreSQL和MySQL是最常被拿来对比的一对“老对手”。虽然它们都讲SQL，但在设计哲学、性能表现和功能特性上差异明显。本篇文章结合了包括Uber在内的实际案例、AI辅助建模的开发经验，并推荐一些实际工具，帮助开发者更清晰地做出技术选型。为什么数据库选型至关重要？数据库并不是“越强越好”，关键在于是否匹配你项目的业务模型、数据访问
“专属私有云”或“行业公有云（逻辑隔离的公共云专区）”两种主流部署模式到底有什么区别？政务云不就应该是专属的私有云么？政务云是不是不能混用？
一、安全合规性要求分层，驱动部署模式分化核心敏感系统需物理隔离（专属私有云）涉及公民隐私、国家安全（如公安、财政、医保核心数据库）的系统，必须通过物理隔离的专属私有云保障绝对控制权。例如：浦东新区公安局的涉密数据采用自建私有云，确保数据完全自主管控3。某省地市政务云要求核心业务部署在信创私有云，满足等保三级和国密算法评估要求5。非敏感公共服务适用逻辑隔离（行业公有云）面向公众的服务（如社保查询、线
mysql 清理磁盘空间汐猫 mysql 数据库
数据库相关学习资料：https://edu.51cto.com/video/655.htmlMySQL清理磁盘空间：代码示例与流程指南MySQL是一种广泛使用的开源关系数据库管理系统，它在处理大量数据时可能会占用大量的磁盘空间。随着时间的推移，数据库可能会积累许多不再需要的数据，导致磁盘空间不足。本文将介绍如何清理MySQL数据库中的磁盘空间，包括代码示例和流程图。清理磁盘空间的原因性能提升：清理
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
分布式光伏后期添加群调群控装置方案
对于当下，光伏发电项目也是很多，这样直接对电网造成了一些不利影响，为此，很多时候电力公司要求对电站进行控制，包括有功和无功。对于大的集中电站，需要AGC/AVC设备。但是对于小的分布式光伏发电来讲，需要满足技术要求的同时，还要控制好成本。为此引入了群调群控装置，也成为多合一终端。在分布式光伏电站安装部署一台多合一并网通信装置，并通过有线网络与站内智能设备连接。多合一并网通信装置接收到站内智能设备数
android ROOM kotlin官方文档完全学习
androidROOMkotlin官方文档完全学习2.6使用Room将数据保存到本地数据库|AndroidDevelopers(google.cn)一、简介1.1引入dependencies{defroom_version="2.6.1"implementation"androidx.room:room-runtime:$room_version"//如下三选一annotationProcesso
Zabbix企业级分布式监控付出不多 zabbix 分布式
目录一、zabbix监控系统1.1监控的五大核心类型1.2监控的五层逻辑架构（1）基础设施监控（2）系统层监控（3）应用层监控（4）业务监控（5）端用户体验监控二、监控系统的技术原理2.1监控系统的核心模块2.2数据采集协议分类2.3数据采集模式（1）被动模式（2）主动模式2.4分布式代理架构三、主流开源监控系统对比3.1Zabbix3.2Prometheus+Grafana3.3Nagios3.
多租户saas mysql_实现saas多租户方案比较 weixin_39535125 多租户saas mysql
看到一篇比较多租户数据隔离方案的文章，总结挺不错。其实大部分内容在我前几年写的文章都有。文章翻译自：多租户意味着同一个应用上有不用的用户隔离。这是非常典型的saas模型。你可以用不同的隔离级别来实现多租户。1.行级别：在每个数据库表里添加tenat_id字段，然后在每个查询语句也添加相应的tenant_id2.schema级别：每个租户有在同一个数据库内自己独立命名空间。可以容易使用Postgre
智能衣橱革命：大语言模型如何成为你的24小时私人造型师？
从清晨通勤的干练西装到约会餐厅的惊艳晚装，从孕期舒适穿搭到面试首印象的决胜战袍，大语言模型正悄然成为我们私人形象顾问。它融合历史时尚数据库、百万用户风格偏好与实时场景分析，在你输入“重要会议穿什么”的瞬间，便为你构建出专属着装方案——古典智慧与未来科技在指尖碰撞。导言：衣装，无声的宣言与永恒的困惑“衣裳常常显示人品”——莎士比亚在《哈姆雷特》中的箴言，穿越时空，道破了着装亘古不变的力量。衣装，这层
大数据领域如何用好 Eureka 实现服务治理大数据洞察大数据 eureka 云原生 ai
大数据领域Eureka服务治理实践：架构适配与最佳实践元数据框架标题大数据领域Eureka服务治理实践：架构适配、实现机制与最佳实践关键词Eureka；服务治理；大数据分布式系统；服务发现；负载均衡；故障恢复；云原生适配摘要Eureka作为Netflix开源的AP型服务发现组件，以其高可用性、动态适配性和轻量级特性，成为微服务架构的核心工具。然而，大数据领域的超大规模分布式、高并发数据流动、动态资
Eureka在大数据推荐系统中的服务治理实践大数据洞察 eureka 大数据云原生 ai
Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析元数据框架标题：Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析关键词：Eureka；服务治理；大数据推荐系统；分布式架构；服务发现；高可用性；动态扩展摘要：本文结合Eureka的核心特性与大数据推荐系统的需求，从第一性原理推导、架构设计、实现机制到实际应用，全面解析Eureka在推荐系统中的服务治理实践。通过
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
Python爬虫技术：高效采集开放数据的5种方法大数据洞察 python 爬虫 wpf ai
Python爬虫技术：高效采集开放数据的5种方法关键词：Python爬虫、开放数据采集、请求库、异步爬虫、分布式爬虫、动态网页解析、API直连摘要：本文围绕“如何用Python高效采集开放数据”展开，系统讲解5种主流爬虫方法（基础请求库、异步请求、动态网页渲染、分布式爬虫、API直连）的原理、适用场景与实战技巧。通过生活类比、代码示例和真实案例，帮助读者快速掌握不同场景下的爬虫策略，同时强调数据合
ASP.NET Core与Confluent.Kafka深度整合：构建高性能Kafka生产者与消费者的终极指南墨夶 C#学习资料6 asp.net kafka linq
Kafka在现代微服务架构中的量子跃迁在2025年的分布式系统战场上，ApacheKafka已经超越了传统的消息队列角色，成为微服务架构的神经中枢。本文将通过1200+行代码和深度技术解析，揭秘如何在ASP.NETCore中使用Confluent.Kafka实现工业级的Kafka生产者与消费者。我们将从底层原理到高阶技巧，带你构建可扩展、可观察的Kafka集成方案。第一章：环境准备与核心概念1.1
区块链与数字经济：互联网创业者的未来之路，构建新的商业模式口碑信息传播者
在互联网的浪潮下，区块链技术作为一种新型的分布式数据存储技术，正在逐渐改变着我们的商业模式。它以其独特的去中心化、安全性高、透明度高等特点，为数字经济的发展提供了新的契机。对于互联网创业者来说，理解区块链与数字经济的关系，把握这一技术趋势，无疑是开辟未来之路的关键。探索未来，触碰无限可能！国内区块链元宇宙正引领一场前所未有的科技革命，现在正是您加入这场盛宴的最佳时机！在这里，您将亲身体验到一个全新
在本地127.0.0.1上跨实例访问远程数据库和麻数据库
1.确保可以和远程目标库连接通畅2.确保开启了sqlserver的TCP/IP3.创建LInkedserver-------先删除掉已存在的Remote203IFEXISTS(SELECT1FROMsys.serversWHEREname='Remote203')BEGINEXECsp_dropserver'Remote203','droplogins';ENDGO------------创建链接
微算法科技(MLGO)基于 Grover 的量子算法在图形游戏中寻找纯纳什均衡的创新突破 MicroTech2025 科技量子计算
随着量子计算的迅猛发展，各行各业正积极探索其潜力，特别是在博弈论领域。在博弈论中，纳什均衡是描述多个参与者在游戏中选择策略时相互影响的一种状态。在很多情况下，找到纯纳什均衡并不容易，尤其是在复杂的图形游戏中。传统算法的计算复杂性常常导致求解时间过长，因此引入量子算法有助于提高效率。Grover搜索算法是一种有效的量子搜索算法，能够在未标记的数据库中以平方根的时间复杂度找到目标元素。它通过振幅放大技
网络爬虫再深入——对抗指纹检测、分布式架构与智能解析实战 rooney2024 爬虫
目录一、深入反爬：浏览器指纹检测与对抗（配图1）1.高级指纹检测原理2.对抗方案与实战二、分布式爬虫架构深度设计（配图2）1.容错与弹性设计2.智能限流算法三、智能解析：LLM与计算机视觉的融合（配图3）1.LLM解析非结构化文本2.视觉辅助定位元素四、法律与伦理：爬虫工程师的自我修养1.关键法律边界2.道德实践框架五、未来战场：Web3.0时代的爬虫技术演进1.去中心化网络挑战2.AI驱动的自适
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs