Elastic 中国社区官方博客

Elasticsearch：是时候离开了！ - 在 Elasticsearch 文档上使用 TTL

作者：来自 Elastic David Pilato

想象一下，圣诞老人必须向世界上所有的孩子们分发礼物。他有很多工作要做，他需要保持高效。他有一份所有孩子的名单，并且知道他们住在哪里。他很可能会将礼物按区域分组，然后再交付。但他不会在同一个地方停留太久。他会丢下礼物然后离开。他不会等待孩子们打开礼物。他就会离开。

也许我们可以建议他列出一份他仍然需要访问的城市的清单。一旦他送出了礼物，他就可以将这些城市从名单中删除。这样，他就会知道自己还要去哪里。而且他也不会浪费时间回到同一个地方。

为此，他只需使用他必须访问的城市的 TTL（time to live - 生存时间）即可。他只需将 TTL 设置为他需要递送礼物的时间即可。一旦 TTL 过期，他就会从列表中删除这些城市。

他的旅程可能是这样的：

{ "city": "Sidney", "deliver": "ASAP", "ttl": 0 }
{ "city": "Singapore", "deliver": "1 minute", "ttl": 1 }
{ "city": "Vilnius", "deliver": "3 minutes", "ttl": 3 }
{ "city": "Paris", "deliver": "5 minutes", "ttl": 5 }
{ "city": "London", "deliver": "6 minutes", "ttl": 6 }
{ "city": "Montréal", "deliver": "7 minutes", "ttl": 7 }
{ "city": "San Francisco", "deliver": "9 minutes", "ttl": 9 }
{ "city": "North Pole", "deliver": "forever" }

ttl 包含我们的 TTL 值（以分钟为单位）：

没有值意味着该文档将永远保留
零意味着我们要尽快删除该文档
任何正值都对应于删除文档之前需要等待的分钟数

ttl 摄取管道

要实现这样的功能，你只需要一个摄取管道：

PUT /_ingest/pipeline/ttl
{
  "processors": [
    {
      "set": {
        "field": "ingest_date",
        "value": "{{{_ingest.timestamp}}}"
      }
    },
    {
      "script": {
        "lang": "painless",
        "source": """
          ctx['ttl_date'] = ZonedDateTime.parse(ctx['ingest_date']).plusMinutes(ctx['ttl']);
        """,
        "if": "ctx?.ttl != null"
      }
    },
    {
      "remove": {
        "field": [ "ingest_date", "ttl" ],
        "ignore_missing": true
      }
    }
  ]
}

让我们解释一下。

第一个处理器在文档中设置一个临时字段 (ingest_date)，然后我们在其中注入执行管道的时间 (_ingest.timestamp)，该时间或多或少是索引日期。

然后我们运行一个 painless 脚本：

ctx['ttl_date'] = ZonedDateTime.parse(ctx['ingest_date']).plusMinutes(ctx['ttl']);

他的脚本根据 ingest_date 字段中可用的字符串值创建一个 ZonedDateTime java 对象。然后我们只需调用 plusMinutes 方法并提供 ttl 的值作为参数。这只会将摄取日期移动几分钟。我们将结果存储在 ttl_date 新字段中。

请注意，我们需要添加一个条件，仅当 ttl 字段存在时才运行该处理器：

"if": "ctx?.ttl != null"

然后，我们只需删除不需要的字段 ingest_date 和可选的 ttl（如果我们不再需要它）。请注意，出于调试目的，保留 ttl 可能是明智之举。如果没有设置 ttl，如果丢失，我们也需要忽略它。这是通过 “ignore_missing”: true 参数完成的。

为了测试这个管道，我们可以使用 simulate API：

POST /_ingest/pipeline/ttl/_simulate?filter_path=docs.doc._source,docs.doc._ingest
{
  "docs": [
    {
      "_source": { "city": "Sidney", "deliver": "ASAP", "ttl": 0 }
    },
    {
      "_source": { "city": "Singapore", "deliver": "1 minute", "ttl": 1 }
    },
    {
      "_source": { "city": "Paris", "deliver": "5 minutes", "ttl": 5 }
    },
    {
      "_source": { "city": "North Pole", "deliver": "forever" }
    }
  ]  
}

请注意在上面所显示的时间为 UTC 时间。我在当前的北京时间是下午 14点多。

我们可以看到文档删除的更改日期。

自动创建 ttl_date 字段

我们可以使用 final_pipeline 索引设置将 ttl 管道定义为在实际索引操作之前使用的管道。

PUT /ttl-demo
{
  "settings": {
    "final_pipeline": "ttl"
  },
  "mappings": {
    "_source": {
      "excludes": [
        "ttl_date"
      ]
    },
    "properties": {
      "ttl_date": {
        "type": "date"
      }
    }
  }
}

你还可以使用 default_pipeline 索引设置，但你需要注意，如果一个用户想要使用用户管道索引文档，则不会调用 ttl 管道，例如：

POST /ttl-demo/_doc?pipeline=my-pipeline
{ 
  "city": "Singapore", 
  "deliver": "1 minute", 
  "ttl": 1
}

请注意，我们从 _source 字段中删除了 ttl_date 字段。我们不想将其存储在 _source 字段中，因为它只是一个 “技术 ”字段。

索引文档

我们现在可以注入我们的数据集：

POST /ttl-demo/_bulk
{ "index": {} }
{ "city": "Sidney", "deliver": "ASAP", "ttl": 0 }
{ "index": {} }
{ "city": "Singapore", "deliver": "1 minute", "ttl": 1 }
{ "index": {} }
{ "city": "Vilnius", "deliver": "3 minutes", "ttl": 3 }
{ "index": {} }
{ "city": "Paris", "deliver": "5 minutes", "ttl": 5 }
{ "index": {} }
{ "city": "London", "deliver": "6 minutes", "ttl": 6 }
{ "index": {} }
{ "city": "Montréal", "deliver": "7 minutes", "ttl": 7 }
{ "index": {} }
{ "city": "San Francisco", "deliver": "9 minutes", "ttl": 9 }
{ "index": {} }
{ "city": "North Pole", "deliver": "forever" }

删除经过 TTL 处理的文档

现在可以轻松运行 “Delete By Query” 调用：

POST /ttl-demo/_delete_by_query
{
  "query": {
    "range": {
      "ttl_date": {
        "lte": "now"
      }
    }
  }
}

我们只想删除所有早于现在（即请求执行时间）的文档。

如果我们立即运行它，我们可以看到只有文档 { "city": "Sidney", "deliver": "ASAP", "ttl": 0 } 被删除。
一分钟后，{ "city": "Singapore”, "deliver": "1 minute", "ttl": 1 }。再过几分钟，就只剩下 { "city": "North Pole", "deliver": "forever" } 了。它将永远保留。

使用 Watcher 每分钟运行一次

你可以使用 crontab 每分钟运行一次这样的查询：

* * * * * curl -XPOST -u elastic:changeme https://127.0.0.1:9200/ttl-demo/_delete_by_query -H 'Content-Type: application/json' -d '{"query":{"range":{"ttl_date":{"lte":"now"}}}}'

请注意，你必须监视此作业。但如果你有商业许可证，你也可以使用 Watcher 直接从 Elasticsearch 运行它：

PUT _watcher/watch/ttl
{
  "trigger": {
    "schedule": {
      "interval": "1m"
    }
  },
  "input": {
    "simple" : {}
  },
  "condition": {
    "always" : {}
  },
  "actions": {
    "call_dbq": {
      "webhook": {
        "url": "https://127.0.0.1:9200/ttl-demo/_delete_by_query",
        "method": "post",
        "body": "{\"query\":{\"range\":{\"ttl_date\":{\"lte\":\"now\"}}}}",
        "auth": {
          "basic": {
            "username": "elastic",
            "password": "changeme"
          }
        }
      }
    }
  }
}

请注意，我们使用 interval 参数每分钟运行此操作。我们使用 Webhook 来调用按查询删除 API。另请注意，我们需要提供身份验证信息。在上面，你需要根据自己的用户账号修改上面的身份信息。

如果你不是在 cloud.elastic.co 上运行，而是在本地使用自签名证书运行，因为 Elasticsearch 默认情况下是安全的，你需要将 xpack.http.ssl.verification_mode 设置为 none。否则 Elasticsearch 将不会接受自签名证书。当然，这只是为了测试目的。不要在生产中这样做！如果我们不设置这个参数为 none，我们可以看到如下的错误信息：

最多一分钟后，圣诞老人就会看到他必须访问的城市已从列表中删除：

GET /ttl-demo/_search

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 6,
      "relation": "eq"
    },
    "max_score": 1,
    "hits": [
      {
        "_index": "ttl-demo",
        "_id": "IBTn-4sBOKvQy-0aU35M",
        "_score": 1,
        "_source": {
          "deliver": "3 minutes",
          "city": "Vilnius"
        }
      },
      {
        "_index": "ttl-demo",
        "_id": "IRTn-4sBOKvQy-0aU35M",
        "_score": 1,
        "_source": {
          "deliver": "5 minutes",
          "city": "Paris"
        }
      },
      {
        "_index": "ttl-demo",
        "_id": "IhTn-4sBOKvQy-0aU35M",
        "_score": 1,
        "_source": {
          "deliver": "6 minutes",
          "city": "London"
        }
      },
      {
        "_index": "ttl-demo",
        "_id": "IxTn-4sBOKvQy-0aU35M",
        "_score": 1,
        "_source": {
          "deliver": "7 minutes",
          "city": "Montréal"
        }
      },
      {
        "_index": "ttl-demo",
        "_id": "JBTn-4sBOKvQy-0aU35M",
        "_score": 1,
        "_source": {
          "deliver": "9 minutes",
          "city": "San Francisco"
        }
      },
      {
        "_index": "ttl-demo",
        "_id": "JRTn-4sBOKvQy-0aU35M",
        "_score": 1,
        "_source": {
          "city": "North Pole",
          "deliver": "forever"
        }
      }
    ]
  }
}

到最后，这里就只剩下他的家了：

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 1,
    "hits": [
      {
        "_index": "ttl-demo",
        "_id": "JRTn-4sBOKvQy-0aU35M",
        "_score": 1,
        "_source": {
          "city": "North Pole",
          "deliver": "forever"
        }
      }
    ]
  }
}

这是一个简单快速但不够规范的解决方案，用于从 Elasticsearch 集群中删除旧数据。但请注意，你永远不应该将此技术应用于日志或任何基于时间的索引，或者如果要以这种方式删除的数据量超过数据集的 10%。

相反，你应该更喜欢使用 delete index API 立即删除完整索引，而不是删除整套文档。这是一种更有效的方式。

删除索引（首选）

为此，我们实际上可以更改管道以将数据发送到名称包含 ttl 日期的索引：

PUT /_ingest/pipeline/ttl
{
  "processors": [
    {
      "set": {
        "field": "ingest_date",
        "value": "{{{_ingest.timestamp}}}"
      }
    },
    {
      "script": {
        "lang": "painless",
        "source": """
          ctx['ttl_date'] = ZonedDateTime.parse(ctx['ingest_date']).plusDays(ctx['ttl']);
        """,
        "ignore_failure": true
      }
    },
    {
      "date_index_name" : {
        "field" : "ttl_date",
        "index_name_prefix" : "ttl-demo-",
        "date_rounding" : "d",
        "date_formats": ["yyyy-MM-dd'T'HH:mm:ss.nz"],
        "index_name_format": "yyyy-MM-dd",
        "if": "ctx?.ttl_date != null"
      }
    },
    {
      "set": {
        "field" : "_index",
        "value": "ttl-demo-forever",
        "if": "ctx?.ttl_date == null"
      }
    },
    {
      "remove": {
        "field": [ "ingest_date", "ttl", "ttl_date" ],
        "ignore_missing": true
      }
    }
  ]
}

在此示例中，我切换到每日索引，因为它比你在生产中看到的要准确得多，因为通常数据不会在几分钟后过期，但会在几天或几个月后过期。有关 date_index_name 的用法，请阅读文章 “Elasticsearch：使用 pipelines 路由文档到想要的 Elasticsearch 索引中去”。

我们更改了脚本以添加天数：

ctx['ttl_date'] = ZonedDateTime.parse(ctx['ingest_date']).plusDays(ctx['ttl']);

如果 ttl_date 字段存在，我们使用 date_index_name 处理器根据 ttl_date 字段创建一个新的索引名称。我们使用 date_rounding 参数将日期四舍五入到当天。我们使用 index_name_format 参数将日期格式化为 yyyy-MM-dd。这将使用索引名称，例如 ttl-demo-2023-11-27：

{
  "date_index_name" : {
    "field" : "ttl_date",
    "index_name_prefix" : "ttl-demo-",
    "date_rounding" : "d",
    "date_formats": ["yyyy-MM-dd'T'HH:mm:ss.nz"],
    "index_name_format": "yyyy-MM-dd",
    "if": "ctx?.ttl_date != null"
  }
}

如果 ttl_date 字段不存在，我们只需将索引名称设置为 ttl-demo-forever：

{
  "set": {
    "field" : "_index",
    "value": "ttl-demo-forever",
    "if": "ctx?.ttl_date == null"
  }
}

我们可以重新索引我们的数据集：

POST /ttl-demo/_bulk?pipeline=ttl
{ "index": {} }
{ "city": "Sidney", "deliver": "ASAP", "ttl": 0 }
{ "index": {} }
{ "city": "Singapore", "deliver": "1 day", "ttl": 1 }
{ "index": {} }
{ "city": "Vilnius", "deliver": "3 days", "ttl": 3 }
{ "index": {} }
{ "city": "Paris", "deliver": "5 days", "ttl": 5 }
{ "index": {} }
{ "city": "North Pole", "deliver": "forever" }

我们可以看到这些文档现在位于不同的索引中：

GET /ttl-demo-*/_search?filter_path=hits.hits._index,hits.hits._source.deliver

索引名称不再引用，因为我们习惯于查看数据的日期，而是删除数据的日期。因此我们可以每天再次运行 crontab 来删除旧索引。以下脚本旨在在 Mac OS X 系统上运行：

0 0 * * * curl -XDELETE -u elastic:changeme https://127.0.0.1:9200/ttl-demo-$(date -v -1d -j +%F)

总结起来

我们看到了在 Elasticsearch 文档上执行 TTL 的两种方法。第一个是使用 TTL 字段并使用 “Delete By Query ” 调用来删除文档。第二种（效率更高，需要删除大量数据）是使用 TTL 字段将文档路由到不同的索引，然后使用 crontab 删除索引。

但对于这两种解决方案，在 contrab 运行之前文档仍然可见。

你可以考虑使用索引过滤别名来隐藏旧文档：

POST _aliases
{
  "actions": [
    {
      "add": {
        "index": "ttl-demo",
        "alias": "ttl-filtered",
        "filter": {
          "bool": {
            "filter": [
              {
                "range": {
                  "ttl_date": {
                    "gt": "now/m"
                  }
                }
              }
            ]
          }
        }
      }
    }
  ]
}

即使批处理（crontab 或 watcher）尚未删除过期文档，在 ttl-filtered 别名内搜索也只会返回尚未过期的文档。

圣诞老人现在可以知道接下来安全地去哪里，然后享受当之无愧的休息一年！

开源短链接工具 Sink 无需服务器轻松部署到 Workers / Pages
本文首发于只抄博客，欢迎点击原文链接了解更多内容。前言Sink是一款开源免费的短链接生成工具，支持自定义短链接Slug以及设置到期时间，并且还可以借助Cloudflare的AnalyticsEngine功能分析短链接的统计数据。最重要的是实现以上这些功能并不需要有自己的服务器，Sink可以100%运行在Cloudflare上，主程序部署在CF的Workers或者Pages上，数据库存储在CF的KV
【Linux系列】rsync和mv 檀越@新空间 s5 Linux学习 linux 服务器 java
博客目录1.操作性质不同2.对源文件的影响3.使用场景4.示例对比使用`rsync-a`：使用`mv`：5.注意事项总结rsync-a/data/software/build0713/dist//usr/share/nginx/html/和mv是两种完全不同的操作，主要区别如下：1.操作性质不同rsync-a复制同步：将源目录（/data/software/build0713/dist/）的内容递
边缘计算监控突围：Prometheus在5G MEC环境中的瘦身方案
作者：开源大模型智能运维FreeAiOps引言：5GMEC场景下的监控挑战与机遇随着5G多接入边缘计算（MEC）的普及，监控系统面临前所未有的挑战：资源碎片化：边缘节点通常部署在资源受限的硬件上（如ARM服务器、工业网关），CPU和内存容量仅为传统云服务器的1/5网络波动性：MEC设备常位于基站侧或工厂车间，面临高丢包率（5%-15%）和间歇性断网问题数据爆炸：单台MEC设备可能承载数百个物联网终
Android Room使用方法与底层原理详解你过来啊你 android room
Room是一个强大的SQLite对象映射库，旨在提供更健壮、更简洁、更符合现代开发模式的数据库访问方式。核心价值：消除大量样板代码，提供编译时SQL验证，强制结构化数据访问，并流畅集成LiveData、Flow和RxJava以实现响应式UI。一、使用流程(Step-by-StepWorkflow)Room的使用遵循一个清晰的结构化流程：添加依赖：//build.gradle(Module)depe
盘点MacOS和Linux操作系统互传文件的几种方法，你应该用得着！(1)
ps-e|grepssh如下，只有客户端//返回root@SongyangJi-Ubuntu-DeskStop:/home/songyangji#ps-e|grepssh2020?00:00:00ssh-agent这个也是不成功的。songyangji@SongyangJi-Ubuntu-DeskStop:~$sshlocalhostssh:connecttohostlocalhostport22
【Python】(三）面试题和Py基础题戏精亿点点菜面试职场和发展 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程（Process）：进程是操作系统中资源分配的基本单位，是正在运行的程序的实例。每个进程都有自己的内存空间、文件描述符和执行上下文。管理：①查看进程：使用ps、top、htop等命令查看当前运行的进程。②启动进程：通过命令行或脚本启动新进程。③终止进程：使用kill命令发送信号终止进程，例如kill-9PI
AWS架构师咸鱼一条_o.0?! aws 云计算
AWS架构师部分定义S3（S3存储桶）EC2弹性计算云EBS弹性块存储SNAPSHOT快照AMI：EC2镜像ELB弹性负载均衡器EFSDATABASEDATAWAREHOUSEOLTPOLAPElastiCacheVPCRoute53部分定义UserGroup:用户组下的用户继承该用户组所有权限Policy：Jasonformat：类似文字描述，指定object的类型。给user和group提供权
查询一天时间unixtime时间戳的数据亚林瓜子 sql
问题数据库库里面用的unix时间戳存的数据。需要查询出这一天的数据。解决SELECT*FROMyour_tableWHEREcreated_at>=UNIX_TIMESTAMP(CURDATE())-28800--减去8小时(8*3600秒)ANDcreated_at<UNIX_TIMESTAMP(CURDATE()+INTERVAL1DAY)-28800;
【大模型记忆实战Demo】基于SpringAIAlibaba通过内存和Redis两种方式实现多轮记忆对话 Sao_E redis 数据库缓存 ai 语言模型
文章目录多轮对话记忆管理——基于Memory的对话记忆基于内存存储历史对话基于Redis存储历史对话多轮对话记忆管理——基于Memory的对话记忆SpringAIAlibaba共实现了三种方式：基于内存的方式基于jdbc（数据库）的方式基于redis的方式下文主要演示基于内存和redis的方式基于内存存储历史对话代码首先定义大模型的角色，一个旅游规划师设置增强拦截器接着接口传入prompt和cha
10分钟搞定 MinIO 单节点多磁盘部署！打造稳定高可用对象存储【二】
MinIO是一个**高性能、开源的对象存储系统**，主要用于存储非结构化数据（如图片、视频、文档、备份等），与AmazonS3完全兼容。它被广泛用于云原生应用、大数据分析、AI模型存储、容器平台（如Kubernetes）等场景。MinIO支持多种部署模式，其中：单节点单磁盘（Single-NodeSingle-Drive）模式适用于开发测试、小规模应用或资源受限的场景。它的部署简单，不依赖集群、分
Git小白的正确使用姿势与最佳实践 -睡到自然醒~ git elasticsearch 大数据 golang 开发语言后端 python
Git是由Linux之父LinusTorvalds在2005年创造的，目的是为了管理Linux内核的开发。Git的设计目标是实现高效的分支和合并，以及对大型项目的快速处理。1.安装Git要开始使用Git，你需要先安装Git的客户端软件。你可以从官方网站下载适合你的操作系统的安装包，或者使用你的包管理器来安装。例如，在Windows系统上，你可以下载并运行GitforWindows的安装程序。安装完
时序数据库主流产品概览时序数据说时序数据库数据库物联网 iotdb 大数据
时序数据库(TimeSeriesDatabase,TSDB)是专为处理时间序列数据优化的数据库系统，近年来随着物联网(IoT)、金融科技、工业互联网等领域的快速发展而备受关注。本文将介绍当前主流的时序数据库产品。一、时序数据库概述时序数据是带时间戳记录的数据点序列，具有以下特点：数据时间属性强数据通常为追加写入近期数据访问频率高于历史数据数据量通常非常庞大，需要高效的压缩技术时序数据库针对这些特点
TDengine时序数据库数据写入操作详解沈宝彤
TDengine时序数据库数据写入操作详解引言TDengine作为一款高性能的时序数据库，其数据写入方式与传统关系型数据库有所不同。本文将详细介绍TDengine中各种数据写入方式的特点和使用场景，帮助开发者更好地理解和应用TDengine的数据写入功能。基础写入操作单条数据写入在TDengine中，最基本的写入方式是使用INSERT语句向单个子表写入一条数据。以智能电表场景为例：--指定列名写入
时序数据库在数据库领域的应用前景数据库管理艺术数据库时序数据库 struts ai
时序数据库在数据库领域的应用前景关键词：时序数据库、时间序列数据、物联网、监控系统、金融分析、大数据、实时分析摘要：本文深入探讨了时序数据库在现代数据管理中的关键作用和应用前景。我们将从时序数据的基本特性出发，分析时序数据库的核心架构和设计原理，比较主流时序数据库产品的技术特点，并通过实际案例展示其在物联网、金融科技、运维监控等领域的应用价值。文章还将提供时序数据库选型指南，探讨未来技术发展趋势，
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
时序数据库在工业物联网领域的核心优势与应用价值时序数据说时序数据库物联网数据库 iotdb 大数据
一、工业物联网的数据挑战与需求工业物联网(IIoT)正在重塑全球制造业格局，通过连接设备、传感器和控制系统，实现了生产过程的数字化与智能化。然而，这一转型也带来了前所未有的数据管理挑战：海量数据：单个工厂可能部署数万个传感器，每秒产生数千万数据点高速写入：工业设备常需毫秒级数据采集，对数据库写入性能要求极高严格时效：质量控制、故障预测等场景要求实时数据分析长期存储：设备生命周期数据需保存数年甚至数
数据库范式设计浪人与酒丶
@[TOC]导语在日常工作中，我们都需要遵守一定的规范，比如签到大卡、审批流程等，这些规范虽然有一定等约束感觉，却是非常有必要等，这样可以保证正确性和严谨性，但有些情况下，约束反而会带来效率的下降，比如一个可以直接操作的任务，却需要审批才能执行。数据库的设计范式我们在设计关系型数据库模型的时候，需要对关系内部各个属性之间联系对合理化程度进行定义，这就有了不同等级的规范要求，这些规范要求被称为范式（
数据库和数据仓库区别 hhhecker Hadoop学习数据仓库数据库 hive
HIve与Mysql对比HiveMysql数据存储位置HDFS本地磁盘数据格式用户定义系统决定数据更新不支持（不支持修改和删除）支持（支持增删改查）索引有，但较弱，一般很少用有，经常使用的执行MapReduceExecutor执行延迟高低可扩展性高低数据规模大小数据库与数据仓库对比数据库：传统的关系型数据库主要应用在基本的事务处理，例如银行交易之类的场景数据库支持增删改查这些常见的操作。数据仓库：
数据仓库和数据库的区别神秘打工猴数据仓库数据库
一，数据仓库数据仓库（DataWarehouse）是一种专门设计用于报告和分析的数据库系统，它允许将来自一个或多个数据源的数据集成、存储和分析。数据仓库的主要目的是支持决策制定，通过提供快速访问历史数据和进行复杂查询的能力。以下是数据仓库的一些关键特性和概念：1.主题导向：数据仓库围绕特定的业务主题构建，如销售、客户或财务，而不是围绕应用程序的功能。2.集成性：数据仓库集成了来自不同源系统的数据，
如何区分Bug是前端问题还是后端问题？海姐软件测试缺陷管理 bug 前端
在软件测试中，精准定位Bug的归属（前端or后端）是高效协作的关键。以下是系统化的排查方法，结合技术细节和实战技巧：1.核心判断逻辑「数据vs展示」二分法：后端问题：数据本身错误（API返回错误数据/逻辑错误/数据库问题）前端问题：数据正确但展示异常（UI渲染错误/交互逻辑问题）2.四步定位法第一步：抓包分析（必做）工具：ChromeDevTools>Network/Fiddler/Charles
工具篇：（二）MacOS 下载 MySQL 并进行配置连接，使用 VSCode 创建 Node 项目-亲测有效全栈探索者chen mysql macos 工具 macos mysql vscode
MacOS下载MySQL并进行配置连接，使用VSCode创建Node项目我们将介绍如何在macOS上下载和配置MySQL数据库，并使用VSCode创建一个Node.js项目进行测试。通过这些步骤，您将能够顺利地设置开发环境并进行基本的数据操作。一、删除之前的MySQL配置和软件在macOS系统中，下载并配置MySQL客户端之前，清理掉之前的MySQL配置和相关软件是一个关键步骤。以下是详细的操作流
没有 Mac，如何上架 iOS App？跨平台团队的全流程实践指南程序员不说人话 ios 小程序 uni-app iphone android webview https
在许多以Flutter、ReactNative等技术栈开发的项目中，经常面临一个现实问题：团队缺少足够的Mac设备，可iOS上架流程却被Mac严重绑架。今天我们就来聊聊“没有Mac，如何顺利上架iOSApp？”，结合我们在多个项目中积累的实战经验，分享一整套可复用的跨平台上架方案，让Windows、Linux开发者也能协作完成iOS上架，并保持高效、稳定、安全。为什么“没有Mac”是个上架难题？i
SmartETL中数据库操作与流程解耦的设计与应用
正如ETL这个概念本身所指示的，数据库读写访问是ETL的最常用甚至是最主要的操作。现代信息系统的设计与运行基本都是围绕数据库展开的，很多应用的核心功能都是对数据库的CRUD（创建、检索、更新、删除）操作。SmartETL框架设计之初就考虑到了这个情况，在早期就根据团队的技术栈，实现了对MongoDB、MySQL、ElasticSearch、ClickHouse等数据库的Extract操作（即Loa
tp5 model 使用
在thinkphp3.X的时候我们经常使用M，D方法实例化一个model，然后通过model对数据进行增删改查操作。在tp5的时候，如果再想用上面的方法，必须先定义model，刚开始的时候怎么定义都说找不到类，后来不知道怎么回事就好了，例如数据库中有表user，在application\index\model目录下建立文件User.php,然后里面这样写几个关键点：一定要写usethink\Mod
Apache Ignite 的 SQL 功能和分布式查询机制
这段内容讲的是ApacheIgnite的SQL功能和分布式查询机制。我们可以从几个关键点来理解：一、Ignite是一个分布式SQL数据库✅特点：符合ANSI-99SQL标准水平扩展（可扩展到多个节点）容错（fault-tolerant）支持两种数据分布方式：分区（Partitioned）：数据分布在多个节点上复制（Replicated）：每个节点都有完整数据副本二、SQL功能支持✅DML语句：Ig
Apache Ignite控制脚本(control.sh/bat)完全指南秋泉律Samson
ApacheIgnite控制脚本(control.sh/bat)完全指南概述ApacheIgnite的控制脚本(control.sh/bat)是管理Ignite集群的强大工具，它提供了丰富的命令行接口来监控和控制集群状态。本文将全面介绍这个工具的使用方法，帮助管理员高效管理Ignite集群。控制脚本基础控制脚本位于Ignite安装目录的/bin/文件夹下，根据操作系统不同分为：Unix/Linux
Windows 10 设定静态路由沉迷学习w Windows 相关 windows linux c语言
情景:Windows电脑想要存取Linux电脑里面z/OS主机z/OS主机跟Linux电脑使用内部tunnel管道连接Linux电脑192.168.50.15Windows电脑192.168.50.16Linux电脑管道192.168.200.2z/OS主机管道192.168.200.1先用管理员开起CommandPrompt用routeprint来查看现在路由C:\Windows\system3
Linux 定时任务全解析：atd 与 crond 的区别及实战案例（含日志备份 + 时间写入）睡觉的时候不会困 Linux linux 服务器运维
1.atd和crond两个任务管理程序的区别atd：用于执行一次性的定时任务，即设置任务在某个特定的时间点仅执行一次，适合处理不需要重复执行的定时操作，比如在未来某个确切时间执行一个脚本、发送一份文件等场景。crond：用于执行周期性的定时任务，可按照设定的周期（如每分钟、每小时、每天、每周等）重复执行任务，常用来做系统监控、日志备份、定期数据清理或生成等周期性需求。对比项atdcrond任务执行
docker构建springboot镜像 frt6668 Spring Docker Springboot docker spring boot java
先在Linux服务器安装docker由于镜像现在访问不了，所以采用其它国内镜像的方法拉去镜像直接运行该命令：dockerpulldocker.1ms.run/library/openjdk:21前面是镜像地址，可以替换的地址有：https://docker.1ms.run毫秒镜像可用https://docker.xuanyuan.me轩辕镜像可用https://dislabaiot.xyz-可用h
Shell脚本编程：从入门到精通的实战指南 Monkey的自我迭代 Linux linux ssh
一、Shell与Shell脚本概述Shell是用户与操作系统内核之间的命令解释器，它接收用户输入的命令并转换为系统调用，是Unix/Linux系统的核心交互界面。Shell脚本(ShellScript)则是将一系列Shell命令组织成文本文件，通过解释器批量执行的自动化工具，广泛应用于系统管理、日志分析和软件部署等领域。主流Shell类型：Bash(Bourne-AgainShell)：Linux
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数