为为少

折腾 Quickwit，Rust 编写的分布式搜索引擎-官方配置详解

Node configuration(节点配置)

节点配置允许您为集群中的各个节点自定义和优化设置。它被分为几个部分：

常规配置设置：共享的顶级属性
Storage(存储)设置：在storage部分定义
- https://quickwit.io/docs/configuration/node-config#storage-configuration
Metastore(元存储)设置：在metastore部分定义
- https://quickwit.io/docs/configuration/node-config#metastore-configuration
Ingest 设置：在ingest_api部分定义
- https://quickwit.io/docs/configuration/node-config#ingest-api-configuration
Indexer(索引器)设置：在indexer部分定义
- https://quickwit.io/docs/configuration/node-config#indexer-configuration
Searcher(搜索器)设置：在Searcher部分定义
- https://quickwit.io/docs/configuration/node-config#searcher-configuration
Jaeger 设置：在Jaeger部分定义
- https://quickwit.io/docs/configuration/node-config#jaeger-configuration

一个带注释的例子可在此处找到：quickwit.yaml。

https://github.com/quickwit-oss/quickwit/blob/main/config/quickwit.yaml

Common configuration(常规配置)

属性	描述	环境变量	默认值
`version`	配置文件版本。`0.7` 是唯一可用的值，并且与 `0.5` 和 `0.4` 版本向后兼容。
`cluster_id`	节点将加入的集群的唯一标识符。共享同一网络的集群应使用不同的集群ID。	`QW_CLUSTER_ID`	`quickwit-default-cluster`
`node_id`	节点的唯一标识符。它必须与集群中其他节点的标识符不同。如果未设置，则默认为实例的短主机名。	`QW_NODE_ID`	短主机名
`enabled_services`	已启用的服务(控制平面、索引器、清理程序、元存储、搜索器)	`QW_ENABLED_SERVICES`	所有服务
`listen_address`	Quickwit 服务绑定的 IP 地址或主机名，用于启动 REST 和 gRPC 服务器以及连接此节点到其他节点。默认情况下，Quickwit 绑定到 127.0.0.1(本地主机)。当尝试形成集群时，此默认值无效。	`QW_LISTEN_ADDRESS`	`127.0.0.1`
`advertise_address`	节点广播的 IP 地址，即对等节点用于连接到该节点进行远程过程调用的 IP 地址。	`QW_ADVERTISE_ADDRESS`	`listen_address`
`gossip_listen_port`	监听 Gossip 集群成员服务(UDP)的端口。	`QW_GOSSIP_LISTEN_PORT`	`rest.listen_port`
`grpc_listen_port`	gRPC 服务监听流量的端口。	`QW_GRPC_LISTEN_PORT`	`rest.listen_port + 1`
`peer_seeds`	用于引导集群并发现完整节点集的 IP 地址或主机名列表。此列表可以包含当前节点的地址，并不需要详尽无遗。如果 peer_seeds 列表中包含主机名，Quickwit 将通过每分钟查询 DNS 来解析它。例如，在 Kubernetes 中，最好将其设置为无头服务。	`QW_PEER_SEEDS`
`data_dir`	用于持久化数据(临时数据、用于缓存目的的切片)的目录路径。这主要用于索引操作。	`QW_DATA_DIR`	`./qwdata`
`metastore_uri`	元存储 URI。可以是本地目录或 `s3://my-bucket/indexes` 或 `postgres://username:password@localhost:5432/metastore`。了解更多关于元存储配置的信息。	`QW_METASTORE_URI`	`{data_dir}/indexes`
`default_index_root_uri`	定义存储索引数据(切片)位置的默认索引根 URI。索引 URI 的构建遵循以下模式：`{default_index_root_uri}/{index-id}`	`QW_DEFAULT_INDEX_ROOT_URI`	`{data_dir}/indexes`
仅环境变量	Quickwit 的日志级别。可以是直接的日志级别，或者是由逗号分隔的 `module_name=level` 列表。	`RUST_LOG`	`info`

https://kubernetes.io/docs/concepts/services-networking/service/#headless-services
https://quickwit.io/docs/configuration/metastore-config

REST configuration(REST 配置)

此部分包含 REST API 的配置选项。

属性	描述	环境变量	默认值
`listen_port`	REST API 监听 HTTP 流量的端口。	`QW_REST_LISTEN_PORT`	`7280`
`cors_allow_origins`	配置允许访问 API 的 CORS 来源。了解更多
`extra_headers`	头名称和值的列表

https://quickwit.io/docs/configuration/node-config#configuring-cors-cross-origin-resource-sharing

Configuring CORS (配置跨源资源共享)

CORS(跨源资源共享)描述了哪些地址或来源可以从浏览器访问 REST API。
默认情况下，不允许跨源共享资源。

可以在 cors_allow_origins 参数中指定通配符、单一来源或多个来源：

REST 配置示例：

rest:
  listen_port: 1789
  extra_headers:
    x-header-1: header-value-1
    x-header-2: header-value-2
  cors_allow_origins: '*'

#   cors_allow_origins: https://my-hdfs-logs.domain.com   # Optionally we can specify one domain
#   cors_allow_origins:                                   # Or allow multiple origins
#     - https://my-hdfs-logs.domain.com
#     - https://my-hdfs.other-domain.com

gRPC configuration(gRPC 配置)

此部分包含用于节点间内部通信的 gRPC 服务和客户端的配置选项。

属性	描述	环境变量	默认值
`max_message_size`	内部 gRPC 客户端和服务之间交换的消息的最大大小(字节)。		`20 MiB`

gRPC 配置示例：

grpc:
  max_message_size: 30 MiB

我们建议只有在遇到以下错误时才更改 20 MiB 的默认值：Error, message length too large: found 24732228 bytes, the limit is: 20971520 bytes.(错误，消息长度过大：找到 24732228 字节，限制是：20971520 字节。) 在这种情况下，请逐步增加 max_message_size，每次增加 10 MiB，直到问题消失。这是一个临时解决方案：Quickwit 的下一个版本 0.8 将完全依赖于 gRPC 流式传输端点，并能处理任意长度的消息。

Storage configuration(存储配置)

请参阅专门的存储配置页面，了解如何为各种存储提供商配置 Quickwit 的更多信息。

https://quickwit.io/docs/configuration/storage-config

这里还有一些如何使用 Amazon S3 或 Alibaba OSS 配置 Quickwit 的最小示例：

AWS_ACCESS_KEY_ID=
AWS_SECRET_ACCESS_KEY=

Amazon S3

storage:
  s3:
    region: us-east-1

Alibaba

storage:
  s3:
    region: us-east-1
    endpoint: https://oss-us-east-1.aliyuncs.com

Metastore configuration(元存储配置)

此部分可能包含每个可用元存储实现的一个配置子部分。每个实现的具体配置参数可能会有所不同。目前可用的元存储实现包括：

File-backed
PostgreSQL

File-backed metastore configuration(文件型元存储配置)

文件支持型元存储没有节点级别的配置。您可以在索引级别配置轮询间隔。

https://quickwit.io/docs/configuration/metastore-config#polling-configuration

PostgreSQL metastore configuration(PostgreSQL 元存储配置)

属性	描述	默认值
`min_connections`	池中始终维护的最小连接数。	`0`
`max_connections`	池中维护的最大连接数。	`10`
`acquire_connection_timeout`	在放弃查询之前等待可用连接的最大时间。	`10s`
`idle_connection_timeout`	关闭单个连接前的最大空闲持续时间。	`10min`
`max_connection_lifetime`	单个连接的最大生命周期。	`30min`

PostgreSQL 元存储配置的 YAML 格式示例：

metastore:
  postgres:
    min_connections: 10
    max_connections: 50
    acquire_connection_timeout: 30s
    idle_connection_timeout: 1h
    max_connection_lifetime: 1d

Indexer configuration(索引器配置)

此部分包含索引器的配置选项。分片存储在索引文档中有详细说明。

https://quickwit.io/docs/overview/concepts/indexing#split-store

属性	描述	默认值
`split_store_max_num_bytes`	分片存储中允许的最大字节数。	`100G`
`split_store_max_num_splits`	分片存储中允许的最大文件数。	`1000`
`max_concurrent_split_uploads`	节点上允许的最大并发分片上传数。	`12`
`merge_concurrency`	节点上可以同时执行的最大合并操作数。	`(2 x 可用线程数) / 3`
`enable_otlp_endpoint`	如果为真，则启用通过 OpenTelemetry 协议 (OTLP) 接收日志和跟踪的 OpenTelemetry 导出端点。	`false`
`cpu_capacity`	控制平面使用的咨询参数。值可以用线程表示(例如 `2`)，也可以用 millicpus 表示(例如 `2000m`)。控制平面将尝试根据索引器声明的 CPU 容量，在不同节点上按比例调度索引管道。它不是作为限制使用。无论集群是否有足够的容量，所有管道都将被调度。当负载远低于 `cpu_capacity` 时，控制平面不会试图平均分配工作。需要在所有索引器节点上均衡负载的用户可以将 `cpu_capacity` 设置为一个任意低的值，只要它与可用线程数成比例即可。	`可用线程数`

示例：

indexer:
  split_store_max_num_bytes: 100G
  split_store_max_num_splits: 1000
  max_concurrent_split_uploads: 12
  enable_otlp_endpoint: true

Ingest API configuration(Ingest API 配置)

属性	描述	默认值
`max_queue_memory_usage`	Ingest 队列在内存中的最大大小(字节)。	`2GiB`
`max_queue_disk_usage`	Ingest 队列占用的最大磁盘空间(字节)。最小大小至少为 `256M` 并且至少为 `max_queue_memory_usage`。	`4GiB`

示例：

ingest_api:
  max_queue_memory_usage: 2GiB
  max_queue_disk_usage: 4GiB

Searcher configuration(搜索器配置)

此部分包含搜索器的配置选项。

属性	描述	默认值
`aggregation_memory_limit`	控制聚合阶段前可以使用的最大内存量。此限制适用于每个请求和单个叶查询(叶查询是指并发查询一个或多个分片)。它用于防止聚合阶段中过度使用内存，这可能导致性能下降或崩溃。由于它是针对每个请求的，因此并发请求可能会超过此限制。	`500M`
`aggregation_bucket_limit`	确定返回给客户端的最大桶数。	`65000`
`fast_field_cache_capacity`	搜索器上的快速字段内存缓存容量。如果您按日期过滤、运行聚合、范围查询，或者使用搜索流 API，甚至进行追踪，可能值得增加此参数。以 `quickwit_cache_fastfields_cache` 开头的指标可帮助您在设置此值时做出明智的选择。	`1G`
`split_footer_cache_capacity`	搜索器上的分片尾部内存缓存容量(本质上是热缓存)。	`500M`
`partial_request_cache_capacity`	搜索器上的部分请求内存缓存容量。为请求缓存中间状态，可能使后续请求更快。可以通过将其大小设置为 `0` 来禁用它。	`64M`
`max_num_concurrent_split_searches`	在搜索器上运行的最大并发分片搜索请求数。	`100`
`max_num_concurrent_split_streams`	在搜索器上运行的最大并发分片流请求数。	`100`
`split_cache`	下面定义的搜索器分片缓存配置选项。如果未指定，则禁用缓存。

https://quickwit.io/docs/reference/metrics

Searcher split cache configuration(搜索器分片缓存配置)

此部分包含磁盘上搜索器分片缓存的配置选项。

属性	描述	默认值
`max_num_bytes`	分片缓存中允许的最大磁盘大小(字节)。可能会被单个分片的大小超过。
`max_num_splits`	分片缓存中允许的最大分片数。	`10000`
`num_concurrent_downloads`	最大并发下载分片数。	`1`

示例：

searcher:
  fast_field_cache_capacity: 1G
  split_footer_cache_capacity: 500M
  partial_request_cache_capacity: 64M
  split_cache:
    max_num_bytes: 1G
    max_num_splits: 10000
    num_concurrent_downloads: 1

Jaeger configuration(Jaeger 配置)

属性	描述	默认值
`enable_endpoint`	如果为真，则启用允许 Jaeger 查询服务连接并检索跟踪的 gRPC 端点。	`false`

示例：

searcher:
  enable_endpoint: true

Using environment variables in the configuration(在配置中使用环境变量)

您可以在配置文件中使用环境变量引用，以设置在部署期间需要可配置的值。为此，请使用：

${VAR_NAME}

其中 VAR_NAME 是环境变量的名称。

每个变量引用在启动时都会被环境变量的值替换。替换过程区分大小写，并且在解析配置文件之前发生。除非您指定了默认值或自定义错误文本，否则引用未定义的变量会抛出错误。

为了指定默认值，请使用：

${VAR_NAME:-default_value}

其中 default_value 是如果环境变量未设置时要使用的值。

: ${VAR_NAME}
or
: ${VAR_NAME:-default value}

例如:

export QW_LISTEN_ADDRESS=0.0.0.0

# config.yaml
version: 0.7
cluster_id: quickwit-cluster
node_id: my-unique-node-id
listen_address: ${QW_LISTEN_ADDRESS}
rest:
  listen_port: ${QW_LISTEN_PORT:-1111}

将被 Quickwit 理解为:

version: 0.7
cluster_id: quickwit-cluster
node_id: my-unique-node-id
listen_address: 0.0.0.0
rest:
  listen_port: 1111

Storage configuration(存储配置)

Supported Storage Providers(支持的存储提供商)

Quickwit 目前支持四种类型的存储提供商：

Amazon S3 和 S3 兼容(Garage、MinIO 等)
Azure Blob 存储
本地文件存储*
Google Cloud Storage(原生 API)

Storage URIs(存储 URI)

存储 URI 通过 URI “协议” 或 “方案” 来标识不同的存储提供商。Quickwit 支持以下存储 URI 协议：

s3:// 用于 Amazon S3 和 S3 兼容
azure:// 用于 Azure Blob 存储
file:// 用于本地文件系统
gs:// 用于 Google Cloud Storage

通常情况下，您可以在任何直观地期望文件路径的地方使用存储 URI 或文件路径。例如：

设置索引的 index_uri 以指定存储提供商和位置；
在节点配置中设置 metastore_uri 以建立基于文件的元数据存储；
作为命令行参数传递文件路径。

Local file storage URIs(本地文件存储 URI)

Quickwit 将常规文件路径解释为本地文件系统 URI。允许使用相对文件路径，并且它们相对于当前工作目录(CWD)进行解析。可以使用 ~ 作为快捷方式来引用用户的主目录。以下是有效的本地文件系统 URI：

- /var/quickwit
- file:///var/quickwit
- /home/quickwit/data
- ~/data
- ./quickwit

当使用 file:// 协议时，需要第三个 / 来表示绝对路径。例如，URI file://home/quickwit/ 被解释为 ./home/quickwit。

Storage configuration(存储配置)

此部分包含针对每个存储提供商的一个配置子部分。如果未显式设置存储配置参数，则 Quickwit 依赖于存储提供商 SDK(Azure SDK for Rust，AWS SDK for Rust)提供的默认值。

https://github.com/Azure/azure-sdk-for-rust
https://github.com/awslabs/aws-sdk-rust

S3 storage configuration(S3 存储配置)

属性	描述	默认值
`flavor`	可选的存储风味。可用的风味包括 `digital_ocean`、`garage`、`gcs` 和 `minio`。
`access_key_id`	AWS 访问密钥 ID。
`secret_access_key`	AWS 密钥访问密钥。
`region`	发送请求的 AWS 区域。	`us-east-1`(SDK 默认值)
`endpoint`	与 S3 兼容提供商一起使用的自定义端点。	SDK 默认值
`force_path_style_access`	禁用虚拟主机风格请求。某些 S3 兼容提供商(Ceph、MinIO)要求使用。	`false`
`disable_multi_object_delete`	禁用多对象删除请求。某些 S3 兼容提供商(GCS)要求使用。	`false`
`disable_multipart_upload`	禁用多部分上传对象。某些 S3 兼容提供商(GCS)要求使用。	`false`

https://docs.aws.amazon.com/AmazonS3/latest/userguide/VirtualHosting.html
https://docs.aws.amazon.com/AmazonS3/latest/API/API_DeleteObjects.html
https://docs.aws.amazon.com/AmazonS3/latest/userguide/mpuoverview.html

将凭证硬编码到配置文件中是不安全的，强烈不建议这样做。优先考虑您的存储后端可能提供的替代认证方法。

Environment variables(环境变量)

环境变量	描述
`QW_S3_ENDPOINT`	自定义 S3 端点。
`QW_S3_MAX_CONCURRENCY`	限制对 S3 的并发请求数量。

Storage flavors(存储风味)

Storage flavors 确保 Quickwit 通过自动配置适当的设置与偏离 S3 API 的存储提供商正确工作。可用的风味包括：

digital_ocean
garage
gcs
minio

Digital Ocean

Digital Ocean flavor (digital_ocean) 强制使用路径风格访问，并关闭多对象删除请求。

Garage flavor

Garage flavor (garage) 覆盖 region 参数为 garage 并强制使用路径风格访问。

Google Cloud Storage

Google Cloud Storage flavor (gcs) 关闭多对象删除请求和多部分上传。

MinIO flavor

MinIO flavor (minio) 强制使用路径风格访问。

Google Cloud Storage 的存储配置 YAML 格式示例：

storage:
  s3:
    flavor: gcs
    region: us-east1
    endpoint: https://storage.googleapis.com

Azure storage configuration(Azure 存储配置)

属性	描述	默认值
`account`	Azure 存储账户名称。
`access_key`	Azure 存储账户访问密钥。

Environment variables(环境变量)

环境变量	描述
`QW_AZURE_STORAGE_ACCOUNT`	Azure Blob 存储账户名称。
`QW_AZURE_STORAGE_ACCESS_KEY`	Azure Blob 存储账户访问密钥。

Azure 的存储配置 YAML 格式示例：

storage:
  azure:
    account: your-azure-account-name
    access_key: your-azure-access-key

Storage configuration examples for various object storage providers(各种对象存储提供商的存储配置示例)

Garage

Garage 是一个为自托管定制的开源分布式对象存储服务。

https://garagehq.deuxfleurs.fr/

storage:
  s3:
    flavor: garage
    endpoint: http://127.0.0.1:3900

MinIO

MinIO 是一种高性能的对象存储。

https://min.io/

storage:
  s3:
    flavor: minio
    endpoint: http://127.0.0.1:9000

注意：default_index_root_uri 或索引 URI 不包含端点，您应该将其设置为典型的 S3 路径，如 s3://indexes。

Index configuration(索引配置)

本页面描述了如何配置一个索引。

除了 index_id 外，索引配置还允许您定义五个项目：

index-uri：它定义了索引文件应存储的位置。
文档映射：它定义了一个文档及其包含的字段如何为给定索引存储和索引。
索引设置：它定义了用于分片的时间戳字段，以及一些更高级的参数，如合并策略。
搜索设置：它定义了默认搜索字段 default_search_fields，即如果用户查询没有明确指定字段时 Quickwit 将搜索的字段列表。
保留策略：它定义了 Quickwit 应保留已索引数据的时间长度。如果不指定，则数据将永久存储。

配置是在创建索引时设置的，并且可以使用更新端点或 CLI 进行更改。

https://quickwit.io/docs/reference/rest-api
https://quickwit.io/docs/reference/cli

Config file format(配置文件格式)

索引配置格式为 YAML。当配置文件中缺少某个键时，将使用默认值。
下面是一个适用于 HDFS 日志数据集的完整示例：

version: 0.7 # File format version.

index_id: "hdfs"

index_uri: "s3://my-bucket/hdfs"

doc_mapping:
  mode: lenient
  field_mappings:
    - name: timestamp
      type: datetime
      input_formats:
        - unix_timestamp
      output_format: unix_timestamp_secs
      fast_precision: seconds
      fast: true
    - name: severity_text
      type: text
      tokenizer: raw
      fast:
        - tokenizer: lowercase
    - name: body
      type: text
      tokenizer: default
      record: position
    - name: resource
      type: object
      field_mappings:
        - name: service
          type: text
          tokenizer: raw
  tag_fields: ["resource.service"]
  timestamp_field: timestamp
  index_field_presence: true

search_settings:
  default_search_fields: [severity_text, body]

retention:
  period: 90 days
  schedule: daily

Index ID(索引 ID)

索引 ID 是一个字符串，用于在元存储中唯一标识索引。它只能包含大写或小写的 ASCII 字母、数字、破折号 (-) 和下划线 (_)。最后，它必须以字母开头，并且至少包含 3 个字符但不超过 255 个字符。

Index uri(索引 URI)

索引 URI 定义了索引文件(也称为切片)应存储的位置。
此参数期望一个存储 URI。

https://quickwit.io/docs/configuration/storage-config#storage-uris

index-uri 参数是可选的。
默认情况下，index-uri 会通过将 index-id 与 Quickwit 的配置中定义的 default_index_root_uri 连接起来计算得出。

https://quickwit.io/docs/configuration/node-config

在分布式模式下运行 Quickwit 时，文件存储将无法工作。相反，在运行多个搜索节点时，应使用 AWS S3、Azure Blob 存储、Google Cloud Storage(在 S3 互操作模式下)或其他 S3 兼容的存储系统，如 Scaleway Object Storage 和 Garage 作为存储。

Doc mapping(文档映射)

文档映射定义了如何为给定索引存储和索引文档及其包含的字段。文档是一组命名字段的集合，每个字段都有自己的数据类型(文本、字节、日期时间、布尔、i64、u64、f64、IP、JSON)。

变量	描述	默认值
`field_mappings`	字段映射的集合，每个映射都有其自己的数据类型(文本、二进制、日期时间、布尔、i64、u64、f64、IP、JSON)。	`[]`
`mode`	定义了 Quickwit 如何处理不在 `field_mappings` 中的文档字段。特别是，“动态”模式使得可以在无模式的方式下使用 Quickwit。(参见 mode)	`dynamic`
`dynamic_mapping`	当 `mode` 设置为 `dynamic` 时才允许此参数。然后它定义了是否应该对动态映射的字段进行索引、存储等。	(参见 mode)
`tag_fields`	已经在 `field_mappings` 中定义的字段集合*，这些字段的值将作为 `tags` 元数据的一部分存储。了解更多关于标签的信息。	`[]`
`store_source`	原始 JSON 文档是否存储在索引中。	`false`
`timestamp_field`	用于将文档分片的日期时间字段*。该字段必须是 `datetime` 类型。了解更多关于时间分片的信息。	`None`
`partition_key`	如果设置，Quickwit 将根据声明为 `partition_key` 的字段名称将文档路由到不同的切片中。	`null`
`max_num_partitions`	限制通过分区创建的切片数量。(参见分区)	`200`
`index_field_presence`	对快速字段自动启用 `exists` 查询。为了对所有其他字段启用它，请将此参数设置为 `true`。启用它可能会在索引时产生显著的 CPU 开销。	`false`

*: 标签字段和时间戳字段表示为从 JSON 对象根到给定字段的路径。如果字段名称包含一个 . 字符，则需要用 \ 字符转义。

https://quickwit.io/docs/configuration/index-config#mode
https://quickwit.io/docs/overview/concepts/querying#tag-pruning
https://quickwit.io/docs/overview/architecture
https://quickwit.io/docs/overview/concepts/querying#partitioning

Field types(字段类型)

每个字段[^1]都有一个类型，指示它包含的数据种类，例如 64 位整数或文本。
Quickwit 支持以下原始类型：text、i64、u64、f64、datetime、bool、ip、bytes 和 json，同时也支持复合类型，如数组和对象。在幕后，Quickwit 使用 tantivy 字段类型，如果您想深入了解细节，请参阅 tantivy 文档。

https://quickwit.io/docs/configuration/index-config#text-type
https://quickwit.io/docs/configuration/index-config#numeric-types-i64-u64-and-f64-type
https://quickwit.io/docs/configuration/index-config#numeric-types-i64-u64-and-f64-type
https://quickwit.io/docs/configuration/index-config#numeric-types-i64-u64-and-f64-type
https://quickwit.io/docs/configuration/index-config#datetime-type
https://quickwit.io/docs/configuration/index-config#bool-type
https://quickwit.io/docs/configuration/index-config#ip-type
https://quickwit.io/docs/configuration/index-config#bytes-type
https://quickwit.io/docs/configuration/index-config#json-type
https://github.com/tantivy-search/tantivy

Raw types(原始类型)

Text type(文本类型)

此字段是一个文本字段，在索引之前会被分析并拆分成令牌。
这种类型的字段适合全文搜索。

文本字段映射示例：

文本字段参数

变量	描述	默认值
`description`	字段的可选描述。	`None`
`stored`	值是否存储在文档存储中。	`true`
`indexed`	值是否应该被索引以便能够进行搜索。	`true`
`tokenizer`	`Tokenizer` 的名称。(查看分词器)以获取可用分词器的列表。	`default`
`record`	描述索引的信息量，可以选择 `basic`、`freq` 和 `position`。	`basic`
`fieldnorms`	是否为字段存储字段规范。字段规范用于计算文档的 BM25 分数。	`false`
`fast`	值是否存储在快速字段中。快速字段将包含术语 ID 和字典。对于 `true` 的默认行为是不变地存储原始文本。快速字段上的规范化器单独配置。可以通过 `normalizer: lowercase` 来配置。(查看规范化器)以获取可用规范化器的列表。	`false`

https://quickwit.io/docs/configuration/index-config#description-of-available-tokenizers
https://quickwit.io/docs/configuration/index-config#description-of-available-normalizers

可用分词器的描述

分词器	描述
`raw`	不处理也不分词文本。过滤掉大于 255 字节的令牌。
`raw_lowercase`	不分词文本，但将其转换为小写。过滤掉大于 255 字节的令牌。
`default`	根据空白字符和标点符号分割文本，移除过长的令牌，并转换为小写。过滤掉大于 255 字节的令牌。
`en_stem`	类似于 `default`，但在结果令牌上还应用了词干提取。过滤掉大于 255 字节的令牌。
`whitespace`	仅根据空白字符分割文本。不移除长令牌也不转换为小写。
`chinese_compatible`	除了 `default` 执行的操作之外，还在每个 CJK 字符之间进行分割。应与 `record: position` 一起使用以正确地进行搜索。
`lowercase`	对文本应用小写转换。它不分词文本。

可用规范化器的描述

规范化器	描述
`raw`	不处理也不分词文本。过滤掉大于 255 字节的令牌。
`lowercase`	对文本应用小写转换。过滤掉大于 255 字节的令牌。

记录选项的描述

记录选项	描述
`basic`	仅记录 `DocId`
`freq`	记录文档 ID 以及术语频率
`position`	记录文档 ID、术语频率以及出现位置。

使用位置索引是执行短语查询所必需的。

Numeric types: i64, u64 and f64 type(数值类型：`i64`、`u64` 和 `f64` 类型)

Quickwit 支持三种数值类型：i64、u64 和 f64。

数值值可以存储在快速字段中(相当于 Lucene 的 DocValues)，这是一种用于范围查询和聚合的列式存储。

在未指定字段的情况下查询负数(使用 default_search_fields)，您应该单引号括起数字(例如 -5)，否则它将被解释为匹配除了该数字以外的任何内容。

u64 字段映射示例：

name: rating
description: Score between 0 and 5
type: u64
stored: true
indexed: true
fast: true

数值类型字段 (i64, u64, 和 f64) 参数

变量	描述	默认值
`description`	字段的可选描述。	`None`
`stored`	字段值是否存储在文档存储中。	`true`
`indexed`	字段值是否被索引。	`true`
`fast`	字段值是否存储在快速字段中。	`false`
`coerce`	是否将作为字符串传递的数字转换为整数或浮点数。	`true`
`output_format`	用于返回搜索结果中数字的 JSON 类型。可能的值为 `number` 或 `string`。	`number`

datetime type(日期时间类型)

datetime 类型处理日期和日期时间。由于 JSON 没有日期类型，datetime 字段支持多种输入类型和格式。支持的输入类型包括：

表示 Unix 时间戳的浮点数或整数
包含格式化的日期、日期时间或 Unix 时间戳的字符串

input_formats 字段参数指定了接受的日期格式。以下输入格式得到原生支持：

iso8601
rfc2822
rfc3339
strptime
unix_timestamp

输入格式

当指定多个输入格式时，相应的解析器会按照声明的顺序尝试。以下格式得到原生支持：

iso8601, rfc2822, rfc3339：使用标准的 ISO 和 RFC 格式解析日期。
strptime：使用 Unix strptime 格式解析日期，有一些变化：
- strptime 格式标识符：%C, %d, %D, %e, %F, %g, %G, %h, %H, %I, %j, %k, %l, %m, %M, %n, %R, %S, %t, %T, %u, %U, %V, %w, %W, %y, %Y, %%。
- %f 用于毫秒精度支持。
- %z 时区偏移可以指定为 (+|-)hhmm 或 (+|-)hh:mm。

目前不支持时区名称格式标识符 (%Z)。https://man7.org/linux/man-pages/man3/strptime.3.html

unix_timestamp：解析浮点数和整数为 Unix 时间戳。浮点值转换为以秒表示的时间戳。整数值转换为 Unix 时间戳，其精度(秒、毫秒、微秒或纳秒)根据输入数字位数推断。内部地，日期时间转换为 UTC(如果指定了时区)，并存储为 i64 整数。因此，Quickwit 只支持从 Apr 13, 1972 23:59:55 到 Mar 16, 2242 12:56:31 的时间戳值。

从浮点数到整数值的转换可能会导致精度损失。

当 datetime 字段存储为快速字段时，fast_precision 参数指示在编码前用于截断值的精度，这有助于压缩(此处的截断意味着清零)。fast_precision 参数可以取以下值：seconds, milliseconds, microseconds, 或 nanoseconds。它只影响标记为“快速”的 datetime 字段在快速字段中存储的内容。最后，对 datetime 快速字段的操作，例如通过聚合，需要在纳秒级别进行。

内部地，`datetime` 在快速字段和文档存储中以 `nanoseconds` 存储，在术语字典中以 `seconds` 存储。

此外，Quickwit 支持 output_format 字段参数来指定以何种精度反序列化日期时间。此参数支持与输入格式相同的值，除了 unix_timestamp 被替换为以下格式：

unix_timestamp_secs：以秒显示时间戳。
unix_timestamp_millis：以毫秒显示时间戳。
unix_timestamp_micros：以微秒显示时间戳。
unix_timestamp_nanos：以纳秒显示时间戳。

datetime 字段映射示例：

name: timestamp
type: datetime
description: Time at which the event was emitted
input_formats:
  - rfc3339
  - unix_timestamp
  - "%Y %m %d %H:%M:%S.%f %z"
output_format: unix_timestamp_secs
stored: true
indexed: true
fast: true
fast_precision: milliseconds

日期时间字段参数

变量	描述	默认值
`input_formats`	用于解析输入日期的格式	[`rfc3339`, `unix_timestamp`]
`output_format`	用于在搜索结果中显示日期的格式	`rfc3339`
`stored`	字段值是否存储在文档存储中	`true`
`indexed`	字段值是否被索引	`true`
`fast`	字段值是否存储在快速字段中	`false`
`fast_precision`	用于存储快速值的精度 (`seconds`, `milliseconds`, `microseconds`, 或 `nanoseconds`)	`seconds`

bool type(布尔类型)

bool 类型接受布尔值。

布尔字段映射示例：

name: is_active
description: Activation status
type: bool
stored: true
indexed: true
fast: true

布尔字段参数

变量	描述	默认值
`description`	字段的可选描述。	`None`
`stored`	值是否存储在文档存储中	`true`
`indexed`	值是否被索引	`true`
`fast`	值是否存储在快速字段中	`false`

ip type(IP 类型)

ip 类型接受 IP 地址值，同时支持 IPv4 和 IPv6。内部地，IPv4 地址会被转换为 IPv6。

IP 字段映射示例：

name: host_ip
description: Host IP address
type: ip
fast: true

IP 字段参数

变量	描述	默认值
`description`	字段的可选描述。	`None`
`stored`	值是否存储在文档存储中	`true`
`indexed`	值是否被索引	`true`
`fast`	值是否存储在快速字段中	`false`

bytes type(二进制类型)

bytes 类型接受一个以 Base64 编码的字符串形式的二进制值。

二进制字段映射示例：

name: binary
type: bytes
stored: true
indexed: true
fast: true
input_format: hex
output_format: hex

二进制字段参数

变量	描述	默认值
`description`	字段的可选描述。	`None`
`stored`	值是否存储在文档存储中	`true`
`indexed`	值是否被索引	`true`
`fast`	值是否存储在快速字段中。仅支持一对一基数，不支持 `array` 字段	`false`
`input_format`	用于表示输入二进制数据的编码，可以是 `hex` 或 `base64`	`base64`
`output_format`	用于在搜索结果中表示二进制数据的编码，可以是 `hex` 或 `base64`	`base64`

json type(JSON 类型)

json 类型接受一个 JSON 对象。

JSON 字段映射示例：

name: parameters
type: json
stored: true
indexed: true
tokenizer: raw
expand_dots: false
fast:
  normalizer: lowercase

JSON 字段参数

变量	描述	默认值
`description`	字段的可选描述。	`None`
`stored`	值是否存储在文档存储中	`true`
`indexed`	值是否被索引	`true`
`fast`	值是否存储在快速字段中。JSON 中文本的默认行为是不变地存储文本。可以通过 `normalizer: lowercase` 配置一个标准化器。(查看可用的标准化器) 以获取可用标准化器列表。	`true`
`tokenizer`	仅影响 JSON 对象中的字符串。`Tokenizer` 的名称，可以选择 `raw`, `default`, `en_stem` 和 `chinese_compatible`	`raw`
`record`	仅影响 JSON 对象中的字符串。描述索引的信息量，可以选择 `basic`, `freq` 和 `position`	`basic`
`expand_dots`	如果为真，则包含 `.` 的 JSON 键将被展开。例如，如果 `expand_dots` 设置为真，则 `{"k8s.node.id": "node-2"}` 将像 `{"k8s": {"node": {"id": "node2"}}}` 一样被索引。这样做的好处是在查询时不需要转义 `.`。换句话说，`k8s.node.id:node2` 将匹配文档。这不会影响文档的存储方式。	`true`

https://quickwit.io/docs/configuration/index-config#description-of-available-normalizers

注意 tokenizer 和 record 与文本字段具有相同的定义和相同的效果。

要在 JSON 对象中搜索，则需要扩展字段名以指向目标值的路径。

例如，当索引以下对象时：

{
    "product_name": "droopy t-shirt",
    "attributes": {
        "color": ["red", "green", "white"],
        "size:": "L"
    }
}

假设 attributes 已经被定义为如下字段映射：

- type: json
  name: attributes

attributes.color:red 是一个有效的查询。

如果另外将 attributes 设置为默认搜索字段，那么 color:red 也是一个有效的查询。

Composite types(复合类型)

array(数组)

Quickwit 支持所有原始类型(除了 object 类型)的数组。

要在索引配置中声明一个 i64 类型的数组，只需将类型设置为 array 即可。

object(对象)

Quickwit 支持嵌套对象，只要它不包含对象数组即可。

name: resource
type: object
field_mappings:
  - name: service
    type: text

concatenate(拼接)

Quickwit 支持将多个字段的内容映射到单一字段上。这在查询时可能比遍历数十个 default_search_fields 更高效。它还允许在不知道要搜索字段的路径的情况下，在 JSON 字段内进行查询。

name: my_default_field
type: concatenate
concatenated_fields:
  - text # things inside text, tokenized with the `default` tokenizer
  - resource.author # all fields in resource.author, assuming resource is an `object` field.
include_dynamic_fields: true
tokenizer: default
record: basic

拼接字段不支持快速字段，并且永远不会存储。它们使用自己的分词器，独立于各个字段上配置的分词器。
在查询时，拼接字段不支持范围查询。
仅支持以下类型的拼接字段：text、bool、i64、u64、json。其他类型会在创建索引时被拒绝，或者如果在 JSON 字段中发现，则在索引化过程中被静默丢弃。
向拼接字段添加对象字段不会自动添加其子字段(目前还不支持)。
无法从 JSON 字段添加子字段到拼接字段。例如，如果 attributes 是一个 JSON 字段，则无法仅将 attributes.color 添加到拼接字段中。

对于 JSON 字段和动态字段，仅索引值而不索引路径。例如，给定以下文档：

{
  "421312": {
    "my-key": "my-value"
  }
}

可以搜索 my-value 而不必知道完整的路径，但无法搜索包含键 my-key 的所有文档。

Mode

mode 描述了当 Quickwit 接收到未在字段映射中定义的字段时的行为。

Quickwit 提供了三种不同的模式：

dynamic(默认值)：未映射的字段会被 Quickwit 收集，并按照 dynamic_mapping 参数中定义的方式处理。
lenient：未映射的字段会被 Quickwit 忽略。
strict：如果文档包含未映射的字段，Quickwit 将会忽略该文档，并将其计为错误。

Dynamic Mapping(动态映射)

dynamic 模式使得可以在无模式或部分模式的情况下运行 Quickwit。dynamic 模式的配置可通过 dynamic_mapping 参数设置。dynamic_mapping 提供与配置 json 字段相同的配置选项，默认为：

version: 0.7
index_id: my-dynamic-index
doc_mapping:
  mode: dynamic
  dynamic_mapping:
    indexed: true
    stored: true
    tokenizer: default
    record: basic
    expand_dots: true
    fast: true

当 dynamic_mapping 设置为已索引(默认)，通过动态模式映射的字段可以通过针对从 JSON 对象根部访问它们所需的路径来搜索。

例如，在完全无模式的设置下，最简单的索引配置可能是：

version: 0.7
index_id: my-dynamic-index
doc_mapping:
    # If you have a timestamp field, it is important to tell quickwit about it.
    timestamp_field: unix_timestamp
    # mode: dynamic #< Commented out, as dynamic is the default mode.

有了这样一个简单的配置，我们可以对一个复杂的文档进行索引，如下面所示：

{
  "endpoint": "/admin",
  "query_params": {
    "ctk": "e42bb897d",
    "page": "eeb"
  },
  "src": {
    "ip": "8.8.8.8",
    "port": 53,
  },
  //...
}

以下查询是有效的，并匹配上述文档。

// Fields can be searched simply.
endpoint:/admin

// Nested object can be queried by specifying a `.` separated
// path from the root of the json object to the given field.
query_params.ctk:e42bb897d

// numbers are searchable too
src.port:53

// and of course we can combine them with boolean operators.
src.port:53 AND query_params.ctk:e42bb897d

Field name validation rules(字段名称验证规则)

目前 Quickwit 只接受符合以下正则表达式的字段名称：^[@$_\-a-zA-Z][@$_/\.\-a-zA-Z0-9]{0,254}$

用通俗的语言来说：

需要有至少一个字符。
只能包含大写和小写的 ASCII 字母 [a-zA-Z]、数字 [0-9]、.、破折号 -、下划线 _、斜杠 /、at 符号 @ 和美元符号 $。
不得以点号或数字开头。
必须与 Quickwit 的保留字段映射名称 _source、_dynamic、_field_presence 不同。

对于包含 . 字符的字段名称，在引用它们时需要对其进行转义。否则 . 字符将被视为 JSON 对象属性的访问。因此，建议避免使用包含 . 字符的字段名称。

Behavior with null values or missing fields(对空值或缺失字段的行为)

JSON 文档中的 null 值或缺失字段在索引时将被静默忽略。

Indexing settings(索引设置)

本节描述了给定索引的索引设置。

变量	描述	默认值
`commit_timeout_secs`	自创建以来提交拆分的最大秒数。	`60`
`split_num_docs_target`	每个拆分的目标文档数。	`10000000`
`merge_policy`	描述触发拆分合并操作所采用的策略(参见下方的合并策略部分)。
`resources.heap_size`	每个来源每个索引的索引器堆大小。	`2000000000`
`docstore_compression_level`	docstore 中使用的 zstd 压缩级别。较低的值可能会提高摄取速度，但代价是索引大小	`8`
`docstore_blocksize`	docstore 中块的大小，以字节为单位。较小的值可能会提高文档检索速度，但代价是索引大小	`1000000`

https://quickwit.io/docs/configuration/index-config#merge-policies

Merge policies(合并策略)

Quickwit 使得可以定义用于决定哪些拆分应该合并以及何时合并的策略。

Quickwit 提供了三种不同的合并策略，每种都有自己的参数集。

"Stable log" merge policy(“稳定日志”合并策略)

稳定日志合并策略试图最小化写入放大效应，并尽可能保持较高的时间修剪能力，通过合并大小相似且时间跨度相近的拆分。

Quickwit 默认的合并策略是 stable_log 合并策略，参数如下：

version: 0.7
index_id: "hdfs"
# ...
indexing_settings:
  merge_policy:
    type: "stable_log"
    min_level_num_docs: 100000
    merge_factor: 10
    max_merge_factor: 12
    maturation_period: 48h

变量	描述	默认值
`merge_factor`	(高级) 在单次合并操作中一起合并的拆分数目。	`10`
`max_merge_factor`	(高级) 在单次合并操作中可以一起合并的最大拆分数目。	`12`
`min_level_num_docs`	(高级) 文档数目低于此值的所有拆分被视为属于同一层级。	`100000`
`maturation_period`	拆分被视为成熟的时间期限，之后将不再考虑进行合并。可能会影响待处理删除任务的完成时间。	`48h`

"Limit Merge" merge policy(“限制合并”合并策略)

“限制合并”合并策略被认为是高级功能。

限制合并策略通过设置拆分应经历的合并操作次数的上限来简单地限制写入放大效应。

version: 0.7
index_id: "hdfs"
# ...
indexing_settings:
  merge_policy:
    type: "limit_merge"
    max_merge_ops: 5
    merge_factor: 10
    max_merge_factor: 12
    maturation_period: 48h

变量	描述	默认值
`max_merge_ops`	给定拆分应经历的最大合并次数。	`4`
`merge_factor`	(高级) 在单次合并操作中一起合并的拆分数目。	`10`
`max_merge_factor`	(高级) 在单次合并操作中可以一起合并的最大拆分数目。	`12`
`maturation_period`	拆分被视为成熟的时间期限，之后将不再考虑进行合并。可能会影响待处理删除任务的完成时间。	`48h`

No merge(不合并)

no_merge 合并策略完全禁用合并。

此设置不推荐使用。合并是必要的，因为它可以减少拆分的数量，从而提高搜索性能。

version: 0.7
index_id: "hdfs"
indexing_settings:
    merge_policy:
        type: "no_merge"

Indexer memory usage(索引器内存使用)

索引器默认使用 2 GiB 的堆内存。这并不直接反映总体内存使用情况，但将这个值加倍应该能得到一个合理的近似值。

Search settings(搜索设置)

本节描述了给定索引的搜索设置。

变量	描述	默认值
`default_search_fields`	用于搜索的默认字段列表。此列表中的字段名称可以在模式中显式声明，也可以引用由动态模式捕获的字段。	`None`

Retention policy(保留策略)

本节描述了 Quickwit 如何管理数据保留。在 Quickwit 中，保留策略管理器按拆分删除数据，而不是单独删除文档。拆分根据其 time_range 进行评估，该 time_range 来自索引时间戳字段(在 (doc_mapping.timestamp_field) 设置中指定)。使用此设置，当 now() - split.time_range.end >= retention_policy.period 时，保留策略将删除拆分。

version: 0.7
index_id: hdfs
# ...
retention:
  period: 90 days
  schedule: daily

变量	描述	默认值
`period`	以人类可读方式表示的拆分被删除后的持续时间(如 `1 day`、`2 hours`、`a week` 等)。	必需
`schedule`	以 cron 表达式 (`0 0 * * * *`) 或人类可读形式 (`hourly`、`daily`、`weekly`、`monthly`、`yearly`) 表示的保留策略评估和应用的频率。	`hourly`

period 被指定为一系列时间间隔。每个时间间隔是一个整数后跟一个单位后缀，如：2 days 3h 24min。支持的单位有：

nsec, ns -- 纳秒
usec, us -- 微秒
msec, ms -- 毫秒
seconds, second, sec, s
minutes, minute, min, m
hours, hour, hr, h
days, day, d
weeks, week, w
months, month, M -- 一个月定义为 30.44 天
years, year, y -- 一年定义为 365.25 天

Metastore configuration

Quickwit 需要一个地方来存储关于其索引的元信息。

例如：

索引配置。
关于其拆分的元信息。例如，它们的 ID、包含的文档数量、大小、最小/最大时间戳以及拆分中存在的标签集。
不同来源的检查点。
一些额外的信息，如索引创建时间。

元存储完全由一个 URI 定义。可以通过编辑节点配置文件(通常命名为 quickwit.yaml)中的 metastore_uri 参数来设置它。

https://quickwit.io/docs/configuration/node-config

目前，Quickwit 提供了两种实现：

PostgreSQL：推荐用于分布式使用。
File-backed implementation。

PostgreSQL Metastore(PostgreSQL 元存储)

对于任何分布式使用场景，我们推荐使用 PostgreSQL 元存储。

可以通过在 Quickwit 配置文件中的 metastore_uri 参数设置 PostgreSQL URI 来配置 PostgreSQL 元存储。URI 的格式如下：

postgres://[user]:[password]@[host]:[port]/[dbname]

一些参数可以省略。以下 PostgreSQL URI 是有效的示例：

postgres://localhost/mydb
postgres://user@localhost
postgres://user:secret@localhost
postgres://host1:123,host2:456/mydb

数据库需要提前创建。

在首次执行时，Quickwit 将透明地创建必要的表。

同样，如果你将 Quickwit 升级到包含 PostgreSQL 模式更改的版本，Quickwit 将在启动时透明地执行迁移。

File-backed metastore(基于文件的元存储)

为了方便起见，Quickwit 还允许使用基于文件的元存储来将其元数据存储在文件中。在这种情况下，Quickwit 将为每个索引写一个文件。

然后通过传递一个存储 URI 来配置元存储，该 URI 将作为元存储的根目录。

https://quickwit.io/docs/configuration/storage-config#storage-uris

与给定索引关联的元数据文件将存储在

[storage_uri]/[index_id]/metastore.json

目前，Quickwit 支持两种类型的存储：

本地文件系统 URI(例如，file:///opt/toto)。直接传递文件路径(不带 file://)也是有效的，例如 /var/quickwit。相对路径将相对于当前工作目录解析。
S3 兼容的存储 URI(例如，s3://my-bucket/some-path)。参阅存储配置文档来配置 S3 或 S3 兼容的存储提供商。
- https://quickwit.io/docs/configuration/storage-config

Polling configuration(拉取配置)

默认情况下，基于文件的元存储仅在启动 Quickwit 进程(如搜索器、索引器等)时读取一次。

您还可以配置它定期拉取基于文件的元存储以保持最新视图。这对于需要了解由并行运行的索引器发布的新的拆分的搜索器实例很有用。

要配置拉取间隔(以秒为单位)，请向存储 URI 添加 URI 片段，如下所示：s3://quickwit/my-indexes#polling_interval=30s

拉取间隔只能以秒为单位配置；其他单位，如分钟或小时，不受支持。 Amazon S3 对每 1000 次 GET 请求收取 $0.0004 的费用。每 30 秒拉取一次元存储每月和每个索引的成本为 $0.04。

Examples(示例)

以下基于文件的元存储 URI 是有效的：

s3://my-indexes
s3://quickwit/my-indexes
s3://quickwit/my-indexes#polling_interval=30s
file:///local/indices
file:///local/indices#polling_interval=30s
/local/indices
./quickwit-metastores

基于文件的元存储不支持同时运行多个实例，因为它没有实现任何锁定机制来防止并发写入相互覆盖。确保任何时候只运行一个基于文件的元存储实例。

Source configuration(数据来源配置)

Quickwit 可以从一个或多个来源将数据插入到索引中。
可以在创建索引后使用 CLI 命令 quickwit source create 添加来源。
也可以使用 quickwit source enable/disable 子命令启用或禁用来源。

https://quickwit.io/docs/reference/cli#source

来源是通过一个称为来源配置的对象声明的，该对象定义了来源的设置。它由多个参数组成：

来源 ID
来源类型
来源参数
输入格式
每个索引器的最大管道数(可选)
期望的管道数(可选)
转换参数(可选)

Source ID(来源 ID)

来源 ID 是一个字符串，用于在索引内唯一标识来源。它只能包含大写或小写的 ASCII 字母、数字、连字符 (-) 和下划线 (_)。最后，它必须以字母开头，并且至少包含 3 个字符，但不超过 255 个。

Source type(来源类型)

来源类型指定了正在配置的来源种类。截至版本 0.5，可用的来源类型有 ingest-api、kafka、kinesis 和 pulsar。file 类型也受支持，但仅用于从 CLI 进行本地摄入。

https://quickwit.io/docs/main-branch/reference/cli#tool-local-ingest

Source parameters(来源参数)

来源参数指示如何连接到数据存储，并且特定于来源类型。

File source(文件数据来源)

文件来源从包含由新行分隔的 JSON 对象(NDJSON)的文件中读取数据。如果文件名以 .gz 后缀结尾，则支持 Gzip 压缩。

Ingest a single file (摄入特定文件 CLI only)

要摄入特定文件，请直接在临时 CLI 进程中运行索引：

./quickwit tool local-ingest --index  --input-path

本地文件和对象文件都受支持，前提是环境已使用适当的权限进行配置。有一个教程可供参考这里。

https://quickwit.io/docs/ingest-data/ingest-local-file

Notification based file ingestion (基于通知的文件摄入 beta)

Quickwit 可以自动摄入所有上传到 S3 存储桶的新文件。这需要创建并配置一个 SQS 通知队列。一个完整的示例可以在这个教程中找到。

https://docs.aws.amazon.com/AmazonS3/latest/userguide/ways-to-add-notification-config-to-bucket.html
https://quickwit.io/docs/ingest-data/sqs-files

notifications 参数接受一个通知设置数组。目前每个来源可以配置一个通知器，并且仅支持 SQS 通知 type。

SQS notifications 参数项所需的字段：

type: sqs
queue_url: SQS 队列的完整 URL(例如 https://sqs.us-east-1.amazonaws.com/123456789012/queue-name)
message_type: 消息负载的格式，可以是
- s3_notification: 一个 S3 事件通知
- raw_uri: 包含文件对象 URI 的消息(例如 s3://mybucket/mykey)
- https://docs.aws.amazon.com/AmazonS3/latest/userguide/EventNotifications.html

使用 CLI 向索引添加带有 SQS 通知的文件来源

https://quickwit.io/docs/reference/cli#source

cat << EOF > source-config.yaml
version: 0.8
source_id: my-sqs-file-source
source_type: file
num_pipelines: 2
params:
  notifications:
    - type: sqs
      queue_url: https://sqs.us-east-1.amazonaws.com/123456789012/queue-name
      message_type: s3_notification
EOF
./quickwit source create --index my-index --source-config source-config.yaml

Quickwit 在成功摄入后不会自动删除来源文件。您可以使用 S3 对象过期来配置它们应在存储桶中保留多久。
配置通知仅转发类型为 s3:ObjectCreated:* 的事件。其他事件会被来源确认，但不再进一步处理，并记录警告。
我们强烈建议使用死信队列来接收所有无法被文件来源处理的消息。maxReceiveCount 的值为 5 是一个不错的默认值。以下是一些常见情况，其中通知消息最终会进入死信队列：
- 通知消息无法解析(例如，它不是一个有效的 S3 通知)
- 文件未找到
- 文件损坏(例如，意外压缩)

https://docs.aws.amazon.com/AmazonS3/latest/userguide/lifecycle-expire-general-considerations.htmlhttps://docs.aws.amazon.com/AWSSimpleQueueService/latest/SQSDeveloperGuide/sqs-dead-letter-queues.html

Ingest API source(Ingest API 来源)

Ingest API 来源从 Ingest API 读取数据。此来源会在创建索引时自动生成，不能删除或禁用。

https://quickwit.io/docs/main-branch/reference/rest-api#ingest-data-into-an-index

Kafka source(Kafka 来源)

Kafka 来源从 Kafka 流中读取数据。流中的每条消息必须包含一个 JSON 对象。

有一个教程可供参考这里。

https://quickwit.io/docs/main-branch/ingest-data/kafka

Kafka source parameters(Kafka 参数)

Kafka 来源使用客户端库 librdkafka 消费 topic，并将 client_params 参数携带的键值对转发给底层的 librdkafka 消费者。常见的 client_params 选项包括引导服务器 (bootstrap.servers) 或安全协议 (security.protocol)。请参阅 Kafka 和 librdkafka 文档页面获取更高级的选项。

https://github.com/edenhill/librdkafka
https://kafka.apache.org/documentation/#consumerconfigs
https://github.com/edenhill/librdkafka/blob/master/CONFIGURATION.md

属性	描述	默认值
`topic`	要消费的主题名称。	必需
`client_log_level`	librdkafka 客户端日志级别。可能的值是：debug、info、warn、error。	`info`
`client_params`	librdkafka 客户端配置参数。	`{}`
`enable_backfill_mode`	回填模式在到达主题末尾后停止来源。	`false`

Kafka 客户端参数

bootstrap.servers
逗号分隔的主机和端口对列表，这些是 Kafka 集群中 Kafka 经纪人的地址子集。
auto.offset.reset
定义了来源在消费一个分区时的行为，该分区在检查点中没有保存初始偏移量。earliest 从分区开始消费，而 latest(默认)从分区末尾消费。
enable.auto.commit
此设置被忽略，因为 Kafka 来源使用检查点 API 内部管理提交偏移量，并强制禁用自动提交。
- https://quickwit.io/docs/overview/concepts/indexing#checkpoint
group.id
基于 Kafka 的分布式索引依赖于消费者组。除非在客户端参数中覆盖，默认分配给来源管理的每个消费者的组 ID 是 quickwit-{index_uid}-{source_id}。
max.poll.interval.ms
短的最大轮询间隔持续时间可能会导致来源在索引器出现反压时崩溃。因此，Quickwit 建议使用默认值 300000(5 分钟)。

使用 CLI 向索引添加 Kafka 来源

https://quickwit.io/docs/reference/cli#source

cat << EOF > source-config.yaml
version: 0.8
source_id: my-kafka-source
source_type: kafka
num_pipelines: 2
params:
  topic: my-topic
  client_params:
    bootstrap.servers: localhost:9092
    security.protocol: SSL
EOF
./quickwit source create --index my-index --source-config source-config.yaml

Kinesis source(Kinesis 来源)

Kinesis 来源从 Amazon Kinesis 流中读取数据。流中的每条消息必须包含一个 JSON 对象。

https://aws.amazon.com/kinesis/

有一个教程可供参考这里。

https://quickwit.io/docs/main-branch/ingest-data/kinesis

Kinesis source parameters

Kinesis 来源通过 stream_name 和 region 消费一个流。

属性	描述	默认值
`stream_name`	要消费的流名称。	必需
`region`	流所在的 AWS 区域。与 `endpoint` 互斥。	`us-east-1`
`endpoint`	用于与 AWS 兼容的 Kinesis 服务一起使用的自定义端点。与 `region` 互斥。	可选

如果没有指定区域，Quickwit 将尝试在多个其他位置查找区域，并按照以下优先顺序：

环境变量 (AWS_REGION 然后是 AWS_DEFAULT_REGION)
配置文件，通常位于 ~/.aws/config 或者如果设置了 AWS_CONFIG_FILE 环境变量且不为空，则按其指定的位置。
Amazon EC2 实例元数据服务确定当前运行的 Amazon EC2 实例所在的区域。
默认值：us-east-1

使用 CLI 向索引添加 Kinesis 来源

https://quickwit.io/docs/reference/cli#source

cat << EOF > source-config.yaml
version: 0.7
source_id: my-kinesis-source
source_type: kinesis
params:
  stream_name: my-stream
EOF
quickwit source create --index my-index --source-config source-config.yaml

Pulsar source(Pulsar 来源)

Pulsar 来源从一个或多个 Pulsar 主题读取数据。每个主题中的消息必须包含一个 JSON 对象。

有一个教程可供参考这里。

https://quickwit.io/docs/main-branch/ingest-data/pulsar

Pulsar source parameters

Pulsar 来源使用客户端库 pulsar-rs 消费 topics。

https://github.com/streamnative/pulsar-rs

属性	描述	默认值
`topics`	要消费的主题列表。	必需
`address`	Pulsar URL(pulsar:// 和 pulsar+ssl://)。	必需
`consumer_name`	要与 Pulsar 来源注册的消费者名称。	`quickwit`

使用 CLI 向索引添加 Pulsar 来源

https://quickwit.io/docs/reference/cli#source

cat << EOF > source-config.yaml
version: 0.7
source_id: my-pulsar-source
source_type: pulsar
params:
  topics:
    - my-topic
  address: pulsar://localhost:6650
EOF
./quickwit source create --index my-index --source-config source-config.yaml

Number of pipelines(管道数量)

num_pipelines 参数仅适用于像 Kafka、GCP PubSub 和 Pulsar 这样的分布式来源。

它定义了要在集群上为来源运行的管道数量。这些管道在不同索引器上的实际放置将由控制平面决定。

请注意，对于像 Kafka 这样的分区来源，通过将不同的分区分配给不同的管道来分布索引负载。因此，重要的是确保分区的数量是 num_pipelines 的倍数。

此外，假设您只在 Quickwit 集群中索引单个 Kafka 来源，您应该将管道数量设置为索引器数量的倍数。最后，如果您的索引吞吐量很高，您应该为每个管道配置 2 到 4 个 vCPU。

例如，假设您想要索引一个 60 个分区的主题，每个分区接收 10 MB/s 的吞吐量。如果您测量到 Quickwit 可以以每管道 40 MB/s 的速度索引您的数据，那么可能的设置可以是：

5 个索引器，每个有 8 个 vCPU
15 个管道

这样，每个索引器将负责 3 个管道，每个管道将覆盖 4 个分区。

Transform parameters(转换参数)

除了 ingest-api 类型之外的所有来源类型，在索引之前可以使用 Vector Remap Language (VRL) 脚本转换摄取的文档。

https://vector.dev/docs/reference/vrl/

属性	描述	默认值
`script`	执行以转换文档的 VRL 程序的源代码。	必需
`timezone`	VRL 程序中用于日期和时间操作的时区。它必须是 TZ 数据库中的有效名称。	`UTC`

https://en.wikipedia.org/wiki/List_of_tz_database_time_zones

# Your source config here
# ...
transform:
  script: |
    .message = downcase(string!(.message))
    .timestamp = now()
    del(.username)
  timezone: local

Input format(输入格式)

input_format 参数指定了来源预期的数据格式。目前支持两种格式：

json: JSON，这是默认格式
plain_text: 非结构化文本文档

内部而言，Quickwit 只能索引 JSON 数据。为了允许摄取纯文本文档，Quickwit 会将它们实时转换成如下形式的 JSON 对象：{"plain_text": ""}。然后，可以使用 VRL 脚本将它们可选地转换为更复杂的文档。(参见 transform 特性)。

https://quickwit.io/docs/configuration/source-config#transform-parameters

下面是一个如何解析并转换包含用户列表的 CSV 数据集的例子，其中用户由 3 个属性描述：名字、姓氏和年龄。

# Your source config here
# ...
input_format: plain_text
transform:
  script: |
    user = parse_csv!(.plain_text)
    .first_name = user[0]
    .last_name = user[1]
    .age = to_int!(user[2])
    del(.plain_text)

Enabling/Disabling a source from an index(启用/禁用索引中的来源)

可以通过 CLI 命令 quickwit source enable 或 quickwit source disable 启用或禁用索引中的来源：

https://quickwit.io/docs/reference/cli

quickwit source disable --index my-index --source my-source

来源默认是启用的。当禁用一个来源时，相关的索引管道将在每个相关索引器上关闭，对该来源的索引也会暂停。

Deleting a source from an index(从索引中删除来源)

可以通过 CLI 命令 quickwit source delete 从索引中移除来源：

https://quickwit.io/docs/reference/cli

quickwit source delete --index my-index --source my-source

删除来源时，与来源关联的检查点也会被移除。

Ports configuration(端口配置)

当启动 Quickwit 搜索服务器时，可以配置的一个重要参数是 rest.listen_port(默认值为 7280)。

内部而言，Quickwit 实际上会使用三个套接字。这三个套接字的端口目前无法独立配置。
使用的端口相对于 rest.listen_port 端口计算得出，具体如下。

服务	使用的端口	协议	默认值
带 REST API 的 HTTP 服务器	`${rest.listen_port}`	TCP	7280
集群成员资格	`${rest.listen_port}`	UDP	7280
GRPC 服务	`${rest.listen_port} + 1`	TCP	7281

目前无法独立配置这些端口。

为了形成集群，还需要定义一个 peer_seeds 参数。
以下地址是有效的对等种子地址：

类型	不带端口的示例	带端口的示例
IPv4	172.1.0.12	172.1.0.12:7180
IPv6	2001:0db8:85a3:0000:0000:8a2e:0370:7334	[2001:0db8:85a3:0000:0000:8a2e:0370:7334]:7280
主机名	node3	node3:7180

如果在对等节点地址中没有指定端口，Quickwit 节点将假定该对等节点使用与自己相同的端口。

1. Binance 如何使用 Quickwit 构建 100PB 日志服务(Quickwit 博客)

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
2019.1.6 root_restart
1.新版研学行程公众号推送及页面改动，以后继续尝试无logo版行程单方便转发，附带一篇研学政策解读2.百家号，头条号，搜狐号注册认证及审核，后续每天会在上面更新以往研学活动，增加搜索引擎中山大研学和雨滴教育的关联3.与鹿老师探讨研究方便代理的新宣传模式
只有一个诚字最重要（3.22）胡同学的读书笔记
1人们会认为谷歌是搜索引擎。而事实上，谷歌是第一个以机器为主导的搜索引擎，这个分类在谷歌之前是不存在的，而你必须要认识到谷歌的这个秘密才能判断它与其他公司的不同之处。2如果我目前在一个公司，当大家不知道未来的路怎么走，过去的路也已经彻底放弃了，我会先把事实摆在所有人面前，然后让大家讨论，在争论的过程中产生一个纲领性的共识，让每个部门在大的纲领下去寻求一种变化，不再以增长和竞争为纲，而是转移到产品和
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱 ShuQiHere 排序算法算法数据结构
【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
全面解析MeiliSearch及其Go语言实现寻找09之夏 Meilisearch golang 开发语言后端 Meilisearch
前言随着互联网的发展和数字化进程的加速，无论是企业还是个人用户，都需要面对海量的信息。在这个背景下，搜索技术的重要性日益凸显。MeiliSearch是一款开源搜索引擎，它的出现为开发者提供了一个高效、灵活的选择。本文将从多个角度探讨MeiliSearch的特性、使用方法及其实现原理，并通过Go语言示例展示如何构建一个高性能的搜索系统。一、MeiliSearch特性MeiliSearch之所以受到欢
面对信息茧房，我们如何破局？听风便是雨_
当我们进入了互联网时代，信息的交互变得无比地便捷，当你需要什么样的信息，只需要在搜索引擎上输入，便可立马查询到你想要的结果，而且现在随着抖音、微博之类的应用APP的出现，我们本应从这些APP中获得更加丰富的知识或者信息，来开阔我们的眼界。但是事实上，我们仿佛没有获得预期的效果，更甚至于陷入更大的怪圈当中——缺乏耐心，不能容忍与自己想法不一样的他人建议，失去了与外界良好沟通的能力以及开拓自己的眼界的
80%的人都知道的——内容营销老泊
我们已经知道内容营销是依靠内容来进行营销，一起看一下内容营销的工作流吧。选题创作投放主要内容营销的选题类型-常青树：用户长时间关心的，比如房价，教育-热点：用户短时间关心的，比如八卦，实事二八原则常青树话题等等选题来源：访谈法：寻找目标用户尽可能一对一进行访谈，用户反馈的问题都可以成为你的选题来源数据法：利用搜索引擎获取内容选题。利用爬虫工具看看人们都比较关心哪些话题来作为选题基于时事的选题数据工
50.复盘变现之路 506小棉袄
1.昨天下载了头条，用搜索引擎找到了如何写文章。注册了一下。这一切其实都好简单，但是自己就是拖着没有做，而且还心安理得。现在在管理别人，于是用自己做到了才能教别人去做到来要求自己发现也不难。2.日更被我捡了起来。后面没有特殊情况，我会一直更下去。放弃一件事很容易，坚持自己喜欢的事也不会太难。3.今天完成了50关的最后一关，接下来就要挑战100关。想看看自己的极限在哪里。具体做法：1.每天早起一小时
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Django：Python高级Web框架详解及参数设置零度° python python django 前端
Django是一个高级的PythonWeb框架，它鼓励快速开发和简洁实用的设计。Django遵循MVC设计模式，提供了一套完整的解决方案，用于构建复杂的、数据库驱动的网站。Django的主要特点自动管理数据库：通过ORM（对象关系映射）自动管理数据库。自动生成站点地图：支持搜索引擎优化（SEO）。用户身份认证：内置用户认证系统。中间件支持：强大的中间件支持，可以处理请求和响应。跨站请求伪造（CSR
ES(Elasticsearch)常用的函数遨游在知识的海洋里无法自拔 java
Elasticsearch（简称ES）是一个开源的搜索引擎，广泛用于全文搜索、分析和数据可视化。以下是一些常用的Elasticsearch函数和操作：索引操作创建索引PUT/index_name删除索引DELETE/index_name查看索引GET/index_name文档操作插入文档POST/index_name/_doc/{"field":"value"}获取文档GET/index_name
HTML 图片一壶浊酒.. 前端开发 html 前端
在HTML中，我们可以使用img标签来显示一张图片。对于img标签，我们只需要掌握它的三个属性：src、alt和title。alt属性用于描述图片，这个描述文字是给搜索引擎看的，并且当图片无法显示时，页面会显示alt中的文字。title属性也用于描述图片，不过这个描述文字是给用户看的，并且当鼠标指针移到图片上时，会显示title中的文字。colspan属性body{background-color
生信学习Day-1 GJJDr
1.如何学习2.怎样解决学习中遇到的问题？a.第一步:搜索：首选-谷歌，其次-必应，大神级的搜索引擎：虫部落快搜。专业教程-搜狗微信、搜狗知乎、、githubb.第二步：如果你的问题不知该如何搜索，可在微信群中与小组成员讨论c.第三步：正确的提问3.如何搭建高效的学习平台a.效率软件:（1）浏览器-chrome浏览器简洁高效无广告，可以添加插件，比如”沙拉查词”（自行搜索），可以即时翻译。（2）电
优质素材的六个搜索技巧老李大李和小李
一是要有耐心哦耐心不但是搜索的技巧而且是前提的、必要的。没有耐心进行搜索就不会有大量的好的输入。二是多关键词这个就像我们在搜索引擎中使用的方法，输入关键词反复搜索就会发现好多有用的而且是我们未知的知识。三是多渠道我们要利用各种搜索引擎和各种方式包括读书、和人聊天的方法来搜集资料。四是多维度至少要从三方面着手～文字、图片、视频。五是精准搜索有了前面做的功课，我们要对主题和材料进行凝炼～取其精华去除无
什么是黑链？什么是黑帽？什么是明链？倔强的小蚁云Zt 网络数据库 tcp/ip 运维
什么是黑链？什么是黑帽？什么是明链？黑链有哪几种表示方式！怎样预防黑链？首先我们说下黑链定义:黑链是SEO黑帽手法中相当普遍的一种手段，笼统地说，它就是指一些人用非正常的手段获取的其它网站的反向链接，最常见的黑链就是通过各种网站程序漏洞获取搜索引擎权重或者PR较高的网站的WEBSHELL，进而在被黑网站上链接自己的网站。黑链的写法黑链文本黑链标签被放在一个隐藏的div中。用户在浏览器中是无法看到的
精准剖析白帽SEO和黑帽SEO的区别 heimaoxuexi 黑帽seo 黑帽 seo 黑帽seo技术
我们都知道，SEO就是搜索引擎优化，是对网站进行内部及外部的不断调整优化，改进网站在搜索引擎中的关键词自然排名，获得更多流量。而SEO又分为白帽SEO和黑帽SEO，SEO中的黑帽SEO技术http://www.heimaolianmeng.com。根据做网站的实战经验，分享一下自己对于白帽SEO和黑帽SEO的见解。一、白帽SEO1、符合用户体验原理就是指我们网站上做的任何内容、任何图片以及任何网站
【程序员必读】如何利用AI高效编程，从容准时下班！ z千鑫 AI领域人工智能 Agent AI工具 AI助手工作流 AI编程 ai
前言：在编程的旅途中，程序员们常常面临各种挑战，尤其是在编写代码时，难题层出不穷。尽管传统搜索引擎提供了海量信息，但往往让我们在无尽的例子和复杂分析中迷失，难以找到真正适合自己的解决方案。正因如此，越来越多的程序员开始借助AI的力量，轻松应对这些难题，让工作变得更高效，从而实现准时下班的目标。问题：那么如何利用AI编写代码呢？一、明确问题的核心在使用AI生成代码之前，首先要明确你所遇到的问题是什么
万字详解PHP+Sphinx中文亿级数据全文检索实战（实测亿级数据0.1秒搜索耗时）小松聊PHP进阶 MySQL PHP 全文检索 php sphinx mysql sql 数据库服务器
Sphinx查询性能非常厉害，亿级数据下输入关键字，大部分能在0.01~0.1秒，少部分再5秒之内查出数据。Sphinx官方文档：http://sphinxsearch.com/docs/sphinx3.html极简概括：由C++编写的高性能全文搜索引擎的开源组件，C/S架构，跨平台（支持Linux、Windows、MacOS），支持分布式部署，并可直接适配MySQL。解决问题：因为MySQL的l
弹性搜索引擎Elasticsearch：本地部署与远程访问指南猴哥是肖鸿人工智能技术指导专升本 jenkins 运维
在大数据时代，数据搜索和分析成为企业核心竞争力的关键因素。弹性搜索引擎Elasticsearch作为一种分布式、可扩展的搜索和分析引擎，受到广泛欢迎。本文将介绍Elasticsearch的本地部署与远程访问，帮助读者更好地利用这一强大的工具。一、本地部署环境准备在开始部署Elasticsearch之前，需要准备以下环境：操作系统：Elasticsearch支持多种操作系统，如Linux、Windo
程序员如何平衡日常编码工作与提升式学习？--编程之路：平衡与成长的艺术青云交教学 java学习学习高效编码习惯与时间管理技巧提升式学习的策略职业发展与个人成长的和谐共生编程教会你如何思考--比尔盖茨 Java学习方法时间管理
目录引言：正文：方向一：高效编码习惯与时间管理技巧方向二：提升式学习的策略方向三：职业发展与个人成长的和谐共生结束语：引言：在当今科技飞速发展的时代，编程已成为一项至关重要的技能。正如比尔·盖茨所说：“编程教会你如何思考。”对于程序员来说，如何在繁忙的日常编码工作中不断提升自己，实现职业发展与个人成长的双赢，是一个极具挑战性的问题。例如，谷歌的搜索引擎算法就是一个经典的编程案例，它通过高效的算法和
2023-03-15 困的晕_5c43
1.简述引擎有哪些类型，各类搜索引擎的工作原理是什么。.（1）全文索引型（2）目录索引型（3）元数据索引型（4）垂直索引型（5）互动式索引型搜索引擎的原理可以分为：数据收集、建立索引数据库、索引数据库中搜索和排序。2.新媒体内容搜集工具有哪些？尝试使用这些工具搜集一些当前热点话题第一个：爆文素材采集工具做新媒体运营，每天都需要去搜集大量的爆文视频等素材，这里给大家推荐一个自媒体爆文素材采集工具--
云计算技术与应用 - 了解认识云计算 ZuckD 云计算运维
云计算的背景互联网自1960年开始兴起，主要用于军方、大型企业等之间的纯文字电子邮件或新闻集群组服务。直到1990年才开始进入普通家庭，随着web网站与电子商务的发展，网络已经成为了目前人们离不开的生活必需品之一。云计算这个概念首次在2006年8月的搜索引擎会议上提出，成为了互联网的第三次革命。近几年来，云计算也正在成为信息技术产业发展的战略重点，全球的信息技术企业都在纷纷向云计算转型。我们举例来
LlamaIndex 使用 RouterOutputAgentWorkflow hawk2014bj llamaIndex LLM agent
LlamaIndex中提供了一个RouterOutputAgentWorkflow功能，可以集成多个QueryTool，根据用户的输入判断使用那个QueryEngine，在做查询的时候，可以从不同的数据源进行查询，例如确定的数据从数据库查询，如果是语义查询可以从向量数据库进行查询。本文将实现两个搜索引擎，根据不同Query使用不同QueryEngine。安装MySQL依赖pipinstallmys
五类学习技巧之搜索技巧│《学习力》笔记06 翟树纯
在当今信息爆炸的时代，搜索引擎就相当于我们的外接大脑，为了充分发挥搜索引擎的威力，就要提高自己的搜索能力。我们平时用的最多的就是通用搜索引擎，以百度为例，不仅可以用来搜索文字，还可以进行学术搜索、图片搜索、视频搜索、地图搜索。术业有专攻，除了百度之类的通用搜索引擎，还有其他的专业搜索引擎，如网站历史查询、高清图库、学术网站、商业数据库等。01搜索两大原则1．换位思考从搜索引擎的角度思考，用关键词检
NLP面试题（9月4日笔记）好好学习Py 自然语言处理自然语言处理笔记人工智能
常见的分词方法分词是将连续的子序列按照一定的规则进行重新组合形成词序列的过程，是NLP领域内最基础的内容。常见的分词方法有jieba分词，jieba分词支持多种分词模模式：精确模式，全模式，搜索引擎模式。1）精确模式：将句子最精确的进行切分，适合文本分析，在日常工作中最为常用；2）全模式：将句子中所有可以成词的词语都扫描出来，速度非常快，但不能消除歧义。3）搜索引擎模式：在精确模式的基础上，对长词
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

折腾 Quickwit，Rust 编写的分布式搜索引擎-官方配置详解

Node configuration(节点配置)

Common configuration(常规配置)

REST configuration(REST 配置)

Configuring CORS (配置跨源资源共享)

gRPC configuration(gRPC 配置)

Storage configuration(存储配置)

Metastore configuration(元存储配置)

File-backed metastore configuration(文件型元存储配置)

PostgreSQL metastore configuration(PostgreSQL 元存储配置)

Indexer configuration(索引器配置)

Ingest API configuration(Ingest API 配置)

Searcher configuration(搜索器配置)

Searcher split cache configuration(搜索器分片缓存配置)

Jaeger configuration(Jaeger 配置)

Using environment variables in the configuration(在配置中使用环境变量)

Storage configuration(存储配置)

Supported Storage Providers(支持的存储提供商)

Storage URIs(存储 URI)

Local file storage URIs(本地文件存储 URI)

Storage configuration(存储配置)

S3 storage configuration(S3 存储配置)

Environment variables(环境变量)

Storage flavors(存储风味)

Azure storage configuration(Azure 存储配置)

Environment variables(环境变量)

Storage configuration examples for various object storage providers(各种对象存储提供商的存储配置示例)

Garage

MinIO

Index configuration(索引配置)

Config file format(配置文件格式)

Index ID(索引 ID)

Index uri(索引 URI)

Doc mapping(文档映射)

Field types(字段类型)

Raw types(原始类型)

Text type(文本类型)

Numeric types: i64, u64 and f64 type(数值类型：i64、u64 和 f64 类型)

datetime type(日期时间类型)

bool type(布尔类型)

ip type(IP 类型)

bytes type(二进制类型)

json type(JSON 类型)

Composite types(复合类型)

array(数组)

object(对象)

concatenate(拼接)

Mode

Dynamic Mapping(动态映射)

Field name validation rules(字段名称验证规则)

Behavior with null values or missing fields(对空值或缺失字段的行为)

Indexing settings(索引设置)

Merge policies(合并策略)

"Stable log" merge policy(“稳定日志”合并策略)

"Limit Merge" merge policy(“限制合并”合并策略)

No merge(不合并)

Indexer memory usage(索引器内存使用)

Search settings(搜索设置)

Retention policy(保留策略)

Metastore configuration

PostgreSQL Metastore(PostgreSQL 元存储)

File-backed metastore(基于文件的元存储)

Polling configuration(拉取配置)

Examples(示例)

Source configuration(数据来源配置)

Source ID(来源 ID)

Source type(来源类型)

Source parameters(来源参数)

File source(文件数据来源)

Ingest a single file (摄入特定文件 CLI only)

Notification based file ingestion (基于通知的文件摄入 beta)

Ingest API source(Ingest API 来源)

Kafka source(Kafka 来源)

Kafka source parameters(Kafka 参数)

Kinesis source(Kinesis 来源)

Pulsar source(Pulsar 来源)

Number of pipelines(管道数量)

Transform parameters(转换参数)

Input format(输入格式)

Enabling/Disabling a source from an index(启用/禁用索引中的来源)

Numeric types: i64, u64 and f64 type(数值类型：`i64`、`u64` 和 `f64` 类型)