wzy0623

触类旁通Elasticsearch：扩展

一、添加节点

二、节点发现

1. 广播

2. 单播

3. 选举主节点

4. 错误识别

三、删除节点

1. 丢失节点

2. 停用节点

四、升级节点

五、使用_cat API

六、扩展策略

1. 过度分片

2. 将数据切分为索引和分片

3. 最大化吞吐量

七、别名

1. 添加和删除别名

2. 查看别名

3. 使用别名过滤器来屏蔽文档

八、路由

《Elasticsearch In Action》学习笔记。

一、添加节点

向ES集群增加节点非常简单，要做的就是启动一个新的ES实例，其它基本是全自动的，新节点会自动被发现，已有数据分片会自动重新平衡分布。具体过程参见“触类旁通Elasticsearch：安装”。

添加节点后，可以执行下面的命令对ES集群进行健康检查：

curl '172.16.1.127:9200/_cluster/health?pretty'

结果返回：

{
  "cluster_name" : "ES_cluster",
  "status" : "green",                           # 绿色状态
  "timed_out" : false,
  "number_of_nodes" : 3,
  "number_of_data_nodes" : 3,                   # 集群中的三个节点均可处理数据
  "active_primary_shards" : 23,
  "active_shards" : 46,                         # 所有分片都是激活状态
  "relocating_shards" : 0,
  "initializing_shards" : 0,
  "unassigned_shards" : 0,                      # 没有未分配的分片
  "delayed_unassigned_shards" : 0,
  "number_of_pending_tasks" : 0,
  "number_of_in_flight_fetch" : 0,
  "task_max_waiting_in_queue_millis" : 0,
  "active_shards_percent_as_number" : 100.0
}

添加节点带来的主要好处是高可用性与性能提升。主分片与其对应的副本分片不在一个节点上。当副本分片是激活状态（缺省状态）时，如果无法找到主分片，ES会自动地将一个对应的副本分片升级为主分片。这样，即使失去了索引主分片所在的节点，仍然可以访问副本分片上的数据。数据分布在多个节点上同样提升了性能，原因是主分片和副本分片都可以处理搜索和获取结果的请求。如果更多的节点加入集群，ES将试图在所有节点上均匀配置分片数量，这样每个新加入的节点都能通过部分数据（以分片的形式）来分担负载。

二、节点发现

ES节点使用两种不同的方式来发现另一个节点：广播或单播。ES可以同时使用两者，但默认的配置只使用广播，因为单播需要已知节点的列表来进行连接。

1. 广播

ES启动时，发送广播（multicast）的ping请求到地址224.2.2.4的端口54328，而其它的ES节点使用同样的集群名称（cluster.name），响应这个请求。通过设置elasticsearch.yml中如下的选项（展示了默认值），可以修改或者完全关闭广播发现的若干选项：

discovery.zen.ping.multicast:
 group: 224.2.2.4
 port: 54328
 ttl: 3
 address: null      # 设置地址为null意味着绑定所有的网络接口
 enabled: true

广播发现（multicast discovery）的过程如图1所示。

图1 ES使用广播来发现集群中的其它节点

生产环境的ES集群应该防止节点意外地连接到不属于它们的集群。单播不会将消息发送到全网，而是连接指定列表中的节点。

2. 单播

单播发现（unicast discovery）让ES连接一系列主机，并试图发现更多关于集群的信息。当节点的IP地址不会经常变化，或者ES的生产系统只连接特定的节点而不是整个网络的时候，单播是理想的模式。一个单播配置的例子是在elasticsearch.yml中设置discovery.zen.ping.unicast.hosts: ["10.0.0.3", "10.0.0.4:9300","10.0.0.5[9300-9400]"]。

并非所有的ES集群节点需要出现在单播列表中来发现全部的节点，但是必须为每个节点配置足够的地址，让其认识可用的“口口相传”节点。例如，如果单播列表中的一个节点认识7个集群节点中的3个，而单播列表中的第二个节点认识7个节点中的其它4个，那么该节点执行发现操作后能找到集群中的全部7个节点。单播发现的图形化表示如图2所示。

图2 ES使用单播来发现集群中的其它节点

在发现集群中的全部节点后，ES将进行主节点选取。

3. 选举主节点

一旦集群中的节点发现了彼此，它们会协商谁将成为主节点。主节点负责管理集群的状态，也就是当前的设置和集群中分片、索引以及节点的状态。在主节点被选举出来之后，它会建立内部的ping机制来确保每个节点在集群中保持活跃和健康，这被称为错误识别（fault detection）。ES认为所有的节点都有资格成为主节点，除非某个节点的node.master选项设置为false。当集群只有一个节点时，该节点先等一段时间，如果没有发现集群中的任何其它节点，它就将自己选为主节点。

应设置主节点的最小数量。这个设置并不表示一个ES集群可以拥有多个主节点，实际上它是告诉ES在集群成为健康状态前，集群中有多少节点有资格成为主节点。可以将最小数量设置为集群的总节点数，或者遵循一个常用的规则，将其设置为集群节点数除以2再加上1。将minimum_master_nodes设置为高于1的数量，可以预防集群产生脑裂（split brain）问题。遵守常用规则，3个节点的集群其minimum_master_nodes要设置为2，而对于14个节点的集群，最好将其设置为8。可修改elasticsearch.yml文件中的discovery.zen.minimum_master_nodes，将其设置为符合集群需求的数值。

下面的命令可以查看集群选举了哪个节点作为主节点：

curl '172.16.1.127:9200/_cluster/state/master_node,nodes?pretty'

返回如下：

{
  "cluster_name" : "ES_cluster",
  "compressed_size_in_bytes" : 18593,
  "cluster_uuid" : "T9UbYc0NS3OWw2YF-8TsfA",
  "master_node" : "DnLBO3JbQjuLe-bbBxD3Rw",     # 当前主节点的ID
  "nodes" : {
    "JukNH3HkSZCC_O5jAqsDSw" : {                # 集群中的第一个节点
      "name" : "node125",
      "ephemeral_id" : "QCFj_mKjTKO1beBtmMiC9w",
      "transport_address" : "172.16.1.125:9300",
      "attributes" : {
        "ml.machine_memory" : "8203419648",
        "ml.max_open_jobs" : "20",
        "xpack.installed" : "true",
        "ml.enabled" : "true"
      }
    },
    "yO9AEg-BTS20V9BhuEWeuA" : {                # 集群中的第二个节点
      "name" : "node127",
      "ephemeral_id" : "u7WZkfkBSFmGyTymoOyAXg",
      "transport_address" : "172.16.1.127:9300",
      "attributes" : {
        "ml.machine_memory" : "8203485184",
        "ml.max_open_jobs" : "20",
        "xpack.installed" : "true",
        "ml.enabled" : "true"
      }
    },
    "DnLBO3JbQjuLe-bbBxD3Rw" : {                # 集群中的第三个节点，为主节点
      "name" : "node126",
      "ephemeral_id" : "4DgVQJ40QrKt5BFr1mJjRw",
      "transport_address" : "172.16.1.126:9300",
      "attributes" : {
        "ml.machine_memory" : "8203419648",
        "ml.max_open_jobs" : "20",
        "xpack.installed" : "true",
        "ml.enabled" : "true"
      }
    }
  }
}

“脑裂”描述了这样的场景：（通常是在重负载或网络存在问题的情况下）ES集群中一个或多个节点失去了和主节点的通信，开始选举新的主节点，并继续处理请求。这个时候，可能有两个不同的ES集群相互独立地运行着。为了防止这种情况的而发生，需要根据集群节点的数量设置discovery.zen.minimum_master_nodes。将该值设置为节点数除以2并加1是个不错的选择，这意味着如果一个或多个节点失去了和其它节点的通信，它们无法选举新的主节点来形成集群，因为对于它们不能获得所需的节点（可成为主节点的节点）数量（超过一半）。

4. 错误识别

主节点需要和集群中所有节点通信，以确保一切正常，这称为错误识别（fault discovery）的过程。主节点ping集群中所有其它的节点，而且每个节点也会ping主节点来确认无须选举，如图3所示。

图3 主节点所进行的集群错误识别

在图3中，每个节点每隔discovery.zen.fd.ping_interval的时间（默认是1秒）发送一个ping请求，等待discovery.zen.fd.ping_timeout的时间（默认是30秒），并尝试最多discovery.zen.fd.ping_retries次（默认是3），然后宣布节点失联。并且在需要的时候进行新的分片路由和主节点选举。如果网络环境有很高的延迟，请确定修改这些值。

三、删除节点

1. 丢失节点

如图4所示，如果一个ES集群中的一个节点掉线或停机了，ES所做的第一件事情是自动地将节点node2上的test0和test3副本分片转为主分片。这是由于索引操作会首先更新主分片，所以ES要尽力是索引的主分片正常运作。ES可以选择任一个副本分片并将其转为主分片。

图4 节点宕机后，将可用的副本分片转为主分片

在ES将副本分片转为主分片后，集群会变为黄色状态，这意味着某些副本分片尚未分配到某个节点。ES下一步需要创建更多的副本分片来保持test索引的高可用性。由于所有的主分片现在都是可用的，节点node2上的test0和test3主分片的数据会复制到node3上作为副本分片，而节点node3上的test1主分片的数据会复制到节点node2，如图5所示。

图5 失去一个节点后，重新创建副本分片

一旦副本分片被重新创建，并用于弥补损失的节点，那么集群将重新回归绿色的状态，全部主分片以及副本分片都分配到了某个节点。在这个时间段内，整个集群都是可用于搜索和索引的，因为实际上没有丢失数据。如果失去的节点多于1个，或者某个没有副本的分片丢失了，那么集群就会变为红色的状态，这意味着某些数据永远地丢失了，需要让集群重连拥有丢失数据的节点，或者对丢失的数据重新建立索引。

就副本的数量而言，有1份副本分片意味着集群可以缺失1个节点而不丢失数据。如果有2个副本分片，可以缺失2个节点而不丢失数据，以此类推。所以要确保选择了合适的副本数量。

2. 停用节点

当集群进行例行维护时，总是希望关闭某个包含数据的节点，而同时不让集群进入黄色的状态。ES有一种停用节点（decommission）的方式，告诉集群不要再分配任何分片到某个或一组节点上。停用节点的操作会将该节点上的所有数据分片转移到集群中的其它节点。系统通过集群设置的临时修改实现节点的停用：

curl -X PUT "172.16.1.127:9200/_cluster/settings?pretty" -H 'Content-Type: application/json' -d'
{
  "transient": {                                # 临时设置，重启集群后不再有效
    "cluster.routing.allocation.exclude._ip": "172.16.1.125"
  }
}'

运行这个命令，ES将待停用节点上的全部分片开始转移到集群中的其它节点上。可以使用_nodes端点来确定集群节点的ID，然后查看集群的状态，来了解集群中每个分片目前分配到哪里。

curl -s "172.16.1.127:9200/_nodes?pretty" 
curl "172.16.1.127:9200/_cluster/state/routing_table,routing_nodes?pretty"

四、升级节点

（1）关于升级的警告

一旦升级了某台ES服务器，并且新的文档被写入，那么它再也无法降级。
由于不同JVM版本序列化信息的方法可能不同，建议不要在同一个ES集群中混用不同版本的JVM。

（2）轮流重启

轮流重启（rolling restart）是一种集群重启方式，它是为了在不牺牲数据可用性的前提下，升级一个节点或进行非动态的配置修改。这样可以对ES生产环境的部署进行动态升级。

对于升级而言，多数情况下不希望ES在节点离开集群的情况下开始自动恢复，因为这意味着每个节点都要进行重新均衡。实际上，数据还在那里，节点只是需要重启然后再次加入集群而变为可用。可以通过设置cluster.routing.allocation.enable选项为none做到这一点。滚动升级的过程如下：

关闭集群的分配设置。

curl -X PUT "172.16.1.127:9200/_cluster/settings?pretty" -H 'Content-Type: application/json' -d'
{
  "transient": {
    "cluster.routing.allocation.enable": "none"
  }
}'

关闭即将升级的节点。
升级节点（安装新版本）。
启动升级后的节点。
等待升级后的节点加入集群。

开启集群的分配设置。

curl -X PUT "172.16.1.127:9200/_cluster/settings?pretty" -H 'Content-Type: application/json' -d'
{
  "transient": {
    "cluster.routing.allocation.enable": "all"
  }
}'

等待集群恢复到绿色状态。

对每个需要升级的节点重复整个过程。对于集群中每个升级的节点，都要执行关闭分配和重启分配。如果只在整个升级开始和结束的时候各执行一次，那么升级一个节点的时候，ES不会分配该节点上的分片，一旦升级多个节点集群就可能会变为红色状态。每个节点升级后，重新开启分配选项并等待集群变为绿色状态，这样当进行下一个节点升级的时候，数据就是可分配、可用的。为每个待升级的节点重复这些步骤，直到升级了整个集群。

对于没有副本分片的索引，可以使用停用（decommission）步骤，在关闭节点进行升级前，先转移它上面的全部数据并停用它。

五、使用_cat API

_cat API提供了很有帮助的诊断和调试工具，将数据以更好的可读性打印出来，而不是返回一个巨大的JSON回复。

# 查看集群健康状态
curl -X GET "172.16.1.127:9200/_cat/health?v"
# 查看节点列表
curl -X GET "172.16.1.127:9200/_cat/nodes?v"
# 查看完整的_cat API接口
curl -X GET "172.16.1.127:9200/_cat"
# 查看每个节点的分片
curl -X GET "172.16.1.127:9200/_cat/allocation?v"
# 查看分片的分配情况
curl -X GET "172.16.1.127:9200/_cat/shards?v"

六、扩展策略

1. 过度分片

过度分片（over-sharding）是指有意地为索引创建大量分片，用于未来增加节点的过程。因为分片是ES所能移动的最小单位，所以应确保至少拥有和集群节点一样多的主分片数。

另一方面，ES管理每个分片都隐含着额外的开销。这是因为每个分片都是完整的Lucene索引，它需要为索引的每个分段创建一些文件描述符，增加相应的内存开销。如果创建了过多的分片，可能会占用了本来支撑性能的内存，或者触及操作系统文件描述符或内存的极限。

ES的默认设置5个分片适用于大多普通应用，但需要注意，一旦索引被创建，其主分片的数量是不能改变的，只能修改副本分片的数量。

2. 将数据切分为索引和分片

类似于SQL数据库的水平数据分表，例如按每个地区或年月创建索引。使用索引进行规划的另一个方式是别名。别名（alias）就像指向某个索引或一组索引的指针。而且ES中的别名也允许随时修改其所指向的索引。对于数据按语义的方式来切分，这点非常有用。例如“当前”的别名永远可用来指向应该被搜索的数据，而无须修改待搜索索引的名称。此外，索引足够灵活，而且几乎没有额外负载。

ES的别名功能类似于SQL中的视图，只要修改视图定义就可以访问不同的表，而不需要修改表名。

3. 最大化吞吐量

加速索引的一个方法是临时减少集群中副本分片的数量。索引数据时，默认情况下，在数据更新到主分片和所有副本分片之前，请求是不会完成的。所以，在索引阶段将副本分片数量减少到1（甚至是0）是有利的，然后在集中索引阶段结束后将这个数量增加为1或多个。

相反，在搜索的时候，通过加入更多的副本分片，搜索可以更快，这是因为无论是主分片还是副本分片都可以用于搜索。如果搜索请求量太大，集群中的节点很难应付，那么考虑加入节点时，将这些节点的node.data和node.master设置为false。这些节点就可以被用于处理不断涌入的请求，将请求分发到数据节点，收集返回的结果。这些节点只会处理客户端请求的连接，而不会像数据节点那样搜索分片。而另一方面，搜索分片的数据节点则不必处理和客户端之间的连接，只需要搜索分片。

七、别名

1. 添加和删除别名

curl -X POST "172.16.1.127:9200/_aliases?pretty" -H 'Content-Type: application/json' -d'
{
  "actions": [
    {
      "add": {
        "index": "get-together",                # 索引get-together将增加别名gt-alias
        "alias": "gt-alias"
      }
    },
    {
      "remove": {
        "index": "old-get-together",            # 删除索引old-get-together的别名gt-alias
        "alias": "gt-alias"
      }
    }
  ]
}'

curl -X PUT "172.16.1.127:9200/get-together/_aliases/gt-alias?pretty"
curl -X DELETE "172.16.1.127:9200/old-get-together/_aliases/gt-alias?pretty"

2. 查看别名

curl '172.16.1.127:9200/get-together/_alias?pretty'
curl -X GET '172.16.1.127:9200/get-together/_alias/*?pretty'
curl -X GET '172.16.1.127:9200/_alias/gt-alias?pretty'

3. 使用别名过滤器来屏蔽文档

curl -X POST "172.16.1.127:9200/_aliases?pretty" -H 'Content-Type: application/json' -d'
{
  "actions": [
    {
      "add": {
        "index": "get-together",
        "alias": "es-groups",
        "filter": {
          "term": {
            "tags": "elasticsearch"
          }
        }
      }
    }
  ]
}'

curl '172.16.1.127:9200/get-together/_count?pretty' -H 'Content-Type: application/json' -d'
{
  "query": {
    "match_all": {}
  }
}'

curl '172.16.1.127:9200/es-groups/_count?pretty' -H 'Content-Type: application/json' -d'
{
  "query": {
    "match_all": {}
  }
}'

八、路由

定制路由允许将分享同一个路由值的多篇文档归集到单个分片中，而一旦这些文档放入到同一索引，就可以路由某些查询，让它们可以在索引分片的子集中执行。挑选拥有足够基数的字段作为路由字段非常重要，这使得数据能够在索引的不同分片中分布。例如下面代码中，将活动的举办城市作为路由值：

curl -X POST "172.16.1.127:9200/get-together/_doc/9?routing=denver&pretty" -H 'Content-Type: application/json' -d'
{
  "title":"Denver Knitting" 
}'

curl -X POST "172.16.1.127:9200/get-together/_doc/10?routing=denver&pretty" -H 'Content-Type: application/json' -d'
{
  "name": "Denver Ruby",
  "description": "The Denver Ruby Meetup"  
}'

curl -X POST "172.16.1.127:9200/get-together/_doc/11?routing=boulder&pretty" -H 'Content-Type: application/json' -d'
{
  "name": "Boulder Ruby",
  "description": "Boulderites that use Ruby"  
}'

curl -X POST "172.16.1.127:9200/get-together/_doc/12?routing=amsterdam&pretty" -H 'Content-Type: application/json' -d'
{
  "name": "Amsterdam Devs that use Ruby",
  "description": "Mensen die genieten van het gebruik van Ruby"  
}'

在查询时指定路由值：

curl -X POST "172.16.1.127:9200/get-together/_search?routing=boulder,amsterdam&pretty" -H 'Content-Type: application/json' -d'
{
  "query": {
    "match": {
      "name": "ruby"
    }
  }
}'

使用_search_shards API来决定搜索在哪里执行：

curl -X GET "172.16.1.127:9200/get-together/_search_shards?pretty"
curl -X GET "172.16.1.127:9200/get-together/_search_shards?pretty&routing=denver"

配置路由：

curl -X PUT "172.16.1.127:9200/routed-events?pretty" -H 'Content-Type: application/json' -d'
{
  "mappings": {
    "event": {
      "_routing": {
        "required": true            # 指定添加文档时必须手动提供路由值
      },
      "properties": {
        "name": {
          "type": "text"
        }
      }
    }
  }
}'

当试图索引一篇没有路由值的文档时会报错：

curl -X POST "172.16.1.127:9200/routed-events/event/1?pretty" -H 'Content-Type: application/json' -d'
{
  "name":"my event"
}'

返回的错误信息如下：

{
  "error" : {
    "root_cause" : [
      {
        "type" : "routing_missing_exception",
        "reason" : "routing is required for [routed-events]/[event]/[1]",
        "index_uuid" : "_na_",
        "index" : "routed-events"
      }
    ],
    "type" : "routing_missing_exception",
    "reason" : "routing is required for [routed-events]/[event]/[1]",
    "index_uuid" : "_na_",
    "index" : "routed-events"
  },
  "status" : 400
}

结合路由和别名：

curl -X POST "172.16.1.127:9200/_aliases?pretty" -H 'Content-Type: application/json' -d'
{
  "actions": [
    {
      "add": {
        "index": "get-together",
        "alias": "denver-events",
        "filter": {
          "term": {
            "name": "denver"
          }
        },
        "routing": "denver"
      }
    }
  ]
}'

curl -X POST "172.16.1.127:9200/denver-events/_search?pretty" -H 'Content-Type: application/json' -d'
{
  "query": {
    "match_all": {}
  }
}'

假设别名指向一个单独的索引，那么它们可以和路由一起使用，在查询或索引的时候自动地使用路由值。

你可能感兴趣的:(NoSQL)

MongoDB 和 PostgreSQL 性能比较 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型 Java实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介随着互联网应用的普及，数据量越来越大，处理数据的需求也越来越强烈。数据量的爆炸性增长促使各种数据库系统应运而生。目前，基于关系型数据库管理系统（RDBMS）的产品如Oracle、MySQL等已经成为最主要的选择，但在实际生产环境中，存在性能问题，如读写延迟过高、查询效率低下、索引失效等。另外，NoSQL数据库系统如MongoDB、Cassandra等发展得相对较
redis和mongodb等对比分析贾斯汀玛尔斯数据湖数据库 noSQL redis 数据库缓存
Redis和MongoDB都是非常流行的NoSQL数据库，它们在数据存储模型、性能、扩展性等方面有很大的差异。下面是Redis和MongoDB的对比分析：1.数据模型Redis：键值存储：Redis是一个内存数据结构存储，它支持多种数据类型，如字符串、哈希、列表、集合、有序集合等。每个数据项通过一个唯一的键（key）存储和访问。键的值可以是不同的数据结构，不仅仅是字符串，也可以是数字、列表、哈希、
hbase put 写入数据慢_HBase 马斯克·贾 hbase put 写入数据慢
HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。逻辑结构物理存储结构数据模型逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。HBase的底层物理存储结构(K-V)。NameSpace命名空间，类似于关系型数据库的DatabBase概念，每个命名空间下有多个表。HBase有两个自带的命名空间，分别是hbase和default，hbase中存放的是H
Redis VVVVVxVVVVV redis 数据库 nosql memcached linux
Redis一、NoSqlNoSQL(NotOnlySql)，泛指非关系型的数据库。传统项目网站访问量一般不大，单机版数据库就很不错，随着互联网web2.0网站的兴起，传统的关系数据库在处理web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，出现了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决
MongoDB 查询文档 wjs2024 开发语言
MongoDB查询文档引言MongoDB是一款流行的开源NoSQL数据库，以其灵活的数据模型和强大的查询功能而闻名。本文将深入探讨MongoDB的查询文档，包括其基本概念、常用查询操作以及高级查询技巧。MongoDB查询基础数据模型MongoDB使用文档模型来存储数据。每个文档都是一个键值对集合，类似于JSON对象。文档存储在集合（Collection）中，集合是数据库中的容器。查询操作符Mong
MongoDB学习 jiugie mongodb 数据库 python
MongoDB是一种流行的NoSQL数据库，以文档存储为核心，适用于高灵活性、高扩展性的场景。本文将从基础概念到实际应用，带你快速掌握MongoDB的核心操作。1.MongoDB简介什么是MongoDB？MongoDB是一个基于分布式文件存储的数据库，采用BSON（类似JSON）格式存储数据，支持动态schema（无固定表结构）。核心特性文档模型：数据以键值对形式存储在文档中，类似JSON对象。高
NoSQL注入攻击如何防范 abckingaa MongoDB ORM Bee nosql 数据库 Bee
一些常见的MongoDB中的NoSQL注入攻击如下所示。1.基本的NoSQL注入攻击####示例假设有以下代码，用于查找特定用户：```javascriptletusername=req.body.username;//假设来自用户输入db.collection('users').find({username:username});```如果攻击者输入`username`为`{"$ne":null
Canva迁移策略深度解析：应对每日5000万素材增长，从MySQL到DynamoDB的蜕变微服务技术分享 mysql 数据库
随着数字化设计的蓬勃发展，Canva作为一款备受欢迎的在线设计平台，面临着日益增长的用户生成内容挑战。每天，平台上新增的素材数量高达5000万，这对数据库系统提出了前所未有的要求。为了应对这一挑战，Canva决定对其数据库系统进行一次重大迁移，从传统的MySQL转向高性能、可扩展的AmazonDynamoDBNoSQL数据库服务。MySQL的挑战MySQL作为一款关系型数据库，在许多应用场景中表现
Canva迁移策略深度解析：应对每日5000万素材增长，从MySQL到DynamoDB的蜕变微服务技术分享 mysql 数据库
随着数字化设计的蓬勃发展，Canva作为一款备受欢迎的在线设计平台，面临着日益增长的用户生成内容挑战。每天，平台上新增的素材数量高达5000万，这对数据库系统提出了前所未有的要求。为了应对这一挑战，Canva决定对其数据库系统进行一次重大迁移，从传统的MySQL转向高性能、可扩展的AmazonDynamoDBNoSQL数据库服务。MySQL的挑战MySQL作为一款关系型数据库，在许多应用场景中表现
【数据库技术NoSQL】MongoDB和Cassandra的使用爱技术的小伙子数据库 nosql mongodb
数据库技术NoSQL：MongoDB和Cassandra的使用目录引言NoSQL简介NoSQL的特点NoSQL的类型MongoDB简介及使用MongoDB的特点MongoDB的安装和配置MongoDB的基本操作Cassandra简介及使用Cassandra的特点Cassandra的安装和配置Cassandra的基本操作应用场景和最佳实践结论引言在大数据时代，传统的关系型数据库（RDBMS）在处理海
MongoDB与Cassandra数据库对比 2501_90243449 数据库 mongodb
在深入探讨MongoDB和Cassandra的不同之处之前，让我们先看看它们的相似之处。显然，它们都是数据库。更重要的是，它们都是NoSQL数据库。NoSQL是一种数据库架构类型，其中数据主要以相对非结构化的方式存储。与更传统的SQL式数据库相比，NoSQL可以更有效地存储大量非结构化数据，企业在大数据操作中通常会涉及非结构化数据。MongoDB和Cassandra也都是开源数据库，尽管现在也有商
openresty实践抢红包、秒杀之类的高并发场景 chundian0058
这段时间由于即将换工作（工作交接），所以处于比较空闲，也有时间空闲下来整理下技术方面的东西，社区论坛也逛得多了点，看到了网上不少相关于秒杀和抢红包之类的文章，做了对比，分享下：首先秒杀、抢红包或者投票之类都属于瞬间高并发，所以本文只针对NOSQL（redis）做后端，各个的方案的性能做了对比:基本业务逻辑是这样的：每个用户只允许抢一次，保证余额等操作的原子性，最后保证数据的一致性；基于redis乐
【进阶】redis篇 lil_侯昊 redis 数据库缓存
redis是什么nosqlnotonlysql(不仅仅是sql)泛指非关系型数据库一般把非关系型数据库称为nosql数据库.redismongodbredis是一个nosql类型的数据库(非关系型数据库),数据在内存中以键值对形式存储.读写速度快,也提供数据持久化方式.一般最常用的场景就是把redis用来做缓存.redis使用场景1.缓存2.计数器点赞3.排行榜数据结构,zset按照分数排序4.数
（一）大数据---Hadoop整体介绍（架构层）----（组件(3) 2401_84166965 程序员大数据 hadoop 架构
复杂性:体现在数据的管理和操作上。如何抽取，转换，加载，连接，关联以把握数据内蕴的有用信息已经变得越来越有挑战性二、大数据技术有哪些（重点）===================================================================================基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计
mongoDB分片集群部署 glnullops 运维 mongodb 数据库 nosql
一、MongoDB背景MongoDB是一款功能完善的分布式文档数据库，是一款非常出名的NoSQL数据库。当前国内使用Mongodb的大型实践越来越多，MongoDB为我司提供了重要的数据库存储服务，支撑着每天近千万级QPS峰值读写，数万亿级数据量存储服务。MongoDB在高性能、动态扩缩容、高可用、易部署、易使用、海量数据存储等方面拥有很大优势。近些年，MongoDB在DB-Engines流行度排
Java 集成 Redis 实战 C_V_Better java redis 数据库 redis java 缓存
Redis是一款高性能的NoSQL存储引擎，常被用于缓存、存储社交网络数据或构建排行榜。在Java项目中集成Redis可以充分利用其性能优势，本篇将介绍如何进行集成。一、环境准备安装Redis：点击Redis官网站点，下载符合本地系统版本的Redis。启动Redis：Windows下解压后运行redis-server.exeredis.windows.conf，如果需要持久化，可设置appendo
NoSQL数据库介绍与分类码农老起 nosql 数据库
目录一.NoSQL数据库的定义及其特点二.NoSQL的四种主要类型2.1文档型数据库（Document-BasedDatabase）2.2键值型数据库（Key-ValueStore）2.3列族型数据库（Column-FamilyStore）2.4图数据库（GraphDatabase）三.主要的NoSQL数据库3.1MongoDB3.2Redis3.3Cassandra3.4Neo4j四.使用NoS
深入解析 NoSQL 数据库的分类与特点一休哥助手数据库数据库 nosql
目录NoSQL数据库概述NoSQL数据库的主要分类2.1键值存储2.2文档存储2.3列族存储2.4图数据库NoSQL数据库的特点
NoSQL调研与学习（一） JUNPR NoSQL redis nosql 数据库
NoSQL数据库调研与学习简言1.1NoSQL概述NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在处理web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，出现了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，特别是大数
NoSQL数据库-体系框架 iamphp 系统架构设计师 nosql 数据库
NoSQL整体框架分为4层，由下至上分为数据持久层(DataPersistence)、数据分布层(DataDistributionModel)、数据逻辑模型层(DataLogicalModel)和接口层(Interface),层次之间相辅相成，协调工作。(1)数据持久层定义了数据的存储形式，主要包括基于内存、硬盘、内存和硬盘接口、订制可插拔4种形式。基于内存形式的数据存取速度最快，但可能会造成数据
HBase简介梦醒沉醉 Hadoop hbase 数据库大数据
目录1.HBase概述2.HBase核心概念2.1行关键字2.2列关键字2.3时间戳2.4单元2.4.1HBase和RDBMS的差异2.4.2HBase组成3.HBase流程3.1Region的分配3.2RegionServer上线3.3RegionServer下线3.4Master上线3.5Master下线3.6写请求处理参考1.HBase概述 HBase是NoSQL(NotOnlySQL，泛
MongoDB面试题答案解析 HappyAcmen java面试题集 mongodb 数据库
文章目录一、概念理解类1.什么是MongoDB？2.NoSQL数据库是什么意思？NoSQL与RDBMS有什么区别？为什么要使用和不使用NoSQL数据库？3.MySQL与MongoDB之间最基本的差别是什么？4.你怎么比较MongoDB、CouchDB及CouchBase？5.MongoDB成为最好的NoSQL数据库的原因是什么？6.journal回放在条目(entry)不完整时会遇到问题吗？7.分
区块链上的“SQL” 趣链科技 SQL编译
导读《F1：ADistributedSQLDatabaseThatScales》是Google构建的用于支持广告业务的分布式关系型数据库系统。作为一个混合型数据库系统，它结合了高可用、NoSQL数据库的扩展性以及传统SQL数据库的一致性和可用性。F1数据库整体基于GoogleSpanner构建，Spanner主要为上层的F1提供了跨数据中心的数据复制功能和一致性保证。而F1通过使用结构化数据分层架
Aerospike 小的~~ nosql Aerospike
文章来源：拉勾教育Java高薪训练营第3期Aerospike介绍Aerospike（简称AS）是一个分布式，可扩展的键值存储的NoSQL数据库。T级别大数据高并发的结构化数据存储读写操作达微妙级，99%的响应可在1毫秒内实现采用混合架构，索引存储在内存中，而数据可存储在机械硬盘(HDD)或固态硬盘(SSD)上（也可存储在内存）AS内部在访问SSD屏蔽了文件系统层级，直接访问地址，保证了数据的读取速
MongoDB入门与实践风中凌乱的猿笔记 mongodb 数据库
MongoDB是一个NoSQL数据库，它采用文档模型来存储数据，具有高性能、易扩展、灵活的特点。以下是MongoDB的入门指南和一些基本的实践示例，帮助你开始使用MongoDB。1.安装和基本配置安装MongoDB具体安装方法取决于你的操作系统。以Ubuntu为例，可以通过以下命令安装MongoDB：sudoaptupdatesudoaptinstall-ymongodb启动MongoDB安装完成
如何学习HBase：从入门到精通的完整指南狮歌~资深攻城狮 hbase 大数据
如何学习HBase：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据存储感兴趣，并且想要掌握HBase这一强大的分布式数据库，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解HBase。1.基础知识准备1.1理解NoSQL数据库在开始学习HBase之前，建议先了解一下NoSQL数据库的基本概念和分类。NoSQL数据库与传统的关系型数据库（如MySQL）有很大的不同，
Mongodb快速上手是小V呀中间件 mongodb 数据库文档型数据库中间件
1.1Mongodb介绍官网：https://www.mongodb.com/中文官网：https://www.mongodb.com/zh-cn中文文档：https://www.mongodb.com/zh-cn/docs/MongoDB是一个开源的NoSQL数据库，采用文档导向（Document-Oriented）的存储方式，基于分布式架构，适合存储大量结构化或半结构化数据。通过灵活的sche
wiredtiger java_mongodb数据库损坏，丢失WiredTIger.wt等meta文件，通过collection*.wt恢复数据... 又逢账号起名时 wiredtiger java
mongodb恢复wiredtiger数据Backgroundmongodb是一款开源NoSQL非关系型数据库，通过database,collection组织存储数据文件，其中在每个collection中，每条数据被存储为一个document，而每个document为一组键值对。此外，mongodb默认使用WiredTiger作为数据存储引擎，WiredTiger为数据管理提供了不同粒度的并发控制
mysql、redis和MongoDB三大数据库的优点和区别 DreamCity07 mongodb 数据库 mysql
NoSQL的全称是NotOnlySQL，也可以理解非关系型的数据库，是一种新型的革命式的数据库设计方式，不过它不是为了取代传统的关系型数据库而被设计的，它们分别代表了不同的数据库设计思路。MongoDB：它是一个内存数据库，数据都是放在内存里面的。对数据的操作大部分都在内存中，但MongoDB并不是单纯的内存数据库。MongoDB是由C++语言编写的，是一个基于分布式文件存储的开源数据库系统。在高
蓝易云 - HBase基础知识蓝易云 hbase 数据库大数据 php python 人工智能
HBase是一个分布式、可伸缩、列式存储的NoSQL数据库，它建立在Hadoop的HDFS之上，提供高可靠性、高性能的数据存储和访问。以下是HBase的基础知识：数据模型：HBase以表的形式存储数据，每个表由行和列组成，可以动态添加列族。每行由唯一的行键标识，列族和列限定符（Qualifier）用于唯一标识列。架构：HBase采用分布式架构，数据被分散存储在多个RegionServer上，每个R
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，