PJ码匠人

从入门到进阶之 ElasticSearch 配置优化篇

 以上分享从入门到进阶 之 ElasticSearch 配置优化篇，如有问题请指教写。
 
 如你对技术也感兴趣，欢迎交流。
 
  如有需要，请点赞收藏‍分享

集群参数

ElasticSearch 集群配置参数
参数名	参数值	说明
cluster.name	elasticsearch(自定义)	配置 ES 的集群名称，默认值是 ES，建议改成存储数据相关。ES 会自动发现在同一网段下的集群名称相同的节点
node.name	node-1(自定义)	集群中的节点名，在同一个集群中不能重复。节点的名称一旦设置，就不能再改变了。当然，也可以设置成服务器的主机名称，例如 node.name: ${HOSTNAME}
node.master	true	指定该节点是否有资格被选举成为 Master 节点，默认是 True。如果被设置为 True，则有资格成为Master 节点，能否成为 Master 节点，需要通过选举产生。
node.data	true	指定该节点是否存储索引数据，默认为 True。数据的增、删、改、查在 Data 节点完成。
index.number_of_shards	1	设置都索引分片个数，默认是 1 片。可在创建索引时设置该值，具体设置为多大都值要根据数据量的大小来定。如果数据量不大，则设置成 1 时效率最高
index.number_of_replicas	1	设置默认的索引副本个数，默认为 1 个。副本数越多，集群的可用性越好，但是写索引时需要同步的数据越多。
transport.tcp.compress	true	设置在节点间传输数据时是否压缩，默认为False,不压缩
discovery.zen.minimum_master_nodes	1	设置在选举 Master 节点时需要参与的最少的候选主节点数，默认为 1。如果使用默认值，则当网络不稳定时有可能会出现脑裂。合理的数值为 (master_eligible_nodes/2)+1，其中 master_eligible_nodes 表示集群中的候选主节点数
discovery.zen.fd.ping_timeout	3s	设置在集群中自动发现其他节点时 Ping 连接的超时时间，默认为 3 秒。在较差的网络环境下需要设置得大一点，防止因误判该节点的存活状态而导致分片的转移

硬件优化

Elasticsearch 重度使用磁盘，你的磁盘能处理的吞吐量越大，你的节点就越稳定。

优化磁盘 IO 的技巧

使用 SSD。

使用 RAID 0 条带化 RAID 会提高磁盘 IO，代价是当一块硬盘故障时整个就故障了。不要使用镜像或者奇偶校验 RAID，副本已提供这个功能。

使用多块硬盘，并允许 Elasticsearch 通过多个 path.data 目录配置把数据条带化分配到它们上面。

不要使用远程挂载的存储，比如 NFS 或者 SMB/CIFS。

分片策略

分片和副本的设计为 ES 提供了支持分布式和故障转移的特性，但分片和副本可以无限分配，分片是有代价。索引的分片完成分配后由于索引的路由机制，是不能重新修改分片数的。

一个分片的底层即为一个 Lucme 索引，会消耗一定文件句柄、内存、以及 CPU 运转。

每一个搜索请求都需要命中索引中的每一个分片，如果每一个分片都处于不同的节点还好，但多个分片都需要在同一个节点上竞争使用相同的资源。

用于计算相关度的词项统计信息是基于分片的。如果有许多分片，每一个都只有很少的数据会导致很低的相关度。

原则

控制每个分片占用的硬盘容量不超过 ES 的最大JVM 的堆空间设置(一般不超过 32G)，如果索引的总容量在 500G 左右，分片大小在 16 个左右

考虑 node 数量，一个节点有时是一台物理机，如果分片数过多，超过了节点数，会导致一个节点上存在多个分片，一旦节点故障，即使保持了 1个以上的副本，有可能会导致数据丢失，集群无法恢复。一般都设置分片数不超过节点数的 3 倍。

主分片，副本和节点最大数之间数量，参考关系: 节点数<=主分片数*(副本数+1)

推迟分片分配

对于节点瞬时中断的问题

默认情况，集群会等待一分钟来查看节点是否会重新加入,如果这个节点在此期间重新加入，重新加入的节点会保持其现有的分片数据，不会触发新的分片分配。这样就可以减少 ES 在自动再平衡可用分片时所带来的极大开销。
修改参数 delayed timeout ，可以延长再均衡的时间，可全局设置也可以在索引级别进行修改:

https://www.elastic.co/guide/en/elasticsearch/reference/7.2/delayed-allocation.htmlhttps://www.elastic.co/guide/en/elasticsearch/reference/7.2/delayed-allocation.html

PUT /_all/_settings
{
  "setting": {
    "index.unassigned.node_left.delayed_timeout":"5m"
  }
}

路由选择

当我们查询文档的时候,Elasticsearch 如何知道一个文档应该存放到哪个分片中呢?

通过下面这个公式来计算:

shard = hash(routing) % number_of_primary_shards

routing 默认值是文档的 id，也可以采用自定义值，比如用户 id。

不带 routing 查询

在查询的时候不知道要查询的数据具体在哪个分片上，整个过程分 2 个步骤

分发:

        请求到达协调节点后，协调节点将查询请求分发到每个分片上。
聚合:

        协调节点搜集到每个分片上查询结果，在将查询的结果进行排序，返回用户结果。

带 routing 查询

根据 routing 信息定位到某个分配查询，不需要查询所有的分配，经过协调节点排序。

写入速度优化

ES 的默认配置，是综合了数据可靠性、写入速度、搜索实时性等因素，根据实际需求进行偏向化配置。

写优化，搜索要求不高

加大 Translog Flush ，目的是降低 Iops、Writeblock.
增加 Index Refresh 间隔，目的是减少 Segment Merge 的次数。
调整 Bulk 线程池和队列。
优化节点间的任务分布。
优化 Lucene 层的索引建立，目的是降低 CPU 及 IO

批量数据提交

 ES 提供了 Bulk API 支持批量操作，有大量的写任务时，可以使用 Bulk 来进行批量写入。

通用的策略如下:

Bulk 默认设置批量提交的数据量不能超过 100M

数据条数一般是根据文档的大小和服务器性能而定的，单次批处理的数据大小应从 5MB~15MB 逐渐增加，当性能没提升时，把当前数据量作为最大值

优化存储设备（SSD）

ES 是一种密集使用磁盘的应用，在段合并的时候会频繁操作磁盘，对磁盘要求较高，当磁盘速度提升，集群的整体性能会大幅度提高。

合理使用合并

        Lucene 以段的形式存储数据。当有新的数据写入索引时，Lucene 就会自动创建一个新的段。
        随着数据量的变化，段的数量会越来越多，消耗的多文件句柄数及 CPU 就越多，查询效率下降。
        Lucene 段合并的计算量庞大，会消耗大量的 I/O，ES 默认采用较保守的策略，让后台定期进行段合并

减少 Refresh 的次数

        Lucene 在新增数据时，采用了延迟写入的策略，默认索引的 refresh_interval 为 1 秒。
        Lucene 将待写入的数据先写到内存中，超过 1 秒(默认) 时就会触发一次 Reftesh, Refiesh 会把内存中的的数据刷新到操作系统的文件缓存系统。
        对搜索的实效性要求不高，可以将 Refiesh 周期延长，可以有效地减少段刷新次数，但需要消耗更多的 Heap 内存

加大Flush 设置

Flush 目的是把文件缓存系统中的段持久化到硬盘，当 Translog 的数据量达到
512MB 或者 30 分钟时，会触发一次 Flush。

imndex.translog.flush_threshold_size 参数的默认值是 512MB，

增加参数值意味着文件缓存系统中可能需要存储更多的数据，需要为操作系统的文件缓存系统留下足够的空间。

减少副本数量

        ES 为了保证集群的可用性，提供了 Replicas(副本)支持，每个副本也会执行分析、索引及可能的合并过程，Replicas 的数量严重影响写索引的效率。
        当写索引时，需要把写入的数据都同步到副本节点，副本节点越多，写索引的效率就越慢。
        如果我们需要大批量进行写入操作，可以先禁止 Replica 复制，设置index.number_of_replicas:0 关闭副本。在写入完成后，Replica 修改回正常的状态。

内存设置

ES 默认内存是 1GB，在 ES 安装文件中包含一个 ivm.option 文件，添加如下命令来设置 ES 的堆大小,Xms 表示堆的初始大小,Xmx 表示可分配的最大内存,都是 1GB。确保 Xmx 和 Xms 的大小是相同的，其目的是为了能够在 Java 垃圾回收机制清理完堆区后不需要重新分隔计算堆区的大小而浪费资源，减轻伸缩堆大小带来的压力。

原则

不要超过物理内存的 50%

Lucene 的设计目的是把底层 OS 里的数据缓存到内存中。Lucene 的段存储到单个文件中的，这些文件都是不会变化的，利于缓存，操作系统也会把这些段文件缓存起来，以便更快的访问。如果我们设置的堆内存过大，Lucene 可用的内存将会减少，就会严重影响降低 Lucene 的全文本查询性能。
堆内存的大小最好不要超过 32GB

在 Java 中,所有对象都分配在堆上,然后有一个 Klass Pointer 指针指向它的类元数据。

假设你有个机器有 128 GB 的内存，你可以创建两个节点，每个节点内存分配不超过 32 GB。

不超过 64 GB 内存给 ES 的堆内存，剩下的超过 64 GB 的内存给 Lucene

性能优化

缓存优化

页缓存

为了数据的安全、可靠，常规操作中，数据都是保存在磁盘文件中的。对数据的访问，绝大数情况下是对文件的访问，为了提升对文件的读写的访问效率，Linux 内核会以页大小(4KB)为单位，将文件划分为多个数据块。当用户对文件中的某个数据块进行读写操作时，内核首先会申请一个内存页(称为 PageCache 页缓存) 与文件中的数据块进行绑定。

页缓存的基本理念是从磁盘读取数据后将数据放入可用内存中,下次读取时从内存返回数据，而获取数据不需要进行磁盘查找。对应用程序来说是完全透明的，应用程序发出相同的系统调用，操作系统使用页缓存而不从磁盘读取。
Java 程序是跨平台的，没有和硬件(磁盘，内存)直接交互的能力，想要和磁盘文件交互，须要通过 OS 操作系统来完成文件的读写，就称之为用户态转换为内核态。操作系统对文件进行读写时，实际是对文件的页缓存进行读写。

对文件进行读写操作时，分以下两种情况

当从文件中读取数据时

页缓存存在

直接把页缓存的数据拷贝给用户。

页缓存不存在

内核首先会申请一个空闲的内存页(页缓存)，然后从文件中读取数据到页缓存，并且把页缓存的数据拷贝给用户。

当向文件中写入数据时

页缓存存在

那么直接把新数据写入到页缓存即可。

页缓存不存在

内核首先会申请一个空闲的内存页(页缓存)，并且把新数据写入到页缓存中。

对于被修改的页缓存，内核会定时把这些页缓存刷新到文件中。

分片级请求缓存

协调节点

对一个或多个索引发送搜索请求时，搜索请求首先会发送到 ES 集群中的某个节点

本地结果集

协调节点会把该搜索请求分发给其他节点并在相应分片上执行搜索操作，把分片上的执行结果称为“本地结果集”，

分片再将执行结果返回给协调节点;协调节点获得所有分片的本地结果集之后，合并成最终的结果并返回给客户端。

Elasticsearch 会在每个分片上缓存了本地结果集，频繁使用的搜索请求立即返回结果，称之为 Request Cache，Shard Request Cache，即分片级请求缓存。

Request Cache 默认时关闭的，可在创建新索引时启用

PUT /索引名 -d
{
  "setting": {
    "index.requests.cache.enable": true
  }
}

PUT 服务器IP:端口/索引名/setting -d
{

    "index.requests.cache.enable": true
 
}

开启缓存后,需要在搜索请求中加上 request cache=true 参数，才能使查询请求被缓存

GET /索引名/_search?request_cache=true&pretty
{
  "size": 20,
  "aggs": {
    "pops_color": {
      "terms": {
        "name": "华为"
      }
    }
  }
}

查询缓存

Elasticsearch 具有 IndicesQueryCache 类。这个类与 IndicesService 的生命周期绑定，按节点的特性一这样做是有道理的，缓存本身使用了 Java 堆。

两个配置选项

indices.queries.cache.count: 缓存条目总数，默认为 10000
indices.queries.cache.size: 用于此缓存的 Java 堆的百分比，默认为 10%

冻结层和可搜索快照

引入了冷层，通过消除在本地存储几余副本，在相同数量的硬件上最多存储两倍于热层的数据。为了获得最佳性能，主数据仍然存储在本地，但冷层中的索引由存储在对象存储中的可搜索快照提供支持，以实现冗余。

实习成长之路：关于ElasticSearch深度分页带来的思考，如何解决深度分页和跳页会写代码的花城实习踩坑之路 reids 并发 elasticsearch 搜索引擎分布式
问题引入我们在平常使用ElasticSearch构建查询条件的时候一般用的都是from+size的方式进行分页查询，但是如果我们的页数太深/页面大小太大(from*size)>10000就会引发一个错误，我们将会得到一个错误这是为什么呢？因为ES的分页查询其实是这样来的因为ElasticSeach的天生分布式的原因，我们的数据是分散在几个分片中的，而我们设置了from+size需要对全部数据进行查
Elasticsearch from+size与scroll混合使用实现深度分页搜索爱喝咖啡的程序员 #分布式搜索引擎
目录一.需求二.思考三.实现方案一.需求环境准备:JDK1.8Elasticsearch7.3.1RestHighLevelClient客户端对Elasticsearch做深度分页，比如第1500页，每页20条记录，且需要支持前后翻页。二.思考由于index.max_result_window的限制，直接使用from+size无法搜索满足条件10000条以上的记录。如果贸然增大index.max_
MongoDB 大俗大雅，上来问分片真三俗 -- 4 分什么分 Austindatabases mongodb 数据库
开头还是介绍一下群，如果感兴趣PolarDB,MongoDB,MySQL,PostgreSQL,Redis,OceanBase,SqlServer等有问题，有需求都可以加群群内有各大数据库行业大咖，可以解决你的问题。加群请联系liuaustin3，（共2710人左右1+2+3+4+5+6+7+8+9）(123456群均已爆满，7群400+，开8群9群)这是MongoDB宣传周的第五篇，这周真漫长，
大数据技术在数据安全治理中的应用罗思付之技术屋综合技术探讨及方案专栏大数据
摘要面对新形势下的数据安全治理挑战，顺应数据安全领域的技术发展趋势，针对大型国企在数据安全治理实际应用中突出的关键权限人员识别问题，提出了一种基于图算法的关键权限人员识别技术。该技术可以发现系统中潜在的权限影响因素，并可从多个角度衡量不同含义的权重影响力，识别结果可解释性强。针对数据安全治理中的用户与实体行为异常检测问题，提出一种基于生成对抗网络的用户与实体行为异常检测方法，实验结果表明，所提方法
利用长尾关键词优化SEO策略提升网站流量的实用建议老陈头聊SEO 其他
内容概要在当今数字营销的环境中，网站流量的获取是一项至关重要的任务。随着搜索引擎优化（SEO）技术的发展，长尾关键词逐渐被越来越多的网站管理员和内容创作者所重视。长尾关键词一般指的是那些较长且具体的搜索词组，虽然搜索量相对较少，但通常具有更高的转化率和更低的竞争度。因此，理解和利用长尾关键词，将为提升网站流量提供了有效手段。“要想在竞争激烈的网络环境中脱颖而出，主动挖掘和应用长尾关键词，将为您带来
阿里巴巴大数据系统体系架构大连赵哥大数据架构
数据应用层：这是最顶层，面向不同的用户群体提供服务，包括对内（公司内部使用）、对平台（平台用户）、对商家（商家使用）、对公众（普通消费者）。数据服务与基础工具层：这一层提供了一些基础服务和工具，例如：OneService：可能是一种服务或工具，用于统一数据服务。TDDL+MySQL：TDDL是淘宝分布式数据层的缩写，与MySQL结合使用，提供数据库服务。HBase：一个分布式列存储系统，适合于存储
新站如何快速获得搜索引擎收录？百度网站快速收录搜索引擎
本文来自：百万收录网原文链接：https://www.baiwanshoulu.com/8.html新站想要快速获得搜索引擎收录，需要采取一系列有针对性的策略。以下是一些具体的建议：一、网站内容优化高质量原创内容：确保网站内容原创、独特且有价值，满足搜索引擎和用户的需求。定期更新内容，保持网站的活跃度和吸引力。关键词布局：在标题、正文、图片alt标签等位置合理分布关键词，提高网页的相关性。避免关键
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
【硬刚大数据】2021年从零到大数据专家之Hbase八股文王知无(import_bigdata)
欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)
史上最强！Spring Boot 3.3 高效批量插入万级数据的多种方案 m0_74825074 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot3.3多种方式实现高效批量插入万级数据，史上最强！在大数据处理场景下，如何高效地将大量数据插入数据库是一个重要课题。本文基于SpringBoot3.3及MyBatis-Plus，介绍几种高效的批量插入数据的方法，包括：使用JDBC批处理使用自定义SQL批处理单条插入（for循环）拼接SQL语句插入MyBatis-Plus的saveBatch方法循环插入+开启批处理模式每种方式都
多租户架构未提供足够的租户安全培训和教育图幻未来网络安全
多租户架构下租户安全培训与教育的需求分析与解决方案引言随着云计算和大数据技术的飞速发展，多租户架构已成为企业数字化转型的重要基石。多租户架构允许一个应用程序实例为多个租户提供服务，从而降低了企业的运营成本。然而，这种架构也带来了一系列的安全挑战。为了解决这些问题，企业需要加强对租户的安全培训和教育，确保租户了解如何在使用多租户架构时保护自己的数据和应用程序。本文将探讨多租户架构下的租户安全培训和教
一文了解大数据概论程序员
一.大数据概论1.1大数据概念大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit
全面信息收集指南：渗透测试中的关键步骤与技巧 Clockwiseee 信息收集安全 web安全渗透测试漏洞挖掘
文章目录一、什么是信息收集二、信息收集的分类1.服务器相关信息2.网站指纹识别3.Whois及目标背景信息4.子域名及关联资产5.GoogleHacking（搜索引擎利用）6.网站目录和敏感文件7.传输协议与漏洞利用8.第三方依赖与拓展信息三、信息收集的方式1.whois在线查询使用技巧2.在线网站备案查询3.收集子域名3.1网络空间绘测绘测的目的和意义3.2子域名爆破工具四、端口五、查找真实IP
中国BI步入增长大周期，腾讯云ChatBI加速AI+BI融合大数据在线 AI 云静思园人工智能腾讯云大数据 ChatBI AI+BI
过去十年，大数据技术的快速发展，让数据消费前进一大步，数据价值得到一定程度的挖掘与释放，真正开启了“用数”的大时代。但数据分析繁杂的技术栈、复杂的处理过程以及程式化的交互方式，让“数据消费”的门槛始终降不下来，一定程度制约着企业迈向“用好数”的新阶段。如今，随着大模型和生成式AI的迅猛发展，数据消费正迎来一场巨大变革。大模型与数据分析天然的融合属性，使得商业智能（以下简称：BI）迎来全面重塑，BI
Adobe软件隐藏功能大揭秘：5个冷门小技巧助你效率倍增 shelby_loo adobe
作为设计师和创意工作者，我们对Adobe系列软件的强大功能一定不陌生。但你是否知道，通过申请Edu教育邮箱，学生和教师可以免费或以极低的价格订阅这些软件，享受专业的创作体验呢？这不仅能让你远离破解软件带来的不稳定和安全隐患，还能让你合法地使用正版软件，充分发挥创意。如果你还没有Edu邮箱，也不用担心。网上有很多关于如何申请Edu邮箱的教程和经验分享。你可以通过搜索引擎查找相关信息，或者参考一些知识
乐学智伴：基于人工智能与大数据的学生个性化学习辅助平台 IT源码大师人工智能大数据学习
详细描述：1.引言：教育科技的时代背景在信息化和数字化的浪潮下，教育领域正经历着深刻的变革。传统的教学模式以教师为中心，难以满足学生个性化学习的需求。随着人工智能、大数据和云计算等技术的快速发展，教育科技（EdTech）为个性化学习提供了全新的解决方案。通过智能化工具和数据分析，学生可以根据自身的学习特点和进度，制定个性化的学习计划，从而提高学习效率和效果。“乐学智伴”是一款基于人工智能与大数据技
NLTK命名实体识别（NER） Mr数据杨 Python 自然语言技术 NLTK 自然语言处理 1024程序员节
命名实体识别（NamedEntityRecognition,NER）是自然语言处理（NLP）中的一项核心技术，旨在从文本中识别出具有特定意义的实体，如人名、地名、组织名等。通过对文本的自动化处理，NER能够帮助计算机理解和组织大量的非结构化数据，为信息抽取、搜索引擎优化、数据分析等领域提供强有力的技术支持。NLTK（NaturalLanguageToolkit）是一个广泛使用的Python库，提供
Hive存储系统全面测试报告蚂蚁质量软件测试测试用例功能测试
引言在大数据时代，数据存储和处理技术的重要性日益凸显。ApacheHive作为一个基于Hadoop的数据仓库工具，因其能够提供类SQL查询功能（HiveQL）而广受欢迎。Hive的设计初衷是为了简化大数据集的查询和管理，它允许用户通过简单的SQL语句来操作存储在Hadoop分布式文件系统（HDFS）上的大规模数据集。然而，随着数据量的激增和业务需求的多样化，Hive存储系统的功能、性能和安全性面临
企业数字化转型AI能力中台（总体架构、系统功能）建设方案公众号：优享智库数字化转型数据治理主数据数据仓库人工智能架构
**企业数字化转型AI能力中台建设方案**一、建设背景与目标随着大数据、云计算、人工智能等技术的快速发展，企业正面临着数字化转型的重要机遇。为了提升企业的智能化水平，加快业务创新，建设AI能力中台成为企业的迫切需求。本方案旨在为企业打造一套功能完善的AI能力中台，实现数据采集与整合、算法模型管理、智能分析与可视化等核心功能，推动企业在各个业务领域实现智能化升级和创新。二、总体架构设计AI能力中台采
网站结构优化：加速搜索引擎收录的关键百度网站快速收录搜索引擎
本文来自：百万收录网原文链接：https://www.baiwanshoulu.com/9.html网站结构优化对于加速搜索引擎收录至关重要。以下是一些关键策略，旨在通过优化网站结构来提高搜索引擎的抓取效率和收录速度：一、合理规划网站架构采用扁平化结构：减少网站的层级深度，使搜索引擎爬虫能够更快速地遍历和抓取网站内容。这有助于确保每个页面都能被搜索引擎有效地索引。分类清晰：对于内容丰富的网站，应合
实现网站内容快速被搜索引擎收录的方法百度网站快速收录搜索引擎
本文转自：百万收录网原文链接：https://www.baiwanshoulu.com/6.html实现网站内容快速被搜索引擎收录，是网站运营和推广的重要目标之一。以下是一些有效的方法，可以帮助网站内容更快地被搜索引擎发现和收录：一、确保内容质量与原创性高质量内容：搜索引擎更倾向于收录提供高质量、有价值内容的网站。因此，要确保网站内容独特、有深度，能够满足用户的需求和兴趣。原创性：原创内容是搜索引
数据挖掘的常用算法北柠陌寒0207 笔记
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其
大数据生态的Apache RocketMQ5.0 Apache RocketMQ java 开发语言
本文作者：李伟-ApacheRocketMQCommitter，RocketMQPython客户端项目Owner，ApacheDorisContributor，腾讯云消息队列资深开发工程师，著有《RocketMQ分布式消息中间件(核心原理与最佳实践)》。一、RocketMqueue101RocketMQ拥有诸多出色的特性：比如多副本机制，RocketMQ支持存储层的多副本Dledger，它是基于R
FragPipe: 一个强大的蛋白质组学数据分析平台 2401_87189860 数据分析数据挖掘
FragPipe简介FragPipe是一个由Nesvizhskii实验室开发的综合性蛋白质组学数据分析平台。它以MSFragger搜索引擎为核心,集成了多种功能强大的分析工具,为研究人员提供了从原始数据处理到生物学解释的一站式解决方案。FragPipe具有用户友好的Java图形用户界面(GUI),同时也支持命令行模式,可以在Windows、Linux或云环境中运行。FragPipe的主要特点快速高
ZooKeeper数据模型和节点类型代码指四方 zookeeper 分布式云原生大数据
ZooKeeper数据模型和节点类型ZooKeeper是一个开源的分布式协调服务，用于管理和协调分布式系统中的大数据。在ZooKeeper中，数据被组织成一个层次化的命名空间（Namespace），类似于一个标准的文件系统。每个节点（Node）都可以存储数据，并且可以设置监视器（Watcher）来监听节点的变化。ZooKeeper数据模型是基于树形结构的，每个节点都可以包含数据和子节点。数据存储在
【elasticsearch】tasks 查看任务 infiniteWei elasticsearch elasticsearch 搜索引擎
模糊匹配GET/_tasks?detailed=true&actions=*reindex例如，返回：节点信息(nodes)&任务信息(tasks)某个任务正在执行一个跨集群的reindex操作，数据从远程集群的source_index索引复制到本地集群的destination_index索引"nodes":{"tmKI6JpWRe2tEezmK_NCZA":{#节点id"name":"fdd16
【elasticsearch】reindex 操作将索引的数据复制到另一个索引 infiniteWei elasticsearch elasticsearch 搜索引擎
在Elasticsearch中，reindex操作用于将一个索引的数据复制到另一个索引。常用的reindex命令有很多细节，下面是一些常见用法和命令详解：基本命令基础Reindex命令POST/_reindex{"source":{"index":"source_index"},"dest":{"index":"destination_index"}}source:需要复制数据的源索引。dest:
DeepSeek：突破传统的AI算法与下载排行分析 smart_ljh 行业搜索人工智能 AI
DeepSeek的AI算法突破DeepSeek相较于OpenAI以及其它平台的性能对比DeepSeek的下载排行分析（截止2025/1/28AI人工智能相关DeepSeek甚至一度被推上了搜索）未来发展趋势总结在人工智能技术飞速发展的当下，搜索引擎市场也迎来了新的变革。DeepSeek，作为一款基于深度学习技术和大数据算法的搜索引擎，以其独特的优势在国内外市场上引起了广泛关注。下面介绍一下针对De
2000-2021年上市公司数字化转型数据（MD&A报告词频、文本统计） m0_71334485 数据 #上市公司上市公司数字化转型数字化转型上市公司
2000-2021年上市公司数字化转型数据（MD&A报告词频、文本统计）1、时间：2000-2021年2、来源：上市公司NB3、范围：上市公司4、指标：包括人工智能技术、大数据技术、云计算技术、区块链技术、数字技术运用和数字技术应用、互联网商业模式、智能制造、现代信息系统等9个维度175个词频类别、股票代码、股票简称、年报标题、年份、MD&A文本-文本总长度、MD&A文本仅中英文-文本总长度、人工
在Linux上启动elasticsearch报错大连好光景 linux elasticsearch jenkins
[[email protected]]#bin/elasticsearchfutureversionsofElasticsearchwillrequireJava11;yourJavaversionfrom[/opt/apps/jdk1.8.0_321/jre]doesnotmeetthisrequirementfutureversionsofElasticsearchw
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

从入门到进阶 之 ElasticSearch 配置优化篇