weixin_30628801

一次 ElasticSearch 搜索优化

1. 环境

ES6.3.2，索引名称 user_v1，5个主分片，每个分片一个副本。分片基本都在11GB左右，GET _cat/shards/user

一共有3.4亿文档，主分片总共57GB。

Segment信息：curl -X GET "221.228.105.140:9200/_cat/segments/user_v1?v" >> user_v1_segment

user_v1索引一共有404个段：

cat user_v1_segment | wc -l

404

处理一下数据，用Python画个直方图看看效果：

sed -i '1d' file # 删除文件第一行

awk -F ' ' '{print $7}' user_v1_segment >> docs_count # 选取感兴趣的一列(docs.count 列)

with open('doc_count.txt') as f:
    data=f.read()
docList = data.splitlines()
docNums = list(map(int,docList))
import matplotlib.pyplot as plt
plt.hist(docNums,bins=40,normed=0,facecolor='blue',edgecolor='black')

大概看一下每个Segment中包含的文档的个数。横坐标是：文档数量，纵坐标是：segment个数。可见：大部分的Segment中只包含了少量的文档($0.5*10^7$)

修改refresh_interval为30s，原来默认为1s，这样能在一定程度上减少Segment的数量。然后先force merge将404个Segment减少到200个：

POST /user_v1/_forcemerge?only_expunge_deletes=false&max_num_segments=200&flush=true

但是一看，还是有312个Segment。这个可能与merge的配置有关了。有兴趣的可以了解一下 force merge 过程中这2个参数的意义：

merge.policy.max_merge_at_once_explicit
merge.scheduler.max_merge_count

执行profile分析：

1，Collector 时间过长，有些分片耗时长达7.9s。关于Profile 分析，可参考：profile-api

2，采用HanLP 分词插件，Analyzer后得到Term，居然有"空格Term"，而这个Term的匹配长达800ms！

来看看原因：

POST /_analyze
{
"analyzer": "hanlp_standard",
"text":"人生如梦"
}

分词结果是包含了空格的：

{
  "tokens": [
    {
      "token": "人生",
      "start_offset": 0,
      "end_offset": 2,
      "type": "n",
      "position": 0
    },
    {
      "token": " ",
      "start_offset": 0,
      "end_offset": 1,
      "type": "w",
      "position": 1
    },
    {
      "token": "如",
      "start_offset": 0,
      "end_offset": 1,
      "type": "v",
      "position": 2
    },
    {
      "token": "梦",
      "start_offset": 0,
      "end_offset": 1,
      "type": "n",
      "position": 3
    }
  ]
}

那实际文档被Analyzer了之后是否存储了空格呢？

于是先定义一个索引，开启term_vector。参考store term-vector

PUT user
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 0
  },
  "mappings": {
    "profile": {
      "properties": {
        "nick": {
          "type": "text",
          "analyzer": "hanlp_standard",
          "term_vector": "yes", 
          "fields": {
            "raw": {
              "type": "keyword"
            }
          }
        }
      }
    }
  }
}

然后PUT一篇文档进去：

PUT user/profile/1
{
  "nick":"人生 如梦"
}

查看Term Vector：docs-termvectors

GET /user/profile/1/_termvectors
{
"fields" : ["nick"],
"offsets" : true,
"payloads" : true,
"positions" : true,
"term_statistics" : true,
"field_statistics" : true
}

发现存储的Terms里面有空格。

{
  "_index": "user",
  "_type": "profile",
  "_id": "1",
  "_version": 1,
  "found": true,
  "took": 2,
  "term_vectors": {
    "nick": {
      "field_statistics": {
        "sum_doc_freq": 4,
        "doc_count": 1,
        "sum_ttf": 4
      },
      "terms": {
        " ": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1
        },
        "人生": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1
        },
        "如": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1
        },
        "梦": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1
        }
      }
    }
  }
}

然后再执行profile 查询分析：

GET user/profile/_search?human=true
{
  "profile":true,
  "query": {
    "match": {
      "nick": "人生 如梦"
    }
  }
}

发现Profile里面居然有针对空格Term 的查询！！！（注意 nick 后面有个空格）

            "type": "TermQuery",
            "description": "nick: ",
            "time": "58.2micros",
            "time_in_nanos": 58244,

profile结果如下：

 "profile": {
    "shards": [
      {
        "id": "[7MyDkEDrRj2RPHCPoaWveQ][user][0]",
        "searches": [
          {
            "query": [
              {
                "type": "BooleanQuery",
                "description": "nick:人生 nick:  nick:如 nick:梦",
                "time": "642.9micros",
                "time_in_nanos": 642931,
                "breakdown": {
                  "score": 13370,
                  "build_scorer_count": 2,
                  "match_count": 0,
                  "create_weight": 390646,
                  "next_doc": 18462,
                  "match": 0,
                  "create_weight_count": 1,
                  "next_doc_count": 2,
                  "score_count": 1,
                  "build_scorer": 220447,
                  "advance": 0,
                  "advance_count": 0
                },
                "children": [
                  {
                    "type": "TermQuery",
                    "description": "nick:人生",
                    "time": "206.6micros",
                    "time_in_nanos": 206624,
                    "breakdown": {
                      "score": 942,
                      "build_scorer_count": 3,
                      "match_count": 0,
                      "create_weight": 167545,
                      "next_doc": 1493,
                      "match": 0,
                      "create_weight_count": 1,
                      "next_doc_count": 2,
                      "score_count": 1,
                      "build_scorer": 36637,
                      "advance": 0,
                      "advance_count": 0
                    }
                  },
                  {
                    "type": "TermQuery",
                    "description": "nick: ",
                    "time": "58.2micros",
                    "time_in_nanos": 58244,
                    "breakdown": {
                      "score": 918,
                      "build_scorer_count": 3,
                      "match_count": 0,
                      "create_weight": 46130,
                      "next_doc": 964,
                      "match": 0,
                      "create_weight_count": 1,
                      "next_doc_count": 2,
                      "score_count": 1,
                      "build_scorer": 10225,
                      "advance": 0,
                      "advance_count": 0
                    }
                  },
                  {
                    "type": "TermQuery",
                    "description": "nick:如",
                    "time": "51.3micros",
                    "time_in_nanos": 51334,
                    "breakdown": {
                      "score": 888,
                      "build_scorer_count": 3,
                      "match_count": 0,
                      "create_weight": 43779,
                      "next_doc": 1103,
                      "match": 0,
                      "create_weight_count": 1,
                      "next_doc_count": 2,
                      "score_count": 1,
                      "build_scorer": 5557,
                      "advance": 0,
                      "advance_count": 0
                    }
                  },
                  {
                    "type": "TermQuery",
                    "description": "nick:梦",
                    "time": "59.1micros",
                    "time_in_nanos": 59108,
                    "breakdown": {
                      "score": 3473,
                      "build_scorer_count": 3,
                      "match_count": 0,
                      "create_weight": 49739,
                      "next_doc": 900,
                      "match": 0,
                      "create_weight_count": 1,
                      "next_doc_count": 2,
                      "score_count": 1,
                      "build_scorer": 4989,
                      "advance": 0,
                      "advance_count": 0
                    }
                  }
                ]
              }
            ],
            "rewrite_time": 182090,
            "collector": [
              {
                "name": "CancellableCollector",
                "reason": "search_cancelled",
                "time": "25.9micros",
                "time_in_nanos": 25906,
                "children": [
                  {
                    "name": "SimpleTopScoreDocCollector",
                    "reason": "search_top_hits",
                    "time": "19micros",
                    "time_in_nanos": 19075
                  }
                ]
              }
            ]
          }
        ],
        "aggregations": []
      }
    ]
  }

而在实际的生产环境中，空格Term的查询耗时480ms，而一个正常词语（"微信"）的查询，只有18ms。如下在分片[user_v1][3]上的profile分析结果：

 "profile": {
    "shards": [
      {
        "id": "[8eN-6lsLTJ6as39QJhK5MQ][user_v1][3]",
        "searches": [
          {
            "query": [
              {
                "type": "BooleanQuery",
                "description": "nick:微信 nick:  nick:黄色",
                "time": "888.6ms",
                "time_in_nanos": 888636963,
                "breakdown": {
                  "score": 513864260,
                  "build_scorer_count": 50,
                  "match_count": 0,
                  "create_weight": 93345,
                  "next_doc": 364649642,
                  "match": 0,
                  "create_weight_count": 1,
                  "next_doc_count": 5063173,
                  "score_count": 4670398,
                  "build_scorer": 296094,
                  "advance": 0,
                  "advance_count": 0
                },
                "children": [
                  {
                    "type": "TermQuery",
                    "description": "nick:微信",
                    "time": "18.4ms",
                    "time_in_nanos": 18480019,
                    "breakdown": {
                      "score": 656810,
                      "build_scorer_count": 62,
                      "match_count": 0,
                      "create_weight": 23633,
                      "next_doc": 17712339,
                      "match": 0,
                      "create_weight_count": 1,
                      "next_doc_count": 7085,
                      "score_count": 5705,
                      "build_scorer": 74384,
                      "advance": 0,
                      "advance_count": 0
                    }
                  },
                  {
                    "type": "TermQuery",
                    "description": "nick: ",
                    "time": "480.5ms",
                    "time_in_nanos": 480508016,
                    "breakdown": {
                      "score": 278358058,
                      "build_scorer_count": 72,
                      "match_count": 0,
                      "create_weight": 6041,
                      "next_doc": 192388910,
                      "match": 0,
                      "create_weight_count": 1,
                      "next_doc_count": 5056541,
                      "score_count": 4665006,
                      "build_scorer": 33387,
                      "advance": 0,
                      "advance_count": 0
                    }
                  },
                  {
                    "type": "TermQuery",
                    "description": "nick:黄色",
                    "time": "3.8ms",
                    "time_in_nanos": 3872679,
                    "breakdown": {
                      "score": 136812,
                      "build_scorer_count": 50,
                      "match_count": 0,
                      "create_weight": 5423,
                      "next_doc": 3700537,
                      "match": 0,
                      "create_weight_count": 1,
                      "next_doc_count": 923,
                      "score_count": 755,
                      "build_scorer": 28178,
                      "advance": 0,
                      "advance_count": 0
                    }
                  }
                ]
              }
            ],
            "rewrite_time": 583986593,
            "collector": [
              {
                "name": "CancellableCollector",
                "reason": "search_cancelled",
                "time": "730.3ms",
                "time_in_nanos": 730399762,
                "children": [
                  {
                    "name": "SimpleTopScoreDocCollector",
                    "reason": "search_top_hits",
                    "time": "533.2ms",
                    "time_in_nanos": 533238387
                  }
                ]
              }
            ]
          }
        ],
        "aggregations": []
      },

由于我采用的是HanLP分词，用的这个分词插件elasticsearch-analysis-hanlp，而采用ik_max_word分词却没有相应的问题，这应该是分词插件的bug，于是去github上提了一个issue，有兴趣的可以关注。看来我得去研究一下ElasticSearch Analyze整个流程的源码以及加载插件的源码了 ::(

以上是一个空格Term造成的查询性能问题。在Profile分析时，还发现，使用SSD的Collector time比机械硬盘快10倍左右。

分片[user_v1][0] 的 Collector time长达7.6秒，而这个分片所在机器的磁盘是机械硬盘。而上面那个分片[user_v1][3]所在的磁盘是SSD，Collector time只有730.3ms。可见SSD与机械硬盘的在Collector time上相差10倍。下面是分片[user_v1][0]的profile查询分析：

{
        "id": "[wx0dqdubRkiqJJ-juAqH4A][user_v1][0]",
        "searches": [
          {
            "query": [
              {
                "type": "BooleanQuery",
                "description": "nick:微信 nick:  nick:黄色",
                "time": "726.1ms",
                "time_in_nanos": 726190295,
                "breakdown": {
                  "score": 339421458,
                  "build_scorer_count": 48,
                  "match_count": 0,
                  "create_weight": 65012,
                  "next_doc": 376526603,
                  "match": 0,
                  "create_weight_count": 1,
                  "next_doc_count": 4935754,
                  "score_count": 4665766,
                  "build_scorer": 575653,
                  "advance": 0,
                  "advance_count": 0
                },
                "children": [
                  {
                    "type": "TermQuery",
                    "description": "nick:微信",
                    "time": "63.2ms",
                    "time_in_nanos": 63220487,
                    "breakdown": {
                      "score": 649184,
                      "build_scorer_count": 61,
                      "match_count": 0,
                      "create_weight": 32572,
                      "next_doc": 62398621,
                      "match": 0,
                      "create_weight_count": 1,
                      "next_doc_count": 6759,
                      "score_count": 5857,
                      "build_scorer": 127432,
                      "advance": 0,
                      "advance_count": 0
                    }
                  },
                  {
                    "type": "TermQuery",
                    "description": "nick: ",
                    "time": "1m",
                    "time_in_nanos": 60373841264,
                    "breakdown": {
                      "score": 60184752245,
                      "build_scorer_count": 69,
                      "match_count": 0,
                      "create_weight": 5888,
                      "next_doc": 179443959,
                      "match": 0,
                      "create_weight_count": 1,
                      "next_doc_count": 4929373,
                      "score_count": 4660228,
                      "build_scorer": 49501,
                      "advance": 0,
                      "advance_count": 0
                    }
                  },
                  {
                    "type": "TermQuery",
                    "description": "nick:黄色",
                    "time": "528.1ms",
                    "time_in_nanos": 528107489,
                    "breakdown": {
                      "score": 141744,
                      "build_scorer_count": 43,
                      "match_count": 0,
                      "create_weight": 4717,
                      "next_doc": 527942227,
                      "match": 0,
                      "create_weight_count": 1,
                      "next_doc_count": 967,
                      "score_count": 780,
                      "build_scorer": 17010,
                      "advance": 0,
                      "advance_count": 0
                    }
                  }
                ]
              }
            ],
            "rewrite_time": 993826311,
            "collector": [
              {
                "name": "CancellableCollector",
                "reason": "search_cancelled",
                "time": "7.8s",
                "time_in_nanos": 7811511525,
                "children": [
                  {
                    "name": "SimpleTopScoreDocCollector",
                    "reason": "search_top_hits",
                    "time": "7.6s",
                    "time_in_nanos": 7616467158
                  }
                ]
              }
            ]
          }
        ],
        "aggregations": []
      },

结论

查询不仅仅与Segment数量、Collector time等有关，还与索引的mapping定义，查询方式(match、filter、term……)有关，可用Profile API分析查询性能问题。另外也有一些压测工具，比如：esrally

对于中文而言，还要注意 query string 被Analyze成各个token之后，到底是针对了哪些Token查询，这个可以通过term vector进行测试，但生产环境一般不会开启term vector。因此，中文分词算法对搜索命中会有影响。

而至于搜索排序，可先用explain API 分析各个Term的得分，然后也可考虑ES的Function Score功能，针对某些特定的field做调节(field_value_factor)，甚至可以用机器学习模型优化搜索排序(learning to rank)

关于ElasticSearch查询效率的提升一些思考：

FileSystem cache 要足够（堆外内存 vs 堆外内存），数据分布要合理(冷热分离)
索引设计要合理（多字段、Analyzer、Index shard数量）、Segment数量(refresh interval 配置)
查询语法要合适（term、match、filter），可通过搜索参数调优(terminate_after提前返回、timeout查询响应超时)
profile分析

参考资料

如何知道ES中存储了哪些Token?
Profile API？
Profile API中各个字段的意义
查看索引的Segment详情？
github上提了一个issue

转载于:https://www.cnblogs.com/hapjin/p/10541500.html

windows安装es怎么在后台运行_Windows-ElasticSearch安装和启动 weixin_39531037
步骤二：安装ES服务Window版的ElasticSearch的安装很简单，类似Window版的Tomcat，解压开即安装完毕，解压后的ElasticSearch的目录结构如下：修改elasticsearch配置文件，config/elasticsearch.yml文件，增加文件内容如下：http.cors.enabled:truehttp.cors.allow-origin:"*"添加配置是为了
ES的预置分词器阿湯哥 elasticsearch 服务器 linux
Elasticsearch（简称ES）提供了多种预置的分词器（Analyzer），用于对文本进行分词处理。分词器通常由字符过滤器（CharacterFilters）、分词器（Tokenizer）和词元过滤器（TokenFilters）组成。以下是一些常用的预置分词器及其示例：1.StandardAnalyzer（标准分词器）默认分词器，适用于大多数语言。处理步骤：使用标准分词器（StandardT
软件测试面试题 bobob_ Testing
您所熟悉的测试用例设计方法都有哪些？请分别以具体的例子来说明这些方法在测试用例设计工作中的应用。答：有黑盒和白盒两种测试种类，黑盒有等价类划分法，边界分析法，因果图法和错误猜测法。白盒有逻辑覆盖法，循环测试路径选择，基本路径测试。例子：在一次输入多个条件的完整性查询中。利用等价类划分法则和边界分析法则，首先利用等价划分法，可以一个或多个结果是OK的测试用例，然后确认多个NG的测试用例，然后利用边界
HTML深度解读 Small踢倒coffee_氕氘氚经验分享笔记
##引言HTML（HyperTextMarkupLanguage）是构建网页的基础语言。自1991年由TimBerners-Lee发明以来，HTML已经经历了多次版本更新，从HTML1.0到HTML5，每一次更新都带来了新的特性和功能。本文将深入探讨HTML的核心概念、结构、标签、语义化以及HTML5的新特性。##一、HTML的核心概念###1.1什么是HTML？HTML是一种标记语言，用于创建和
前端 - js - - 防抖和节流 cv高级工程师YKY vue.js 前端 javascript
1、防抖短时间内重复执行相同操作时只执行最后一次常见场景：浏览器输入文字后下面会有模糊提示实现思路：延时器控制事件在几秒后执行每次触发事件时都会重置延时器constfn=()=>{//先定义timeout避免第一次触发时clearTimeout报错lettimeout;//每次触发事件重置延时器clearTimeout(timeout)//规定一秒后再执行timeout=setTimeout(()
python中re.search()函数的用法前行的zhu pytorch 正则表达式正则表达式 python
说到使用正则匹配字符串，就不得不说三个常用的匹配检索方法：re.search(),re.match()和re.findall()。主要的区别是前两个方法只在目标字符串中匹配一次满足条件的正则表达式；而re.findall()方法匹配目标字符串中所有满足条件的正则表达式；另外re.match()只会匹配目标字符串开头是否满足正则表达式，若开头不满足则匹配失败，函数返回None；而re.search(
嵌入式八股，状态机编程 skeete 单片机 c语言
while(1){A();B();}假设裸机编程有这样一个程序，A的执行时间非常长，那么程序就会变得比较卡顿。状态机编程的根本思路在于讲一个A()拆分为多个小的函数，比如a1,a2,a3，分别执行这几个状态。使用switch语句和它配合，执行完a1就break，运行B，下一次再执行a2，再运行B。这样就能防止一个任务长时间阻塞。具体来说1.什么是状态机？状态机是一种数学模型，用于描述一个系统在不同
MongoDB集合（表）自动创建机制 zpjing~.~ mongodb 数据库
开发项目时，要整理上线涉及的表，MongoDB里新创建的表是不用整理发给运维的，因为代码中插入数据时，MongoDB会自动创建哦MongoDB中的集合（表）是在插入数据时自动创建的。当你第一次向一个不存在的集合插入文档时，MongoDB会自动创建该集合。你不需要像在关系型数据库中那样预先定义表结构。例如，执行以下操作时：db.myCollection.insertOne({name:"Alice"
【算法手记04】回溯算法 Xeno Li 算法 java
回溯是递归的副产品，只要有递归，就会有对应的回溯过程。回溯实际上就是“撤销上一次递归操作”的一个过程。回溯法是由递归+循环组成的，其中每次循环执行的次数应该是可知的。每一次完成递归都会收集一次可能的结果，因此结果集的大小是不确定的，需要使用递归去找，我们称之为纵向搜索；而每次循环会从待找集合中依次遍历，是一个横向搜索的过程。模板voidbacktracking(参数){if(终止条件){收集结果r
阿里云镜像源安装pip 喝水时间到 pip 服务器
如果出现已经安装过virtualenv，但不在系统PATH中的情况，建议先卸载一次。没下载过的可以忽略。pipuninstallvirtualenvStep1：安装pippipinstall--uservirtualenvStep2：将~/.local/bin添加到PATH：exportPATH="$HOME/.local/bin:$PATH"Step3：创建虚拟环境virtualenvvenvS
配置企业微信报警 weixin_43806846 prometheus 企业微信
altermanager.yaml配置文件模板如下：global:resolve_timeout:2m#每2分钟检查一次是否恢复templates:#自定义通知模板‘/opt/monitor/alertmanager/template/wechat.tmpl’#route用来设置报警的分发策略route:采用哪个标签来作为分组依据group_by:[‘alertname’]#组告警等待时间。也就是
uniapp报毒刘登辉 uni-app
uniapp打包的apk，装机量多了就开始报毒，尝试了多种解决办法都无解！！去某宝，解决一次50-100不等，并且没有售后，掉了重新做包，很是无解，包月价格更是离谱。为此自行测试找到了合适的办法。一、上架二、改包修改uniapp的包名，重新生成证书，为此做了一个一件生成证书的脚本，配合开发者中心【https://dev.dcloud.net.cn/】生成新的包名即可@echooffrem设置JDK
wpf Prism中的事件聚合器的封装和使用硅谷调试员 wpf c#
在Prism中，有一个重要的功能，就是事件聚合器，也就是消息机制,是大家常用的功能。主要是为了实现不同模块之间的信息交互。在prism的官方demo中也给出了简单的使用例子。但是在实际使用过程中，模块多了，消息多了，会非常的难调试，因此我这里对消息机制做了一次封装，并且统一去管理定义各个模块用到的消息。代码比较简单，我这里只是对官方的例子做了一个改造，大家可以参考一下。红色为主要改动的部分，代码结
【算法每日一练]-图论篇14 欧拉路径，欧拉回路希望你变强啊图论算法图论 java 数据结构 c++深度优先
目录判断有向图有欧拉回路判断有向图有欧拉路径如果图G中的一个路径包括每个边恰好一次，则该路径称为欧拉路径(Eulerpath)。（每个点都经过一次就是旅行商问题）预备知识：有向图有欧拉路径：等价于：非0度节点连通，且所有节点入度等于出度(欧拉回路)或有n-2个节点入度等于出度，另外两个节点一个多1一个少1无向图有欧拉路径：等价于：连通图，且没有度为奇数的节点(欧拉回路)或只有两个2个度为奇数的节点
在连通无向图中寻找欧拉回路（Eulerian Circuit）醉心编码 c/c++技术类编程基础算法欧拉回路
在连通无向图中寻找欧拉回路（EulerianCircuit）问题描述解决方案概述算法步骤伪代码C代码示例如何在迷宫中找出一条路示例：在简单迷宫中应用欧拉回路结论问题描述给定一个连通无向图$G=(V,E)$，我们需要找到一条路径，该路径正向和反向通过$E$中的每条边恰好一次，即该路径通过每条边两次，但方向相反。这样的路径被称为欧拉回路（EulerianCircuit）。解决方案概述欧拉回路存在的充分
一键解锁压缩烦恼！高效安全免费解压缩神器全面深度剖析山峰999 安全编辑器 microsoft 算法大数据推荐算法
❤亲爱的小伙伴们，我不定期分享好玩有趣的软件！部分小伙伴有这个需求，为了不错过我们的每一次分享，请大家记得回复互动留言，及时联系就能找到你需要的宝贝，这样大家每天都可以接收和享受到好玩有趣的推送了！❤❤❤你无需担心试用过期或反复提示购买的问题，解压缩神器国际版本承诺永久免费，让你可以无负担地享受压缩服务。在数据压缩与解压领域，一款高效、安全且易用的工具无疑是每位用户的首选。解压缩神器，作为一款的免
【蓝桥杯速成】| 2.逆向思维最好的药物是乌梅算法
题目一：青蛙跳台阶题目描述一只青蛙一次可以跳上1级台阶，也可以跳上2级台阶。求该青蛙跳上一个n级的台阶总共有多少种跳法。解题步骤选用递归的方法解决该问题！使用递归只需要考虑清楚边界条件/终止条件，再写清楚单层循环逻辑剩下的交给程序就好啦！那么如果顺着一级一级去想会非常麻烦，不妨倒着想想，青蛙以什么姿势跳上第n级台阶是优雅的迈了一步？还是急速蹦了两级？以jump(n)为求步数的函数，根据该思路则有：
VMware中linux系统与主机win系统设置共享文件夹、安装VMware tools 鲁鲁在川 linux 运维服务器
1.设置.虚拟机==》设置==硬件/选项==》共享文件夹==》总是启用总是启用为灰色，在虚拟机未开启其设置2.添加共享文件夹3..否存在/mnt/hgfs文件夹没有创建，有则提示sudomkdir/mnt/hgfs4.挂载共享文件夹!!挂载共享文件夹!!挂载共享文件夹!!下次启动虚拟机，还需要再填一次！！每次启用，每次挂载！！！！！！！！sudovmhgfs-fuse.host://mnt/hgf
【数据分享】我国分省份的七普乡镇（街道）人口数据小鲨鱼-立方数据学社数据分享立方数据学社人口普查七普数据乡镇人口人口数据
人口数据是我们在各项研究中都经常使用的数据！人口数据的主要来源是人口普查，全国性的人口普查每十年进行一次。最近一次的人口普查是第七次全国人口普查，简称七普。七普统计的是2020年的人口数据。之前我们分享过省市县三个层级的七普的人口数据（可查看之前的文章获悉详情），很多小伙伴在咨询有没有到乡镇（城市地区对应街道）层级的七普人口数据！本次我们为大家分享的就是来自七普的乡镇（街道）人口数据，包括地区；总
SpringBoot自动配置原理及手动实现自动配置 m0_56222134 程序员面试 java 经验分享
之前我们学习了SpringBoot中的配置文件及外部化配置，了解了SpringBoot对于配置文件的功能支持与增强，本篇我们将要来学习SpringBoot的自动配置原理及手动实现自动配置。数据库依赖引起的bug我们很多人在第一次使用SpringBoot的时候，往往对其原理认知不足，或者简单的了解以后就开始入门使用，往往最常见的就是使用SpringBoot添加一个持久化框架的依赖，用来尝试操作数据库
记一次java线程阻塞状态分析 chuixue24 java基础 java多线程多线程 java
"http-nio-9002-exec-23"#96daemonprio=5os_prio=0tid=0x00005629c8ee7800nid=0x6bwaitingformonitorentry[0x00007efc02a47000]java.lang.Thread.State:BLOCKED(onobjectmonitor)atxxx.xxxWriteServiceImpl.handleWr
webpack打包可视化分析之--webpack-bundle-analyzer 诗棋吖 webpack 前端 node.js javascript npm yarn angular
在开发一些项目的时候，有时候有些旧的框架项目用的webpacke打包慢，打包出来的包文件大，然而我们想要对它进行优化分析，有些旧的项目可能在不断迭代的过程中，有些模块功能改造或者有些需求变化，有些新需求模块开发测试完后，后面旧的模块功能有些不用等需要注释或者删掉，但是由于多人协作和历史版本迭代，有些依赖也可能没删除等，此时我们想对项目做一次比较系统的打包优化分析，我们需要一些可视化插件去帮助我们优
如何实现自动备份 MySQL 数据库：脚本编写与部署指南 *才华有限公司* 数据库 mysql
引言在远程部署的时候，数据备份是确保业务连续性和数据安全的关键步骤。对于使用MySQL数据库的系统，定期备份数据库是必不可少的。本文将详细介绍如何编写一个Bash脚本，实现自动备份MySQL数据库，并将其部署到远程服务器上。1.需求分析在开始编写脚本之前，我们需要明确以下需求：备份频率：每周二备份一次。备份文件存储：备份文件需要按日期存储，且不删除之前的备份数据。自动化运行：脚本需要通过cron任
Java开发第一坑：记一次MySQL ON DUPLICATE KEY UPDATE影响行数异常排查：从现象到解决的全过程猿享天开 java mysql 开发语言
记一次MySQLONDUPLICATEKEYUPDATE影响行数异常排查：从现象到解决的全过程一、问题现象：神秘的计数器异常由于学习JAVA开发时间不长，也没有进行系统性学习，由于项目需要就草草的开始了程序开发，在开发医疗影像归档系统时，归档患者影像时需要自动根据数据库操作后的返回值判断是新增插入数据，还是更新数据，但由于返回的影响行数不准确，比如插入1条新数据、更新一条数据或未变化，返回的影响行
elasticsearch 备份恢复步骤 qq_35640866 elasticsearch chrome 大数据
1、查看仓库，GET_snapshot返回，仓库名是aliyun_auto_snapshot{"aliyun_auto_snapshot":{"type":"oss","settings":{"compress":"true","base_path":"fb632b-1241148226163200/xxx","endpoint":"http://oss-cn-shenzhen-internal.
MATAB学习笔记2 好大一口果汁 MATLAB 学习笔记算法
1.多项式拟合>>p=polyfit(DateNum,Pclose,1);%多项式拟合>>value=p(1)%将斜率赋值给value，作为股票的价值value=0.1212代码分析：%后面的内容是注释，ployfit（）有三个参数，第三个参数表示多项式的阶数，也就是最高次数。比如：第三个参数为1，说明为1次项，即一次函数，第三个参数为你要拟合的阶数，一阶直线拟合，二阶抛物线拟合，并非阶次越高越好
elasticsearch 横向扩展-添加节点 yp2800 elasticsearch elasticsearch
ELKELK运维都会接触到，是一个分布式日志收集平台。logstash收集数据写到elasticsearch里，kibana从elasticsearch里读取数据。数据在elasticsearch里可以被检索，各种查询api,数据聚合等，功能很强大，不多说。environments目前现状：os:centos6.6elasticsearch:2.4cpu:8mem:48disk:8Tindex:4
lc13 Roman to Integer 相太阳
lc13RomantoInteger遇到那六种特殊情况分别-2,-20,-200，按照罗马数字的规则，每种只可能出现一次。所以只需要考虑一次，用indexOf()即可判断是否出现这几种特殊情况然后遍历s，按照每个字符的定义，加上value即可1classSolution{2publicintromanToInt(Strings){3intres=0;45if(s.indexOf("IV")!=-1
强化学习:时间差分(TD)(SARSA算法和Q-Learning算法)(看不懂算我输专栏)——手把手教你入门强化学习(六) wxchyy 强化学习算法
目录前言前期回顾一、SARSA算法二、Q-Learning算法三、总结总结前言前两期我们介绍了动态规划算法，还有蒙特卡洛算法，不过它们对于状态价值函数的估值都有其缺陷性，像动态规划，需要从最下面向上进行递推，而蒙特克洛则需要一个Episode(回合)结束才能对其进行估值，有没有更直接的方法，智能体能边做动作，边估值一次，不断学习策略？答案是有的。这就是本期需要介绍的算法，时间差分法（TimeDi
机器学习的下一个前沿是因果推理吗？——探索机器学习的未来方向！真智AI 人工智能机器学习
机器学习的进化：从预测到因果推理机器学习凭借强大的预测能力，已经彻底改变了多个行业。然而，要实现真正的突破，机器学习还需要克服实践和计算上的挑战，特别是在因果推理方面的应用。未来，因果推理或许将成为推动机器学习发展的新前沿。什么是因果推理，它如何与机器学习相关？如果你和我一样没有数学背景，你可能会好奇“因果推理”到底意味着什么？它与机器学习又有什么关系？当我刚开始学习机器学习时，第一次听到“因果推
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

一次 ElasticSearch 搜索优化