汀、人工智能

ElasticSearch实战指南必知必会：安装中文分词器、ES-Python使用、高级查询实现位置坐标搜索以及打分机制

1.ElasticSearch之-安装中文分词器

elasticsearch 提供了几个内置的分词器：standard analyzer(标准分词器)、simple analyzer(简单分词器)、whitespace analyzer（空格分词器）、language analyzer（语言分词器）

而如果我们不指定分词器类型的话，elasticsearch 默认是使用标准分词器的

我们需要下载中文分词插件，来实现中文分词

下载

地址为：

https://github.com/medcl/elasticsearch-analysis-ik

安装方式参照上一篇文章

#采用第二种，url安装
./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.4.2/elasticsearch-analysis-ik-7.4.2.zip

2.Elasticsearch之-Python 使用

from elasticsearch import Elasticsearch

obj = Elasticsearch()
#创建索引（Index）
result = obj.indices.create(index='user', body={"userid":'1','username':'lqz'},ignore=400)
#print(result)
#删除索引
#result = obj.indices.delete(index='user', ignore=[400, 404])
#插入数据
#data = {'userid': '1', 'username': 'lqz','password':'123'}
#result = obj.create(index='news', doc_type='politics', id=1, body=data)
#print(result)
#更新数据
'''
不用doc包裹会报错
ActionRequestValidationException[Validation Failed: 1: script or doc is missing
'''
#data ={'doc':{'userid': '1', 'username': 'lqz','password':'123ee','test':'test'}}
#result = obj.update(index='news', doc_type='politics', body=data, id=1)
#print(result)


#删除数据
#result = obj.delete(index='news', doc_type='politics', id=1)

#查询
#查找所有文档
query = {'query': {'match_all': {}}}
#查找名字叫做jack的所有文档
#query = {'query': {'term': {'username': 'lqz'}}}

#查找年龄大于11的所有文档
#query = {'query': {'range': {'age': {'gt': 11}}}}

allDoc = obj.search(index='news', doc_type='politics', body=query)
print(allDoc['hits']['hits'][0]['_source'])

3. Elasticsearch高级之-位置坐标实现附近的人搜索

3.1创建 mapping

PUT test
{
  "mappings": {
    "test":{
      "properties": {
        "location":{
          "type": "geo_point"
        }
      }
    }
  }
}

导入数据

POST test/test
{
  "location":{
    "lat":12,
    "lon":24
  }
}

3.2 查询

根据给定两个点组成的矩形，查询矩形内的点

GET test/test/_search
{
  "query": {
    "geo_bounding_box": {
      "location": {
        "top_left": {
          "lat": 28,
          "lon": 10
        },
        "bottom_right": {
          "lat": 10,
          "lon": 30
        }
      }
    }
  }
}

根据给定的多个点组成的多边形，查询范围内的点

GET test/test/_search
{
  "query": {
    "geo_polygon": {
      "location": {
        "points": [
          {
            "lat": 11,
            "lon": 25
          },
          {
            "lat": 13,
            "lon": 25
          },
          {
            "lat": 13,
            "lon": 23
          },
          {
            "lat": 11,
            "lon": 23
          }
        ]
      }
    }
  }
}

查询给定 1000KM 距离范围内的点

GET test/test/_search
{
  "query": {
    "geo_distance": {
      "distance": "1000km",
      "location": {
        "lat": 12,
        "lon": 23
      }
    }
  }
}

查询距离范围区间内的点的数量

GET test/test/_search
{
  "size": 0, 
  "aggs": {
    "myaggs": {
      "geo_distance": {
        "field": "location",
        "origin": {
          "lat": 52.376,
          "lon": 4.894
        },
        "unit": "km", 
        "ranges": [
          {
            "from": 50, 
            "to": 30000
          }
        ]
      }
    }
  }
}

4.Elasticsearch之打分机制

4.1 文档打分的运作机制：TF-IDF

Lucene和es的打分机制是一个公式。将查询作为输入，使用不同的手段来确定每一篇文档的得分，将每一个因素最后通过公式综合起来，返回该文档的最终得分。这个综合考量的过程，就是我们希望相关的文档被优先返回的考量过程。在Lucene和es中这种相关性称为得分。在开始计算得分之前，es使用了被搜索词条的频率和它有多常见来影响得分，从两个方面理解：

一个词条在某篇文档中出现的次数越多，该文档就越相关。
一个词条如果在不同的文档中出现的次数越多，它就越不相关！

我们称之为TF-IDF，TF是词频（term frequency），而IDF是逆文档频率（inverse document frequency）。

4.1.2 词频：TF

考虑一篇文档得分的首要方式，是查看一个词条在文档中出现的次数，比如某篇文章围绕es的打分展开的，那么文章中肯定会多次出现相关字眼，当查询时，我们认为该篇文档更符合，所以，这篇文档的得分会更高。闲的蛋疼的可以Ctrl + f搜一下相关的关键词（es，得分、打分）之类的试试。

4.1.2 逆文档频率：IDF

相对于词频，逆文档频率稍显复杂，如果一个词条在索引中的不同文档中出现的次数越多，那么它就越不重要。来个例子，示例地址：

The rules-which require employees to work from 9 am to 9 pm
In the weeks that followed the creation of 996.ICU in March
The 996.ICU page was soon blocked on multiple platforms including the messaging tool WeChat and the UC Browser.

假如es索引中，有上述 3 篇文档：

词条ICU的文档频率是2，因为它出现在 2 篇文档中，文档的逆源自得分乘以1/DF，DF是该词条的文档频率，这就意味着，由于ICU词条拥有更高的文档频率，所以，它的权重会降低。
词条the的文档频率是3，它在 3 篇文档中都出现了，注意：尽管the在后两篇文档出都出现两次，但是它的词频是还是3，因为，逆文档词频只检查词条是否出现在某篇文档中，而不检查它在这篇文档中出现了多少次，那是词频该干的事儿。

逆文档词频是一个重要的因素，用来平衡词条的词频。比如我们搜索the 996.ICU。单词the几乎出现在所有的文档中（中文中比如的），如果这个鬼东西要不被均衡一下，那么the的频率将完全淹没996.ICU。所以，逆文档词频就有效的均衡了the这个常见词的相关性影响。以达到实际的相关性得分将会对查询的词条有一个更准确地描述。当词频和逆文档词频计算完成。就可以使用TF-IDF公式来计算文档的得分了。

4.2 Lucene 评分公式

之前的讨论Lucene默认评分公式被称为TF-IDF，一个基于词频和逆文档词频的公式。Lucene实用评分公式如下：

你以为我会着重介绍这个该死的公式？！我只能说，词条的词频越高，得分越高；相似地，索引中词条越罕见，逆文档频率越高，其中再加商调和因子和查询标准化，调和因子考虑了搜索过多少文档以及发现了多少词条；查询标准化，是试图让不同的查询结果具有可比性，这显然… 很困难。我们称这种默认的打分方法是TF-IDF和向量空间模型（vector space model）的结合。

4.3 其他的打分方法

除了TF-IDF结合向量空间模型的实用评分模式，是es和Lucene最为主流的评分机制，但这并不是唯一的，除了TF-IDF这种实用模型之外，其他的模型包括：

Okapi BM25。
随机性分歧（Divergence from randomness），即 DFR 相似度。
LM Dirichlet 相似度。
LM Jelinek Mercer 相似度。

这里简要的介绍BM25几种主要设置，即k1、b和discount_overlaps：

k1 和 b 是数值的设置，用于调整得分是如何计算的。
k1 控制对于得分而言词频（TF）的重要性。
b 是介于0 ~ 1之间的数值，它控制了文档篇幅对于得分的影响程度。
默认情况下，k1设置为1.2，而b则被设置为0.75
discount_overlaps的设置用于告诉es，在某个字段中，多少个分词出现在同一位置，是否应该影响长度的标准化，默认值是true。

4.4 配置打分模型

4.4.1 简要配置 BM25 打分模型

BM25（是不是跟 pm2.5 好像！！！）是一种基于概率的打分框架。我们来简要的配置一下：

PUT w2
{
  "mappings": {
    "doc": {
      "properties": {
        "title": {
          "type": "text",
          "similarity": "BM25"
        }
      }
    }
  }
}

PUT w2/doc/1
{
  "title":"The rules-which require employees to work from 9 am to 9 pm"
}

PUT w2/doc/2
{
  "title":"In the weeks that followed the creation of 996.ICU in March"
}

PUT w2/doc/3
{
  "title":"The 996.ICU page was soon blocked on multiple platforms including the messaging tool WeChat and the UC Browser."
}

GET w2/doc/_search
{
  "query": {
    "match": {
      "title": "the 996"
    }
  }
}

上例是通过similarity参数来指定打分模型。至于查询，还是当数据量比较大的时候，多试几次，比较容易发现不同之处。

4.4.2 为 BM25 配置高级的 settings

PUT w3
{
  "settings": {
    "index": {
      "analysis": {
        "analyzer":"ik_smart"
      }
    },
    "similarity": {
      "my_custom_similarity": {
        "type": "BM25",
        "k1": 1.2,
        "b": 0.75,
        "discount_overlaps": false
      }
    }
  },
  "mappings": {
    "doc": {
      "properties": {
        "title": {
          "type": "text",
          "similarity":"my_custom_similarity"
        }
      }
    }
  }
}

PUT w3/doc/1
{
  "title":"The rules-which require employees to work from 9 am to 9 pm"
}

PUT w3/doc/2
{
  "title":"In the weeks that followed the creation of 996.ICU in March"
}

PUT w3/doc/3
{
  "title":"The 996.ICU page was soon blocked on multiple platforms including the messaging tool WeChat and the UC Browser."
}

GET w3/doc/_search
{
  "query": {
    "match": {
      "title": "the 996"
    }
  }
}

4.4.3 配置全局打分模型

如果我们要使用某种特定的打分模型，并且希望应用到全局，那么就在elasticsearch.yml配置文件中加入：

index.similarity.default.type: BM25

4.5. boosting

boosting是一个用来修改文档相关性的程序。boosting有两种类型：

索引的时候，比如我们在定义 mappings 的时候。
查询一篇文档的时候。

以上两种方式都可以提升一个篇文档的得分。需要注意的是：在索引期间修改的文档 boosting 是存储在索引中的，要想修改 boosting 必须重新索引该篇文档。

4.5.1 索引期间的 boosting

啥也不说了，都在酒里！上代码：

PUT w4
{
  "mappings": {
    "doc": {
      "properties": {
        "name": {
          "boost": 2.0,
          "type": "text"
        },
        "age": {
          "type": "long"
        }
      }
    }
  }
}

一劳永逸是没错，但一般不推荐这么玩。

原因之一是因为一旦映射建立完成，那么所有name字段都会自动拥有一个boost值。要想修改这个值，那就必须重新索引文档。另一个原因是，boost值是以降低精度的数值存储在Lucene内部的索引结构中。只有一个字节用于存储浮点型数值（存不下就损失精度了），所以，计算文档的最终得分时可能会损失精度。最后，boost是应用与词条的。因此，再被boost的字段中如果匹配上了多个词条，就意味着计算多次的boost，这将会进一步增加字段的权重，可能会影响最终的文档得分。现在我们再来介绍另一种方式。

4.5.2 查询期间的 boosting

在es中，几乎所有的查询类型都支持boost，正如你想象的那些match、multi_match等等。来个示例，在查询期间，使用 match 查询进行boosting：

PUT w5
{
  "mappings":{
    "doc":{
      "properties": {
        "title": {
          "type": "text",
          "analyzer": "ik_max_word"
        },
        "content": {
          "type": "text",
          "analyzer": "ik_max_word"
        }
      }
    }
  }
}

PUT w5/doc/1
{
  "title":"Lucene is cool",
  "content": "Lucene is cool"
}

PUT w5/doc/2
{
  "title":"Elasticsearch builds on top of lucene",
  "content":"Elasticsearch builds on top of lucene"
}

PUT w5/doc/3
{
  "title":"Elasticsearch rocks",
  "content":"Elasticsearch rocks"
}

来查询：

GET w5/doc/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "title":{
              "query": "elasticserach rocks",
              "boost": 2.5
            }
          }
        },
        {
          "match": {
            "content": "elasticserach rocks"
          }
        }
      ]
    }
  }
}

就对于最终得分而言，content字段，加了boost的title查询更有影响力。也只有在bool查询中，boost更有意义。

4.5.3 跨越多个字段的查询

boost也可以用于multi_match查询。

GET w5/doc/_search
{
  "query": {
    "multi_match": {
      "query": "elasticserach rocks",
      "fields": ["title", "content"],
      "boost": 2.5
    }
  }
}

除此之外，我们还可以使用特殊的语法，只为特定的字段指定一个boost。通过在字段名称后添加一个^符号和boost的值。告诉 es 只需对那个字段进行boost：

GET w5/doc/_search
{
  "query": {
    "multi_match": {
      "query": "elasticserach rocks",
      "fields": ["title^3", "content"]
    }
  }
}

上例中，title字段被boost了 3 倍。需要注意的是：在使用boost的时候，无论是字段或者词条，都是按照相对值来boost的，而不是乘以乘数。如果对于所有的待搜索词条boost了同样的值，那么就好像没有boost一样（废话，就像大家都同时长高一米似的）！因为 Lucene 会标准化boost的值。如果boost一个字段4倍，不是意味着该字段的得分就是乘以4的结果。所以，如果你的得分不是按照严格的乘法结果，也不要担心。

5.带你理解文档是如何评分的

一切都不是你想的那样！是的，在es中，一个文档要比另一个文档更符合某个查询很可能跟我们想象的不太一样！这一小节，我们来研究下es和Lucene内部使用了怎样的公式来计算得分。我们通过explain=true来告诉es，你要给洒家解释一下为什么这个得分是这样的？！背后到底以有什么 py 交易！比如我们来查询：

GET py1/doc/_search
{
  "query": {
    "match": {
      "title": "北京"
    }
  },
  "explain": true,
  "_source": "title", 
  "size": 1
}

由于结果太长，我们这里对结果进行了过滤（"size": 1返回一篇文档），只查看指定的字段（"_source": "title"只返回title字段）。看结果：

{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 24,
    "max_score" : 4.9223156,
    "hits" : [
      {
        "_shard" : "[py1][1]",
        "_node" : "NRwiP9PLRFCTJA7w3H9eqA",
        "_index" : "py1",
        "_type" : "doc",
        "_id" : "NIjS1mkBuoj17MYtV-dX",
        "_score" : 4.9223156,
        "_source" : {
          "title" : "大写的尴尬 插混为啥在北京不受待见？"
        },
        "_explanation" : {
          "value" : 4.9223156,
          "description" : "weight(title:北京 in 36) [PerFieldSimilarity], result of:",
          "details" : [
            {
              "value" : 4.9223156,
              "description" : "score(doc=36,freq=1.0 = termFreq=1.0\n), product of:",
              "details" : [
                {
                  "value" : 4.562031,
                  "description" : "idf, computed as log(1 + (docCount - docFreq + 0.5) / (docFreq + 0.5)) from:",
                  "details" : [
                    {
                      "value" : 4.0,
                      "description" : "docFreq",
                      "details" : [ ]
                    },
                    {
                      "value" : 430.0,
                      "description" : "docCount",
                      "details" : [ ]
                    }
                  ]
                },
                {
                  "value" : 1.0789746,
                  "description" : "tfNorm, computed as (freq * (k1 + 1)) / (freq + k1 * (1 - b + b * fieldLength / avgFieldLength)) from:",
                  "details" : [
                    {
                      "value" : 1.0,
                      "description" : "termFreq=1.0",
                      "details" : [ ]
                    },
                    {
                      "value" : 1.2,
                      "description" : "parameter k1",
                      "details" : [ ]
                    },
                    {
                      "value" : 0.75,
                      "description" : "parameter b",
                      "details" : [ ]
                    },
                    {
                      "value" : 12.1790695,
                      "description" : "avgFieldLength",
                      "details" : [ ]
                    },
                    {
                      "value" : 10.0,
                      "description" : "fieldLength",
                      "details" : [ ]
                    }
                  ]
                }
              ]
            }
          ]
        }
      }
    ]
  }
}

在新增的_explanation字段中，可以看到value值是4.9223156，那么是怎么算出来的呢？来分析，分词北京在描述字段（title）出现了1次，所以TF的综合得分经过"description" : "tfNorm, computed as (freq * (k1 + 1)) / (freq + k1 * (1 - b + b * fieldLength / avgFieldLength)) from:"计算，得分是1.0789746。那么逆文档词频呢？根据"description" : "idf, computed as log(1 + (docCount - docFreq + 0.5) / (docFreq + 0.5)) from:"计算得分是4.562031。所以最终得分是：

1.0789746 * 4.562031 = 4.9223155734126

结果在四舍五入后就是4.9223156。需要注意的是，explain的特性会给es带来额外的性能开销。所以，除了在调试时可以使用，生产环境下，应避免使用explain。

更多优质内容请关注公号：汀丶人工智能；会提供一些相关的资源和优质文章，免费获取阅读。

你可能感兴趣的:(Elastic,search,elasticsearch,中文分词,搜索推荐,大数据,搜索引擎,ES,打分机制)

synchronized 的特性与机制坚持拒绝熬夜 java 开发语言笔记
目录1.synchronized的特性锁策略(1)既是乐观锁也是悲观锁(2)既是轻量级锁,也是重量级锁(3)轻量级锁基于自旋实现,重量级锁基于挂起等待实现(4)不是读写锁(5)是可重入锁(6)是非公平锁2.synchronized的使用3.synchronized的锁机制偏向锁自旋锁和重量级锁4.synchronized的优化策略1.锁的消除2.锁的粗化1.synchronized的特性(1)既是
QMap 多重嵌套金色暖阳 qt 算法 QMap 数据结构
QMap多重嵌套，通过迭代器修改内层的mapQMapmap_id;map_id.insert(1,22);map_id.insert(2,44);map_id.insert(5,55);if(map_id.contains(2)){qDebug()>map_test;map_test.insert(1,map_id);qDebug()>::iteratorit=map_test.begin();f
react-11（自定义hook、useRef）我只是想饮一杯奶茶 react JavaScript react.js javascript 前端 typescript
自定义hook主要是我们利用已有的hook,实现hook的效果，并在其他地方引用。（感觉像是封装了一个方法）//定义constfetchHook=(url)=>{const[data,setData]=useState({})const[loading,setLoading]=useState('')useEffect(()=>{setLoading('loading')axios.get(url
FlinkCDC实战：将 MySQL 数据同步至 ES 小DuDu flink mysql
当前需要处理的业务场景:将订单表和相关联的表(比如:商品表、子订单表、物流信息表)组织成宽表,放入到ES中,加速订单数据的查询.同步数据到es.概述1.什么是CDC2.什么是FlinkCDC3.FlinkCDCConnectors和Flink的版本映射实战1.宽表查询1.1创建mysql表1.2启动Flink集群和FlinkSQLCLI1.3在FlinkSQLCLI中使用FlinkDDL创建表1.
Spring Boot 3.4.0 发布：功能概览与示例小DuDu Java spring boot java
SpringBoot3.4.0带来了许多增强功能，使现代应用开发更加高效、便捷和强大。以下是最新功能的完整概述，以及一些帮助您快速入门的代码示例。1.应用程序版本管理SpringBoot引入了spring.application.version属性，方便开发者设置和访问应用程序版本。示例在application.properties中：spring.application.version=1.2.
洛谷每日1题-------Day25__P1424 小鱼的航程（改进版） __雨夜星辰__ 洛谷每日1题算法 c++数据结构学习笔记
题目描述有一只小鱼，它平日每天游泳250公里，周末休息（实行双休日)，假设从周x开始算起，过了n天以后，小鱼一共累计游泳了多少公里呢？输入格式输入两个正整数x,n，表示从周x算起，经过n天。输出格式输出一个整数，表示小鱼累计游泳了多少公里。输入输出样例输入#1复制310输出#1复制2000说明/提示数据保证，1≤x≤7，1≤n≤106。题解#includeusingnamespacestd;int
论文学习11：Boundary-Guided Camouflaged Object Detection zl29 学习目标检测人工智能
代码来源GitHub-thograce/BGNet:Boundary-GuidedCamouflagedObjectDetection模块作用BGNet利用额外的目标相关边缘语义信息来引导COD任务的特征学习，从而强制模型生成能够突出目标结构的特征。这一机制有助于提高目标边界的精准定位，从而提升伪装目标的检测性能。模块结构BGNet的架构基于Res2Net-50，编码器提取多级特征，解码器通过EA
React Material Components Web 使用教程计煦能Leanne
ReactMaterialComponentsWeb使用教程react-mdc-webMaterialDesignComponentsforReact项目地址:https://gitcode.com/gh_mirrors/re/react-mdc-web项目介绍ReactMaterialComponentsWeb（简称react-mdc-web）是一个基于Google的MaterialDesign
从0到1：小白也能轻松上手的高清电影搜索引擎网站制作指南计算机学长网站制作搜索引擎前端服务器
引言在互联网飞速发展的当下，在线观影已成为人们日常娱乐不可或缺的一部分。据相关数据显示，2024年网络视频用户规模达到了惊人的规模，如此庞大的用户群体，对电影资源的需求自然也是水涨船高。然而，面对海量的电影资源，如何快速、准确地找到自己心仪的高清电影，却成了许多影迷的一大难题。各大视频平台资源分散，想要观看不同的电影，往往需要在多个平台之间来回切换，而且还可能面临付费门槛、广告干扰等问题。这时，一
Angular Material表格的动态列宽设置 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在前端开发中，AngularMaterial表格（mat-table）是非常流行的组件之一。它提供了丰富的功能，如排序、分页和过滤等。然而，有时我们需要动态调整表格列的宽度，以适应不同的数据和用户需求。本文将介绍如何在TypeScript中获取mat-table的列宽，并据此设置相应的过滤器宽度。问题描述在使用AngularMaterial表格时，如何获取每个列的宽度？例如，我们希望为每一列设置一
区块链驱动金融第二章 —— 探秘比特币的去中心化之路小DuDu 区块链技术驱动金融区块链
在当今数字化时代，比特币作为一种新兴的数字货币，其去中心化的特性备受关注。它打破了传统金融体系中对中心化机构的依赖，构建起一个独特的信任机制。这背后究竟隐藏着怎样的奥秘？让我们一同深入揭开比特币去中心化的神秘面纱。比特币去中心化的多面剖析去中心化的概念辨析在探讨比特币如何去中心化之前，我们需要明确去中心化的概念。去中心化并非比特币所独有，在互联网、电子邮件等领域都有体现。并且，没有一个系统是完全中
halcon几何测量(一)3d_position_of_rectangle mm_exploration 计算机视觉 halcon 图像处理
目录一、提取目标区域，选择不和边缘相交的目标二、计算矩形工件的姿态三、显示矩形的立体结构一、提取目标区域，选择不和边缘相交的目标1、提取目标区域：mean_image、dyn_threshold、fill_up、connection、select_shape2、选择不和边缘相交的目标：intersection、area_center、select_mask_objread_image(Image,
SELECT 选择框上下移动左右移动 windy php程序小知识库 border button input 存储 list function
1，功能说明：实现两个list之间的数据转换，单个select的上下移动，删除。（支持多选操作）2，函数简介上移：moveUp(oSelect,isToTop)下移：moveDown(oSelect,isToTop)选中转移：moveSelected(oSourceSel,oTargetSel)全部转移：moveAll(oSourceSel,oTargetSel)删除选中：deleteSelect
Vitis 2024.1 无法正常编译custom ip的bug（因为Makefile里的wildcard） Αλήθεια bug fpga fpga开发 arm
现象：如果在vivado中，添加了自己的customIP，比如AXI4IP，那么在Vitis（2024.1）编译导出的原本的.xsa的时候，会构建build失败。报错代码是："Compilingblank_test_ip..."microblaze-xilinx-elf-gcc.exe:warning:(ildcard:linkerinputfileunusedbecauselinkingnotd
DeepLabv3+改进18:在主干网络中添加REP_BLOCK AICurator 深度学习 python 机器学习 deeplabv3+语义分割
【DeepLabv3+改进专栏！探索语义分割新高度】你是否在为图像分割的精度与效率发愁？本专栏重磅推出：✅独家改进策略：融合注意力机制、轻量化设计与多尺度优化✅即插即用模块：ASPP+升级、解码器PS:订阅专栏提供完整代码论文简介我们提出了一种通用的卷积神经网络（ConvNet）构建模块，可在不增加推理时间成本的情况下提升性能。该模块名为多样化分支块（DBB），通过结合不同尺度和复杂度的多样化分支
grep 命令的超级详细干货指南运维linux服务器
一、基础用法：快速上手1.核心语法grep[OPTIONS]PATTERN[FILE...]2.必知必会操作搜索文件中内容：grep"error"app.log#在app.log中查找包含"error"的行多文件搜索：grep"404"access.logerror.log#同时在两个文件中搜索忽略大小写：grep-i"warning"syslog#匹配"WARNING"、"warning"等显示
excel文件有两列，循环读取文件两列赋值到字典列表。字典的有两个key,分别为question和answer。将最终结果输出到json文件大霞上仙 python excel json python
importpandasaspdimportjson#1.读取Excel文件（假设列名为question和answer）try:df=pd.read_excel("input.xlsx",usecols=["question","answer"])#明确指定列exceptExceptionase:print(f"读取文件失败:{str(e)}")exit()#2.转换为字典列表result=[{"
在LangChain中传递运行时值给工具 bavDHAUO langchain windows python
在使用LangChain开发智能应用时，我们经常需要将一些运行时的参数传递给工具。这些参数可能在请求时才被确定，比如请求用户的ID。在大多数情况下，这些参数不应该由LLM（大语言模型）控制，因为这样可能存在安全风险。因此，我们需要一种机制，让LLM只控制那些它需要控制的参数，而其他参数则由应用逻辑来固定。本指南将详细介绍如何在LangChain中实现这一点，即防止模型生成某些工具参数，并在运行时进
gralloc usage flags Damon_X gralloc
下面这些示例主要说明了grallocusageflags在图像处理和多媒体应用中如何影响性能和正确性。让我们逐个详细分析每个问题的根因和修复方案，并深入解析gralloc标志对缓存管理和数据流的影响。✅Example1:长曝光快照耗时异常问题描述症状：长曝光快照（longexposuresnapshot）在某些内存优化后，拍摄时间异常变长。根因：第三方算法在多个快照帧上执行，耗时约1.2秒。Buf
查看 CUDA cudnn 版本查看Navicat GPU版本 FergusJ 备份 python 开发语言
查看显卡型号：lspci|grepVGA（lspci是linux查看硬件信息的命令），屏幕会打印出主机的集显几独显信息python中查看显卡型号fromtensorflow.python.clientimportdevice_libdevice_lib.list_local_devices()
使用spring data MongoDB对MongoDB进行简单CURD操作示例其实我就是个萌新 spring mongodb java
本文章为作者个人学习笔记，仅作参考。1.application.properties配置spring.data.mongodb.database=[数据库名]spring.data.mongodb.host=localhost[主机名,本机：localhost]spring.data.mongodb.port=[数据库端口，默认:27017]2.根据数据库文档定义实体类：@RequiredArgs
156.HarmonyOS NEXT系列教程之3D立方体旋转轮播案例讲解之事件处理机制 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之3D立方体旋转轮播案例讲解之事件处理机制效果演示1.事件系统概述1.1事件类型点击事件滚动事件动画事件状态变化事件1.2事件处理方式//点击事件处理.onClick(()=>{promptAction.showToast({m
深入解析 .NET 中的依赖项加载机制：原理、实现与最佳实践江沉晚呤时 Net core 前端数据库 c#.netcore
在现代应用程序的开发中，依赖项管理与加载是非常重要的组成部分，尤其是在大型系统中，如何高效地加载和管理依赖项可以极大地影响应用程序的性能、可维护性和扩展性。在.NET中，依赖项加载不仅涉及静态依赖的管理，还包括动态加载组件和程序集的能力。本文将详细讲解.NET中的依赖项加载机制，覆盖从静态依赖注入到动态加载的所有重要概念。1.依赖项加载的基本概念1.1依赖项与依赖注入（DI）依赖项是一个对象在其生
“by” the way ——借ViewModel创建方式探索Kotlin的委托机制 Omnipotent_7 kotlin android java
文章目录获取viewModel的新方法旧方法新方法什么是委托模式？那么委托模式到底是什么呢？类委托应用场景属性委托的应用场景“by”关键字到底是啥总结获取viewModel的新方法旧方法有新方法肯定要先介绍一下旧方法。在传统的viewModel获取中，我们都有这样一个经验——不能在Activity里直接创建viewModel对象。因为ViewModel的生命周期是长于Activity的，如果在Ac
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
MySQL InnoDB 存储引擎详解 drebander 数据库 mysql android 数据库
InnoDB是MySQL中最常用、最强大的存储引擎之一，其支持事务、外键、行级锁等特性，非常适合对可靠性、并发性要求较高的场景。本文将详细解析InnoDB的核心特性、内部机制以及使用场景，帮助你更好地理解和优化MySQL数据库。1.为什么选择InnoDB存储引擎InnoDB是MySQL默认的存储引擎（从MySQL5.5开始）。相比其他存储引擎（如MyISAM），InnoDB的优势在于：支持事务：遵
easyexcel ExcelProperty国际化思想永无止境 JavaSE java easyexcel
publicstaticvoidsetExcelPropertyI18n(Classclazz,Localelocale){Field[]fields=clazz.getDeclaredFields();for(Fieldfield:fields){if(field.isAnnotationPresent(ExcelProperty.class)){ExcelPropertyexcelProper
如何使点击超链接后浏览器弹出下载框思想永无止境 Python Web前端
如果下载的资源和服务器是同域的，那么只要在a标签中添加download属性即可。下载如果下载的资源和服务器是不同域的，那么添加download属性是没有效果的。下载解决办法：在views.py中定义以下方法：importurllib2deffile_download(request):url=request.REQUEST['url']filename=request.REQUEST['filen
六十天前端强化训练之第二十一天大师级详解 React Context API：从原理到实战编程星辰海 #前端前端 react.js javascript React Context API
=====欢迎来到编程星辰海的博客讲解======看完可以给一个免费的三连吗，谢谢大佬！目录一、庖丁解牛：深入理解ContextAPI1.1设计哲学与运转机制工作原理三步曲：1.2核心三剑客详解1.3性能优化要诀二、手把手实现主题切换系统2.1完整代码实现（逐行注释版）2.2配套CSS样式设计三、关键知识点拆解3.1状态初始化策略3.2CSS变量注入原理3.3性能优化实践3.4可访问性最佳实践四、
编程-设计模式 30：拦截过滤器模式（Interceptor Filter Pattern）漆黑的莫莫编程设计模式 J2EE设计模式设计模式
设计模式30：拦截过滤器模式（InterceptorFilterPattern）定义与目的定义：拦截过滤器模式是一种用于Web应用程序中的模式，它提供了一种机制来拦截请求和响应，并在它们到达目标处理程序之前执行一些预处理任务，在响应返回客户端之前执行一些后处理任务。目的：该模式的主要目的是通过将请求处理逻辑与请求的预处理和后处理任务分离，提高应用程序的模块化程度和可维护性。实现示例假设我们有一个简
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息