Elastic 中国社区官方博客

Elasticsearch：利用矢量搜索进行音乐信息检索

作者：Alex Salgado

欢迎来到音乐信息检索的未来，机器学习、矢量数据库和音频数据分析融合在一起，带来令人兴奋的新可能性！如果你对音乐数据分析领域感兴趣，或者只是热衷于技术如何彻底改变音乐行业，那么本指南适合你。

在这里，我们将带你踏上使用矢量搜索方法搜索音乐数据的旅程。由于世界上超过 80% 的数据都是非结构化的，因此了解如何处理文本以外的不同类型的数据是很有好处的。

如果你想在阅读时跟踪并执行代码，请访问本文末尾列出的 GitHub 上的文件。我们使用如下的命令来克隆代码：

git clone https://github.com/liu-xiao-guo/music-search

架构

想象一下，如果你可以哼唱一首你试图回忆的歌曲的曲调，然后你哼唱的歌曲突然出现在屏幕上会怎样？当然，考虑到必要的努力和数据模型调整，这就是我们今天要做的。

为了实现我们的结果，我们将创建一个如下所示的架构：

这里的主要角色是嵌入（embeddings）。我们将使用模型生成的音频嵌入作为矢量搜索中的搜索关键字。

安装

如果你还没有安装好自己的 Elasticsearch 及 Kibana，那么请参考我之前的文章来分别进行安装：

如何在 Linux，MacOS 及 Windows 上进行安装 Elasticsearch
Kibana：如何在 Linux，MacOS 及 Windows 上安装 Elastic 栈中的 Kibana

在安装的时候，请参考 Elastic Stack 8.x 的安装指南来进行安装。在如下的练习中，我将使用最新的 Elastic Stack 8.9.0 来进行展示。

如何生成音频嵌入

生成嵌入的核心是模型，这些模型经过数百万个示例的训练，以提供更相关和更准确的结果。对于音频，这些模型可以在大量音频数据上进行训练。这些模型的输出是音频的密集数字表示（即音频嵌入）。该高维向量捕获音频剪辑的关键特征，从而允许在嵌入空间中进行相似性计算和高效搜索。

对于这项工作，我们将使用 librosa（开源 python 包）来生成音频嵌入。这通常涉及从音频文件中提取有意义的特征，例如梅尔频率倒谱系数 (MFCC)、色度和梅尔标度频谱图特征。那么，我们如何使用 Elasticsearch® 实现音频搜索呢？

步骤1：创建索引来存储音频数据

首先，我们需要在 Elasticsearch 中创建一个索引，然后再用音乐数据填充矢量数据库。为简单起见，我们将使用在 Jupyter Notebook 来运行的 Python 代码。

1.1 创建我们的音频数据集索引

现在我们已经建立了连接，让我们创建一个用于存储音频信息的索引。我们使用 jupyter notebook 来打开 elastic_music_search.ipynb 文件。

!pip install elasticsearch
!pip install Config

在上面我们按照必要的 python 库。有关 Elasticsearch 的连接，请参考 “Elasticsearch：关于在 Python 中使用 Elasticsearch 你需要知道的一切 - 8.x”。我们在下载的代码里修改如下的文件 simple.cfg：

simple.cfg

ES_PASSWORD: "p1k6cT4a4bF+pFYf37Xx"
ES_FINGERPRINT: "633bf7f6e4bf264e6a05d488af3c686b858fa63592dc83999a0d77f7e9fe5940"

上面的 ES_PASSWORD 是我们在 Elasticsearch 第一次启动时显示的密码，而 ES_FINGERPRINT 的值是 http_ca.crt 的 fingerprint。我们也可以在 Elasticsearch 第一次启动的时候看到。如果你已经找不到这个显示，那么你可以参考文章 “Elasticsearch：关于在 Python 中使用 Elasticsearch 你需要知道的一切 - 8.x” 来了解如何获得这个。另外一种比较简单的方法就是打开 config/kibana.yml 这个文件：

#index data in elasticsearch
from elasticsearch import Elasticsearch
from config import Config
 
with open('simple.cfg') as f:
    cfg = Config(f)
 
print(cfg['ES_FINGERPRINT'])
print(cfg['ES_PASSWORD'])
 
es = Elasticsearch(
    'https://localhost:9200',
    ssl_assert_fingerprint = cfg['ES_FINGERPRINT'],
    basic_auth=('elastic', cfg['ES_PASSWORD'])
)
 
es.info()

上面的代码表明我们的 python 代码连接到 Elasticsearch 是成功的。

接下来，我们创建一个叫做 my-audio-index 的索引：

index_name = "my-audio-index"

if(es.indices.exists(index=index_name)):
    print("The index has already existed, going to remove it")
    es.options(ignore_status=404).indices.delete(index=index_name)

# Specify index configuration
mappings = {
    "_source": {
      "excludes": ["audio-embedding"]
    },
    "properties": {
      "audio-embedding": {
        "type": "dense_vector",
        "dims": 2048,
        "index": True,
        "similarity": "cosine"
      },
      "path": {
        "type": "text",
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      },
      "timestamp": {
        "type": "date"
      },
      "title": {
        "type": "text"
      },
      "genre": {
        "type": "text"
      }
    }
}

# Create index
if not es.indices.exists(index=index_name):
    index_creation = es.options(ignore_status=400).indices.create(index=index_name, mappings = mappings)
    print("index created: ", index_creation)
else:
    print("Index  already exists.")

提供的 Python 代码使用 Elasticsearch Python 客户端创建具有特定配置的索引。该索引的目的是提供一种允许在密集矢量字段上进行搜索操作的结构，该结构通常用于存储某些实体（例如本例中的音频文件）的矢量表示或嵌入。

mappings 对象定义了该索引的映射属性，包括 audio-embedding、path、timestamp 和 title 字段。 audio-embedding 字段被指定为 dense_vector 类型，适用于 2048 维，并以 cosine 相似度进行索引，这决定了在搜索操作期间用于计算矢量之间距离的方法。 path 字段将存储播放音频的路径。请注意，为了适应 2048 的嵌入维度，你需要使用 Elasticsearch 8.8.0 或更高版本。

然后该脚本检查 Elasticsearch 实例中是否存在索引。如果索引不存在，它将使用指定的配置创建一个新索引。这种类型的索引配置可用于音频搜索等场景，其中音频文件被转换为矢量表示以进行索引和后续基于相似性的检索。

第 2 步：使用音频数据填充 Elasticsearch

在此步骤结束时，你将读取一个索引，并用音频数据填充以创建我们的数据存储。为了继续进行音频搜索，我们首先需要填充数据库。

2.1 选择要摄取的音频数据

许多音频数据集都有特定的目标。对于我们的示例，我将利用 Google Music LM 页面上生成的文件，特别是来自文本和旋律调节部分的文件。将音频文件 *.wav 放在特定目录中 - 在本例中，我选择 /Users/liuxg/python/music-search/dataset。

$ pwd
/Users/liuxg/python/music-search/dataset
$ ls
a-cappella-chorus.wav                        bella_ciao_tribal-drums-and-flute.wav
bella_ciao_a-cappella-chorus.wav             mozart_symphony25_electronic-synth-lead.wav
bella_ciao_electronic-synth-lead.wav         mozart_symphony25_guitar-solo.wav
bella_ciao_guitar-solo.wav                   mozart_symphony25_jazz-with-saxophone.wav
bella_ciao_humming.wav                       mozart_symphony25_opera-singer.wav
bella_ciao_jazz-with-saxophone.wav           mozart_symphony25_piano-solo.wav
bella_ciao_opera-singer.wav                  mozart_symphony25_prompt.wav
bella_ciao_piano-solo.wav                    mozart_symphony25_string-quartet.wav
bella_ciao_string-quartet.wav                mozart_symphony25_tribal-drums-and-flute.wav

import os

def list_audio_files(directory):
    # The list to store the names of .wav files
    audio_files = []

    # Check if the path exists
    if os.path.exists(directory):
        # Walk the directory
        for root, dirs, files in os.walk(directory):
            for file in files:
                # Check if the file is a .wav file
                if file.endswith('.wav'):
                    # Extract the filename from the path
                    filename = os.path.splitext(file)[0]
                    print(filename)

                    # Add the file to the list
                    audio_files.append(file)
    else:
        print(f"The directory '{directory}' does not exist.")

    # Return the list of .mp3 files
    return audio_files

# Use the function
audio_path = "/Users/liuxg/python/music-search/dataset"
audio_files = list_audio_files(audio_path)

该代码定义了一个名为 list_audio_files 的函数，该函数将目录作为参数。该函数的目的是遍历提供的目录及其子目录，查找扩展名为“.wav”的音频文件。如果需要支持 .mp3 文件，则需要修改该函数。

2.2 矢量搜索嵌入的威力

这一步就是神奇发生的地方。矢量相似性搜索是一种根据给定查询的相似性来存储、检索和搜索矢量的机制，通常用于图像检索、自然语言处理、推荐系统等应用程序。由于深度学习和使用嵌入表示数据的兴起，这个概念被广泛使用。本质上，嵌入是高维数据的矢量表示。

基本思想是将数据项（例如图像、文档、用户配置文件）表示为高维空间中的矢量。然后，使用距离度量（例如余弦相似度或欧几里得距离）来测量矢量之间的相似度，并返回最相似的矢量作为搜索结果。虽然文本嵌入是使用语言特征提取的，但音频嵌入通常是使用频谱图或其他音频信号特征生成的。

为文本和音频数据创建嵌入的过程涉及使用特征提取或嵌入技术将数据转换为矢量，然后在矢量搜索数据库中对这些矢量进行索引。

2.2.3 提取音频特征

下一步涉及分析我们的音频文件并提取有意义的特征。此步骤至关重要，因为它有助于机器学习模型理解和学习我们的音频数据。

在机器学习的音频信号处理背景下，从声谱图中提取特征的过程是至关重要的一步。频谱图是音频信号随时间变化的频率内容的直观表示。在这种情况下确定的特征涵盖三种特定类型：

梅尔频率倒谱系数 (MFCC)：MFCC 是以与人类听觉感知更密切相关的方式捕获音频信号频谱特征的系数。
色度特征：色度特征代表音乐八度的 12 个不同音级，在音乐相关任务中特别有用。
频谱对比度：频谱对比度重点关注音频信号中不同频段的感知亮度。

通过分析和比较这些功能集在现实世界文本文件中的有效性，研究人员和从业人员可以深入了解它们对各种基于音频的机器学习应用（例如音频分类和分析）的适用性。

首先，我们需要将音频文件转换为适合分析的格式。 Python 中的 librosa 等库可以帮助完成此转换，将音频文件转换为频谱图。
接下来，我们将从这些频谱图中提取特征。
然后，我们将保存这些特征并将它们作为机器学习模型的输入发送。

我们使用 panns_inference，这是一个专为音频标记和声音事件检测任务而设计的 Python 库。该库中使用的模型是通过 PANN 进行训练的，PANN 代表大规模预训练音频神经网络，是一种音频模式识别方法。

!pip install -qU panns-inference librosa
from panns_inference import AudioTagging

# load the default model into the gpu.
model = AudioTagging(checkpoint_path=None, device='cuda') # change device to cpu if a gpu is not available

注意：下载 PANNS 推理模型可能需要几分钟的时间。

import numpy as np
import librosa

# Function to normalize a vector. Normalizing a vector means adjusting the values measured in different scales to a common scale.
def normalize(v):
   # np.linalg.norm computes the vector's norm (magnitude). The norm is the total length of all vectors in a space.
   norm = np.linalg.norm(v)
   if norm == 0:
        return v

   # Return the normalized vector.
   return v / norm

# Function to get an embedding of an audio file. An embedding is a reduced-dimensionality representation of the file.
def get_embedding (audio_file):

  # Load the audio file using librosa's load function, which returns an audio time series and its corresponding sample rate.
  a, _ = librosa.load(audio_file, sr=44100)

  # Reshape the audio time series to have an extra dimension, which is required by the model's inference function.
  query_audio = a[None, :]

  # Perform inference on the reshaped audio using the model. This returns an embedding of the audio.
  _, emb = model.inference(query_audio)

  # Normalize the embedding. This scales the embedding to have a length (magnitude) of 1, while maintaining its direction.
  normalized_v = normalize(emb[0])

  # Return the normalized embedding required for dot_product elastic similarity dense vector
  return normalized_v

2.3 将音频数据插入 Elasticsearch

现在我们已经拥有将音频数据插入 Elasticsearch 索引所需的一切。

from datetime import datetime

#Storing Songs in Elasticsearch with Vector Embeddings:
def store_in_elasticsearch(song, embedding, path, index_name, genre, vec_field):
  body = {
      'audio-embedding' : embedding,
      'title': song,
      'timestamp': datetime.now(),
      'path' : path,
      'genre' : genre

  }

  es.index(index=index_name, document=body)
  print ("stored...",song, embedding, path, genre, index_name)

# Initialize a list genre for test
genre_lst = ['jazz', 'opera', 'piano','prompt', 'humming', 'string', 'capella', 'eletronic', 'guitar']

for filename in audio_files:
  audio_file = audio_path + "/" + filename

  emb = get_embedding(audio_file)

  song = filename.lower()

  # Compare if genre list exists inside the song
  genre = next((g for g in genre_lst if g in song), "generic")

  store_in_elasticsearch(song, emb, audio_file, index_name, genre, 2 )

2.4 在 Kibana 中可视化结果

此时，我们可以使用嵌入音频嵌入稠密向量场中的音频数据来检查索引。 Kibana® Dev Tools，特别是控制台功能，是与 Elasticsearch 集群交互的强大界面。它提供了一种直接向 Elasticsearch 发送 RESTful 命令并以用户友好的格式查看结果的方法。

特性需要注意的一点是，我们在这里省去了 audio-embedding 字段。这个是在 mappings 里定义的。它的数据量比较大，这样可以节省空间。

第三步：按音乐搜索

现在，你可以使用生成的嵌入执行向量相似性搜索。当你向系统提供输入歌曲时，它会将歌曲转换为嵌入，在数据库中搜索相似的嵌入，并返回具有相似特征的歌曲。

# Define a function to query audio vector in Elasticsearch
def query_audio_vector(es, emb, field_key, index_name):
    # Initialize the query structure
    # It's a bool filter query that checks if the field exists
    query = {
        "bool": {
            "filter": [{
                "exists": {
                    "field": field_key
                }
            }]
        }
    }

    # KNN search parameters
    # field is the name of the field to perform the search on
    # k is the number of nearest neighbors to find
    # num_candidates is the number of candidates to consider (more means slower but potentially more accurate results)
    # query_vector is the vector to find nearest neighbors for
    # boost is the multiplier for scores (higher means this match is considered more important)
    knn = {
        "field": field_key,
        "k": 2,
        "num_candidates": 100,
        "query_vector": emb,
        "boost": 100
    }

    # The fields to retrieve from the matching documents
    fields = ["title", "path", "genre", "body_content", "url"]

    # The name of the index to search
    index = index_name

    # Perform the search
    # index is the name of the index to search
    # query is the query to use to find matching documents
    # knn is the parameters for KNN search
    # fields is the fields to retrieve from the matching documents
    # size is the maximum number of matches to return
    # source is whether to include the source document in the results
    resp = es.search(index=index,
                     query=query,
                     knn=knn,
                     fields=fields,
                     size=5,
                     source=False)

    # Return the search results
    return resp

让我们从有趣的部分开始吧！

3.1 选择要搜索的音乐

在下面的代码中，我们直接从 dataset 音频目录中选择音乐，并使用音频音乐在 jupyter 中播放结果。

# Import necessary modules for audio display from IPython
from IPython.display import Audio, display

# Provide the URL of the audio file
my_audio = "/Users/liuxg/python/music-search/dataset/bella_ciao_humming.wav"

# Display the audio file in the notebook
Audio(my_audio)

你可以通过单击 “Play” 按钮来播放音乐。

3.2 搜索音乐

现在，让我们运行一段代码来在 Elasticsearch 中搜索音乐 my_audio。我们将仅使用音频文件进行搜索。

audio_file = "/Users/liuxg/python/music-search/dataset/bella_ciao_humming.wav"
# Generate the embedding vector from the provided audio file
# 'get_embedding' is a function that presumably converts the audio file into a numerical vector
emb = get_embedding(audio_file)

# Query the Elasticsearch instance 'es' with the embedding vector 'emb', field key 'audio-embedding',
# and index name 'my-audio-index'
# 'query_audio_vector' is a function that performs a search in Elasticsearch using a vector embedding.
# 'tolist()' method is used to convert numpy array to python list if 'emb' is a numpy array.
resp = query_audio_vector (es, emb.tolist(), "audio-embedding","my-audio-index")
resp['hits']

Elasticsearch 会返回与你的主打歌曲相似的所有音乐：

NUM_MUSIC = 5  # example value

for i in range(NUM_MUSIC):
    path = resp['hits']['hits'][i]['fields']['path'][0]
    print(path)

一些帮助播放结果的代码：

Audio("/Users/liuxg/python/music-search/dataset/bella_ciao_opera-singer.wav")

现在，你可以通过单击 “Play” 按钮来检查结果。

3.3 分析结果

那么，我可以在生产环境中部署此代码并出售我的应用程序吗？不，作为一种概率模型，概率听觉神经网络 (PANN) 和任何其他机器学习模型都需要增加数据量和额外的微调才能有效地应用于现实场景。

与我们的 18 首歌曲样本相关的嵌入可视化图表清楚地表明了这一点，这可能会导致 kNN 方法出现误报。然而，未来的数据工程师仍然面临着一个显着的挑战：通过嗡嗡声识别查询的最佳模型的任务。这代表了机器学习和听觉认知的迷人交叉，需要严格的研究和创新的问题解决。

3.4 使用 UI 改进 POC（可选）

经过一点修改，我将整个代码复制并粘贴到 Streamlit。 Streamlit 是一个 Python 库，可简化为数据科学和机器学习项目创建交互式 Web 应用程序的过程。它允许新手轻松地将数据脚本转换为可共享的 Web 应用程序，而无需丰富的 Web 开发知识。

结果是这个应用程序：

Elasticsearch 矢量搜索搜索音频文件_哔哩哔哩_bilibili

音频搜索未来的窗口

我们已经在 Python 中使用 Elasticsearch 向量成功实现了音乐搜索系统。这是音频搜索领域的一个起点，并且可能通过利用这种架构方法激发更多创新概念。通过改变模型，可以开发不同的应用程序。此外，将推理移植到 Elasticsearch 可能会提高性能。访问 Elastic 的机器学习页面以了解更多信息。

这表明该技术对于文本以外的各种搜索应用具有巨大的潜力和适应性。

所有代码都可以在 GitHub 上的单个文件 elastic-music_search.ipynb 中找到。

原文：Searching by music: Leveraging vector search for audio information retrieval | Elastic Blog

【ElasticSearch】踩坑对terms的buckets进行bucket_sort排序 Musecho java elasticsearch 数据分析数据结构 es
【ElasticSearch】踩坑对terms的buckets进行bucket_sort排序1.需求和实现选出可用性最高的前15个数据展示：先按照key_id.keyword进行url分组，然后子聚合算出可用性，再用bucket_sort对avail_perc排序，size取15。然后我觉得反正只要15个，terms的size也取了15。以下是实现的es语句GET/aaa/_search{"que
自动驾驶技术的未来趋势与挑战分析智能计算研究中心其他
内容概要自动驾驶技术自诞生以来经历了多个发展阶段。最初的研究集中在感知和控制系统的基础构建，随后进入了数据处理和算法的优化阶段，如今，随着人工智能和机器学习技术的快速应用，自动驾驶行业正处于一个前所未有的迅猛发展期。当前，行业内涌现出多种解决方案，各大汽车制造商与科技公司纷纷加大投入，推动这一领域的技术进步。市场需求不断增加，为自动驾驶技术注入活力。城市交通拥堵、环境污染等问题促使人们寻求更加智能
【Elasticsearch】分析器的构成 risc123456 Elasticsearch elasticsearch
在Elasticsearch中，分析器（Analyzer）是一个处理文本数据的管道，它将输入的文本转换为一系列词元（tokens），并可以对这些词元进行进一步的处理和规范化。分析器由以下三个主要组件构成：1.字符过滤器（CharacterFilters）字符过滤器是分析器管道中的第一步，用于对输入文本进行预处理。它们可以添加、删除或修改文本中的字符。字符过滤器是可选的，一个分析器可以有零个或多个字
【Elasticsearch】词干提取（Stemming） risc123456 Elasticsearch elasticsearch
词干提取是将一个词还原为其词根形式的过程。这确保了在搜索过程中，一个词的不同变体能够匹配到彼此。例如，`walking`（行走）和`walked`（走过）可以被还原到同一个词根`walk`（走）。一旦被还原，这两个词中的任何一个在搜索时都能匹配到对方。词干提取是依赖语言的，但通常涉及从单词中移除前缀和后缀。在某些情况下，一个词被还原后的词根形式可能并不是一个真实存在的词。例如，`jumping`（
【Elasticsearch】Token Graphs risc123456 Elasticsearch elasticsearch
Elasticsearch的TokenGraphs是一种用于处理文本分析的高级功能，主要用于处理多词同义词、短语匹配等复杂场景。以下是关于TokenGraphs的详细解释：1.什么是TokenGraphsTokenGraphs是一种有向无环图（DAG），用于表示文本流中的标记（tokens）及其位置关系。在TokenGraph中：•每个位置（position）表示一个节点（node）。•每个标记（
基于联邦学习的政务大数据平台应用研究宋罗世家技术屋计算机软件及理论发展专栏政务大数据
摘要当前数字政府建设已进入深水区，政务大数据平台作为数据底座支撑各类政务信息化应用，其隐私数据的安全性和合规性一直被业界广泛关注。联邦学习是一类解决数据孤岛的重要方法，基于联邦学习的政务一体化大数据平台应用具有较高的研究价值。首先，介绍政务大数据平台及联邦学习应用现状；然后，分析政务大数据平台面临的隐私数据的采集、分类分级、共享三大管理挑战；接着，阐述基于联邦学习的推荐算法和隐私集合求交技术的解决
es凌晨自己把索引删除了，包括es自己的索引小码农吗日常栏目 elasticsearch 大数据搜索引擎
如果Elasticsearch（ES）在凌晨自动删除了包括自身索引在内的大量索引，这是一个比较严重的问题，下面从多个方面分析可能的原因，并给出排查步骤与相应命令。可能的原因1.索引生命周期管理（ILM）策略ILM允许根据索引的年龄、大小等条件自动管理索引的生命周期，若策略配置不当，可能导致凌晨触发删除操作。2.磁盘压力触发清理当磁盘空间达到一定阈值，ES可能会自动删除一些索引以释放空间。3.自动快
DeepSeek预言未来5年升值最快的东西 ZhuBin365 其它人工智能机器人
Thinking好的，我现在需要思考未来5年哪些东西可能会升值最快。首先，我得考虑当前的经济趋势和技术发展的方向。通货膨胀可能继续，所以实物资产可能保值。然后是科技领域，比如人工智能、量子计算这些前沿技术相关的资产可能会有增长。接着，环保和可持续发展是热门话题，可再生能源相关的产业可能会增值。例如，太阳能、风能的公司股票或者相关技术专利。另外，电动汽车和电池技术也可能持续发展，锂、钴等稀有金属的需
LLM大模型产品经理学习指南【2025全新版】：极致详细，一篇搞定！大模型入门学习产品经理语言模型人工智能 DeepSeek 大模型学习 LLM
前言·随着人工智能技术的蓬勃发展，尤其是大模型（LargeModel）的强势兴起，越来越多的企业对这一领域愈发重视并加大投入。作为大模型产品经理，需具备一系列跨学科的知识与技能，方能有效地推动产品的开发、优化以及市场化进程。以下是一份详尽的大模型产品经理学习路线，旨在助力你构建所需的知识体系，实现从零基础到精通的蜕变。一、基础知识阶段（一）计算机科学基础数据结构与算法：深入理解基本的数据结构（如数
销售易、极兔、珍客CRM：产品功能特色与企业适用性分析程序员机器学习人工智能
销售易CRM产品功能移动化与社交化：销售易CRM支持iOS、Android等主流操作系统，销售人员可以随时随地访问客户信息、更新销售进度、创建任务等。同时，它还具备社交化功能，能够整合企业内部的社交网络，促进员工之间的协作与沟通。AI与大数据驱动：销售易CRM融合了人工智能和大数据技术，通过智能数据分析，帮助企业洞察客户行为和需求，预测销售趋势。例如，AI可以对客户数据进行深度挖掘，识别出高价值客
【Elasticsearch】bucket_sort risc123456 Elasticsearch elasticsearch
Elasticsearch的`bucket_sort`聚合是一种管道聚合，用于对父多桶聚合（如`terms`、`date_histogram`、`histogram`等）的桶进行排序。以下是关于`bucket_sort`的详细说明：1.基本功能`bucket_sort`聚合可以对父聚合返回的桶进行排序，支持以下排序依据：•`_key`：基于桶的键值（例如时间戳或词项）。•`_count`：基于桶中
前瞻技术：塑造未来生活的新趋势火龙果wa 生活人工智能经验分享
人工智能在艺术创作中的应用越来越普遍。AI可以生成画作、音乐和文学作品。它通过分析大量数据，学习艺术风格，并能创造出独特的作品。AI创作的艺术作品有几个特点。首先，它可以快速完成创作，节省时间。第二，AI能够融合多种风格。这使得作品更加多样化，有了新的表现形式。此外，AI常常会产生一些意想不到的创意，这能激发人们的灵感。艺术家与AI的合作也在逐渐发展。很多艺术家开始尝试与AI共同创作。他们使用AI
4.Python教程--项目部署篇（全）花开如雨笔记
Python人工智能总目录人工智能总目录网页链接文章目录Python人工智能总目录13、Python运维Day0113.1运维1.运维概述2.运维工具3.Linux常用命令4.周期性计划任务5.awk的使用14、Python项目部署Day0114.1项目部署1.概念2.项目部署(nginx+uwsgi+django)3.部署在线商城项目13、Python运维Day0113.1运维1.运维概述1、运
政务数据标识技术研究进展及下一代政务数据标识体系宋罗世家技术屋计算机软件及理论发展专栏政务
摘要政务数据标识是建设全国一体化政务大数据体系的一项基础性工作。对数据标识技术的研究进展进行了总结，比较了不同数据标识技术编码规则的异同，并进一步总结了政务数据标识及应用进展。结合政务数据所具有的权责明确、安全性要求高、兼容性需求强等特点，提出了下一代政务数据标识体系Gcode。Gcode由外部码、内部码和安全码3个部分组成。其中，外部码兼容了统一社会信息用代码，内部码建立了“机构部门-系统-数据
【ElasticSearch】Es 启动流程初始化流程源码分析九师兄源码 es 启动流程
文章目录1.概述1.1核心类2.主要流程2.1主方法2.1.1关闭过程分析2.2execute方法2.3Bootstrap.init2.4INSTANCE.setup方法2.5创建节点2.5.1创建PluginsService2.5.2创建ThreadPool及ThreadContext实例2.5.3初始化ResourceWatcherService2.5.4创建NodeClient2.5.5创建
DeepSeek深度探索：从新手到高手的蜕变之旅古龙飞扬 ai 人工智能
引言在当今数字化与智能化的浪潮中，人工智能（AI）技术正以前所未有的速度改变着我们的生活和工作方式。DeepSeek，作为一款由杭州深度求索人工智能基础技术研究有限公司开发的人工智能模型，凭借其强大的功能和灵活的应用场景，成为了众多企业和专业人士的得力助手。本文将带你深入了解DeepSeek，从新手入门到高手进阶，掌握其核心功能与使用技巧，实现个人能力的蜕变。一、初识DeepSeek：人工智能的“
浅谈Java中Excel导入导出的技术详解 foolhuman java excel
引言在Java开发中，Excel文件的导入导出是一个常见的需求。无论是数据批量处理、报表生成还是数据迁移，Excel都是一个不可或缺的工具。然而，Excel导入导出过程中涉及到的技术细节和潜在问题常常让开发者感到头疼。本文将从技术难点出发，结合代码示例，详细介绍如何在Java中高效地实现Excel的导入导出功能。技术难点分析在Excel导入导出过程中，以下几个技术难点需要特别关注：大数据量处理当处
shell脚本安装Elasticsearch集群样例哈皮麦兜儿 Shell
自定义参数CLUSTER_NAME=#集群名称ES_NAME=#ES服务名称ES_PATH=#ES安装路径ES_PORT=#设置ES端口MEM_SIZE=#设置内存大小PKG_NAME=#安装包名称TCP_PORT=#设置TCP连接端口TEMP_PATH=#临时目录USER_NAME=#启动账号部署参数检查#!/bin/bash#检查参数是否设置echo"=====检查参数是否设置====="if
AI前端开发的国际化发展机遇：ScriptEcho助力全球化布局 2401_89747417 人工智能前端
在全球化的今天，互联网应用已不再局限于单一市场。高效便捷的前端开发方案成为企业拓展国际市场的关键。得益于人工智能技术的飞速发展，AI代码生成器正在深刻改变前端开发模式，为国际化应用开发带来前所未有的机遇。然而，国际化开发也面临着诸多挑战，例如不同地区用户习惯、技术标准、语言差异等等。本文将探讨AI前端开发在国际化市场中的机遇与挑战，并以ScriptEcho为例，分析AI工具如何助力企业实现高效的全
中国人工智能的起步/发展，与这位数学家密切相关东锋1.3 人工智能人工智能
1979年在中国是一个重要的年份。这一年发生了诸多大事，也被视为中国在政治、经济、科技、文化等多个领域的一个重要转折点和中国近现代历史重要的时期断代点之一。相比1979年所开启的波澜壮阔的新时代，中国人工智能(ArtificialIntelligence，AI)研究在1979年的起步只能算历史大潮中的一朵不起眼的浪花，但在中国人工智能的历史里，这是开天辟地的大事件。人工智能最早的学派是符号主义学派
大数据SQL调优专题——引入黄雪超技术基础大数据
从巴别塔开始我们先从一个神话故事开始本专栏的内容：在人类的早期，世界上的所有人说着同一种语言，彼此之间沟通毫无障碍。这种统一的语言让人们心生野心，他们决定联合起来建造一座高耸入云的塔，这座塔就是巴别塔。人们希望通过这座塔能够直达天堂，以此展示他们的力量和智慧。然而，他们的行为引起了上帝的关注。上帝看到人类如此团结，担心他们一旦成功建造巴别塔，将会变得无比强大，甚至可能威胁到神的权威。于是，上帝决定
今日AI和商界事件(2025-02-07) LS_learner AI和商界事件人工智能
今日AI领域的相关事件包括但不限于以下几个方面：一、政策与监管美国众议员推动禁止政府设备使用中国AI应用DeepSeek：美国众议院两名来自两党的议员提议立法，禁止联邦政府设备使用中国人工智能应用DeepSeek，理由是中国政府可能利用该应用进行监视和散布虚假信息。这一事件反映了地缘政治紧张背景下，各国在关键技术领域对自主性和安全性的重视。二、行业动态与发展OpenAI推进“星际之门”项目：Ope
精通LangChain：如何使用Unstructured处理多种格式的图像文档 hshahtjtbh langchain python
#引言随着人工智能和深度学习的快速发展，文档图像分析(DocumentImageAnalysis,DIA)在许多领域中变得至关重要。然而，处理多种图像格式的文档仍然是一个挑战。本文将介绍如何使用Unstructured库，通过LangChain框架加载和处理多种格式的图像文档，帮助您在DIA任务中实现更高效的工作流程。#主要内容##安装Unstructured在开始之前，确保安装了Unstruct
《深入了解Unstructured包：在LangChain中使用Unstructured.IO提取干净文本》 cgsayuclv langchain python
引言在现代数据处理和人工智能应用中，解析和清洗文本数据是一个重要的环节。无论是PDF文件、Word文档还是CSV文件，能够高效地提取有用信息对下游任务至关重要。这篇文章将介绍如何使用Unstructured.IO的Unstructured包来从原始文档中提取干净文本，并在LangChain框架中使用它。本文将包含安装与设置指南、详细教程、代码示例、常见问题及解决方案，并提供进一步学习的资源。主要内
DeepSeek-V2模型版本更新：探索高效经济的多专家混合架构姜葵烽
DeepSeek-V2模型版本更新：探索高效经济的多专家混合架构DeepSeek-V2项目地址:https://gitcode.com/hf_mirrors/ai-gitcode/DeepSeek-V2在人工智能模型的发展进程中，每一次版本更新都是对前一次成果的深化与完善。今天，我们将详细介绍DeepSeek-V2模型的新版本特性，以及它如何通过创新的架构设计，实现了在性能和成本之间的最佳平衡。新
【人工智能】Python中的深度学习优化器：从SGD到Adam 蒙娜丽宁 Python杂谈人工智能人工智能 python 深度学习
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在深度学习模型的训练过程中，优化器起着至关重要的作用，它决定了模型的收敛速度以及最终的性能。本文将介绍深度学习中常用的优化器，从传统的随机梯度下降（SGD）到现代的自适应优化器（如Adam）。我们将深入探讨每种优化器的原理、优缺点，并通过Python实现
【人工智能】基于Python和OpenCV实现实时人脸识别系统：从基础到应用蒙娜丽宁 Python杂谈人工智能 python 开发语言
随着人工智能和计算机视觉的快速发展，人脸识别技术已广泛应用于监控、安全、社交媒体、金融和医疗等领域。本文将介绍如何利用Python和OpenCV库，结合dlib进行实时人脸识别的实现。通过构建一个基础的实时人脸识别系统，读者将深入了解人脸检测与识别的核心原理，掌握如何使用现有的计算机视觉工具快速开发一个有效的实时系统。本文将详细介绍如何通过OpenCV和dlib来实现人脸检测与识别，如何实时获取摄
Hive数据库及表操作亦576 hive 数据库 hadoop
数仓原理以及Hive入门：数仓原理：数仓（DataWarehouse）是用于支持企业决策的数据存储和分析系统。数仓原理包括以下几个方面：1.数据抽取（Extraction）：从各个业务系统中抽取数据，并进行清洗和转换，以适应数仓的数据模型。2.数据存储（Storage）：将清洗和转换后的数据存储到数仓中，通常使用关系型数据库或大数据存储技术来存储大量的数据。3.数据整合（Integration）：
机器学习面试笔试知识点-线性回归、逻辑回归(Logistics Regression)和支持向量机(SVM) qq742234984 机器学习线性回归逻辑回归
机器学习面试笔试知识点-线性回归、逻辑回归LogisticsRegression和支持向量机SVM微信公众号：数学建模与人工智能一、线性回归1.线性回归的假设函数2.线性回归的损失函数（LossFunction）两者区别3.简述岭回归与Lasso回归以及使用场景4.什么场景下用L1、L2正则化5.什么是ElasticNet回归6.ElasticNet回归的使用场景7.线性回归要求因变量服从正态分布
【AI】人工智能没那么神秘！仇辉攻防人工智能 ai 语言模型自然语言处理机器学习深度学习网络安全
AI是什么？人工智能（ArtificialIntelligence），英文缩写为AI。AI人工智能不是简单的应用程序，而是一类技术，包含机器学习、自然语言处理、计算机视觉等多个领域。AI系统通常由算法、数据、模型和代码组成，其中代码用于实现算法，数据用于训练模型，最终形成智能决策能力。AI可以嵌入到应用程序中，但其本身是一个复杂的技术体系。AI为什么这么聪明？AI之所以看起来很聪明，主要是因为它通
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S