Elastic 中国社区官方博客

使用 Elasticsearch 检测抄袭（二）

我在在之前的文章 “使用 Elasticsearch 检测抄袭（一）” 介绍了如何检文章抄袭。这个在许多的实际使用中非常有意义。我在 CSDN 上的文章也经常被人引用或者抄袭。有的人甚至也不用指明出处。这对文章的作者来说是很不公平的。文章介绍的内容针对很多的博客网站也非常有意义。在那篇文章中，我觉得针对一些开发者来说，不一定能运行的很好。在今天的这篇文章中，我特意使用本地部署，并使用 jupyter notebook 来进行一个展示。这样开发者能一步一步地完整地运行起来。

安装

安装 Elasticsearch 及 Kibana

如果你还没有安装好自己的 Elasticsearch 及 Kibana，那么请参考一下的文章来进行安装：

如何在 Linux，MacOS 及 Windows 上进行安装 Elasticsearch
Kibana：如何在 Linux，MacOS 及 Windows 上安装 Elastic 栈中的 Kibana

在安装的时候，请选择 Elastic Stack 8.x 进行安装。在安装的时候，我们可以看到如下的安装信息：

为了能够上传向量模型，我们必须订阅白金版或试用。

上传模型

注意：如果我们在这里通过命令行来进行上传模型的话，那么你就不需要在下面的代码中来实现上传。可以省去那些个步骤。

我们可以参考之前的文章 “Elasticsearch：使用 NLP 问答模型与你喜欢的圣诞歌曲交谈”。我们使用如下的命令来上传 OpenAI detection 模型：

eland_import_hub_model --url https://elastic:o6G_pvRL=8P*7on+o6XH@localhost:9200 \
	--hub-model-id roberta-base-openai-detector \
	--task-type text_classification \
	--ca-cert /Users/liuxg/elastic/elasticsearch-8.11.0/config/certs/http_ca.crt \
	--start

在上面，我们需要根据自己的配置修改上面的证书路径，Elasticsearch 的访问地址。

我们可以在 Kibana 中查看最新上传的模型：

接下来，按照同样的方法，我们安装文本嵌入模型。

eland_import_hub_model --url https://elastic:o6G_pvRL=8P*7on+o6XH@localhost:9200 \
	--hub-model-id sentence-transformers/all-mpnet-base-v2 \
	--task-type text_embedding \
	--ca-cert /Users/liuxg/elastic/elasticsearch-8.11.0/config/certs/http_ca.crt \
	--start

为了方便大家学习，我们可以在如下的地址下载代码：

git clone https://github.com/liu-xiao-guo/elasticsearch-labs

我们可以在如下的位置找到 jupyter notebook：

$ pwd
/Users/liuxg/python/elasticsearch-labs/supporting-blog-content/plagiarism-detection-with-elasticsearch
$ ls
plagiarism_detection_es_self_managed.ipynb

运行代码

接下来，我们开始运行 notebook。我们首先安装相应的 python 包：

pip3 install elasticsearch==8.11
pip3 -q install eland elasticsearch sentence_transformers transformers torch==2.1.0

在运行代码之前，我们先设置如下的变量：

export ES_USER="elastic"
export ES_PASSWORD="o6G_pvRL=8P*7on+o6XH"
export ES_ENDPOINT="localhost"

我们还需要把 Elasticsearch 的证书拷贝到当前的目录中：

$ pwd
/Users/liuxg/python/elasticsearch-labs/supporting-blog-content/plagiarism-detection-with-elasticsearch
$ cp ~/elastic/elasticsearch-8.11.0/config/certs/http_ca.crt .
$ ls
http_ca.crt                                plagiarism_detection_es_self_managed.ipynb
plagiarism_detection_es.ipynb

导入包：

from elasticsearch import Elasticsearch, helpers
from elasticsearch.client import MlClient
from eland.ml.pytorch import PyTorchModel
from eland.ml.pytorch.transformers import TransformerModel
from urllib.request import urlopen
import json
from pathlib import Path
import os

连接到 Elasticsearch

elastic_user=os.getenv('ES_USER')
elastic_password=os.getenv('ES_PASSWORD')
elastic_endpoint=os.getenv("ES_ENDPOINT")

url = f"https://{elastic_user}:{elastic_password}@{elastic_endpoint}:9200"
client = Elasticsearch(url, ca_certs = "./http_ca.crt", verify_certs = True)
 
print(client.info())

上传 detector 模型

hf_model_id ='roberta-base-openai-detector'
tm = TransformerModel(model_id=hf_model_id, task_type="text_classification")

#set the modelID as it is named in Elasticsearch
es_model_id = tm.elasticsearch_model_id()

# Download the model from Hugging Face
tmp_path = "models"
Path(tmp_path).mkdir(parents=True, exist_ok=True)
model_path, config, vocab_path = tm.save(tmp_path)

# Load the model into Elasticsearch
ptm = PyTorchModel(client, es_model_id)
ptm.import_model(model_path=model_path, config_path=None, vocab_path=vocab_path, config=config)

#Start the model
s = MlClient.start_trained_model_deployment(client, model_id=es_model_id)
s.body

我们可以在 Kibana 中进行查看：

上传 text embedding 模型

hf_model_id='sentence-transformers/all-mpnet-base-v2'
tm = TransformerModel(model_id=hf_model_id, task_type="text_embedding")

#set the modelID as it is named in Elasticsearch
es_model_id = tm.elasticsearch_model_id()

# Download the model from Hugging Face
tmp_path = "models"
Path(tmp_path).mkdir(parents=True, exist_ok=True)
model_path, config, vocab_path = tm.save(tmp_path)

# Load the model into Elasticsearch
ptm = PyTorchModel(client, es_model_id)
ptm.import_model(model_path=model_path, config_path=None, vocab_path=vocab_path, config=config)

# Start the model
s = MlClient.start_trained_model_deployment(client, model_id=es_model_id)
s.body

我们可以在 Kibana 中查看：

创建源索引

client.indices.create(
index="plagiarism-docs",
mappings= {
    "properties": {
        "title": {
            "type": "text",
            "fields": {
                "keyword": {
                "type": "keyword"
                }
            }
        },
        "abstract": {
            "type": "text",
            "fields": {
                "keyword": {
                "type": "keyword"
                }
            }
        },
        "url": {
            "type": "keyword"
        },
        "venue": {
            "type": "keyword"
        },
         "year": {
            "type": "keyword"
        }
    }
})

我们可以在 Kibana 中进行查看：

创建 checker ingest pipeline

client.ingest.put_pipeline(
    id="plagiarism-checker-pipeline",
    processors = [
    {
      "inference": { #for ml models - to infer against the data that is being ingested in the pipeline
        "model_id": "roberta-base-openai-detector", #text classification model id
        "target_field": "openai-detector", # Target field for the inference results
        "field_map": { #Maps the document field names to the known field names of the model.
        "abstract": "text_field" # Field matching our configured trained model input. Typically for NLP models, the field name is text_field.
        }
      }
    },
    {
      "inference": {
        "model_id": "sentence-transformers__all-mpnet-base-v2", #text embedding model model id
        "target_field": "abstract_vector", # Target field for the inference results
        "field_map": { #Maps the document field names to the known field names of the model.
        "abstract": "text_field" # Field matching our configured trained model input. Typically for NLP models, the field name is text_field.
        }
      }
    }

  ]
)

我们可以在 Kibana 中进行查看：

创建 plagiarism checker 索引

client.indices.create(
index="plagiarism-checker",
mappings={
"properties": {
    "title": {
        "type": "text",
        "fields": {
            "keyword": {
                "type": "keyword"
            }
        }
    },
    "abstract": {
        "type": "text",
        "fields": {
            "keyword": {
                "type": "keyword"
            }
        }
    },
    "url": {
        "type": "keyword"
    },
    "venue": {
        "type": "keyword"
    },
    "year": {
        "type": "keyword"
    },
    "abstract_vector.predicted_value": { # Inference results field, target_field.predicted_value
    "type": "dense_vector",
    "dims": 768, # embedding_size
    "index": "true",
    "similarity": "dot_product" #  When indexing vectors for approximate kNN search, you need to specify the similarity function for comparing the vectors.
         }
  }
}
)

我们可以在 Kibana 中进行查看：

写入源文档

我们首先把地址 https://public.ukp.informatik.tu-darmstadt.de/reimers/sentence-transformers/datasets/emnlp2016-2018.json 里的文档下载到当前目录下：

$ pwd
/Users/liuxg/python/elasticsearch-labs/supporting-blog-content/plagiarism-detection-with-elasticsearch
$ ls
emnlp2016-2018.json                        plagiarism_detection_es.ipynb
http_ca.crt                                plagiarism_detection_es_self_managed.ipynb
models

如上所示，emnlp2016-2018.json 就是我们下载的文档。

# Load data into a JSON object
with open('emnlp2016-2018.json') as f:
   data_json = json.load(f)
 
print(f"Successfully loaded {len(data_json)} documents")

def create_index_body(doc):
    """ Generate the body for an Elasticsearch document. """
    return {
        "_index": "plagiarism-docs",
        "_source": doc,
    }

# Prepare the documents to be indexed
documents = [create_index_body(doc) for doc in data_json]

# Use helpers.bulk to index
helpers.bulk(client, documents)

print("Done indexing documents into `plagiarism-docs` source index")

我们可以在 Kibana 中进行查看：

使用 ingest pipeline 进行 reindex

client.reindex(wait_for_completion=False,
               source={
                  "index": "plagiarism-docs"
    },
               dest= {
                  "index": "plagiarism-checker",
                  "pipeline": "plagiarism-checker-pipeline"
    }
)

在上面，我们设置 wait_for_completion=False。这是一个异步的操作。我们需要等一段时间让上面的 reindex 完成。我们可以通过检查如下的文档数：

上面表明我们的文档已经完成。我们再接着查看一下 plagiarism-checker 索引中的文档：

检查重复文字

direct plagarism

model_text = 'Understanding and reasoning about cooking recipes is a fruitful research direction towards enabling machines to interpret procedural text. In this work, we introduce RecipeQA, a dataset for multimodal comprehension of cooking recipes. It comprises of approximately 20K instructional recipes with multiple modalities such as titles, descriptions and aligned set of images. With over 36K automatically generated question-answer pairs, we design a set of comprehension and reasoning tasks that require joint understanding of images and text, capturing the temporal flow of events and making sense of procedural knowledge. Our preliminary results indicate that RecipeQA will serve as a challenging test bed and an ideal benchmark for evaluating machine comprehension systems. The data and leaderboard are available at http://hucvl.github.io/recipeqa.'

response = client.search(index='plagiarism-checker', size=1,
    knn={
        "field": "abstract_vector.predicted_value",
        "k": 9,
        "num_candidates": 974,
        "query_vector_builder": {
            "text_embedding": {
                "model_id": "sentence-transformers__all-mpnet-base-v2",
                "model_text": model_text
            }
        }
    }
)

for hit in response['hits']['hits']:
    score = hit['_score']
    title = hit['_source']['title']
    abstract = hit['_source']['abstract']
    openai = hit['_source']['openai-detector']['predicted_value']
    url = hit['_source']['url']

    if score > 0.9:
        print(f"\nHigh similarity detected! This might be plagiarism.")
        print(f"\nMost similar document: '{title}'\n\nAbstract: {abstract}\n\nurl: {url}\n\nScore:{score}\n")

        if openai == 'Fake':
            print("This document may have been created by AI.\n")

    elif score < 0.7:
        print(f"\nLow similarity detected. This might not be plagiarism.")

        if openai == 'Fake':
            print("This document may have been created by AI.\n")

    else:
        print(f"\nModerate similarity detected.")
        print(f"\nMost similar document: '{title}'\n\nAbstract: {abstract}\n\nurl: {url}\n\nScore:{score}\n")

        if openai == 'Fake':
            print("This document may have been created by AI.\n")

ml_client = MlClient(client)

model_id = 'roberta-base-openai-detector' #open ai text classification model

document = [
    {
        "text_field": model_text
    }
]

ml_response = ml_client.infer_trained_model(model_id=model_id, docs=document)

predicted_value = ml_response['inference_results'][0]['predicted_value']

if predicted_value == 'Fake':
    print("Note: The text query you entered may have been generated by AI.\n")

similar text - paraphrase plagiarism

model_text = 'Comprehending and deducing information from culinary instructions represents a promising avenue for research aimed at empowering artificial intelligence to decipher step-by-step text. In this study, we present CuisineInquiry, a database for the multifaceted understanding of cooking guidelines. It encompasses a substantial number of informative recipes featuring various elements such as headings, explanations, and a matched assortment of visuals. Utilizing an extensive set of automatically crafted question-answer pairings, we formulate a series of tasks focusing on understanding and logic that necessitate a combined interpretation of visuals and written content. This involves capturing the sequential progression of events and extracting meaning from procedural expertise. Our initial findings suggest that CuisineInquiry is poised to function as a demanding experimental platform.'

response = client.search(index='plagiarism-checker', size=1,
    knn={
        "field": "abstract_vector.predicted_value",
        "k": 9,
        "num_candidates": 974,
        "query_vector_builder": {
            "text_embedding": {
                "model_id": "sentence-transformers__all-mpnet-base-v2",
                "model_text": model_text
            }
        }
    }
)

for hit in response['hits']['hits']:
    score = hit['_score']
    title = hit['_source']['title']
    abstract = hit['_source']['abstract']
    openai = hit['_source']['openai-detector']['predicted_value']
    url = hit['_source']['url']

    if score > 0.9:
        print(f"\nHigh similarity detected! This might be plagiarism.")
        print(f"\nMost similar document: '{title}'\n\nAbstract: {abstract}\n\nurl: {url}\n\nScore:{score}\n")

        if openai == 'Fake':
            print("This document may have been created by AI.\n")

    elif score < 0.7:
        print(f"\nLow similarity detected. This might not be plagiarism.")

        if openai == 'Fake':
            print("This document may have been created by AI.\n")

    else:
        print(f"\nModerate similarity detected.")
        print(f"\nMost similar document: '{title}'\n\nAbstract: {abstract}\n\nurl: {url}\n\nScore:{score}\n")

        if openai == 'Fake':
            print("This document may have been created by AI.\n")

ml_client = MlClient(client)

model_id = 'roberta-base-openai-detector' #open ai text classification model

document = [
    {
        "text_field": model_text
    }
]

ml_response = ml_client.infer_trained_model(model_id=model_id, docs=document)

predicted_value = ml_response['inference_results'][0]['predicted_value']

if predicted_value == 'Fake':
    print("Note: The text query you entered may have been generated by AI.\n")

完整的代码可以在地址下载：https://github.com/liu-xiao-guo/elasticsearch-labs/blob/main/supporting-blog-content/plagiarism-detection-with-elasticsearch/plagiarism_detection_es_self_managed.ipynb

python里class转换_python实现class对象转换成json/字典的方法八决子 python里class转换
python实现class对象转换成json/字典的方法发布于2016-03-2808:05:44|153次阅读|评论:0|来源:网友投递Python编程语言Python是一种面向对象、解释型计算机程序设计语言，由GuidovanRossum于1989年底发明，第一个公开发行版发行于1991年。Python语法简洁而清晰，具有丰富和强大的类库。它常被昵称为胶水语言，它能够把用其他语言制作的各种模块
粘的ScalersTalk第七轮新概念朗读持续力训练Day 76 211229 粘_NIAN
练习材料：Lesson76AprilFoolsDay'Toendourspecialnewsbulletin,'saidthevoiceofthetelevisionannouncer,'wearegoingovertothemacaronifieldsofCalabria.Macaronihasbeengrowninthisareaforoversixhundredyears.Twoofthel
数据集标准化:软件2.0的基石工程 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
数据集标准化,软件工程,数据质量,机器学习,人工智能,数据治理,数据可信度1.背景介绍在当今数据爆炸的时代，数据已成为企业和组织的核心资产。然而，海量的原始数据往往杂乱无章，格式不统一，质量参差不齐，这严重阻碍了数据价值的挖掘和应用。数据标准化作为解决这一问题的关键技术，已成为软件2.0时代不可或缺的基石工程。软件2.0时代，人工智能、机器学习等技术蓬勃发展，对数据质量提出了更高的要求。传统的软件
李开复：AI 2.0 时代的意义 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，伦理问题，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从最初的局限于特定领域的应用，逐渐发展到能够处理更复杂的任务，甚至展现出一些类似人类智能的能力。2010年以来，深度学习技术的兴起，特别是Transformer模型的出现，为AI发展带来了新的突破。这些模型能够处理海量数据，学习复杂的模式，并在自然语言处理
解密 Python 的 MRO：C3 线性化如何优雅解决多重继承的菱形难题》
《解密Python的MRO：C3线性化如何优雅解决多重继承的菱形难题》引言：继承的优雅与复杂在Python的面向对象编程中，继承是一种强大的机制，它让我们能够复用代码、构建抽象层次、实现多态行为。然而，当我们引入多重继承时，继承体系的复杂性也随之而来，尤其是著名的“菱形继承问题”。Python通过一种称为C3线性化（C3Linearization）的算法来解决方法解析顺序（MethodResolu
《深入理解 Python 的对象构造机制：__new__ 与 __init__ 的本质区别与实战应用》清水白石008 开发语言学习笔记课程教程 python 开发语言
《深入理解Python的对象构造机制：new与init的本质区别与实战应用》引言：对象的诞生之谜在Python的面向对象编程中，我们习惯于使用__init__方法来初始化对象。但你是否曾注意到，还有一个鲜为人知却至关重要的魔法方法——__new__？它是对象构造过程的起点，掌控着类实例的真正创建。理解__new__与__init__的区别，不仅能帮助你掌握Python的对象模型，还能在构建不可变类
ASP.NET Core MVC Redis 缓存应用郑小晨 .NET Redis ASP.NET Core 缓存
环境：ASP.NETCoreMVC，Redis-Win-x64-3.2.100本文介绍在ASP.NETCoreMVC中怎么用Redis缓存数据。1、启动Redis服务器，就是让我们的Redis跑起来，具体参照https://blog.csdn.net/u012835032/article/details/115438693。2、要在ASP.NETCoreMVC中用Redis需要做什么？参考http
Zookeeper 在 Kafka 中的作用详解：分布式协调服务的核心价值 lxb_不卑不亢消息队列 MQ 进阶实战分布式 zookeeper kafka rocketmq
摘要ApacheKafka是一个高吞吐、分布式的流处理平台，广泛应用于大数据和实时系统中。而ApacheZookeeper，则是Kafka背后不可或缺的“隐形英雄”。本文将深入剖析Zookeeper在Kafka架构中的核心作用，帮助开发者全面理解其在分布式协调、元数据管理、故障恢复等方面的关键地位。一、Zookeeper简介Zookeeper是一个开源的分布式协调服务，最初由Hadoop生态发展而
当直播间告别“真人时代”：AI数字人重构商业新秩序数字人直播源码部署人工智能
在直播行业竞争日益激烈的今天，不少商家和企业都陷入了真人主播带来的重重困境。高昂的人力成本、难以协调的直播时间、主播状态不稳定导致的直播效果参差不齐……这些问题如同沉重的枷锁，阻碍着直播业务的发展。而如今，AI数字人直播横空出世，正以全新的姿态，为行业带来前所未有的变革，引领直播走向新方向。01真人主播的困境：成本高、风险大、管理难聘请一位优质的真人主播，需要支付高额的薪资、分成，还要投入大量资源
HoRain云--Docker容器迁移全攻略：4种方法详解与实战避坑指南 HoRain云小助手 arm开发
HoRain云小助手：个人主页个人专栏:《Linux系列教程》《c语言教程》⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。专栏介绍专栏名称专栏介绍《C语言》本专栏主要撰写C干货内容和编程技巧，让大家从底层了解C，把更多的知识由抽象到简单通俗易懂。《网络协议》本专栏主要是注重从底层来给大家一步步剖析网
2023-08-19 余則徐
2023.8.19.达视津气象2023.8.19.达视津气象阴晴不定朋友们早上好！今天是2023.8.19.星期六，农历七月初四的6:41；这个时间的干支历法是癸卯年庚申月己酉日丁卯时。气象预报不准，是常态；以前不准，现在有了超级计算机进行大数据运算了，还是不准：超级计算机运算，不如老农民抬头看天。而老农民却说，我不但要抬头看天，还要低头看河滩哪里有王八蛋。原来王八是可以预测每年有没有水患的！如果
Day9: OpenCV学习（一）—— 图像基础
系列文章目录上一篇：Day8：Python工程化——模块、包文章目录系列文章目录前言一、安装和导入1.安装二、图像认识1.图像2.图像分类三、基础图像操作1.图像读取2.图像显示3.图像裁剪4.图形尺寸修改5.图像保存6.图像绘制7.视频捕获即显示总结前言OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成
python基础语法复习04——函数洛华363 python python
python基础语法目录python基础语法01——基本类型python基础语法02——复合类型python基础语法03——语句构成文章目录python基础语法目录一、初识函数1.定义2.调用二、函数的传参1.位置传参2.关键词传参3.参数默认值4.可变位置参数5.可变关键词参数6.参数解包7.值传递与引用传递总结一、初识函数函数是Python中可重复使用的代码块，用于执行特定任务。通过将代码封装
ubuntu18.04安装geemap 阿西是有梦想的咸鱼 python编程之路遥感影像处理可视化可视化 python ubuntu
文章目录安装测试GEE提供了JavaScript和PythonAPI，可以向EarthEngine服务器发出计算请求。与GEEJavaScriptAPI相比，PythonAPI缺乏易于理解的操作文档和交互式可视化结果的功能。由此，geemap诞生并填补了这一空白[1]。这里给大家介绍下我折腾了一晚上才搞定的geemap的安装及测试过程。这里是geemap的GitHub参考链接。安装如Github中
python进行geeMap环境安装箭梭_ python
近期需要利用geemap搭建一个界面，试了一下相应环境的配置，踏了挺多坑，下面我给大家具体介绍一下geemap的环境搭建：（1）geemap是基于googleearthengine的接口进行开发的，在安装geemap之前，需要先进行earthengie包的安装，参考链接如下：https://zhuanlan.zhihu.com/p/29186942#comment-549701602?notifi
API开发全攻略：从入门到精通的企业级API架构与实战 Android洋芋架构 API设计 RESTful API 微服务架构实战案例
简介API开发已成为现代软件架构的核心能力，掌握API设计与实现技术能显著提升开发效率和系统可扩展性。本文将从零开始，全面解析API的基础概念、架构设计、安全认证、性能优化等关键技术点，并提供完整的Python和Go语言代码实战示例，帮助开发者构建高性能、可扩展的企业级API系统。本文旨在为初学者和进阶开发者提供一份全面的API开发指南。内容涵盖API的基础概念、类型分类、架构设计、安全认证、性能
学习笔记-C语言：数组+字符串函数一只高傲的鹤 C语言学习笔记学习 c语言开发语言
一维数组1.定义数组：变量名称[元素数量]inta[34]floatb[30]C99之前:元素数量必须是编译时刻确定的字面量，示例如下#includeintmain(){intn,i;//元素n为变量printf("请输入字符串的个数：");scanf("%d",&n);chara[n+1];a[n]='\0';printf("请开始输入字符串：");getchar();for(i=0;iintm
conda安装geemap Prophet.Z geemap GEE conda python 深度学习
打个卡，开始学习使用geemap网址：http://geemap.org/installation/conda安装geemap：打开Anacondaprompt终端，输入：condainstallgeemap-cconda-forge吴秋生老师建议创建一个新的conda环境来安装geemap。安装以下命令设置condaenv并按照geemap和pygis，其中包括geemap的所有可选的安装包。c
2023年NOC大赛创客智慧编程赛项Python 复赛模拟题（二）青少儿编程课堂少儿编程资料大全付费专栏 python numpy 开发语言 noc大赛真题 noc试题
题目来自：NOC大赛创客智慧编程赛项Python复赛模拟题(二)NOC大赛创客智慧编程赛项Python复赛模拟题（二）第一题：编写一个成绩评价系统，当输入语文、数学和英语三门课程成绩时，输出三门课程总成绩及其等级。(1)程序提示用户输入三个数字，数字分别表示语文、数学、英语分数，对应的变量名称是Chinese、Math、English,并计算三个分数的和(score)进行输出。注：input()函
【RS】GEE(Python)：大规模分析与导出数据
在前面的章节中，我们探讨了如何在GoogleEarthEngine(GEE)上进行数据加载、处理、分析和可视化。现在，我们将进一步扩展，探索如何处理大规模的数据集和执行复杂的分析任务。通过GEE的云计算能力，用户可以在全球范围内执行大规模的时空分析，并高效地将处理结果导出为所需的格式。大规模分析的基本原则在GEE中，大规模分析是通过ImageCollection和FeatureCollection
【Python篇】Python基础——08day.面向对象编程中类和对象的基本概念及属性和方法的常见分类和使用场景 WXX_s python基础篇 python 分类开发语言学习
目录前言一、类和对象1.类→Class1.1概念1.2创建2.对象→Object2.1概念2.2创建二、属性和方法1.实例属性2.实例方法3.类属性4.类方法5.静态方法5.1综合应用6.构造方法7.初始化方法8.魔术方法8.1常用方法8.2案例参考总结前言这章讲的面向对象编程（Object-OrientedProgramming，简称OOP）是一种通过组织对象来设计程序的编程方法。为什么需要类和
【Python篇】Python基础——04day.Python中运算（简单部分，如果会的可以直接跳过）
文章目录前言一.运算符1.1算术运算符1.2比较运算符1.3逻辑运算符1.4赋值运算符1.5位运算符1.6身份运算符1.7成员运算符1.8三目运算符1.9优先级二.表达式2.1算术表达式2.2比较表达式2.3逻辑表达式2.4赋值表达式2.5成员表达式2.6身份表达式2.7三元表达式2.8函数调用表达式三.推导式3.1列表推导式3.2字典推导式3.3集合推导式总结前言这一章写的是在python中会用
基于定制开发开源AI智能名片S2B2C商城小程序源码的搜索框个性化推荐机制研究
摘要：本文聚焦于定制开发开源AI智能名片S2B2C商城小程序源码场景下的搜索框个性化推荐机制。通过分析搜索框作为信息流槽位的产品形态特性，结合开源AI大模型与S2B2C模式的技术融合优势，提出基于用户强兴趣/即时兴趣的动态推荐策略。研究揭示了定制化开发在破解传统搜索框静态局限中的关键作用，并通过实证案例验证了该机制对提升用户转化率与平台GMV的显著效果，为新零售场景下的智能推荐系统设计提供了理论依
蒙牛社交电商的升级路径研究：基于开源链动2+1模式、AI智能名片与S2B2C商城小程序源码的融合创新
摘要：本文以蒙牛社交电商为研究对象，探讨传统微商向健康管理型社交电商平台升级的核心路径。通过分析蒙牛推出的慢燃、凝纯、益SHOW等大健康产品矩阵，结合开源链动2+1模式的裂变机制、AI智能名片的精准推荐能力及S2B2C商城小程序源码的供应链整合优势，揭示其如何通过技术赋能实现用户增长、供应链优化与用户体验升级。实证表明，该模式使蒙牛社交电商用户规模增长320%，私域客单价提升65%，为传统企业数字
每日一题7.22
P10450[USACO03MAR]BestCowFencesG-洛谷题目描述原题来自：USACO2003Mar.Green给定一个长度为n的非负整数序列A，求一个平均数最大的，长度不小于L的子段。输入格式第一行用空格分隔的两个整数n和L；第二行为n个用空格隔开的非负整数，表示Ai。输出格式输出一个整数，表示这个平均数的1000倍。不用四舍五入，直接输出。输入输出样例输入#1复制106642103
Python 现代时间序列预测第二版（五）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/22eab741fce9c15dfad894ecf37bdd51译者：飞龙协议：CCBY-NC-SA4.0第十七章：概率预测及更多在整本书中，我们学习了生成预测的不同技术，包括一些经典方法，使用机器学习以及一些深度学习架构。但我们一直在关注一种典型的预测问题——为连续时间序列生成点预测，并且没有层级关系且历史数据足够丰富。我们之所以这样做，是因为这
【重磅】瑞数信息蝉联IDC中国AI赋能私有云WAF市场份额Top2！科技云报道人工智能
近日，国际数据公司IDC正式发布《IDC中国AI赋能的Web应用防火墙硬件市场份额，2024：合规需求带动市场反弹，LLM-WAF成为未来市场新增量》和《IDC中国AI赋能的云Web应用防火墙市场份额，2024：大模型全行业渗透，LLM-WAF带来市场新增量》系列报告。报告针对2024年中国Web应用防火墙市场的规模、增长速度、主要玩家、市场与技术的发展趋势等内容进行了详细研究。报告显示，2024
618风控战升级，瑞数信息“动态安全+AI”利剑出鞘科技云报道安全人工智能
每年的618电商促销季，都是各大电商平台和商家的兵家必争之地。数以亿计的消费者涌入线上平台，期待已久的优惠券、秒杀商品如潮水般涌现，海量交易在瞬间达成，无疑是一场商业狂欢。然而，在这场狂欢背后，自动化程序以毫秒级速度疯狂扫货囤积优惠券；AI驱动的拟人化攻击绕过传统规则引擎，以每秒数十万次的恶意请求冲击服务器；恶意API调用窥探用户数据，欺诈交易如影随形，这些隐形威胁正蚕食着电商生态的安全根基。面对
自动化测试中，测试数据如何管理？鱼鱼说测试 java linux 服务器
今晚在某个测试群，看到有人问了一个问题：把测试数据放配置文件读取和放文件通过函数调用读取有什么区别？Python接口自动化测试零基础入门到精通（2025最新版）当时我下意识的这么回答：数据量越大，配置文件越臃肿，放在专门的数据文件（比如excel，csv），方便针对性的维护。乍看没毛病，但回头和人讨论这个问题的时候，就认真思考了一下这个问题，下面是我的一些思考和讨论的一些结果，仅供参考。。。自动化
基于selenium的pyse自动化测试框架鱼鱼说测试 selenium 测试工具
Python接口自动化测试零基础入门到精通（2025最新版）介绍：pyse基于selenium（webdriver）进行了简单的二次封装，比selenium所提供的方法操作更简洁。特点：默认使用CSS定位，同时支持多种定位方法（id\name\class\link_text\xpath\css）。本框架只是对selenium（webdriver）原生方法进行了简单的封装，精简为大约30个方法，这些
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

使用 Elasticsearch 检测抄袭 （二）

安装

安装 Elasticsearch 及 Kibana

上传模型

运行代码

导入包：

连接到 Elasticsearch

上传 detector 模型

上传 text embedding 模型

创建源索引

创建 checker ingest pipeline

创建 plagiarism checker 索引

写入源文档

使用 ingest pipeline 进行 reindex

检查重复文字

direct plagarism

similar text - paraphrase plagiarism

你可能感兴趣的:(Elasticsearch,AI,Elastic,elasticsearch,大数据,搜索引擎,人工智能,全文检索,python)

使用 Elasticsearch 检测抄袭（二）