三印

Lucene bm25 结合 jieba中文分词搜索

2021.10.20：增加依赖包，防止版本问题导致代码不可用

    
        
        
            org.apache.lucene
            lucene-core
            6.2.0
        
        
        
            org.apache.lucene
            lucene-test-framework
            6.2.0
        
        
        
            junit
            junit
            4.12
        
        
        
            org.apache.lucene
            lucene-queryparser
            6.2.0
        

        
            org.jsoup
            jsoup
            1.9.2
        

        
        
            com.huaban
            jieba-analysis
            1.0.2
        

        
            org.apache.parquet
            parquet-common
            1.8.1
        

        
            org.apache.parquet
            parquet-encoding
            1.8.1
        

        
            org.apache.parquet
            parquet-column
            1.8.1
        

        
            org.apache.parquet
            parquet-hadoop
            1.8.1
        
        
        
            org.apache.lucene
            lucene-analyzers-common
            5.3.1

考虑到jieba分词能够补充词表，性能相对较好，因此用bm25搭配jieba分词做一个新闻title搜索的demo
- 思路：利用jieba分词对语句进行分词，再用空格键对分词结果进行拼接；然后利用luncene自带的空格分词对拼接的字符串进行分词，实现依靠jieba分词中文的效果。主要优势有以下几点
  - 可以灵活完善jieba分词词表，提高分词准确性
  - 解决lucene无法进行中文分词的问题
涉及三个文件
- query文件：hot_tes.txt
- 语料文件：opensearch_recall.txt
- 召回结果写到本地：bm25_recall.txt
注意事项
- bm25对召回分数score没有做归一化，因此分布不属于[0,1]
- 词权重可以用boost入口设计

package com.o19s.bm25f;

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.*;
import org.apache.lucene.search.BlendedTermQuery;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.similarities.PerFieldSimilarityWrapper;
import org.apache.lucene.search.similarities.Similarity;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;

import java.io.IOException;

/**
 * Created by doug on 10/11/16.
 */
public class BM25FDemo {
    private static void addDoc(IndexWriter w, String title, String description) throws IOException {
        Document doc = new Document();
        doc.add(new TextField("title", title, Field.Store.YES));
        doc.add(new TextField("description", description, Field.Store.YES));
        w.addDocument(doc);
    }

    static Similarity perFieldSimilarities =  new PerFieldSimilarityWrapper() {
        @Override
        public Similarity get(String name) {
            if (name.equals("title")) {
                return new BM25FSimilarity(/*k1*/1.2f, /*b*/0.8f);
            } else if (name.equals("description")) {
                return new BM25FSimilarity(/*k1*/1.4f, /*b*/0.9f);
            }
            return new BM25FSimilarity();
        }
    };

    public static void main() throws IOException {



        // lots of boilerplate from http://www.lucenetutorial.com/lucene-in-5-minutes.html
        StandardAnalyzer analyzer = new StandardAnalyzer();
        Directory index = new RAMDirectory();

        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        config.setSimilarity(perFieldSimilarities);

        IndexWriter w = new IndexWriter(index, config);

        addDoc(w, "Moby Dick", "Moby Dick was a pretty cool whale");
        addDoc(w, "The moby Letter", "I listen to moby!");

        IndexReader reader = DirectoryReader.open(index);
        IndexSearcher searcher = new IndexSearcher(reader);


        BlendedTermQuery bm25fQuery = new BlendedTermQuery.Builder()
                                            .add(new Term("title", "moby"), 2.0f)
                                            .add(new Term("description", "moby"), 4.0f)
                                            .setRewriteMethod(BlendedTermQuery.BOOLEAN_REWRITE)
                                            .build();


        TopDocs docs = searcher.search(bm25fQuery, 10);
        ScoreDoc[] hits = docs.scoreDocs;

        System.out.println("Found " + hits.length + " hits.");
        for(int i=0;i

 
   
   补充一下simi中停词和分词代码 package com.o19s.bm25f;/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */


import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.index.FieldInvertState;
import org.apache.lucene.index.LeafReaderContext;
import org.apache.lucene.index.NumericDocValues;
import org.apache.lucene.search.CollectionStatistics;
import org.apache.lucene.search.Explanation;
import org.apache.lucene.search.TermStatistics;
import org.apache.lucene.search.similarities.Similarity;
import org.apache.lucene.util.BytesRef;
import org.apache.lucene.util.SmallFloat;

/**
 * BM25 Similarity. Introduced in Stephen E. Robertson, Steve Walker,
 * Susan Jones, Micheline Hancock-Beaulieu, and Mike Gatford. Okapi at TREC-3.
 * In Proceedings of the Third Text REtrieval Conference (TREC 1994).
 * Gaithersburg, USA, November 1994.
 */
public class BM25FSimilarity extends Similarity {
    private final float k1;
    private final float b;

    /**
     * BM25 with the supplied parameter values.
     * @param k1 Controls non-linear term frequency normalization (saturation).
     * @param b Controls to what degree document length normalizes tf values.
     * @throws IllegalArgumentException if {@code k1} is infinite or negative, or if {@code b} is
     *         not within the range {@code [0..1]}
     */
    public BM25FSimilarity(float k1, float b) {
        if ((Float.isFinite(k1) == false) || (k1 < 0)) {
            throw new IllegalArgumentException("illegal k1 value: " + k1 + ", must be a non-negative finite value");
        }
        if (Float.isNaN(b) || b < 0 || b > 1) {
            throw new IllegalArgumentException("illegal b value: " + b + ", must be between 0 and 1");
        }
        this.k1 = k1;
        this.b  = b;
    }

    /** BM25 with these default values:
     * 
     *   {@code k1 = 1.2}
     *   {@code b = 0.75}
     * 
     */
    public BM25FSimilarity() {
        this(1.2f, 0.75f);
    }

    /** Implemented as log(1 + (docCount - docFreq + 0.5)/(docFreq + 0.5)). */
    protected float idf(long docFreq, long docCount) {
        return (float) Math.log(1 + (docCount - docFreq + 0.5D)/(docFreq + 0.5D));
    }

    /** Implemented as 1 / (distance + 1). */
    protected float sloppyFreq(int distance) {
        return 1.0f / (distance + 1);
    }

    /** The default implementation returns 1 */
    protected float scorePayload(int doc, int start, int end, BytesRef payload) {
        return 1;
    }

    /** The default implementation computes the average as sumTotalTermFreq / docCount,
     * or returns 1 if the index does not store sumTotalTermFreq:
     * any field that omits frequency information). */
    protected float avgFieldLength(CollectionStatistics collectionStats) {
        final long sumTotalTermFreq = collectionStats.sumTotalTermFreq();
        if (sumTotalTermFreq <= 0) {
            return 1f;       // field does not exist, or stat is unsupported
        } else {
            final long docCount = collectionStats.docCount() == -1 ? collectionStats.maxDoc() : collectionStats.docCount();
            return (float) (sumTotalTermFreq / (double) docCount);
        }
    }

    /** The default implementation encodes boost / sqrt(length)
     * with {@link SmallFloat#floatToByte315(float)}.  This is compatible with
     * Lucene's default implementation.  If you change this, then you should
     * change {@link #decodeNormValue(byte)} to match. */
    protected byte encodeNormValue(float boost, int fieldLength) {
        return SmallFloat.floatToByte315(boost / (float) Math.sqrt(fieldLength));
    }

    /** The default implementation returns 1 / f²
     * where f is {@link SmallFloat#byte315ToFloat(byte)}. */
    protected float decodeNormValue(byte b) {
        return NORM_TABLE[b & 0xFF];
    }

    /**
     * True if overlap tokens (tokens with a position of increment of zero) are
     * discounted from the document's length.
     */
    protected boolean discountOverlaps = true;

    /** Sets whether overlap tokens (Tokens with 0 position increment) are
     *  ignored when computing norm.  By default this is true, meaning overlap
     *  tokens do not count when computing norms. */
    public void setDiscountOverlaps(boolean v) {
        discountOverlaps = v;
    }

    /**
     * Returns true if overlap tokens are discounted from the document's length.
     * @see #setDiscountOverlaps
     */
    public boolean getDiscountOverlaps() {
        return discountOverlaps;
    }

    /** Cache of decoded bytes. */
    private static final float[] NORM_TABLE = new float[256];

    static {
        for (int i = 1; i < 256; i++) {
            float f = SmallFloat.byte315ToFloat((byte)i);
            NORM_TABLE[i] = 1.0f / (f*f);
        }
        NORM_TABLE[0] = 1.0f / NORM_TABLE[255]; // otherwise inf
    }


    @Override
    public final long computeNorm(FieldInvertState state) {
        final int numTerms = discountOverlaps ? state.getLength() - state.getNumOverlap() : state.getLength();
        return encodeNormValue(state.getBoost(), numTerms);
    }

    /**
     * Computes a score factor for a simple term and returns an explanation
     * for that score factor.
     *
     * 
     * The default implementation uses:
     *
     * 
     * idf(docFreq, docCount);
     * 
     *
     * Note that {@link CollectionStatistics#docCount()} is used instead of
     * {@link org.apache.lucene.index.IndexReader#numDocs() IndexReader#numDocs()} because also
     * {@link TermStatistics#docFreq()} is used, and when the latter
     * is inaccurate, so is {@link CollectionStatistics#docCount()}, and in the same direction.
     * In addition, {@link CollectionStatistics#docCount()} does not skew when fields are sparse.
     *
     * @param collectionStats collection-level statistics
     * @param termStats term-level statistics for the term
     * @return an Explain object that includes both an idf score factor
    and an explanation for the term.
     */
    public Explanation idfExplain(CollectionStatistics collectionStats, TermStatistics termStats) {
        final long df = termStats.docFreq();
        final long docCount = collectionStats.docCount() == -1 ? collectionStats.maxDoc() : collectionStats.docCount();
        final float idf = idf(df, docCount);
        return Explanation.match(idf, "idf(docFreq=" + df + ", docCount=" + docCount + ")");
    }

    /**
     * Computes a score factor for a phrase.
     *
     * 
     * The default implementation sums the idf factor for
     * each term in the phrase.
     *
     * @param collectionStats collection-level statistics
     * @param termStats term-level statistics for the terms in the phrase
     * @return an Explain object that includes both an idf
     *         score factor for the phrase and an explanation
     *         for each term.
     */
    public Explanation idfExplain(CollectionStatistics collectionStats, TermStatistics termStats[]) {
        final long docCount = collectionStats.docCount() == -1 ? collectionStats.maxDoc() : collectionStats.docCount();
        float idf = 0.0f;
        List details = new ArrayList<>();
        for (final TermStatistics stat : termStats ) {
            final long df = stat.docFreq();
            final float termIdf = idf(df, docCount);
            details.add(Explanation.match(termIdf, "idf(docFreq=" + df + ", docCount=" + docCount + ")"));
            idf += termIdf;
        }
        return Explanation.match(idf, "idf(), sum of:", details);
    }

    @Override
    public final SimWeight computeWeight(CollectionStatistics collectionStats, TermStatistics... termStats) {
        Explanation idf = termStats.length == 1 ? idfExplain(collectionStats, termStats[0]) : idfExplain(collectionStats, termStats);

        float avgdl = avgFieldLength(collectionStats);

        // compute freq-independent part of bm25 equation across all norm values
        float cache[] = new float[256];
        for (int i = 0; i < cache.length; i++) {
            cache[i] = k1 * ((1 - b) + b * decodeNormValue((byte)i) / avgdl);
        }
        return new BM25Stats(collectionStats.field(), idf, avgdl, cache);
    }

    @Override
    public final SimScorer simScorer(SimWeight stats, LeafReaderContext context) throws IOException {
        BM25Stats bm25stats = (BM25Stats) stats;
        return new BM25DocScorer(bm25stats, context.reader().getNormValues(bm25stats.field));
    }

    private class BM25DocScorer extends SimScorer {
        private final BM25Stats stats;
        private final float weightValue; // boost * idf * (k1 + 1)
        private final NumericDocValues norms;
        private final float[] cache;

        BM25DocScorer(BM25Stats stats, NumericDocValues norms) throws IOException {
            this.stats = stats;
            this.weightValue = stats.weight * (k1 + 1) * stats.boost;
            this.cache = stats.cache;
            this.norms = norms;
        }

        @Override
        public float score(int doc, float freq) {
            // if there are no norms, we act as if b=0
            float norm = norms == null ? k1 : cache[(byte)norms.get(doc) & 0xFF];
            return weightValue * freq / (freq + norm);
        }

        @Override
        public Explanation explain(int doc, Explanation freq) {
            return explainScore(doc, freq, stats, norms);
        }

        @Override
        public float computeSlopFactor(int distance) {
            return sloppyFreq(distance);
        }

        @Override
        public float computePayloadFactor(int doc, int start, int end, BytesRef payload) {
            return scorePayload(doc, start, end, payload);
        }
    }

    /** Collection statistics for the BM25 model. */
    private static class BM25Stats extends SimWeight {
        /** BM25's idf */
        private final Explanation idf;
        /** The average document length. */
        private final float avgdl;
        /** query boost */
        private float boost;
        /** weight (idf * boost) */
        private float weight;
        /** field name, for pulling norms */
        private final String field;
        /** precomputed norm[256] with k1 * ((1 - b) + b * dl / avgdl) */
        private final float cache[];

        BM25Stats(String field, Explanation idf, float avgdl, float cache[]) {
            this.field = field;
            this.idf = idf;
            this.avgdl = avgdl;
            this.cache = cache;
            normalize(1f, 1f);
        }

        @Override
        public float getValueForNormalization() {
            // we return a TF-IDF like normalization to be nice, but we don't actually normalize ourselves.
            return weight * weight;
        }

        @Override
        public void normalize(float queryNorm, float boost) {
            // we don't normalize with queryNorm at all, we just capture the top-level boost
            this.weight = idf.getValue();
        }
    }

    private Explanation explainTFNorm(int doc, Explanation freq, BM25Stats stats, NumericDocValues norms) {
        List subs = new ArrayList<>();
        subs.add(freq);
        subs.add(Explanation.match(k1, "parameter k1"));
        if (norms == null) {
            subs.add(Explanation.match(0, "parameter b (norms omitted for field)"));
            return Explanation.match(
                    (freq.getValue() * (k1 + 1)) / (freq.getValue() + k1),
                    "tfNorm, computed from:", subs);
        } else {
            float doclen = decodeNormValue((byte)norms.get(doc));
            subs.add(Explanation.match(b, "parameter b"));
            subs.add(Explanation.match(stats.avgdl, "avgFieldLength"));
            subs.add(Explanation.match(doclen, "fieldLength"));
            return Explanation.match(
                    (freq.getValue() * (k1 + 1)) / (freq.getValue() + k1 * (1 - b + b * doclen/stats.avgdl)),
                    "tfNorm, computed from:", subs);
        }
    }

    private Explanation explainScore(int doc, Explanation freq, BM25Stats stats, NumericDocValues norms) {
        Explanation boostExpl = Explanation.match(stats.boost, "boost");
        List subs = new ArrayList<>();
        if (boostExpl.getValue() != 1.0f)
            subs.add(boostExpl);
        subs.add(stats.idf);
        Explanation tfNormExpl = explainTFNorm(doc, freq, stats, norms);
        subs.add(tfNormExpl);
        return Explanation.match(
                boostExpl.getValue() * stats.idf.getValue() * tfNormExpl.getValue(),
                "score(doc="+doc+",freq="+freq+"), product of:", subs);
    }

    @Override
    public String toString() {
        return "BM25(k1=" + k1 + ",b=" + b + ")";
    }

    /**
     * Returns the k1 parameter
     * @see #BM25FSimilarity(float, float)
     */
    public final float getK1() {
        return k1;
    }

    /**
     * Returns the b parameter
     * @see #BM25FSimilarity(float, float)
     */
    public final float getB() {
        return b;
    }
}
 欢迎留言交流。。。

变频器干扰诊断三步法：排查、定位、抑制详解集思广益的灰太狼变频器干扰解决方案单片机嵌入式硬件
前言众所周知变频器（VFD-VariableFrequencyDrive）在工业控制领域应用非常的广泛，它通过调节电机的频率和电压来精确控制电机的转速和扭矩，来实现节能和精准控制。然而，变频器在工作过程中会产生各种电磁干扰（EMI-ElectromagneticInterference），这些干扰可能导致控制系统误动作、通信中断、测量仪表失准等一系列问题。今天我们将系统性地介绍变频器干扰的"三步诊
【机器视觉】少量样本图片情况下的图片识别技术方案 yuanpan 机器学习人工智能计算机视觉
在只有少量图片样本的情况下，进行图像识别是一个具有挑战性的任务。以下是一些应对小样本问题的有效方案：1.数据增强（DataAugmentation）通过对现有样本进行各种变换来生成更多的训练数据，例如：几何变换：旋转、缩放、平移、翻转等。颜色变换：调整亮度、对比度、饱和度等。噪声添加：高斯噪声、椒盐噪声等。裁剪和填充：随机裁剪图像的一部分或填充边缘。工具：Keras：ImageDataGenera
Day6：python面向对象编程——构建可扩展的订单管理系统 weixin_44650422 python 开发语言
目标：掌握类与对象的核心概念，实现模块化的订单业务逻辑一、类与对象：订单管理系统核心1.基础订单类classOrder:"""订单基类"""def__init__(self,order_id,customer):self.order_id=order_id#订单号self.customer=customer#客户名self.items=[]#商品列表self.total=0.0#总金额defadd
MySQL- 索引下推青衫客36 数据库 mysql 数据库
索引下推（IndexConditionPushdown，简称ICP）是MySQL5.6引入的一项优化技术，它通过将部分查询条件“下推”到索引扫描阶段，从而减少不必要的行访问和回表操作，提高查询性能。1.索引下推的概念在传统的索引扫描过程中，MySQL会首先通过索引找到符合索引条件的记录，然后回表（即访问实际的表数据行）读取所需的列，最后再应用其他过滤条件（非索引条件）来判断这条记录是否符合查询要求
一文搞懂Nginx: 域名配置、SSL、HTTP转HTTPS 千层冷面知识类 http nginx ssl linux
本文将在Centos系统下详解Nginx服务器，从概念、下载、安装、编译、配置(含域名和证书)到启动。本文先讲Nginx如何使用，然后再谈概念。一、实践1.下载下载通常有2种方式：Centos自带的包管理工具、源码编译安装(推荐，拓展性强)，本文使用源码编译安装的形式下载从Nginx官网（nginx.org）下载Nginx的源代码。亦可以使用wget命令或者浏览器下载后通过FTP等方式传输到服务器
指令系统和计算机体系结构——一文解析冯·诺依曼架构点滴汇聚江河软考-软件设计师架构
文章目录一、核心思想二、核心组成部分1.中央处理器（CPU）2.内存（Memory）3.输入/输出（I/O）设备4.总线（Bus）三、工作流程四、冯·诺依曼架构的局限性五、现代计算机的改进1.流水线技术（Pipeline）关键机制2.高速缓存（Cache）关键机制3.多核CPU（Multi-Core）关键挑战与解决方案4.乱序执行（Out-of-OrderExecution）关键技术5.其他关键改
python assert()函数欢天喜地小姐姐 python编程学习 python
1.断言函数作用断言函数是对表达式布尔值的判断，要求表达式计算值必须为真。可用于自动调试。如果表达式为假，触发异常；如果表达式为真，不会报错。2.使用assert判断数组是否相等np.array.any()和numpy.array.all()np.array.any()是或操作，任意一个元素为True，输出为True。np.array.all()是与操作，所有元素为True，输出为True。当我们
【LeetCode 热题100】 23. 合并 K 个升序链表的算法思路及python代码 pljnb LeetCode热题100 算法 leetcode 链表
23.合并K个升序链表给你一个链表数组，每个链表都已经按升序排列。请你将所有链表合并到一个升序链表中，返回合并后的链表。示例1：输入：lists=[[1,4,5],[1,3,4],[2,6]]输出：[1,1,2,3,4,4,5,6]解释：链表数组如下：[1->4->5,1->3->4,2->6]将它们合并到一个有序链表中得到。1->1->2->3->4->4->5->6示例2：输入：lists=[
【Leetcode刷题随笔】844 比较含退格的字符串 Poor_DayDreamer 移除元素篇字符串篇 leetcode 算法职场和发展
1.题目描述给定s和t两个字符串，比较s和t是否在删除所有由#字符表示的退格操作后相等。退格操作会删除其前面（不包括#本身）的一个字符，如果前面没有字符则忽略该#。如果字符串的末尾有多个退格符，它们会相互抵消，直到没有退格符剩余或者所有字符都被删除。示例1：输入：s=“ab#c”,t=“ad#c”输出：true解释：s和t都会变成“ac”，因为#前面的b和d都被删除。示例2：输入：s=“ab##”
【Leetcode刷题随笔】2765最长交替子数组 Poor_DayDreamer leetcode数组篇 leetcode 算法职场和发展
1.题目描述：该题目标是在一个整数数组nums中寻找最长的“交替子数组”。这种交替子数组的特点是：其元素按照“递增1，递减1，递增1…”的模式循环排列，且子数组的长度必须大于1，例如数组nums=[2,3,4,3,4]，交替子数组有[2,3]，[3,4]，[3,4,3]和[3,4,3,4]。最长的子数组为[3,4,3,4]，长度为4。详细题目描述见原题：原题。2.1解题思路一（双层循环）：这道题有
LeetCode刷题笔记小李李李李腊八 leetcode 算法 java
leetcode_01两数之和斐波那契数列三个数最大乘积反转链表x的平方根环形列表LeetCode随笔两数之和给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是，数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。暴力法记录下数组第一个数值，对数组进行循环，将之后的值
【计算机系统概论】计算机框架是什么？冯诺依曼架构为什么重要？我们要记住冯·诺依曼架构的什么？爱吃羊的老虎计算机系统架构系统架构计算机网络
什么是计算机的框架？计算机的框架（架构）就是计算机工作的基本规则，规定了它如何存储数据、如何执行指令、如何传输信息。可以理解成是计算机的大脑结构，它决定了一台计算机的工作方式。如果把计算机比作一个工厂，那么架构就像是生产流程，比如：存储区（仓库）：存放数据和指令。控制中心（调度室）：决定接下来做什么。加工车间（计算单元）：执行计算和逻辑处理。运输系统（总线）：负责不同部件之间的信息传输。冯·诺依曼
MySQL请求处理全流程深度解析：从SQL语句到数据返回 longdong7889 mysql sql adb
MySQL请求处理全流程深度解析：从SQL语句到数据返回一、MySQL架构全景图MySQL采用经典的C/S架构和分层设计，其核心模块协同工作流程如下：客户端连接管理器查询解析器查询优化器执行引擎存储引擎磁盘存储各层核心职责：连接层：管理客户端连接、权限验证服务层：SQL解析、优化、内置函数实现存储引擎层：数据存储与索引管理（如InnoDB）文件系统层：日志文件、数据文件存储二、请求处理七步详解步骤
每日新闻掌握【2025年3月20日星期四】 cdmt 每日新闻掌握科技
2025年3月20日星期四农历二月廿一大公司/大事件住建部：坚决稳住楼市，推动房地产市场止跌回稳近日，中共住房和城乡建设部党组召开理论学习中心组学习（扩大）会议。会议要求，要持续推进城市更新，坚持问题导向和目标导向，开展城市体检，找准人民群众急难愁盼问题和城市发展短板弱项，下功夫实施一批惠民生、防风险、促发展的更新项目。要坚决稳住楼市，持续巩固“四个取消、四个降低、两个增加”房地产政策“组合拳”效
人生重开模拟器 -deepseek版 Cccc吃吃吃 python 开发语言
人生重开模拟器是一个有趣的文字类游戏，玩家可以通过选择不同的选项来体验不同的人生轨迹。下面是一个简单的Python实现，模拟了人生重开的过程。玩家可以通过输入数字来选择不同的选项，游戏会根据选择生成不同的人生结局。```pythonimportrandomdefprint_intro():print("欢迎来到人生重开模拟器！")print("你将重新开始你的人生，通过不同的选择体验不同的人生轨迹
大数据最新大数据StarRocks(七)：数据表创建(2) 2401_84182271 程序员大数据
2.1表分为内部表和外部表默认未内部表，3.0版本开始集成外部数据建议使用catalog，外部表的建表方式将被弃用2.2列定义语法：col_namecol_type[agg_type][NULL|NOTNULL][DEFAULT"default\_value"][AUTO_INCREMENT][ASgeneration_expr]col_name：列名称注意，在一般情况下，不能直接创建以以__op
PTA天梯赛Python7-52 古风排版胡同Alley python
中国的古人写文字，是从右向左竖向排版的。本题就请你编写程序，把一段文字按古风排版。输入格式：输入在第一行给出一个正整数N（<100），是每一列的字符数。第二行给出一个长度不超过1000的非空字符串，以回车结束。输出格式：按古风格式排版给定的字符串，每列N个字符（除了最后一列可能不足N个）。输入样例：4Thisisatestcase输出样例：asaTstihetsices代码长度限制16KB时间限制
详细介绍 Jupyter nbconvert 工具及其用法：如何将 Notebook 转换为 Python 脚本源代码杀手 python使用技巧 python jupyter ide
nbconvert是Jupyter提供的一个非常强大的工具，允许用户将JupyterNotebook文件（.ipynb）转换成多种格式，包括Python脚本（.py）、HTML、PDF、LaTeX等。你可以通过命令行来运行nbconvert，也可以在JupyterNotebook中通过一些自定义的设置来实现转换。安装nbconvert通常情况下，nbconvert会随Jupyter一起安装，因此不
系统架构设计（以飞控系统、航电系统、机电管理系统、电子电气架构为例）机载软件与适航机载系统系统工程适航系统架构架构
架构的定义系统架构涉及对系统的结构和行为进行高层次的描述。它包括系统的组成部分、这些部分之间的关系、与外部环境的交互方式，以及满足特定功能和非功能性需求的方法。系统架构定义了系统的总体设计蓝图，指导系统的开发、集成、部署和维护。系统架构的核心要素组成部分（Components）：系统中的独立模块或单元，每个模块执行特定的功能。组件可以是软件模块、硬件设备、数据库、用户界面等。组件间的关系（Rela
python -- assert函数我不是程序员‍ python知识 python
一、assert函数在Python中，assert语句用于调试和测试代码。它用于检查某个条件是否为真。如果条件为假，assert语句会抛出一个AssertionError异常，并可以选择性地附加一条错误消息。assert语句的基本语法是：assertcondition,optional_messagecondition:一个布尔表达式。如果结果为True，程序继续执行。如果为False，会触发As
Beekeeper Studio：高颜值且免费的SQL开发工具开源项目精选 sql 数据库
BeekeeperStudio是一款免费开源的SQL开发和数据库管理工具，具有美观高效、简单易用的特点。BeekeeperStudio基于Vue.js开发，遵循MIT开源协议，支持Windows、Linux以及macOS平台。Stars数17842Forks数1170主要特点安全连接：除了正常的连接，也可以使用SSL加密连接或通过SSH隧道连接；SQL自动补全：代码编辑器支持语法高亮和表名自动补全
PCDN如何优化移动设备的网络体验 yczykjyxgs pcdn 服务器
在移动互联网时代，用户对网络体验的要求不断提升，PCDN（P2PCDN）技术为优化移动设备网络体验提供了创新解决方案。这项技术通过重构传统内容分发模式，有效解决了移动网络环境下的带宽瓶颈和传输延迟问题。PCDN技术的核心在于构建了一个去中心化的内容分发网络。移动设备不再仅仅作为内容消费者，而是同时承担了内容分发节点的角色。这种设计充分利用了移动设备的闲置带宽和存储资源，形成了一个动态的内容共享网络
PCDN 与传统 CDN 的对比：优势和劣势分析 yczykjyxgs pcdn 智能路由器
在内容分发领域，PCDN和传统CDN是两种重要的技术手段。传统CDN凭借其成熟的架构，在互联网发展历程中发挥着关键作用。它通过在各地广泛部署缓存服务器，将内容缓存至离用户更近的节点，以此加快分发速度。这种模式下，内容传输路径短，能有效减少延迟，为用户提供稳定的访问体验。不过，传统CDN的大规模服务器部署带来了高昂成本，无论是建设费用还是维护成本都不容小觑。PCDN作为融合了P2P技术的新兴内容分发
我所认识的区块链 whg1016 区块链
什么是区块链区块链是一个多节点共同参与，共同确认的记账系统，账本由是由一串串数据块组成的，下一个数据块记录了上个数据的hash，所有的块按照顺序形成一个完整的数据链条。每个节点都有完全一致的账本数据，记录的数据不可篡改和不可伪造。这个链条被保存在所有的服务器中，只要整个系统中有一台服务器可以工作，整条区块链就是安全的。区块链的由来区块链起源于Bitcoin，2008年11月1日，一位自称中本聪(S
鸿蒙HarmonyOS实战：应用程序包-HAP 让开，我要吃人了 harmonyos 华为
HAP（HarmonyAbilityPackage）是应用安装和运行的基本单元。HAP包是由代码、资源、第三方库、配置文件等打包生成的模块包，其主要分为两种类型：entry和feature。entry：应用的主模块，作为应用的入口，提供了应用的基础功能。feature：应用的动态特性模块，作为应用能力的扩展，可以根据用户的需求和设备类型进行选择性安装。应用程序包可以只包含一个基础的entry包，也
鸿蒙HarmonyOS开发：应用程序静态包-HAR 让开，我要吃人了鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为移动开发前端 html 开发语言鸿蒙
HAR（HarmonyArchive）是静态共享包，可以包含代码、C++库、资源和配置文件。通过HAR可以实现多个模块或多个工程共享ArkUI组件、资源等相关代码。使用场景作为二方库，发布到OHPM私仓，供公司内部其他应用使用。作为三方库，发布到OHPM中心仓，供其他应用使用。约束限制HAR不支持在设备上单独安装/运行，只能作为应用模块的依赖项被引用。HAR不支持在配置文件中声明UIAbility
CTF杂项挑战：使用已知字典破解ZIP文件密码 0dayNu1L Web安全 CTF web安全网络安全
在CTF比赛中，杂项挑战通常包含一些非传统的题目，其中破解ZIP文件密码是一个常见的任务。本文将介绍两种在已知密码字典文件的情况下，破解ZIP文件密码的方法：一种是使用Python脚本进行暴力破解，另一种是通过zip2john和john命令结合进行破解。0dayNu1L-CSDN博客请一键三连吧！！！❤❤❤目录方法一：使用Python脚本进行暴力破解步骤方法二：使用zip2john和john命令结
文本转语音的Python库（pyttsx3）数产第一混子 python库 python
一、pyttsx3的概述pyttsx3isatext-to-speechconversionlibraryinPython.pyttsx3是Python中的文本到语音转换库。二、pyttsx3的安装pipinstallpyttsx3三、小试牛刀importpyttsx3engine=pyttsx3.init()engine.say("Iwillspeakthistextrightnow")engi
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
区块链赋能：用Python开发去中心化投票系统 Echo_Wish Python！实战！区块链 python 去中心化
区块链赋能：用Python开发去中心化投票系统在这个互联网迅猛发展的时代，投票系统不仅仅停留在政务领域，它已成为社区治理、企业决策甚至区块链DAO（去中心化自治组织）中重要的机制。然而，传统投票系统往往集中化，存在信任和数据安全问题。区块链技术以其不可篡改性和透明性为去中心化投票提供了理想的解决方案。在这篇文章中，我将通过Python语言，结合区块链智能合约，教你如何从零开发一个去中心化的投票系统
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

Lucene bm25 结合 jieba中文分词搜索

你可能感兴趣的:(Python和JAVA,搜索引擎,大数据,lucene,java)