啦啦右一

信息检索与数据挖掘 | 【实验】排名检索模型

文章目录

实验内容
相关概念
实验步骤
- 分词预处理
- 构建倒排索引表
- 计算query和各个文档的相似度
- queries预处理及检索函数
- - 对输入的文本进行词法分析和标准化处理
  - 检索函数
- 调试结果

实验内容

在Experiment1的基础上实现最基本的Ranked retrieval model
- Input：a query (like Ron Weasley birthday)
- Output: Return the top K (e.g., K = 100) relevant tweets.
Use SMART notation: lnc.ltn
- Document: logarithmic tf (l as first character), no idf and cosine normalization
- Query: logarithmic tf (l in leftmost column), idf (t in second column), no normalization
改进Inverted index
- 在Dictionary中存储每个term的DF
- 在posting list中存储term在每个doc中的TF with pairs (docID, tf)

实验步骤

分词预处理

将输入的推特文档转换为小写，这里统一处理，使得后续查询不区分大小写。
根据特定标记在推特文档中查找并确定关键部分信息的位置索引，并提取出推特文档中的tweetid和tweet内容。
对提取出的文本内容进行分词处理，并将单词转换为其单数形式。
对分词后的词列表进行词形还原，主要针对动词的还原操作。同时，筛去[“text”, “tweetid”]

将筛选出的有效词添加到最终结果列表中，并返回。

#分词预处理
def tokenize_tweet(document):
    # 统一处理使查询不区分大小写
    document = document.lower()
    # 根据特定标记在推特文档中查找并确定关键部分信息的位置索引
    # 这里的减1减3是对引号逗号切入与否的调整
    a = document.index("tweetid") - 1
    b = document.index("errorcode") - 1
    c = document.index("text") - 1
    d = document.index("timestr") - 3
    # 将推特文档中的tweetid和text内容主要信息提取出来
    document = document[a:b] + document[c:d]
    # 分词处理，并将单词转换为其单数形式
    terms = TextBlob(document).words.singularize()
    # 将分词后的词列表进行词形还原，并筛选出不属于无用词的有效词
    result = []
    for word in terms:
        # 将当前词转换为Word对象
        expected_str = Word(word)
        # 动词的还原操作
        expected_str = expected_str.lemmatize("v")
        if expected_str not in uselessTerm:
            # 筛去["text", "tweetid"]，添加到result中
            result.append(expected_str)
    return result

构建倒排索引表

存储term在每个doc中的TF with pairs (docID, tf)。

首先明确，在该过程计算文档词项的对应权重，采用lnc规则，即 logarithmic tf (l as first character), no idf and cosine normalization。
具体流程如下：
- 读取内容。文件中每行都代表一条推特。将每一行推特文本分解为单词（词条化），并存储在一个列表line中
- 利用一个全局变量N记录读取的推特文档数量。
- 从line中提取tweetid，并从line中删除。
- 创建一个空字典tf用于统计每个词在当前文档中的出现次数。遍历line中的每个词，通过判断词是否已经在tf字典的键中存在来更新词的出现次数。
- 对tf字典中的每个词项频率进行logarithmic tf的计算，即将出现次数加1并取对数。（对应logarithmic tf (l as first character)）
- 归一化（对应cosine normalization），遍历tf字典的键（即词项），得到归一化因子。最后，代码再次遍历tf字典的键，并将每个词项的频率乘以归一化因子。得到最后的对应tf权重。
- 将line转换为集合unique_terms并遍历其中的每个词。
  - 如果该词已经在postings字典的键中存在，则更新该词对应的字典项，将tweetid和权重加入其中。
  - 如果该词不存在于postings字典的键中，则创建该键，并将tweetid和权重加入其中。

统计词频频率

# 统计词项频率，记录每个词在当前文档中的出现次数
tf = {}
 for word in line:
     if word in tf.keys():
         tf[word] += 1
     else:
         tf[word] = 1

1+log(tf_{t,d})

 # logarithmic tf
 for word in tf.keys():
     tf[word] = 1 + math.log(tf[word])

\frac{1}{\sqrt{{w_1}^2+{w_2}^2+...+{w_m}^2}}

 # 归一化，cosine normalization
 cosine = 0
 for word in tf.keys():
     cosine = cosine + tf[word] * tf[word]
 cosine = 1.0 / math.sqrt(cosine)
 for word in tf.keys():
     tf[word] = tf[word] * cosine

计算query和各个文档的相似度

首先明确，该过程分为两个步骤，首先计算query词项的对应权重，然后求相似度（也即对应词项两个权重相乘并求和）并降序排序。Query权重采用ltn规则，即 logarithmic tf (l in leftmost column), idf (t in second column), no normalization。

具体流程如下：

遍历查询词列表query，对每个词进行词项频率统计，将结果存储在tf中。
遍历tf字典的键（即查询词），根据每个词在postings中的文档频率（文档出现的次数）计算文档频率df。若一个词不在postings中，则将文档频率设置为全局变量 N（表示总的文档数量）。
计算权重tf[word] = (math.log(tf[word]) + 1) * math.log(N / df)，对应ltn（logarithmic tf, idf, no normalization）。
对于每个查询词，检查它是否postings字典中存在。若存在，则遍历该查询词的倒排索引（文档编号及对应的词项权重），根据每个文档的词项权重和查询词的tf-idf值计算相似度得分。
存储得分并进行降序排序，得到一个按照相似度排名的列表，并将其返回作为结果。

def similarity(query):
    global score_tid
    tf = {}
    # 统计词项频率
    for word in query:
        if word in tf:
            tf[word] += 1
        else:
            tf[word] = 1
    # 统计文档频率
    for word in tf.keys():
        if word in postings:
            df = len(postings[word])
        else:
            df = N
        # 对应ltn,logarithmic tf (l in leftmost column), idf (t in second column), no normalization
        tf[word] = (math.log(tf[word]) + 1) * math.log(N / df)
    # 计算相似度
    for word in query:
        if word in postings:
            for tid in postings[word]:
                if tid in score_tid.keys():
                    score_tid[tid] += postings[word][tid] * tf[word]
                else:
                    score_tid[tid] = postings[word][tid] * tf[word]
    # 按照得分（相似度）进行降序排序
    similarity = sorted(score_tid.items(), key=lambda x: x[1], reverse=True)
    return similarity

queries预处理及检索函数

对输入的文本进行词法分析和标准化处理

def token(doc):
    # 将输入文本转换为小写字母，以便统一处理。
    doc = doc.lower()
    # 将文本拆分为单个词项，并尝试将词项转换为单数形式
    terms = TextBlob(doc).words.singularize()
    # 将分词后的词列表进行词形还原,返回结果列表result
    result = []
    for word in terms:
        expected_str = Word(word)
        expected_str = expected_str.lemmatize("v")
        result.append(expected_str)
    return result

检索函数

def Union(sets):
    return reduce(set.union, [s for s in sets])

def do_search():
    query = token(input("please input search query >> "))
    result = []
    if query == []:
        sys.exit()
    # set()去除查询词列表中的重复项
    unique_query = set(query)
    # 生成一个包含每个查询词对应的tweet的id集合的列表，并且利用Union()函数将这些集合取并集
    relevant_tweetids = Union([set(postings[term].keys()) for term in unique_query])
    print("一共有" + str(len(relevant_tweetids)) + "条相关tweet！")
    if not relevant_tweetids:
        print("No tweets matched any query terms for")
        print(query)
    else:
        print("the top 100 tweets are:")
        scores = similarity(query)
        i = 1
        for (id, score) in scores:
            if i <= 100:  # 返回前n条查询到的信息
                result.append(id)
                print(str(score) + ": " + id)
                i = i + 1
            else:
                break
        print("finished")

调试结果

最终代码

import sys
from collections import defaultdict
from textblob import TextBlob
from textblob import Word
import math
from functools import reduce

uselessTerm = ["text", "tweetid"]
# 构建倒排索引表，存储term在每个doc中的TF with pairs (docID, tf)
postings = defaultdict(dict)
# 文档数目N
N = 0
# 最终权值
score_tid = defaultdict(dict)

#分词预处理
def tokenize_tweet(document):
    # 统一处理使查询不区分大小写
    document = document.lower()
    # 根据特定标记在推特文档中查找并确定关键部分信息的位置索引
    # 这里的减1减3是对引号逗号切入与否的调整
    a = document.index("tweetid") - 1
    b = document.index("errorcode") - 1
    c = document.index("text") - 1
    d = document.index("timestr") - 3
    # 将推特文档中的tweetid和text内容主要信息提取出来
    document = document[a:b] + document[c:d]
    # 分词处理，并将单词转换为其单数形式
    terms = TextBlob(document).words.singularize()
    # 将分词后的词列表进行词形还原，并筛选出不属于无用词的有效词
    result = []
    for word in terms:
        # 将当前词转换为Word对象
        expected_str = Word(word)
        # 动词的还原操作
        expected_str = expected_str.lemmatize("v")
        if expected_str not in uselessTerm:
            # 筛去["text", "tweetid"]，添加到result中
            result.append(expected_str)
    return result

# 构建倒排索引表，存储term在每个doc中的TF with pairs (docID, tf)
# lnc：logarithmic tf, no idf and cosine normalization
def get_postings():
    global postings, N
    content = open(r"Tweets.txt")
    # 内容读取，每一条推特作为一个元素存储在lines中
    lines = content.readlines()
    for line in lines:
        N += 1
        # 预处理
        line = tokenize_tweet(line)
        # 提取处理后的词列表中的第一个元素，即推特文档的tweetid
        tweetid = line[0]
        # 提取后删除，不作为有效词
        line.pop(0)

        # 统计词项频率，记录每个词在当前文档中的出现次数
        tf = {}
        for word in line:
            if word in tf.keys():
                tf[word] += 1
            else:
                tf[word] = 1
        # logarithmic tf
        for word in tf.keys():
            tf[word] = 1 + math.log(tf[word])
        # 归一化，cosine normalization
        cosine = 0
        for word in tf.keys():
            cosine = cosine + tf[word] * tf[word]
        cosine = 1.0 / math.sqrt(cosine)
        for word in tf.keys():
            tf[word] = tf[word] * cosine

        # 将处理后的词列表转换为集合，获取其中的唯一词
        unique_terms = set(line)
        for key_word in unique_terms:
            if key_word in postings.keys():
                postings[key_word][tweetid] = tf[key_word]
            else:
                postings[key_word][tweetid] = tf[key_word]

# query标准化处理
def token(doc):
    # 将输入文本转换为小写字母，以便统一处理。
    doc = doc.lower()
    # 将文本拆分为单个词项，并尝试将词项转换为单数形式
    terms = TextBlob(doc).words.singularize()
    # 将分词后的词列表进行词形还原,返回结果列表result
    result = []
    for word in terms:
        expected_str = Word(word)
        expected_str = expected_str.lemmatize("v")
        result.append(expected_str)
    return result

# 计算query和各个文档的相似度
def similarity(query):
    global score_tid
    tf = {}
    # 统计词项频率
    for word in query:
        if word in tf:
            tf[word] += 1
        else:
            tf[word] = 1
    # 统计文档频率
    for word in tf.keys():
        if word in postings:
            df = len(postings[word])
        else:
            df = N
        # 对应ltn,logarithmic tf (l in leftmost column), idf (t in second column), no normalization
        tf[word] = (math.log(tf[word]) + 1) * math.log(N / df)
    # 计算相似度
    for word in query:
        if word in postings:
            for tid in postings[word]:
                if tid in score_tid.keys():
                    score_tid[tid] += postings[word][tid] * tf[word]
                else:
                    score_tid[tid] = postings[word][tid] * tf[word]
    # 按照得分（相似度）进行降序排序
    similarity = sorted(score_tid.items(), key=lambda x: x[1], reverse=True)
    return similarity


def Union(sets):
    return reduce(set.union, [s for s in sets])

def do_search():
    query = token(input("please input search query >> "))
    result = []
    if query == []:
        sys.exit()
    # set()去除查询词列表中的重复项
    unique_query = set(query)
    # 生成一个包含每个查询词对应的tweet的id集合的列表，并且利用Union()函数将这些集合取并集
    relevant_tweetids = Union([set(postings[term].keys()) for term in unique_query])
    print("一共有" + str(len(relevant_tweetids)) + "条相关tweet！")
    if not relevant_tweetids:
        print("No tweets matched any query terms for")
        print(query)
    else:
        print("the top 100 tweets are:")
        scores = similarity(query)
        i = 1
        for (id, score) in scores:
            if i <= 100:  # 返回前n条查询到的信息
                result.append(id)
                print(str(score) + ": " + id)
                i = i + 1
            else:
                break
        print("finished")

def main():
    get_postings()
    while True:
        do_search()

if __name__ == "__main__":
    main()

参考博客：信息检索实验2- Ranked retrieval model

Python进制 panyingwork Python python
Python进制数字默认是十进制0b或0B，二进制（[0,1]）：0b开头的数字（零b）0o或0O，八进制（[0,7]）：0o（零，小写o）0x或0X，十六进制（[0,9]与[A,F]）：0x（小写x）一、手动进制转换1.十进制转成其他进制十进制转二进制：除2取余，数字/2，包括最后的商，从下向上，取每一步计算的余数十进制转八进制：除8取余十进制转十六进制：除16取余2.其他进制转成十进制
UEFI与BIOS的比较_2020-05-11 尘世闲鱼底层开发 #UEFI 底层应用开发 uefi
BIOS 学习UEFI前先简单了解一下BIOS。BIOS功能：加电自检程序，用于开机时对硬件的检测。系统初始化代码，包括硬件设备的初始化，创建BIOS中断向量等。基本的外围I/O处理的子程序代码。CMOS程序设置。BIOS工作流程：加电自检（PowerOnSelfTest，POST）：检测关机设备是否正常工作，设备设置是否与CMOS（CMOS是是电脑主板上的一块可读写的RAM芯片，常用来保存BI
【IMU Kalman滤波器】9轴IMU传感器（加速度计、陀螺仪、磁力计）的卡尔曼滤波器算法研究（Matlab代码实现）然哥爱编程算法 matlab 开发语言
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、引言二、9轴IMU传感器原理及误差分析三、卡尔曼滤波器算法四、实验与结果分析五、结论与展望2运行结果3参考文献4Matlab代码、数据⛳️赠与读者‍做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努
企业司库-第一章企业财务转型视野中的企业司库 buzhanbing 大数据
什么是企业司库管理根据目前关于司库管理的研究成果，字面意思上理解其实很简单，司库就是存放资金的地方或者掌管资金的岗位。司库在大型企业集团的应用，使得这一概念得到了深化发展，资金管理拓展到了整个金融资源。为了更进一步地认知企业司库管理的概念，我们需将其与现实中的资金管理和财务公司进行比较，以对司库有更加深入的认知。企业司库管理的外延要大于资金管理。司库对比于财务公司更有利于发挥协同管理与战略性的资源
全球司库｜国资评价与司库管理能力成熟度模型用友智能财务全球司库人工智能金融科技
连载导语司库体系建设是企业实现财务数字化转型和资金管理现代化的重要手段，是企业实现战略转型和高质量发展的关键支撑，也是企业应对复杂多变的全球经济环境和风险挑战的重要保障。司库承担着组织中的领导和战略引导作用，越来越多的企业以司库建设为抓手，加快推进自身财务数智化转型。用友深耕领域资金二十余年，持续研究企业司库建设的经验与运行规律，2024年发布了最新一期的司库白皮书。本期将为大家分享第九期：资金进
全球司库 | 国投集团：重构司库平台，统筹全球资源用友智能财务全球司库金融科技
截至“十三五”末，国投集团财务信息化建设取得了一定的成果，支撑了财务管理工作，但在数字化、智能化时代的大背景下，与集团建设“新国投”、打造“强总部”的管理要求还需统筹规划与提升。01企业简介国家开发投资集团有限公司（简称“国投集团”）成立于1995年，是中央直接管理的国有重要骨干企业，是中央企业中唯一的投资控股公司，是首批国有资本投资公司改革试点单位。连续19年在国务院国资委经营业绩考核中荣获A级
世界一流|深化数智财务共享，夯实央企财务数智化转型根基用友智能财务大数据金融国企科技会计
摘要：数智财务，共享先行。企业财务数智化建设历经三大阶段：1.0阶段，企业构建财务共享中心，变革组织架构与职能，优化融合流程，支撑企业高效运营；2.0阶段，在财务共享稳定运行基础上，推进全财务领域数智化升级，助力企业打造世界一流财务管理体系；3.0阶段，深度整合智能技术，深化数智财务应用。不断深化的数智财务共享体系是中央企业财务数智化转型的有力支撑。关键词：数智财务；财务数智化；财务共享；财务管理
第23节课：前端调试技巧—掌握浏览器开发者工具与性能优化学问小小谢 HTML学习前端性能优化交互 html5 安全学习
目录浏览器开发者工具常见的浏览器开发者工具浏览器开发者工具的基本使用打开开发者工具开发者工具的面板使用开发者工具进行调试Elements面板检查和编辑HTML检查和编辑CSSConsole面板输出日志和调试信息执行JavaScript代码Network面板监控网络请求分析请求和响应Performance面板记录和分析性能优化性能Application面板检查和管理资源调试存储性能优化与调试性能优化
第22节课：前端测试与调试—确保代码质量和性能的关键学问小小谢 HTML学习前端学习服务器运维网络
目录前端测试的重要性测试类型：单元测试与集成测试单元测试单元测试的优点单元测试的实践集成测试集成测试的优点集成测试的实践测试框架：Jest与MochaJestJest的特点Jest的安装与使用MochaMocha的特点Mocha的安装与使用实践：使用Jest和Mocha进行前端测试示例：使用Jest进行单元测试示例：使用Mocha进行集成测试结语在现代软件开发中，测试和调试是确保代码质量和性能的关
使用 Nginx 实现动态图片加水印：技术探索与实践指南20250122 Narutolxy 前端技术干货分享 nginx 运维
使用Nginx实现动态图片加水印：技术探索与实践指南引言图片水印是一种广泛应用于保护图片隐私、防止盗用的重要手段。传统方式通常通过前端或后端实现水印处理，但两者各有局限性。本文探讨了一种基于Nginx的折中方案：通过Nginx代理拦截图片请求，动态添加水印并返回给前端。这种方法不仅安全高效，还能减轻后端压力，为开发者提供了一种灵活的实践思路。背景与问题分析在图片加水印的场景中，常见的实现方式包括：
Gradle依赖管理 & Kotlin DSL解析超低空MC kotlin 开发语言 android gradle java 移动开发
公共组件库依赖管理公共组件库项目采用了单project多module的模块化开发形式,在这样的项目结构下,如何去维护模块及外部依赖是一个我们不能回避的问题.在组件库阶段一及阶段二的研发过程中,我们遇到了以下与依赖相关的问题:如何在开发过程中统一各组件模块中的依赖及版本如何高效的解决,在开发过程中依赖本地组件模块;测试/发布过程中使用远端依赖的问题针对问题一,可以采用通用的组件库，从而实现各个模块中
如何写一份合格的大数据简历（附简历模板）教程 itLeeyw573 老板必点的高分简历 sqlite oracle mysql sql zookeeper kafka big data
一、简历的重要性简历是求职者给招聘者的第一印象，一份合格的简历能够快速让招聘者了解你的基本信息、工作经历、技能特长等，从而决定是否给予你面试机会。它是开启理想工作大门的钥匙，所以一定要重视起来。【编辑/下载】：大数据开发简历范文二、简历结构基本信息：包含姓名、性别、联系方式（电话、邮箱）、求职意向。姓名要突出显示，联系方式务必准确无误，求职意向明确且具体，比如“Java开发工程师”，让招聘者一眼就
构建新纪元：Gradle中Kotlin插件的配置全指南 2402_85758936 kotlin 开发语言 android
构建新纪元：Gradle中Kotlin插件的配置全指南引言Kotlin，这门现代、简洁的语言，正在逐渐成为Java平台的有力补充。随着Kotlin在Android开发中的广泛采用，以及对服务器端和Web开发的支持，Kotlin插件在Gradle中的配置变得尤为重要。本文将深入探讨如何在Gradle中配置Kotlin插件，以充分利用Kotlin语言的强大功能。Kotlin与Gradle插件Kotli
电控---基础篇 kyle~ 嵌入式单片机嵌入式硬件
一、时钟时钟控制器(ResetClockControl,RCC)：1.有低速高速两种(highspeed,HS与LowSpeed,LS)低速用于实时时钟(RealTimeClock,RTC)高速用于定时器,UART,ADC等多种外设2.有内外部两种(Internal,I与External,E)（1）Disable不用外部时钟，则自启动（强制）使用MCU核心内部时钟一般是不准的代名词（2）Cryst
matlab学习路线 kyle~ matlab matlab 学习信息可视化
阶段1：基础入门（1-2周）目标：熟悉MATLAB界面、基础语法和简单操作。学习内容：环境与界面：了解MATLAB的桌面布局（命令窗口、工作区、编辑器、当前文件夹）。学习如何创建脚本（.m文件）和实时脚本（.mlx文件）。掌握常用快捷键（如Ctrl+R注释、F5运行脚本）。基础语法：变量定义与数据类型（数值、字符、逻辑、矩阵、cell数组、结构体）。矩阵操作（创建、索引、切片、拼接），例如：A=[
1.“use strict“ 严格模式 - JS 个人意志想 #Little Points in JS 笔记开发语言 js 学习
JS严格模式JS严格模式是指令在JavaScript1.8.5（ECMAScript5、ES5）开始引入的；是一种旨在消除歧义、语法规范、维护安全的模式；通过语句"usestrict"进行声明。声明与作用域在文件头部声明，整个文件代码都要遵循严格模式；在函数内部开头声明，函数体遵循严格模式；函数的严格模式是最佳选择，没必要整个文件都严格，或者可以一个文件就写一个函数。限制不允许使用未声明的变量（对
组合总和 III - 深度优先搜索（DFS）解题思路与代码实现迪小莫学AI 深度优先算法
组合总和III-深度优先搜索（DFS）解题思路与代码实现问题描述给定一个整数k和一个目标数n，要求从数字1到9中找到所有可能的组合，组合的长度为k，并且所有数字之和为n。每个数字最多使用一次，且解集不能包含重复的组合。组合的顺序不重要。示例示例1：输入：k=3,n=7输出：[[1,2,4]]解释：1+2+4=7，只有这一种有效组合。示例2：输入：k=3,n=9输出：[[1,2,6],[1,3,5]
Elasticsearch from+size与scroll混合使用实现深度分页搜索爱喝咖啡的程序员 #分布式搜索引擎
目录一.需求二.思考三.实现方案一.需求环境准备:JDK1.8Elasticsearch7.3.1RestHighLevelClient客户端对Elasticsearch做深度分页，比如第1500页，每页20条记录，且需要支持前后翻页。二.思考由于index.max_result_window的限制，直接使用from+size无法搜索满足条件10000条以上的记录。如果贸然增大index.max_
FastAPI：一个贼快的Python Web框架程序媛千千 fastapi python
Python，作为一个强大而灵活的编程语言，提供了多种框架来简化Web开发过程。其中，FastAPI是一个很新但极其强大的库，它允许开发者以极简的代码高效地构建API。什么是FastAPI？FastAPI是一个现代、快速（高性能）的Web框架，用于构建API与Web应用程序。它基于标准Python类型提示这一特性，提供了多项功能，如数据验证、序列化、文档生成等。为什么选择FastAPI？速度：Fa
深入探索SQL中修改表字段属性的技巧与策略不一样的信息安全数据库 oracle sql
摘要在SQL中，修改表字段属性是一项常见的数据库管理任务。用户可以调整字段的数据类型、长度、默认值或注释，而无需更改字段名称。例如，varchar类型可转换为mediumtext或text，NVARCHAR2类型可转换为NCLOB。若需同时变更字段名称及其属性，亦可通过特定SQL语句实现。此外，修改字段的默认值同样可行。这些操作有助于优化数据库结构，提升数据存储和查询效率。关键词SQL修改字段,数
一个真正可用的docker-compse部署单机版kafka 版本2.x garen_dimon 软件研究 docker kafka 容器
注意：kafka3.x版本，Kafka3.x需要Java11或更高版本。确保系统已安装合适的Java版本。Kafka3.x推荐使用ZooKeeper3.5.x或更高版本。确保ZooKeeper集群与Kafka版本兼容。如果你计划使用KRaft模式替换传统的ZooKeeper模式，请确保你已经了解新模式的要求和配置。在网上搜索单机docker-compose部署kafka，出现最多的内容如下：ver
用SpringBoot+mysql+html实现ATM 系统总结与扩展 SAFE20242034 #一 SpringBoot spring boot mysql html
这里写目录标题ATM系统总结与扩展项目概述主要功能模块1.用户注册2.用户登录3.账户查询4.存款与取款5.转账6.修改密码7.销户系统改进建议功能扩展技术优化完整代码实现数据库表设计后端代码（SpringBoot示例）1.Account实体类2.AccountRepository接口3.AccountController类前端代码（HTML+JavaScript示例）实际开发与部署步骤**1.开
Java 核心与应用：Java 继承与多态码力全開《Java 核心与应用》java python 开发语言
目录Java核心与应用：Java继承与多态引言1.Java继承基础1.1什么是继承？1.1.1继承的语法1.1.2继承的类型1.2方法重写（Override）1.2.1方法重写的规则1.2.2方法重写vs方法重载1.3继承体系中的构造方法调用链1.3.1构造方法调用链的执行顺序1.4动态绑定原理与虚方法表1.4.1动态绑定的实现原理1.4.2虚方法表的结构1.5继承的缺陷与组合优于继承原则1.5.
Python3 【集合】项目实战：3 个新颖的学习案例李智 - 重庆 Python 精讲精练 -从入门到实战 python 经验分享案例学习编程技巧
Python3【集合】项目实战：3个新颖的学习案例以下是3个应用“Python集合”知识的综合应用项目，这些项目具有新颖性、前瞻性和实用性，每个项目都包含完整的代码、解释说明、测试案例和执行结果。基因序列比对文章推荐系统运行日志分析项目1：基因序列比对（集合运算与去重）项目描述在生物信息学中，比对两个基因序列的相似性。使用集合的交集和并集计算相似度。代码实现#基因序列（简化为字符串集合）seque
Spark Streaming的背压机制的原理与实现代码及分析 weixin_30777913 spark 大数据 python
SparkStreaming的背压机制是一种根据JobScheduler反馈的作业执行信息来动态调整Receiver数据接收率的机制。在Spark1.5.0及以上版本中，可以通过设置spark.streaming.backpressure.enabled为true来启用背压机制。当启用背压机制时，SparkStreaming会自动根据系统的处理能力来调整数据的输入速率，从而在流量高峰时保证最大的吞
30【进程名和进程id（pid）】学编程的闹钟从零开始学编程语言学习
进程名是由程序被启动时的文件名决定的，比如，桌面有一个文件1.exe，那么当1.exe被运行的时候，这个程序的进程名就是1.exe，所以进程名可以重复而进程id（pid）则是每个运行的程序有系统随机分配的一个唯一id（即每次运行不一样），与窗口句柄一样具备唯一性，是用来定位软件的
用友NC checkekey SQL 注入漏洞 403_found 漏洞复现 sql 数据库
免责声明本文旨在提供有关特定漏洞的深入信息，帮助用户充分了解潜在的安全风险。发布此信息的目的在于提升网络安全意识和推动技术进步，未经授权访问系统、网络或应用程序，可能会导致法律责任或严重后果。因此，作者不对读者基于本文内容所采取的任何行为承担责任。读者在使用本文信息时，必须严格遵循适用的法律法规及服务协议，自行承担一切风险与责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。一，产品
研发团队管理：如何应对工期非合理要求程序猿学长团队管理研发管理研发团队管理
关注公众号程序猿学长，获取大量免费学习资源和更多文章内容。在销售主导型公司中，面对CEO要求“三个月完成本应半年的项目”，研发管理者需要采取“系统性谈判+结构化交付+风险显性化”的组合策略。以下是具体应对框架，含操作步骤、工具使用和典型案例：一、需求解构与优先级重塑1.需求价值四象限分析高价值+高紧急高价值+低紧急低价值+高紧急低价值+低紧急需求池商业价值评估核心MVP分阶段交付简化方案暂缓或放弃
HDFS的读写流程步骤（附图文解析） m0_67265464 面试学习路线阿里巴巴 hdfs hadoop 大数据面试 intellij-idea
1、HDFS的写入流程：详细步骤：client发起文件上传请求，通过RPC与NameNode建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传；client请求第一个block该传输到哪些DataNode服务器上；NameNode根据配置文件中指定的备份数量及副本放置策略进行文件分配，返回可用的DataNode的地址，如：A，B，C；client请求3台DataNo
Python语言的安全开发慕璃嫣包罗万象 golang 开发语言后端
Python语言的安全开发引言在信息技术迅速发展的今天，网络安全问题愈发凸显。随着Python语言的广泛应用，尤其是在数据分析、人工智能、Web开发等领域，其安全问题越来越受到重视。Python作为一门高效且易于学习的编程语言，虽然在开发过程中为我们提供了很多便利，但如果忽视了安全性，将可能导致严重的安全漏洞和数据泄露等问题。因此，本文将围绕Python语言的安全开发展开讨论，重点分析常见的安全问
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

信息检索与数据挖掘 | 【实验】排名检索模型

文章目录

实验内容

相关概念

实验步骤

分词预处理

构建倒排索引表

计算query和各个文档的相似度

queries预处理及检索函数

对输入的文本进行词法分析和标准化处理

检索函数

调试结果

你可能感兴趣的:(#,信息检索与数据挖掘,大数据与数据分析,数据挖掘,人工智能)