叫我moonchild

合工大Python语言与系统设计大作业

Python选修课程序设计报告

设计题目: 利用flask+jQuery实现包含前后端的文本相似度分析项目

作者: moonchild

专业:计算机科学与技术

完成日期:2022/11/9

文章目录

Python选修课程序设计报告
- - 系统设计背景
  - - 问题描述:
    - 编程任务:
  - 设计
  - - 1. 设计思想
    - 2. 设计表示
    - 3. 核心算法
  - 用户手册
  - 测试
  - 进一步改进
  - 感想
  - 不想墨迹,直接看代码

系统设计背景

问题描述:

如何在大量的文本之中查找到最具代表性的特征文本?如何在海量文本之中去除重复内容?这是NLP(Nature Language Processing)领域的重要方向.也就是计算文本之间的相似度.其具有广泛的应用场景,从论文查重到搜索引擎排除相似内容,不一而足.

这是一个利用后端利用Python之中的第三方库+前端jQuery+bootstrap实现的分析两段文本之间的相似度的项目.用户可以在可视界面中上传txt文件或者输入文本, 经后端运算之后返回前端.

编程任务:

使用余弦定理计算两段文本之间的相似度.适用于短文本.此处涉及到两个python库:
1. jieba: 中文分词
2. scipy.spatial.distance.cosine,主要是余弦定理的计算,此处也可以自己手动造轮子来计算
3. 主要思路:
  1. 读取用户输入的文本
  2. 分词
  3. 对两段文本进行预处理,取两个文本主要词的并集,并且根据该并集生成
    每一段文本的特征向量
  4. 接下来便是对特征向量计算余弦值,也就是我们需要的相似度
simhash方法:
1. 这部分则主要适用于长文本,对于使用余弦定理来计算大量特征向量之间的相似度而言时空复杂度较高
2. 直接使用了网上开源的simhash算法,之后进行了封装,使其更加适用于本次大作业
前端界面:用户输入或者上传文件来与现有的语料库进行重复度分析,并且将用户上传的文本添加到语料库之中
1. 前端主要使用了html,css和jQuery来实现,jQuery实现了前后端通信
2. 后端使用flask框架
3. 主要思路:
  1. 用户上传文件或者输入文本
  2. 后端接收到前端的请求,并且将用户上传的文本或者文件进行处理,并且将处理后的文本添加到语料库之中
  3. 后端将处理后的文本与语料库中的文本进行相似度分析,并且返回给前端
  4. 前端接收到后端的返回值,并且将其展示在前端界面上.

设计

1. 设计思想

适用余弦定理计算文本相似度:
Simhash方法计算文本相似度

2. 设计表示

类名	成员类别	成员名	描述
ConsineSimilarity	函数	init()	构造函数
	@property 函数	Similarity()	获取用户输入的两段文本之间的相似度
	@staticmethod 函数	preprocessing()	对用户输入的文本进行预处理
	@staticmethod 函数	oneHot()	预处理,生成离散的One Hot编码
	属性	string1	文本1
	属性	string2	文本2
SimhashSimilarity
	函数	init()	构造函数
	@property 函数	getSimilarity	获取两个文本之间的相似度
	属性	string1	文本1
	属性	string2	文本2

2.1 后端函数：

数据类型	函数名称	描述
@app.router(“/”)	index()	主页
@app.router(“/text/file/”)	uploadFile()	用于上传文本的接口函数
@app.router(“/text/”)	getSimilarity()	获取用户输入的文本
bool	isFileExtensionAllowed()	判断用户上传文件的扩展名是否合法.本项目之中限制用户上传的文件格式为‘.txt’
str	readFile()	读取文本文件,并且返回与处理以后的文本
None	ProcessInput	考虑到Simhash方法在文本较短情况下的效果并不理想,而余弦定理方法处理效率较低,因此,文本较短时,此时不如使用余弦方法来进行计算.因此,该函数之中根据用户输入的文本的长度分别到用余弦方法和Simhash方法

2.2 前端函数

函数名	函数用途
`uploadText()`	该方法之中,调用jQuery提供的`ajax()`方法来像后端服务器发送文本
`uploadFile()`	该方法之中,调用jQuery提供的`ajax()`方法,将文件添加到表单对象之中,发送到后端server
一众隐函数	用于实现对界面按钮以及文本域的监听

3. 核心算法

余弦定理计算文本相似度

主要代码:

    def __init__(self, string1, string2):  # 如何判断用户输入的是一段文本还是一个文件路径????
        # 先假设用户输入的一段文本，首先去空格，去标点符号
        self.text1 = self.preprocessing(string1)
        self.text2 = self.preprocessing(string2)

    @staticmethod
    def preprocessing(text: str) -> str:
        return text.replace('\n', '').replace('\t', '').replace('\r', '').replace(' ', '')

    @staticmethod
    def oneHot(wordDict, keyWords):  # 预处理,生成离散的oneHot()编码
        oneHotCode = [0 for _ in range(len(wordDict))]
        for word in keyWords:
            oneHotCode[wordDict[word]] = 1
        return oneHotCode

    # 计算余弦相似度
    @property
    def Similarity(self):
        # extract_tags本身返回的就是出现频率最高的20个词,那么接下来的union至多40个单词
        text1 = jieba.analyse.extract_tags(self.text1)
        text2 = jieba.analyse.extract_tags(self.text2)

        union = set(text1).union(set(text2))  # 去重取并集

        # 为每个词添加索引,使用字典
        wordDict = dict(zip(union, range(0, len(union))))
        text1OneHotCode = self.oneHot(wordDict, text1)
        text2OneHotCode = self.oneHot(wordDict, text2)

        # 计算余弦相似度,使用scipy包里的cosine_similarity
        # return 1 - cosine_similarity([text1OneHotCode, text2OneHotCode])
        try:
            sim = cosine_similarity([text1OneHotCode, text2OneHotCode])

算法思想:

根据高中数学知识可以得知,通过余弦定理可以计算两个向量之间的夹角,同理,如果我们把一篇文章的特征词看作向量的话,那么如果两组特征向量之间的夹角小容易推知这两篇文章较为相似.我们首先利用jieba库提取出文章的关键词,之后计算出文章的关键词的OneHot()编码,在调用scipy提供的cosine_similarity()方法,可以得出文本之间的相似度

simhash方法

源代码:

class SimhashSimilarity:
    """
        调用Simhash库,计算文本相似度
    """

    def __init__(self, string1, string2):
        self.text1 = string1
        self.text2 = string2

    @property
    def getSimilarity(self):
        # 生成Simhash对象
        simhash1 = Simhash(self.text1)
        simhash2 = Simhash(self.text2)

        # 计算海明距离
        distance = simhash1.distance(simhash2)
        # 计算相似度
        similarity = 1 - distance / 64
        print("文本相似度:%.2f%%" % (similarity * 100))
        print()
        return similarity

算法思想

simhash算法对局部敏感,当文本相似时,计算所得hash数值仅有部分不同,而普通的hash方法对相似文本则会有天翻地覆的变化.因此,我们可以根据局部敏感哈希方法来判断文本的相似度.
主要步骤: 1. 分词 2. 哈希 3.加权 4. 合并 5 降维 6.计算哈希值的海明距离.
其实在实现的过程之中,考虑过爬取文本并且计算其哈希签名值群出道数据库之中作为语料库,但是时间紧促,再去学习数据库的操作时间来不及,因此还是设计了两段文件之间的相似度比较

前端JavaScript

源代码

$(function () {
    let FileOrInput = 0   //判断用户是上传文件还是直接上传文本,1为默认状态,表示文本
    let file1 = undefined;
    let file2 = undefined;
    let File = $("#inputFile");
    let Text = $("#inputText");
    Text.css("display", "none");
    File.css("display", "block");
    $("#formFile1").change(function (event) {
        file1 = event.target.files[0];
        if (file1) {
            console.log(file1);
        }
    })
    $("#formFile2").change((event) => {
        file2 = event.target.files[0];
        if (file2) {
            console.log(file2);
        }
    })

    function uploadText(event) {

        let text = $("#floatingTextarea1").val();
        let text2 = $("#floatingTextarea2").val();
        console.log(text);
        console.log(text2);
        event.preventDefault();
        let Form = new FormData();
        Form.append("text1", text);
        Form.append("text2", text2);
        $.ajax({
            url: "/text/",
            type: "POST",
            data: Form,
            processData: false,
            contentType: false,
            success: (result) => {
                alert("文本的相似度为:  " + result*100 + "%");
            }
        })

    }

    function uploadFile(event) {
        let Form = new FormData();
        Form.append("file1", file1);
        Form.append("file2", file2);
        $.ajax({
            url: "/text/file/",
            method: "POST",
            data: Form,
            processData: false,
            contentType: false,
            success: (res) => {
                console.log(res);
                alert('文件的相似度为:  ' + res*100 + '%');
            },
            error: (err) => {
                console.log(err);
                console.log(err.status);
            }

        })
    }

    $("#CommitBtn").click(function (event) {
        if (FileOrInput)
            uploadText(event)
        else {
            console.log(file1);  //此处可以获取到file
            console.log(file2);
            uploadFile(event);
        }
    })

    $("#btnradio1").click(function (event) {
        // 点击了按钮一以后,表示用户要提交文件,那么文本框隐藏
        console.log("click radio1")
        Text.css("display", "none");
        File.css("display", "block");
        FileOrInput = 0;
        console.log(FileOrInput);
    })
    $("#btnradio2").click(function (event) {
        console.log("click radio 2")
        File.css("display", "none");
        Text.css("display", 'block');
        FileOrInput = 1;
    })
});

代码说明
- 用户可以选择提交文件还是文本.
- 主要使用jQuery提供的ajax()方法来送出数据.

flask框架

源代码:

import os
import webbrowser

from flask import Flask, redirect, request, render_template, flash
from werkzeug.utils import secure_filename

import config
from main import SimhashSimilarity, CosineSimilarity, readFile, ProcessInput

app = Flask(__name__)
# 添加配置文件
app.config.from_object(config)
app.config.from_pyfile('config.py')


# 注册蓝图模块
# app.register_blueprint(bp)

@app.route('/')
def index():
    # 在这个函数之中将页面返回
    return render_template("index.html")


def isFileExtensionAllowed(filename: str) -> bool:
    if filename.rsplit('.', 1)[-1].lower() in config.ALLOWED_EXTENSION:  # 获取文件的扩展名
        return True
    else:
        return False


@app.route("/text/file/", methods=["GET", "POST"])
def uploadFile():
    file1 = request.files.get("file1")
    file2 = request.files.get("file2")
    fileList = os.listdir(config.UPLOAD_FOLDER)
    num = fileList.count(file1.filename)
    if num > 0:
        file1.filename = file1.filename.split('.')[0]+'({0})'.format(num)+'.txt'
    num = fileList.count(file2.filename)
    if num > 0:
        file2.filename = file2.filename.split('.')[0]+'({0})'.format(num)+'.txt'
    if file1 and file2:
        if isFileExtensionAllowed(file1.filename) and isFileExtensionAllowed(file2.filename):
            file1.save(os.path.join(app.config['UPLOAD_FOLDER'], secure_filename(file1.filename)))
            file2.save(os.path.join(app.config['UPLOAD_FOLDER'], secure_filename(file2.filename)))
            text1 = readFile(os.path.join(app.config['UPLOAD_FOLDER'], secure_filename(file1.filename)))
            text2 = readFile(os.path.join(app.config['UPLOAD_FOLDER'], secure_filename(file2.filename)))
            return str(ProcessInput(text1, text2))
        else:
            return "Error"


# 此路由用于获取用户输入的文本
@app.route("/text/", methods=["GET", "POST"])
def getSimilarity():
    text1 = request.form.get("text1")
    text2 = request.form.get("text2")
    print(text1, text2)
    res = ProcessInput(text1, text2)
    print(res)
    return res




if __name__ == '__main__':
    webbrowser.open("http://127.0.0.1:5000")
    app.run()

代码说明

主要是几个路由函数,分别为用户提供了几个传送数据的接口
对于重复提交的文件会在文件名添加(1)(2)这样的后缀

用户手册

用户可以选择提交文本还是提交txt文件,点击提交之后便会返回两段文本之间的相似度

测试

测试文本
测试文本选择了新华社的两篇报道,但是CSDN讲内容比较敏感,所以在此处删除了测试文本

文本1:新华社<坚持人民至上>的报道

测试结果

输出结果: 文本相似度为 51.5625%

进一步改进

理想中的版本是添加了利用python强大的网页爬取能力在主流网站上爬取一些文本存到数据库之中,这样用户可以上传单一文本来判断该文本的重复度,但是受到了几点限制:数据库操作,网页爬虫的学习在期中考试之前这一段时间很难完成,而且想要做到一个完善的查重程序需要很丰富的语料库,这个在短期时间内很难做到
仅仅是单页面,较为简陋,而且操作逻辑\交互不够丰富,用户体验较差.时间受限,仅仅完成了单页面,尽管借助了bootstrap丰富的组件库,但是对于页面的设计,还是没有一个很好的思路.
在写完大作业的一段时间之后,我了解到了python之中的gensim库,该库可以实现导入中文词向量模型,封装了使用余弦定理计算文本相似度的算法.不止于此,其中还包含更丰富的文本处理的算法.比如,返回几个词序列之中最不相似的一个词,再比如对一个词进行联想,返回其他类似的词语.等等等等.如果以后还有机会做类似的项目,会优先考虑使用gensim
可以让用户上传两个网站URL,通过爬虫获取网站文本内容,计算二者文本的相似度并返回.

感想

Python生态实在是丰富,人生苦短,我用python
继续练习了前端页面的编写,ajax函数发送数据的编写,暑假期间学习ajax的痛苦记忆犹新.由于server和前端页面都部署在本地,不涉及到跨域的问题,这也显得稍微容易了一些.
初步接触了后端的编写,初步了解了flask的语法,工作方式
这也是我Python必修课的课程大作业,由于时间仓促,当时对Python的掌握与使用也不够深入,所以在设计上有很多的瑕疵.可能这个项目和选修课课程核心: 数据的分析和处理关联不是很强,仅仅在文本相似度计算方面有些重合.的确,这是一个更加偏向工程化的项目,也是对暑假期间前端内容的复习,并且学习了一下后端是如何编写的.

不想墨迹,直接看代码

将代码上传到了Github上.可以无需解压zip文件,直接点击下面的链接进行访问

moonchildink/TextSimilarity

python 山脊图_（数据科学学习手札98）纯Python绘制满满艺术感的山脊地图 weixin_39780255 python 山脊图
1简介下面的这幅图可能很多读者朋友们都看到过，这是英国摇滚乐队JoyDivision在1979年发行的其第一张录音室专辑UnknownPleasures的封面，由艺术家PeterSaville基于射电脉冲星信号的数据图创作而成，成为了一种流行文化的符号标志。图1类似图1的风格，在地图制作中也存在着一种山脊地图，基于记录地表海拔信息的高程数据，我们可以利用水平方向上的基于实际位置海拔高度的曲线，来对
【Python 学习 / 5】函数详解（定义、参数、作用域、lambda、内置函数）卜及中 Python基础 python 学习开发语言
文章目录一、函数1.定义函数1.1基本函数定义1.2带参数的函数1.3带返回值的函数2.参数传递2.1位置参数2.2默认参数2.3可变参数2.3.1使用`*args`2.3.2使用`**kwargs`2.4参数的混合使用3.作用域3.1局部和全局变量3.2`global`关键字输出：3.3`nonlocal`关键字输出：4.lambda表达式4.1基本用法4.2与`map()`、`filter()
leetcode简单(181-200)python 九日火 leetcode python
762.PrimeNumberofSetBitsinBinaryRepresentation(e-181)GiventwointegersLandR,findthecountofnumbersintherange[L,R](inclusive)havingaprimenumberofsetbitsintheirbinaryrepresentation.(Recallthatthenumberofs
PaddleOCR面板恢复python脚本--针对pdf的面板恢复 zsh669 paddlepaddle ocr 百度 python pdf
问题在做一个项目的时候，使用PaddleOCR提供的模型，实现对图片或者pdf进行面板恢复，并保存为.docx文档。但是，官方的文档只提供了针对图片进行面板恢复的python脚本，没有提供pdf进行面板恢复的python脚本，官方只提供了pdf面板恢复的命令行使用方法，因此，我去看了PaddleOCR的源码，将命令行方法转换为python脚本准备工作环境配置和文档请参考：\ppstructure/
Python库 - transformers 司南锤 PYTHON库 python机器学习 python 开发语言
transformers库是由HuggingFace开发的一个非常流行的Python库，用于自然语言处理（NLP）任务。它提供了大量的预训练模型，这些模型可以用于各种NLP任务，如文本分类、问答、翻译、摘要生成等。以下是关于transformers库的详细介绍：1.主要特点预训练模型：transformers库包含了多种预训练的语言模型，如BERT、GPT、T5、XLNet等。这些模型在大规模文本
【NLP-04】tranformers库保姆级使用教程---以BERT模型为例云天徽上 NLP bert 人工智能深度学习自然语言处理机器学习 numpy 信息可视化
安装要安装一个非常轻量级的Transformers库，您可以执行以下步骤：1、打开终端或命令提示符。2、运行以下命令来安装Transformers库：pipinstalltransformers这将使用pip工具从PythonPackageIndex（PyPI）下载并安装Transformers库。请确保您的计算机上已经安装了pip。然后，您可以在Python代码中导入Transformers库：
利用 OpenCV 进行棋盘检测与透视变换萧鼎 python基础到进阶教程 opencv 人工智能计算机视觉
利用OpenCV进行棋盘检测与透视变换1.引言在计算机视觉领域，棋盘检测与透视变换是一个常见的任务，广泛应用于摄像机标定、文档扫描、增强现实（AR）等场景。本篇文章将详细介绍如何使用OpenCV进行棋盘检测，并通过透视变换将棋盘区域转换为一个标准的矩形图像。我们将基于一段Python代码进行分析，代码的主要任务包括：读取图像并进行预处理（灰度转换、自适应直方图均衡化、去噪）检测边缘并提取棋盘区域计
conda更换环境版本（比如torch版本）挨打且不服66 python python
找到想要的torch版本pytorch官网torch过往的版本创建新环境condacreate--namemyenvpython=3.8condaactivatemyenvconda虚拟环境中安装CUDA和CUDNN深度学习用显卡训练的时候，需要安装与显卡对应的cuda和cudnn。但不同的项目所支持的pytorch版本是不一样的，而pytorch版本和cuda版本之间又是互相依赖的，所以如果可以
流行编程语言全解析：优势、应用与短板 a小胡哦 python java c++c语言 javascript swift r语言
Python：优势Python以其简洁、易读的语法闻名，新手能快速上手。丰富的库和框架，能极大地提高开发效率。适用领域数据科学与分析：处理和分析大规模数据集，进行数据可视化。典型示例：Google用Python进行数据分析，处理海量数据以支持各种业务决策。机器学习与人工智能：构建和训练模型。典型示例：OpenAI在很多人工智能项目中广泛使用Python，如GPT系列模型的研发。网络爬虫：轻松从网页
用conda虚拟环境解决py+torch环境问题 SevenZS Note anaconda python
要事先安装wheelpipinstallwheelcondainstallnb_conda安装nb_conda这样可以在shell切换虚拟环境启动jupyternotebook后切换到虚拟环境创建虚拟环境condacreate-npython36python=3.6condaactivatepython36加载后再pip安装torch1.4+cu101所有版本torch放在某个文件夹，比如桌面后p
【报错】ImportError: cannot import name ‘get_refined_artifact_map‘ from ‘basicsr.losses.loss_util‘ 之群害马 python 深度学习 pytorch
ImportError:cannotimportname'get_refined_artifact_map'from'basicsr.losses.loss_util'(xxx/lib/python3.10/site-packages/basicsr/losses/loss_util.py)解决办法：找到basicsr库网站缺失的部分如下，补充到原来的xxx/lib/python3.10/site
Python 用pytorch从头写Transformer源码，一行一解释；机器翻译实例代码；Transformer源码解读与实战医学小达人 NLP LLMs GPT 深度学习人工智能 transformer python 机器学习
1.Transformer简介Transformer模型被提出的主要动机是解决序列处理任务的长距离依赖问题。传统的RNN和LSTM虽然能够处理序列任务，但因为它们在处理序列时需要一步步前进，因此其他信息无法立即对其产生影响，当序列变长时，长距离依赖的信息很可能会被丢失。为了解决这个问题，Transformer模型被设计出来，内核思想是利用自注意力机制，这样模型可以直接对输入序列的任意两个位置建立直
python正则表达式快速入门_Python 正则表达式入门 weixin_39955938 python正则表达式快速入门
本文主要为没有使用正则表达式经验的新手入门所写。转载请写明出处引子首先说正则表达式是什么？正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语：RegularExpression，在代码中常简写为regex、regexp或RE)，计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那
python正则表达式必知必会的基础豆子前端 python基础 python 正则表达式
文章目录正则表达式re.match()和re.search()SRE_Matchobjectre.match()re.search()（重点）re.flags小结re.sub()re.split()re.findall()re.fullmatch()re.compile()小结方法分类注意细节正则表达式网站参考资料正则表达式本文主要讲的是正则表达式在python中的简单使用，只介绍关键的几个方法函
在conda虚拟环境中安装jupyter lab-----deepseek问答记录溯源006 deepseek回答记录 conda jupyter ide
在Conda虚拟环境中安装JupyterLab的步骤如下：1.创建并激活Conda虚拟环境如果你还没有创建虚拟环境，可以使用以下命令创建一个新的虚拟环境并激活它：condacreate-nmyenvpython=3.x#将`myenv`替换为你的环境名称，`3.x`替换为所需的Python版本condaactivatemyenv2.安装JupyterLab在激活的虚拟环境中，使用以下命令安装Jup
单片机、嵌入式Linux开发大学自学路径 Oriental Son 嵌入式 MCU 单片机单片机学习 stm32 mcu linux
笔者所修读的专业为物联网工程，物联网工程是一门新兴的、热门的专业，其所涉及的学科更是又多又杂，既有计算机方向的编程语言（如C、C++、Java、Python等）、数据结构与算法、操作系统、移动端应用开发、机器学习等；软硬结合的方向有数字电路单片机开发、嵌入式Linux开发等；硬件、电路方向有电路分析、数字电路、模拟电路、传感器原理、RFID、FPGA开发等；涉及信号处理的有信号与系统、通信原理等。
深入解析 Poetry：Python 项目依赖管理的新宠，安装、使用及最佳实践潘智祥 python java 人工智能
在Python的世界里，管理项目依赖和虚拟环境一直是一个令人头疼的问题。虽然有pip和virtualenv这样的工具，但随着项目的复杂性增加，它们的局限性也逐渐显露出来。这时候，Poetry作为一个现代化的依赖管理工具应运而生。它不仅解决了项目依赖管理的问题，同时也集成了虚拟环境管理、发布等功能，成为了Python开发者的新宠。Poetry是什么？Poetry是一个用于管理Python项目依赖和构
【JAVA工程师从0开始学AI】，第二步：从强类型到动态语言：Java工程师的Python语法避坑指南架构默片 JAVA工程师从0开始学AI python java windows
这是一篇介绍Python语法与JAVA语法区别文章，让我们以对比的方式，来学习一下Python的语法。首先我们看一下下面的Python代码，和具体在java当中分别代表了什么意思numbers=[1,2,3,4,5,6,7,8,9]#①创建数字列表（像Java的ArrayList，但不用写泛型）odd_numbers=[]#②准备装奇数的空列表（类似Java的newArrayListnumbers
052_爬虫_爬虫相关概念（引用《尚硅谷Python爬虫教程（小）小白零基础速通》052章）一个有趣的昵称 python 爬虫开发语言
爬虫解释：通过程序，根据url（http://taobao.com）进行网页的爬取获取有用的信息实用程序模拟浏览器，去向服务发送请求，获取响应信息爬虫的核心爬取网页：爬取整个网页包含了网页中所的内容解析数据：将网页中得到的数据进行解析难点：爬虫和但爬虫之间的博弈爬虫的类型实例通用爬虫百度，360，Google，搜狗等搜索引擎功能访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务robot
为一位经验丰富的程序员量身定制Python学习路线人工智能首选语言：python Python新技术小黄人软件 chatGPT python 学习人工智能
人工智能首选语言：python必学。解释型语言(无编译这个环节)，直接执行代码，面向对象，脚本语言没基础在这里学为一位经验丰富的程序员量身定制Python学习路线，主要应关注于深化已有的编程知识和技能，并探索Python特有的高级特性。以下是推荐的学习路线：基础复习：如果对Python基础不熟悉，先从Python的基础语法、数据类型、控制流程等开始复习。高级语言特性：深入理解装饰器、上下文管理器、
强化学习：原理、概念与代码实践 AndrewHZ 深度学习新浪潮人工智能深度学习强化学习机器学习算法 deepseek
一、引言强化学习（ReinforcementLearning）作为机器学习的一个重要分支，旨在通过智能体（agent）与环境的交互，学习到最优的行为策略，以最大化长期累积奖励。它在机器人控制、游戏、自动驾驶、资源管理等众多领域都取得了显著的成功。本文将深入介绍强化学习的数学原理、核心概念，并通过公式推导来加深理解，同时结合一个具体的实例，使用Python语言进行代码实现，帮助读者全面掌握强化学习的
【Python基础】Python闭包：如何让你的代码拥有‘读心术’？陈序不懂程序 python 服务器 apache 网络开发语言数据库学习
第1章闭包概念与背景1.1闭包定义与理论基础闭包，这一术语源自数学逻辑，如今在计算机科学中占据着核心地位，尤其在面向对象和函数式编程领域中发挥着无可替代的作用。它是一种特殊的函数对象，不仅包含自身的代码逻辑，还携带着其定义时所处环境的部分状态，即对外部自由变量的引用。这种独特的“携带状态”特性赋予了闭包强大的功能和灵活性，使其成为实现抽象、封装、数据隐藏以及控制程序执行的关键工具。1.1.1闭包的
python学习列表字典集合面对对象编程闭包装饰器函数式编程作用域异常处理 Scikit-learn 机器学习 python 算法 python 学习开发语言
SIGIA_4Ppython学习列表字典集合面对对象编程闭包装饰器函数式编程作用域异常处理本文连接简介SIGIA_4P网址a.课程OKRObjectivesandKeyResults即目标与关键成果法目标，Objectives：掌握AI领域的Python开发成果1KR1linux目录结构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r864ykpN-16917885
尚硅谷爬虫note007 CSDNy666999 爬虫
一、urllib—异常1.urllib.error.HTTPError2.urllib.error.URLError#_*_coding:utf-8_*_#@Time:2025/2/1411:33#@Author:20250206-里奥#@File:demo26_异常#@Project:PythonProject10-14importurllib.requestimporturllib.error
【JAVA工程师从0开始学AI】，第四步：闭包与高阶函数——用Python的“魔法函数“重构Java思维架构默片 JAVA工程师从0开始学AI 人工智能 java python
副标题：当严谨的Java遇上"七十二变"的Python函数式编程历经变量战争、语法迷雾、函数对决，此刻我们将踏入Python最迷人的领域——函数式编程。当Java工程师还在用接口和匿名类实现回调时，Python的闭包已化身"智能机器人"，带着"记忆传承"的能力自由穿梭于代码之间。这里没有类的枷锁，函数既是武器又是盾牌，高阶函数组合出的"代码万花筒"，正是AI数据处理、模型训练的核心密码。本文将用J
【蓝桥杯集训·每日一题2025】 AcWing 6122. 农夫约翰的奶酪块 python 查理零世蓝桥杯 python 算法
Week12月17日农夫约翰的奶酪块农夫约翰有一块立方体形状的奶酪，它位于三维坐标空间中，从(0,0,0)(0,0,0)(0,0,0)延伸至(N,N,N)(N,N,N)(N,N,N)。农夫约翰将对他的奶酪块执行一系列QQQ次更新操作。对于每次更新操作，农夫约翰将从整数坐标(x,y,z)(x,y,z)(x,y,z)到(x+1,y+1,z+1)(x+1,y+1,z+1)(x+1,y+1,z+1)处切割
跟我一起学Python数据处理（六十八）：用图表让数据可视化 lilye66 信息可视化 python 开发语言 pandas
跟我一起学Python数据处理（六十八）：用图表让数据可视化大家好！在数据处理的学习道路上，我一直希望能和大家携手共进、共同成长。今天咱们继续深入学习Python数据处理中的重要内容——数据可视化。学会用合适的图表展示数据，不仅能让数据变得直观易懂，还能帮助我们发现数据背后隐藏的信息和规律。话不多说，咱们马上开始今天的学习之旅！一、不同图表的特点与应用场景在数据可视化的世界里，有各种各样的图表，每
跟我一起学Python数据处理（六十九）：用Bokeh实现数据可视化及时间序列数据处理 lilye66 信息可视化 python 开发语言 pandas
跟我一起学Python数据处理（六十九）：用Bokeh实现数据可视化及时间序列数据处理大家好！一直以来，我都希望能和各位小伙伴在Python数据处理的学习道路上并肩前行，共同进步。今天，咱们继续深入探索数据处理中的数据可视化环节，重点学习Bokeh库的使用以及时间相关数据的处理与展示。掌握这些知识，能让我们更高效地挖掘数据价值，把数据背后的故事清晰地呈现出来。话不多说，开启今天的学习之旅吧！一、B
借助 Python 的 SQLAlchemy 库查询数据米竹 SQL python mysql sqlserver
SQLAlchemy库是一个非常强大又相当灵活的库，它在关系型数据库与传统编程之间建起了一座桥梁。它允许我们使用原始的SQL执行查询，同时也提供了高级的方法来查询和更新数据库。本文仅简要介绍使用原生SQL执行查询部分。使用SQLAlchemy查询MySQL的数据首先需要安装sqlalchemy库和pymysql库；使用sqlalchemy的create_engine()方法，并借助pymysql驱
python使用SQLAlchemy进行mysql的ORM操作 Lucas在澳洲 Python python mysql 开发语言 1024程序员节
SQLAlchemy是什么SQLAlchemy是一个强大的PythonORM（对象关系映射）库，用于简化与关系型数据库的交互。通过将数据库表映射为Python类，SQLAlchemy使得开发者能够通过面向对象的方式来进行数据库操作，避免了直接使用SQL语句所带来的复杂性和安全风险。1.为什么使用ORM使用ORM具有以下优势：避免SQL注入：通过使用参数化查询，ORM可以有效地防止SQL注入攻击。可
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe