Mechanotrooper

Day10 【基于LSTM实现自回归语言模型文本续写任务】

基于LSTM实现文本续写任务

- - 目标
  - 数据准备
  - 程序说明
  - - 定义模型结构
    - 前向传播
    - 构建词表
    - 加载语料
    - 构建训练样本
    - 构建数据集
    - 训练模型
    - 文本续写
    - 困惑度计算
  - 训练过程展示

目标

本文基于给定的词表，将输入的文本以字符分割为若干个词，然后基于词表将词初步序列化作为训练网络的输入序列，将词后面一个词在词表中的序号作为输入标签，取连续序列文本片段长度作为输入序列的长度。之后经过Embedding、LSTM等网络层。因为生成的词是词表中某个词，因此模型输出为已知词表上的多类别概率分布，从而实现一个简单文本的续写任务。

数据准备

词表文件vocab.txt

语料文件语料训练文件

程序说明

定义模型结构

class LanguageModel(nn.Module):
    def __init__(self, input_dim, vocab):
        super(LanguageModel, self).__init__()
        self.embedding = nn.Embedding(len(vocab), input_dim)
        self.layer = nn.LSTM(input_dim, input_dim, num_layers=1, batch_first=True)
        self.classify = nn.Linear(input_dim, len(vocab))
        self.dropout = nn.Dropout(0.1)
        self.loss = nn.functional.cross_entropy

LanguageModel 类继承自 nn.Module，表示一个神经网络模型。
self.embedding: 嵌入层，用于将每个单词映射到固定维度的向量空间。
self.layer: LSTM 层，处理输入的序列数据。
self.classify: 全连接层，用于将 LSTM 的输出映射到词表大小的输出空间，即词汇的预测概率分布。
self.dropout: 丢弃层，避免过拟合。
self.loss: 使用交叉熵损失函数来计算损失。

前向传播

def forward(self, x, y=None):
    x = self.embedding(x)
    x, _ = self.layer(x)
    y_pred = self.classify(x)
    if y is not None:
        return self.loss(y_pred.view(-1, y_pred.shape[-1]), y.view(-1))
    else:
        return torch.softmax(y_pred, dim=-1)

输入 x 是词的索引，首先通过嵌入层转换成向量表示。
x, _ = self.layer(x) 通过 LSTM 层处理输入序列。
然后通过 self.classify 进行预测，得到每个词的概率分布。
如果有真实标签 y，则计算并返回损失；如果没有真实标签，则返回预测的概率分布。

构建词表

def build_vocab(vocab_path):
    vocab = {"": 0}
    with open(vocab_path, encoding="utf8") as f:
        for index, line in enumerate(f):
            char = line[:-1]
            vocab[char] = index + 1
    return vocab

从给定的文件 vocab_path 加载词表，词表是一个字典，每个字符对应一个唯一的索引。
词表中包含一个特殊的标记，索引为 0，用于填充。

加载语料

def load_corpus(path):
    corpus = ""
    with open(path, encoding="gbk") as f:
        for line in f:
            corpus += line.strip()
    return corpus

从文件 path 中加载语料，将每行的空格、换行符去掉，并将所有文本连接成一个长字符串。

构建训练样本

def build_sample(vocab, window_size, corpus):
    start = random.randint(0, len(corpus) - 1 - window_size)
    end = start + window_size
    window = corpus[start:end]
    target = corpus[start + 1:end + 1]
    x = [vocab.get(word, vocab[""]) for word in window]
    y = [vocab.get(word, vocab[""]) for word in target]
    return x, y

从语料中随机选取一个窗口 window_size 长度的子序列，并将其作为输入 x 和目标 y（目标 y 是输入 x 向后移一位的序列）。
每个字符都被映射为词表中的索引。

构建数据集

def build_dataset(sample_length, vocab, window_size, corpus):
    dataset_x = []
    dataset_y = []
    for i in range(sample_length):
        x, y = build_sample(vocab, window_size, corpus)
        dataset_x.append(x)
        dataset_y.append(y)
    return torch.LongTensor(dataset_x), torch.LongTensor(dataset_y)

根据需要的样本数量 sample_length 生成训练数据集 dataset_x 和 dataset_y。
每个样本是一个长度为 window_size 的输入序列和一个对应的目标序列。

训练模型

def train(corpus_path, save_weight=True):
    epoch_num = 10
    batch_size = 64
    train_sample = 50000
    char_dim = 256
    window_size = 10
    vocab = build_vocab("vocab.txt")
    corpus = load_corpus(corpus_path)
    model = build_model(vocab, char_dim)
    if torch.cuda.is_available():
        model = model.cuda()
    optim = torch.optim.Adam(model.parameters(), lr=0.01)
    print("文本词表模型加载完毕，开始训练")
    for epoch in range(epoch_num):
        model.train()
        watch_loss = []
        for batch in range(int(train_sample / batch_size)):
            x, y = build_dataset(batch_size, vocab, window_size, corpus)
            if torch.cuda.is_available():
                x, y = x.cuda(), y.cuda()
            optim.zero_grad()
            loss = model(x, y)
            loss.backward()
            optim.step()
            watch_loss.append(loss.item())
        print("=========\n第%d轮平均loss:%f" % (epoch + 1, np.mean(watch_loss)))

训练过程设置了训练轮数（epoch_num）、批大小（batch_size）等超参数。
对于每个 epoch，通过 build_dataset 生成批量的训练数据，并使用优化器 optim 和 LSTM 模型来计算并更新模型参数。

文本续写

def generate_sentence(openings, model, vocab, window_size):
    reverse_vocab = dict((y, x) for x, y in vocab.items())
    model.eval()
    with torch.no_grad():
        pred_char = ""
        while pred_char != "\n" and len(openings) <= 30:
            openings += pred_char
            x = [vocab.get(char, vocab[""]) for char in openings[-window_size:]]
            x = torch.LongTensor([x])
            if torch.cuda.is_available():
                x = x.cuda()
            y = model(x)[0][-1]
            index = sampling_strategy(y)
            pred_char = reverse_vocab[index]
    return openings

通过给定的 openings（生成的文本前缀）和训练好的模型生成一段文本，直到生成换行符或达到最大长度（30个字符）。
sampling_strategy 用于控制生成策略（贪心策略或随机采样）。

困惑度计算

def calc_perplexity(sentence, model, vocab, window_size):
    prob = 0
    model.eval()
    with torch.no_grad():
        for i in range(1, len(sentence)):
            start = max(0, i - window_size)
            window = sentence[start:i]
            x = [vocab.get(char, vocab[""]) for char in window]
            x = torch.LongTensor([x])
            target = sentence[i]
            target_index = vocab.get(target, vocab[""])
            if torch.cuda.is_available():
                x = x.cuda()
            pred_prob_distribute = model(x)[0][-1]
            target_prob = pred_prob_distribute[target_index]
            prob += math.log(target_prob, 10)
    return 2 ** (prob * ( -1 / len(sentence)))

困惑度是衡量语言模型预测性能的一个指标，通常用于评估模型在处理文本时的表现。困惑度是文本的预测概率的倒数的几何平均值。

困惑度低表示模型预测较准确，即交叉熵较低。
困惑度越低，表示模型的预测能力越强。
困惑度可以理解为模型对文本序列的平均不确定性。

其计算公式如下：

困惑度公式

$\text{PPL}(S) = 2^{H(S)}$

其中， $H (S)$ 是文本序列 $S$ 的 交叉熵（Cross-Entropy）。

交叉熵公式

对于给定的文本序列 $S = (w_1, w_2, ..., w_N)$ ，如果模型的概率分布为 $p(w_1, w_2, ..., w_N)$ ，交叉熵 $H (S)$ 的计算公式为：
$\frac{1}{N} \sum_{i=1}^{N} \log_2 p(w_i | w_1, ..., w_{i-1})$

$N$ ：序列的长度。
$p(w_i | w_1, ..., w_{i-1})$ ：在给定前 i-1个词的情况下，模型对第 $i$ 个词 $w_i$ 的预测概率。

全部代码

#coding:utf8

import torch
import torch.nn as nn
import numpy as np
import math
import random
import os
import re

"""
基于pytorch的LSTM语言模型
"""


class LanguageModel(nn.Module):
    def __init__(self, input_dim, vocab):
        super(LanguageModel, self).__init__()
        self.embedding = nn.Embedding(len(vocab), input_dim)
        self.layer = nn.LSTM(input_dim, input_dim, num_layers=1, batch_first=True)
        self.classify = nn.Linear(input_dim, len(vocab))
        self.dropout = nn.Dropout(0.1)
        self.loss = nn.functional.cross_entropy

    #当输入真实标签，返回loss值；无真实标签，返回预测值
    def forward(self, x, y=None):
        x = self.embedding(x)       #output shape:(batch_size, sen_len, input_dim)
        x, _ = self.layer(x)        #output shape:(batch_size, sen_len, input_dim)
        y_pred = self.classify(x)   #output shape:(batch_size, sen_len，vocab_size)
        if y is not None:
            return self.loss(y_pred.view(-1, y_pred.shape[-1]), y.view(-1))
        else:
            return torch.softmax(y_pred, dim=-1)

#加载字表
def build_vocab(vocab_path):
    vocab = {"":0}
    with open(vocab_path, encoding="utf8") as f:
        for index, line in enumerate(f):
            char = line[:-1]       #去掉结尾换行符
            vocab[char] = index + 1 #留出0位给pad token
    return vocab

#加载语料
def load_corpus(path):
    corpus = ""
    # 把所有语料去掉空格、换行、制表符后合并为一行
    with open(path, encoding="gbk") as f:
        for line in f:
            corpus += line.strip()
    return corpus

#随机生成一个样本
#从文本中截取随机窗口，前n个字作为输入，最后一个字作为输出
def build_sample(vocab, window_size, corpus):
    start = random.randint(0, len(corpus) - 1 - window_size)
    end = start + window_size
    window = corpus[start:end]
    target = corpus[start + 1:end + 1]  #输入输出错开一位
    # print(window, target)
    x = [vocab.get(word, vocab[""]) for word in window]   #将字转换成序号
    y = [vocab.get(word, vocab[""]) for word in target]
    return x, y

#建立数据集
#sample_length 输入需要的样本数量。需要多少生成多少
#vocab 词表
#window_size 样本长度
#corpus 语料字符串
def build_dataset(sample_length, vocab, window_size, corpus):
    dataset_x = []
    dataset_y = []
    for i in range(sample_length):
        x, y = build_sample(vocab, window_size, corpus)
        dataset_x.append(x)
        dataset_y.append(y)
    return torch.LongTensor(dataset_x), torch.LongTensor(dataset_y)

#建立模型
def build_model(vocab, char_dim):
    model = LanguageModel(char_dim, vocab)
    return model

#文本生成测试代码
def generate_sentence(openings, model, vocab, window_size):
    reverse_vocab = dict((y, x) for x, y in vocab.items())
    model.eval()
    with torch.no_grad():
        pred_char = ""
        #生成了换行符，或生成文本超过30字则终止迭代
        while pred_char != "\n" and len(openings) <= 30:
            openings += pred_char
            x = [vocab.get(char, vocab[""]) for char in openings[-window_size:]]
            x = torch.LongTensor([x]) # 以一个数据作为batch传进去
            if torch.cuda.is_available():
                x = x.cuda()
            y = model(x)[0][-1]
            index = sampling_strategy(y)
            pred_char = reverse_vocab[index]
    return openings

def sampling_strategy(prob_distribution):
    if random.random() > 0.1:
        strategy = "greedy"
    else:
        strategy = "sampling"

    if strategy == "greedy":
        return int(torch.argmax(prob_distribution))
    elif strategy == "sampling":
        prob_distribution = prob_distribution.cpu().numpy()
        return np.random.choice(list(range(len(prob_distribution))), p=prob_distribution)


#计算文本ppl
"""困惑度是序列预测概率的倒数的几何平均值。
如果模型对词序列的预测越准确，困惑度就越低。
"""
def calc_perplexity(sentence, model, vocab, window_size):
    prob = 0
    model.eval()
    with torch.no_grad():
        for i in range(1, len(sentence)):
            start = max(0, i - window_size)
            window = sentence[start:i]
            x = [vocab.get(char, vocab[""]) for char in window]
            x = torch.LongTensor([x])
            target = sentence[i]
            target_index = vocab.get(target, vocab[""])
            if torch.cuda.is_available():
                x = x.cuda()
            pred_prob_distribute = model(x)[0][-1]
            target_prob = pred_prob_distribute[target_index]
            prob += math.log(target_prob, 10)
    return 2 ** (prob * ( -1 / len(sentence)))


def train(corpus_path, save_weight=True):
    epoch_num = 10        #训练轮数
    batch_size = 64       #每次训练样本个数
    train_sample = 50000   #每轮训练总共训练的样本总数
    char_dim = 256        #每个字的维度
    window_size = 10       #样本文本长度
    vocab = build_vocab("vocab.txt")       #建立字表
    corpus = load_corpus(corpus_path)     #加载语料
    model = build_model(vocab, char_dim)    #建立模型
    if torch.cuda.is_available():
        model = model.cuda()
    optim = torch.optim.Adam(model.parameters(), lr=0.01)   #建立优化器
    print("文本词表模型加载完毕，开始训练")
    for epoch in range(epoch_num):
        model.train()
        watch_loss = []
        for batch in range(int(train_sample / batch_size)):
            x, y = build_dataset(batch_size, vocab, window_size, corpus) #构建一组训练样本
            if torch.cuda.is_available():
                x, y = x.cuda(), y.cuda()
            optim.zero_grad()    #梯度归零
            loss = model(x, y)   #计算loss
            loss.backward()      #计算梯度
            optim.step()         #更新权重
            watch_loss.append(loss.item())
        print("=========\n第%d轮平均loss:%f" % (epoch + 1, np.mean(watch_loss)))
        sentence1 = generate_sentence("让他在半年之前，就不能做出", model, vocab, window_size)
        print(sentence1, "ppl值：", calc_perplexity(sentence1, model, vocab, window_size))
        sentence2 = generate_sentence("李慕站在山路上，深深的呼吸", model, vocab, window_size)
        print(sentence2, "ppl值：", calc_perplexity(sentence2, model, vocab, window_size))
    if not save_weight:
        return
    else:
        base_name = os.path.basename(corpus_path).replace("txt", "pth")
        model_path = os.path.join("model", base_name)
        torch.save(model.state_dict(), model_path)
        return


if __name__ == "__main__":
    # build_vocab_from_corpus("corpus/all.txt")
    train("corpus.txt", False)

训练过程展示

=========
第1轮平均loss:4.392599
让他在半年之前，就不能做出了一个人，他们的人影，说道：“你曾经 ppl值： 1.9966701716231285
李慕站在山路上，深深的呼吸，说道：“你们比我们的的人，你们怎么 ppl值： 2.191639233704626
=========
第2轮平均loss:4.020655
让他在半年之前，就不能做出一样。梅大人看着李慕，说道：“你们这 ppl值： 1.9009707069137618
李慕站在山路上，深深的呼吸口气，说道：“何事？”李慕道：“你们 ppl值： 1.8455512776830252
=========
第3轮平均loss:3.935250
让他在半年之前，就不能做出什么事情，就算是一个人，你们的话，你 ppl值： 2.001999826232699
李慕站在山路上，深深的呼吸的，说道：“你们的修为，你们的修为， ppl值： 1.9896320594914976
=========
第4轮平均loss:3.886380
让他在半年之前，就不能做出来，他们的修行者，你们的修行者，你们 ppl值： 1.9183123621654121
李慕站在山路上，深深的呼吸，说道：“你们的身体，我们的修行者， ppl值： 1.9155974694788018
=========
第5轮平均loss:3.869880
让他在半年之前，就不能做出火，李慕也不会有危险，李慕也不会有危 ppl值： 2.1028747398858734
李慕站在山路上，深深的呼吸了口气，说道：“我不是你们的身份，你 ppl值： 1.8643938342098927
=========
第6轮平均loss:3.834472
让他在半年之前，就不能做出来，他们相比，他们就是一个人迹，他们 ppl值： 2.185777249537648
李慕站在山路上，深深的呼吸，说道：“你们一样。”李慕看着李慕， ppl值： 1.8768523224392026
=========
第7轮平均loss:3.825364
让他在半年之前，就不能做出一个无数，李慕的身体，李慕的身影，说 ppl值： 1.9390962034912358
李慕站在山路上，深深的呼吸，说道：“你们的，还是我们的事情，我 ppl值： 1.904831412083304
=========
第8轮平均loss:3.808068
让他在半年之前，就不能做出了一个铜镜，李慕又走到，李慕又走到， ppl值： 1.9291944683376374
李慕站在山路上，深深的呼吸，说道：“你们的蛇妖，你们也不是，还 ppl值： 2.2240269549096894
=========
第9轮平均loss:3.808428
让他在半年之前，就不能做出了一个，打算是他犯下了，他们的修为， ppl值： 2.108446855075013
李慕站在山路上，深深的呼吸，说道：“你们，我们就是我们的，你们 ppl值： 2.0873199238763656
=========
第10轮平均loss:3.798536
让他在半年之前，就不能做出了一个，我们也不会到了，我们也不会来 ppl值： 2.0313443842526797
李慕站在山路上，深深的呼吸，说道：“你们一定要不是你们问你们的 ppl值： 2.105591155276767

2025 AI编程工具全景图：七强横评与实战落地实战指南杜哥无敌 AI应用人工智能
—深度拆解最新技术趋势，赋能开发者效率革命一、市场现状与演进趋势：从辅助工具到开发核心引擎2025年，AI编程工具已从“代码补全插件”进化为覆盖需求分析、编码、测试、部署的全流程智能伙伴。据Gartner数据，全球75%开发者依赖AI生成代码，头部企业25%的新代码由AI生成后人工审核。技术演进呈现三大特征：多模型协同：主流工具集成GPT-4o、Claude3.7、Gemini2.0等模型，动态切
AI--提升效率、驱动创新的核心引擎保持学习ing AI编程自动化低代码
自动化代码生成、低代码/无代码开发、算法优化实践等新兴技术在软件开发领域正逐渐崭露头角。这些技术为开发者提供了更高效、更便捷的开发方式，大大提升了软件开发的效率和质量。本文重点探讨的是这些技术在实际应用中的价值和优势。1、自动化代码生成1.1优势自动化代码生成是利用机器学习和人工智能技术，通过分析需求和已有代码，生成可用的代码片段或完整的程序。这种技术可以极大地减少开发人员的工作量，提高开发效率。
[Python] -基础篇6-Python中的字符串处理技巧合集踏雪无痕老爷子 Python python 开发语言
Python中的字符串类型是非常常用的基础类型。不管是处理文本、数据分析，还是系统管理等场景，都不能离开字符串的操作。本文将分类整理Python字符串的常用技巧和方法，帮助你接地气地接触字符串处理的本质。1.基础操作1.1字符串切片s="Hello,Python!"print(s[0:5])#Helloprint(s[-7:])#Python!1.2字符串连接和处理name="Alice"gree
flutter结合ai工具（其他语言通用）程一个大前端 flutter 人工智能
一、为什么Flutter开发者需要免费AI工具？1.减少重复性编码Flutter开发中，UI组件、网络请求、状态管理等代码高度重复，AI可自动生成这些代码。示例：输入"创建一个MaterialDesign风格的登录页面"，AI工具能生成完整代码，减少手动编写时间2。2.加速调试与错误修复AI可分析运行时错误，提供修复建议，甚至自动修复常见问题。案例：当Dart代码出现NullPointerExce
一款wordperss AI免费插件自动内容生成+前端AI交互+文章批量采集 Linkreate 前端人工智能 wordpress wordpressAI插件 wordpress免费插件 wordpress自动发文自动发文源码
一款LinkreatewordperssAI自动内容生成+前端AI会话窗口交互+文章批量采集免费插件1.SEO优化文章生成关键词驱动的内容生成：用户可以输入关键词或长尾关键词，插件会根据这些关键词生成高质量的SEO优化文章。文章结构清晰，语言自然流畅，符合SEO标准，能够有效提升网站内容的搜索引擎排名。自定义文章长度和要求：用户可以根据需要指定文章的长度（字数）以及对文章的额外要求，例如内容风格、
http相关网络问题面试怎么答 weixin_42339193 计算机网络前端 http
一、先明确HTTP的核心定义（基础层）首先用一句话概括HTTP的本质，让面试官快速了解你对核心概念的认知：“HTTP（HyperTextTransferProtocol，超文本传输协议）是一种用于在客户端（如浏览器）和服务器之间传输数据的应用层协议，它基于请求-响应模式，是互联网数据交互的基础（比如网页加载、API调用等都依赖HTTP）。”二、深入讲解HTTP的关键特性（知识深度）围绕HTTP的核
HTML之常用基础标签 AA-代码批发V哥 HTML html 前端
HTML之常用基础标签一、HTML文档基本结构标签1.``标签2.``标签3.``标签二、文本相关基础标签1.标题标签（``-``）2.段落标签（``）3.换行标签（``）4.强调标签（``和``）5.代码标签（``、``等）三、链接相关基础标签1.超链接标签（``）2.图像标签（``）四、列表相关基础标签1.无序列表（``和``）2.有序列表（``和``）3.自定义列表（``、``和``）五、表
SDL渲染一幅图像
环境配置下载源码:http://www.libsdl.org/download-2.0.php进入到SDL2-2.0.14\VisualC用visualstudio2019打开SDL.sln将工程升级到vs2019选择对的，debug|releasex64|x86进行编译生成相应的.dll、.pdb和.lib然后将对应的.dll、.pdb和.lib放到对应目录中，并配置值相应的工程目录API介绍1
从零开始：Python实现语音识别的完整教程_副本 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别开发语言 ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。我们将从基础概念讲起，逐步深入到实际代码实现，涵盖音频处理、特征提取、模型训练等关键环节，最终构建一个完整的语音识别系统。无论你是初学者还是有一定经验的开发者，都能从本教程中获得实用的知识和技能。背景介绍
markdown语法教学 7忆--栅 markdown vscode 笔记 visual studio code 其他
目录1.文章前面的目录生成2.标题3.字体3.1、字体的斜体/粗体/...3.2、字体的颜色3.3、字体的格式3.4、字体的大小3.5、文本注音3.6、文本高亮显示3.7、添加背景颜色附1：颜色+格式+大小+高亮+注音合体附2：颜色+格式+大小+背景颜色+注音合体4.引用5.分割线6.删除线7.下划线8.代码块9.公式块10.列表10.1、有序列表10.2、无序列表11.待办事项12.特殊符号13
从零开始：用Python构建AI语音识别应用的完整指南 AI大模型应用之禅人工智能 python 语音识别 ai
从零开始：用Python构建AI语音识别应用的完整指南关键词：Python语音识别、AI语音处理、语音转文本、SpeechRecognition库、端到端模型摘要：本文从0到1带您掌握用Python构建AI语音识别应用的全流程。我们将用“给小学生讲故事”的方式，拆解语音识别的核心概念（如音频采集、特征提取、模型解码），结合代码实战（从调用API到自定义模型），并覆盖环境搭建、常见问题和未来趋势。无
面向大语言模型幻觉的关键数据集：系统性综述与分类法致Great 语言模型人工智能自然语言处理
面向大语言模型幻觉的关键数据集：系统性综述与分类法摘要大语言模型（LargeLanguageModels,LLMs）在自然语言处理的多个领域取得了革命性进展，但其固有的“幻觉”问题——即生成看似合理但与事实不符或与上下文无关的内容——严重制约了其在关键应用中的可靠性与安全性。为了系统性地评估、理解并缓解LLM的幻觉现象，学术界和工业界开发了大量多样化的数据集与基准。本文对大模型幻觉领域的关键数据集
MyBatis Plus 常用注解需要重新演唱 web java mybatis java 数据库
MyBatisPlus是一个基于MyBatis的增强工具，旨在简化开发过程，提高开发效率。它提供了许多实用的功能，如代码生成器、分页插件、条件构造器等，使得开发者可以更专注于业务逻辑的实现，而不必过多关注MyBatis的配置和SQL编写。MyBatisPlus常用注解MyBatisPlus提供了丰富的注解，用于简化实体类和数据库表之间的映射关系。以下是一些常用的注解：1.@TableName用于指
Oracle 进阶语法实战：从多维分析到数据清洗的深度应用(第四课) AI、少年郎 oracle 数据库
在《Oracle树形统计再进阶》(第三课)基础上，我们跳出传统SQL聚合框架，探索Oracle特有的高级语法特性，包括多维分析神器MODEL子句、数据清洗利器正则表达式、PL/SQL存储过程优化，以及基于执行计划的查询调优技巧。这些技术能解决传统方法难以处理的复杂场景，如动态列生成、不规则数据清洗、批量数据处理等。一、MODEL子句：多维数据建模与动态透视业务场景：动态生成各部门全年度各季度请假类
导师要求一天完成综述，我7分钟搞定——打造一个全本地DeepResearch助手小洛~·~ 人工智能深度学习 chatgpt gpt AI写作
1.项目背景LocalDeepResearcher是一个本地化运行的AI研究助手，旨在通过结合大语言模型（LLM）和搜索工具，实现自动化深度研究并生成结构化报告。该项目由LangChainAI开发，支持本地模型（例如通过Ollama运行的deepseek-r1:7b）和云端模型（例如Claude、GPT），并集成了多种搜索引擎（如Tavily、DuckDuckGo）。其本地优先的设计确保了数据隐私
AI测试方法二狗子82 ai 功能测试测试用例 AIGC
1.创建高质量的测试数据集为了验证标签的准确性，需要构建一个丰富的测试数据集。该数据集应包括多种场景和风格的输入文本：正常对话、非正式对话、含有拼写错误或语法问题的文本等。包括模棱两可或复杂情境的文本，看看模型是否能正确分类。确保数据集中有足够的标签种类分布，这样可以测试模型是否能应对不同类别的文本内容。2.多轮对话的上下文跟踪对于涉及多轮对话或长文本的情况，模型需要正确理解整个对话的上下文。例如
非结构化文档的自动化敏感标识方法技术解析 KKKlucifer 自动化运维
在数字化时代，企业与组织面临的数据形态正发生深刻变革。据统计，非结构化数据占企业数据总量的80%以上，涵盖文本、邮件、PDF、日志、社交媒体内容等多种形式。这些数据中往往蕴含着大量敏感信息，如个人身份信息、商业机密、医疗记录等，一旦泄露将造成严重的安全风险。然而，非结构化文档缺乏统一的数据模型和格式规范，传统基于结构化数据的敏感信息识别方法难以直接应用，面临着三大核心挑战：语义理解复杂性：自然语言
acme自签证书
获取acme自签证书1、安装安装acmegitclonehttps://gitee.com/neilpang/acme.sh.gitcdacme.sh./[email protected]、获取阿里云ak/sk3、生成证书通过环境变量导入ak/skexportAli_Key="控制台获取ak"exportAli_Secret="控制台获取sk"生成证书(有效期3个月
信息抽取数据集全景分析：分类体系、技术演进与挑战_DEEPSEEK 致Great 分类数据挖掘人工智能
信息抽取数据集全景分析：分类体系、技术演进与挑战摘要信息抽取（IE）作为自然语言处理的核心任务，是构建知识图谱、支持智能问答等应用的基础。近年来，随着深度学习技术的发展和大规模预训练模型的兴起，IE数据集呈现爆发式增长，其分析与评估对模型研发和领域迁移至关重要。本文基于对158个主流IE数据集的系统性梳理，首次提出“信息提取与命名实体识别数据集分类体系”。该体系涵盖8大类别（命名实体识别、关系提取
自然语言处理之文本生成：Recurrent Neural Networks (RNN)：序列模型与语言模型 zhubeibei168 自然语言处理自然语言处理 rnn 语言模型人工智能机器翻译生成对抗网络
自然语言处理之文本生成：RecurrentNeuralNetworks(RNN)：序列模型与语言模型自然语言处理简介NLP的基本概念自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能领域的一个重要分支&#
Python 可迭代的对象、迭代器和生成器(标准库中的生成器函数) 钢铁男儿流程Python python java 前端
标准库中的生成器函数标准库提供了很多生成器，有用于逐行迭代纯文本文件的对象，还有出色的os.walk函数（https://docs.python.org/3/library/os.html#os.walk）。这个函数在遍历目录树的过程中产出文件名，因此递归搜索文件系统像for循环那样简单。os.walk生成器函数的作用令人赞叹，不过本节专注于通用的函数：参数为任意的可迭代对象，返回值是生成器，用于
腾讯云文件上传流程从未、淡定前端领域腾讯云 http https
文件上传流程actoruseras"用户"participantClientas"浏览器"participantServeras"服务端"participantCOSas"腾讯云"autonumberCOSClient:点击上传按钮user->Client:选择上传文件Client->Server:向服务端发起请求需要上传的文件名Server->COS:结合密钥，向COS请求生成__临时密钥__S
Typora用法是小崔啊其他编程知识 typora
Typora用法文章目录Typora用法一：typora快捷键1：任务列表2：文字常用修饰3：文本语法3.1：标题层级3.2：水平分割线3.3：表情3.4：超链接3.5：插入图片3.6：代码3.7：引用3.8：表注3.9：参考链接3.10：有序无序列表3.11：表格二：typora作图1：流程图2：时序图3：状态图4：类图5：饼状图6：甘特图三：数学公式1：分数和乘法2：开根号3：上下标4：向量点
arm系统移植 61u3 #6-arm linux ubuntu arm
目录1.流程2.概念2.1设备树2.2根文件系统2.3文件说明3.交叉编译链3.1作用3.2在linux下配置4.tftp4.1作用4.2安装过程5.nfs5.1作用5.2安装过程6.配置开发板7.linux下的uboot镜像烧写到SD卡中7.1生成uboot二进制文件，二进制文件就是裸机程序。7.2合成最终的uboot7.3通过dd命令把u-boot-iTOP-4412.bin烧写到SD卡中8.
【Go语言-Day 12】解密动态数组：深入理解 Go 切片 (Slice) 的创建与核心原理吴师兄大模型 Go 语言从入门到精通 golang 开发语言后端 go语言人工智能 LLM python
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
多模态大语言模型arxiv论文略读（144）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文笔记论文阅读
LARP:TokenizingVideoswithaLearnedAutoregressiveGenerativePrior➡️论文标题：LARP:TokenizingVideoswithaLearnedAutoregressiveGenerativePrior➡️论文作者：HanyuWang,SakshamSuri,YixuanRen,HaoChen,AbhinavShrivastava➡️研究
贪心算法（集合覆盖问题） RonzL 算法与数据结构贪心算法集合覆盖问题 java 算法
一、贪心算法概述贪心算法的核心思想可以总结为：贪心算法总是做出在当前看来最好的选择。也就是说贪心算法并不从整体最优考虑，它所做出的选择只是在某种意义上的局部最优选择。当然，希望贪心算法得到的最终结果也是整体最优的。虽然贪心算法不能对所有问题都得到整体最优解，但对许多问题它能产生整体最优解，如单源最短路经问题，最小生成树问题等。虽然在一些情况下，即使贪心算法不能得到整体最优解，但其最终结果却是最优解
2025年最值得关注的十大OCR模型，技术进化与应用突破全面解析！蜗牛沐雨 ocr 自动化
光学字符识别（OCR）技术已经完成了从“慢、误差高、功能单一”的旧时代，向“快速、精准、多场景全覆盖”的新纪元转变。今天，OCR不再是简单的图像转文本工具，而是支撑智能办公、文档自动化、跨语言内容处理以及视觉理解的核心技术。尤其在2025年，技术格局发生了显著变化：模型更轻量，支持更复杂的文本结构识别，具备强大的多语言和多模态处理能力，能应对实时场景识别甚至复杂的工业图像分析。本文整合了GitHu
推荐几本人工智能方面的书（入门级）人邮异步社区人工智能深度学习神经网络
以下推荐几本适合入门人工智能的书籍，帮助你逐步建立基础知识和理解：一、数学基础类《数学之美》推荐理由：深入浅出地讲解了自然语言处理与搜索方向的数学原理，对于理解算法背后的数学逻辑非常有帮助。本书的章节名称，有“统计语言模型”“谈谈中文分词”“贾里尼克和现代语言处理”“布尔代数和搜索引擎”“信息指纹及其应用”等，似乎太过专业，实际上高中和大学低年级的同学们都能看得懂，当然本书因此也可以称得上是“高级
C++———类与对象（中） dragoooon34 C++c++开发语言学习学习方法
引言书接上文类与对象（上），我们学习类与对象的一些基础知识，接下来我们接着学习。类的默认成员函数在C++中，当你定义一个类时，即使没有显式地声明某些成员函数，编译器也会为该类自动生成一些默认的成员函数。⼀个类，我们不写的情况下编译器会默认生成以下6个默认成员函数，需要注意的是这6个中最重要的是前4个，最后两个取地址重载不重要，我们稍微了解⼀下即可。其次就是C++11以后还会增加两个默认成员函数，移
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro