白衣西蜀梅子酒

NLP自然语言处理学习（一）——LSTM、GRU以及文本情感分类

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
- 1.循环神经网络（RNN）
- 1.1 文本的tokenization
- - 1.1.1 中英文分词的方法
  - 1.1.2 N-garm表示方法
  - 1.1.3 向量化
- 1.2 文本情感分类
- - 1.2.1 数据设置
- 1.2.2 文本序列化
- 1.3 循环神经网络
- 1.3.1 RNN的不同结构
- 1.3.2 LSTM（Long Short-Term Memory）
- 1.3.3 GRU（Gated Recurrent Unit）
- 1.3.4 双向LSTM
- 1.3.5 pytorch中的LSTM和GRU Api

前言

本文主要是记录了学习NLP相关的笔记，如有错误，还请不吝赐教。

1.循环神经网络（RNN）

1.1 文本的tokenization

tokenization 就是通常所说的分词，分出的每一词语我们把它称为token。

常见的分词工具：
1.jieba分词
2.清华大学的分词工具 THULAC

1.1.1 中英文分词的方法

1.把句子转化为词语
2.把句子转化为单个字

1.1.2 N-garm表示方法

前面我们说，句子可以由单个词来表示，但是由的时候，我们可以用2个、3个或者多个词来表示。

N-garm 一组一组的词，其中N表示能够被一起使用的词的数量。

例如：当N=2时

import jieba
test="我爱深度学习，我喜欢跑算法和代码！"
cuts=jieba.lcut(test)
result=[]
for i in range(len(cuts)-1):
    result.append([cuts[i],cuts[i+1]])
print(result)

在传统机器学习中N-gram效果比单个单词更好，但是在RNN中自带N-gram效果。

1.1.3 向量化

因为文本不能直接被模型计算，所以需要将其转化为向量。
把文本转化为向量由以下两种方法：
1.one-hot 编码：使用稀疏的向量表示文本，占用空间多。
2.Word embedding：
token—>num—>vector

torch 中的Embedding API

torch.nn.Embedding(num_embeddings,embedding_dim);

num_embeddings :词典数量
embedding_dim ：词典维度

embedding=torch.nn.Embedding(vocable_size,300)
input_embeded=embedding(input_x)

使用Embedding后，数据会增加一个维度，即Embedding_dim

1.2 文本情感分类

这里考虑使用IMDB数据来进行一个文本情感分析实践。

1.2.1 数据设置

import torch
from torch.utils.data import DataLoader,Dataset
import os
import re
data_base_path=r"..\data\aclImdb"
def tokenize(text):
    filters=['!','"','#','$','%','&','\(','\)','\*','\+',',','-','\.','/',':',
             ';','<','>','=','\?','@','\[','\\','\]','^','_','~','\{','\}','\|',
             '~','\t','\n','\x97','\x96','“','\0x93']
    text=re.sub("<.*?>"," ",text,flags=re.S)
    ## 将 text 中的特殊符号改为空格 包括 filters中的和 类似

    text=re.sub("|".join(filters)," ",text,flags=re.S)
    return [i.strip().lower() for i in text.split()]
class ImdbDataset(Dataset):
    def __init__(self,mode:str,use_binary:bool=False):
        super(ImdbDataset,self).__init__()
        self.use_binary=use_binary
        if mode=='train':
            text_path=[os.path.join(data_base_path,i) for i in ['train/neg',"train/pos"]]
        else:
            text_path=[os.path.join(data_base_path,i) for i in ["test/neg","test/pos"]]
        self.total_file_path_list=[]
        ## 获取所有文件路径
        for i in text_path:
            self.total_file_path_list.extend([os.path.join(i,j) for j in os.listdir(i) if j.endswith(".txt")])
    def __getitem__(self, idx):
        cur_path=self.total_file_path_list[idx]
        cur_filename=os.path.basename(cur_path)
        label = int(cur_filename.split("_")[-1].split(".")[0])

        text = tokenize(open(cur_path,encoding='utf-8').read().strip())
        if self.use_binary:
            label=1 if label>=5 else 0
        return label,text
    def __len__(self):
        return len(self.total_file_path_list)
def collate_fn(batch):
    #  batch是一个列表，其中是一个一个的元组，每个元组是dataset中_getitem__的结果
    batch = list(zip(*batch))
    labels = torch.tensor(batch[0], dtype=torch.int32)
    texts = batch[1]
    del batch
    return labels, texts
dataset=ImdbDataset(mode="train",use_binary=True)
dataloader=DataLoader(dataset=dataset,batch_size=2,shuffle=True,collate_fn=collate_fn)
if __name__=='__main__':
    print(dataloader)
    for idx ,datas in enumerate(dataloader):
        print(datas)

1.2.2 文本序列化

文本序列化所需要考虑的问题：
1.对于新出现的词语在词典中没有出现怎么办？（特殊字符代理）
2.不同句子的长度不相同，每个batch的句子如何构造成相同的长度（可以对短句子进行填充，填充特殊字符）
3.对于高频词和低频次有时需要进行过滤

from typing import List
class Word2Sequence:
    UNK_TAG="UNK"
    PAD_TAG="PAG"
    UNK=0
    PAD=1
    def __init__(self):
        self.dict={
     
            self.UNK_TAG:self.UNK,
            self.PAD_TAG:self.PAD
        }
        self.count={
     }
    def fit(self,sentence):
        for word in sentence:
            self.count[word]=self.count.get(word,0)+1
    def build_vocab(self,min:int=None,max:int=None,max_features:int=None):
        """
        生成词典
        :param min: 最小出现次数
        :param max: 最大出现次数
        :param max_features: 一共保留多少词语
        :return:
        """
        if min is not None:
            self.count={
     word:value for word,value in self.count if value>min}
        if max is not None:
            self.count={
     word:value for word,value in self.count if value<max}
        if max_features is not None:
            ## 由小到大排序
            temp=sorted(self.count.items(),key=lambda x:x[-1],reverse=True)[:max_features]
            self.count=dict(temp)
        ## 构造字典
        for word in self.count:
            self.dict[word]=len(self.dict)
        ## 得到反转的字典
        self.inverse_dict=dict(zip(self.dict.values(),self.dict.keys()))
    def transform(self,sentence:List[str],max_len:int=None):
        cur_len=len(sentence)
        if max_len is not None:
            if max_len>cur_len:
                sentence=sentence+[self.PAD_TAG]*(max_len-cur_len)
            if max_len<cur_len:
                sentence=sentence[:max_len]
        return [self.dict.get(word,self.UNK) for word in sentence]

    def inverse_transform(self,indices:List[int]):
        return [self.inverse_dict.get(idx) for idx in indices]
    def __len__(self):
        return len(self.dict)
if __name__=="__main__":
    ws=Word2Sequence()
    ws.fit(["我","是","谁","啊"])
    ws.fit(["我","爱","周陈静"])
    ws.build_vocab()
    ret=ws.transform(["我","爱","陈瑶瑶"])
    print(ret)

pytorch 中的embedding层是服从0-1正态分布的随机取值，并不具备word2vec等的特性，但是可以通过神经网络来进行训练。

1.3 循环神经网络

为什么有了神经网络还需要由循环神经网络？
在普通的神经网络中，信息的传递是单向的，这种限制虽然使得网络变得更容易学习，但在一定程度上也减弱了神经网络模型的能力。特别是在很多现实任务中，网络的输出不仅和当前时刻的输入相关，也和其过去一段时间的输出相关。
此外，普通网络难以处理时序数据，比如视频、语音、文本等，时序数据的长度一般是不固定的，而前馈神经网络要求输入和输出的维度都是固定的，不能任意改变，因此，当处理这一类和时序相关的问题时，就需要一种能力更强的模型。

循环神经网络（Recurrent Neural Network，RNN）是一类具有短期记忆能力的神经网络。在循环神经网络中，神经元不但可以接受其他神经元的信息，也可以接受自身的信息，形成具有环路的网络结构。换句话说：神经元的输出可以在下一个时间步直接作用到自身（作为输入）

1.3.1 RNN的不同结构

one to one: 图像分类
one to many：图像描述
many to one：文本分类，情感分析
many to many（异步）：文本翻译
many to many：根据视频的每一帧来对视频进行分类

1.3.2 LSTM（Long Short-Term Memory）

主要是针对于RNN无法较好的保持长期记录的问题。

遗忘门：
通过sigmoid函数来决定哪些信息会被遗忘

输入门
tanh会创造新的信息，而输入门则决定那些信息会被更新

输出门
决定那些信息会被输出

1.3.3 GRU（Gated Recurrent Unit）

它将遗忘门和输入门组合成一个更新门，合并了单元状态和隐藏状态。

1.3.4 双向LSTM

单向的RNN，是根据前面的信息去推出后面的，但有时候只看前面的词是不够的，也需要后面的信息，此时就需要一种机制，能够让模型不仅能够从前往后的具有记忆，还需要从后往前需要记忆。此时就引出了双向LSTM

由于是双向LSTM，所以每个方向的LSTM都会有一个输出，最终的输出会有两部分，所以往往需要concat操作。

1.3.5 pytorch中的LSTM和GRU Api

torch.nn.LSTM(input_size,hidden_size,num_layers,batch_first,dropout,bidirectional)

1.input_size: 输入数据的形状即embedding_dim
2.hidden_szie: 隐藏状态的特征数
3.num_layer:即RNN中的LSTM单元层数
4.batch_first:默认为False
5.dropout:随机失活比例，当num_layer>1才能使用
6.bidirectional：是否使用双向LSTM，默认为False

import torch.nn as nn
import torch
vocab_size=100
embedding_dim=30
hidden_size=20
batch_size=10
seq_len=20
input=torch.randint(low=0,high=100,size=[batch_size,seq_len])
embedding=nn.Embedding(vocab_size,embedding_dim)
input_embedded=embedding(input)
input_embedded=torch.transpose(input_embedded,0,1)
lstm=nn.LSTM(embedding_dim,hidden_size,num_layers=2)
output,(h_t,c_t)=lstm(input_embedded)
last_output=output[-1,:,:]
print(last_output==h_t[-1,:,:])

h 倒数第一个位后向，倒数第二个为前向
output则为前向第一个和后向的最后一个在最后一个维度上的拼接。

GRU也是类似与LSTM

文本情感分类代码：

import torch
import torch.nn as nn
import torch.nn.functional as F
from lib import ws
from dataset import *
from torch import Tensor
import numpy as np
class Model(nn.Module):
    def __init__(self):
        super(Model,self).__init__()
        self.hidden_size=128
        self.embedding_dim=200
        self.num_layer=2
        self.dropout=0.4
        self.bi_num=2
        self.max_len=200
        self.embedding=nn.Embedding(len(ws),200)
        self.lstm=nn.LSTM(self.embedding_dim,self.hidden_size,num_layers=self.num_layer,bidirectional=True,dropout=self.dropout)
        # self.lstm2=nn.LSTM(self.hidden_size,self.hidden_size)
        self.dropout=nn.Dropout(0.5)
        self.fc1=nn.Linear(self.hidden_size*2,64)
        self.relu1=nn.ReLU(inplace=True)
        self.bn1 = nn.BatchNorm1d(64)
        self.fc2=nn.Linear(64,2)
    def forward(self,inputs:Tensor)->Tensor:
        ## [batch_size,seq_len,embdding_dim]
        input_embedded=self.embedding(inputs)
        input_embedded=torch.transpose(input_embedded,0,1)
        output,(h_t,c_t)=self.lstm(input_embedded)
        output=torch.concat([h_t[-2,:,:],h_t[-1,:,:]],dim=-1)
        output=self.dropout(output)
        out=self.fc1(output)
        out=self.relu1(out)
        out = self.bn1(out)
        out=self.dropout(out)
        out=self.fc2(out)
        return out
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model=Model()
model.to(device)
batch_size=32
optimizer=torch.optim.Adam(model.parameters(),lr=0.001)
nw = min([os.cpu_count(), batch_size if batch_size > 1 else 0, 8])
dataset = ImdbDataset(mode="train", use_binary=True)
dataloader = DataLoader(dataset=dataset, batch_size=32, shuffle=True, collate_fn=collate_fn,num_workers=nw)
eval_dataset = ImdbDataset(use_binary=True)
eval_dataloader=DataLoader(dataset=eval_dataset,batch_size=32,shuffle=True,collate_fn=collate_fn,num_workers=nw)
def train():
    loss_func=nn.CrossEntropyLoss()
    for idx,(target,input) in enumerate(dataloader):
        input=torch.tensor(input,dtype=torch.int32)
        optimizer.zero_grad()
        output=model(input.to(device))
        loss=loss_func(output,target.to(device))
        loss.backward()
        optimizer.step()
        if idx%256==0:
            print(loss.item())
            torch.save(model.state_dict(),"./models/model.pth")
def eval():
    acc_list=[]
    loss_list=[]
    acc_num=0
    all_num=len(eval_dataset)
    for idx,(target,input) in enumerate(eval_dataloader):
        with torch.no_grad():
            input = torch.tensor(input, dtype=torch.int32)
            output=model(input.to(device))
            cur_loss=F.cross_entropy(output,target.to(device))
            loss_list.append(cur_loss.item())
            pred=output.max(dim=-1)[-1]
            cur_acc=pred.eq(target.to(device)).float().mean()
            acc_list.append(cur_acc.item())
    print("total loss,acc:",np.mean(loss_list),np.mean(acc_list))
if __name__=="__main__":
    for i in range(8):
        train()
        eval()

你可能感兴趣的:(NLP自然语言处理学习,自然语言处理)

TinyWebserver学习(6)-线程监听函数eventListen() THMOM91 c++
六、线程监听函数eventListen()一、相关知识总结1、setsockopt()函数setsockopt是用于设置套接字（socket）选项的系统调用，允许应用程序对套接字的行为进行更细粒度的控制。它通常用于配置网络通信的参数，例如超时、缓冲区大小、地址复用等。以下是详细的解析#include#includeintsetsockopt(intsockfd,intlevel,intoptnam
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研 Yolo566Q chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等 xiao5kou4chang6kai4 人工智能深度学习机器学习 rnn 语言模型 lstm 深度学习机器学习人工智能 DeepSeek
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
Spring Cloud与Alibaba微服务架构全解析 ithadoop 架构 spring cloud 微服务
SpringCloud与SpringCloudAlibaba微服务架构解析1.SpringBoot概念SpringBoot并不是新技术，而是基于Spring框架下“约定优于配置”理念的产物。它帮助开发者更容易、更快速地创建独立运行和产品级别的基于Spring框架的应用。SpringBoot中并没有引入新技术，对Spring框架熟悉的开发者在学习SpringBoot时会更加容易。SpringClou
《量化开发》系列第 1 篇：金融知识基础入门指南（附 GitHub 学习项目） Natsume1710 金融 github 学习
本文为《量化开发学习路线与知识点》专栏的第一篇参考项目：Awesome-QuantDev-Learn量化金融是金融经济学与计算机科学交叉融合形成的新兴行业，越来越多的技术人才正积极投身其中。然而，面对纷繁复杂的金融概念与专业的开发技能，许多人常常感到无从下手。本专栏将为C++/Python工程师、自学者、量化岗求职者提供系统清晰的学习路径。本篇文章聚焦于量化开发所需的金融基础知识，帮助技术人打下坚
C/C++连接mysql（api接口方法详解）陈七. 开发环境问题数据库 mysql c语言 c++数据库
文章目录前言代码笔记CAPI基本接口概述附1：CAPI基本数据结构参考附2：CAPI基本函数参考前言本篇记录C/C++连接mysql利用mysql的api接口的方法：这个方法的代码基本上很久都没有变过了，这里做个笔记来简单学习一下，还有一种方法等有时间了解后再来更新使用API的方式连接，需要先做环境配置，加载mysql的头文件和lib文件。可以看我之前的一篇文章VS中C/C++访问MySQL数据库
二分查找快速理解
作为数据结构接触到的入门第一个算法，很多人对它不以为然，但是作为小白学习还是很有必要的，循序渐进，打开算法的大门假如你要登录王者荣耀，当你这样做时，QQ或者微信必须核实你是否有其游戏的账户，因此在数据库中查找你的用户名和账号。如果你的用户名为king，腾讯可以从以A开头的部分开始查找，但更合乎逻辑的做法是从中间开始查找。二分查找是一种算法，要求输入是一个有序的元素列表，我们结合程序的话，如果要查找
自学Python笔记开篇奔跑吧茄子 python
自学Python笔记开篇突然喜欢上了Python，大体研究了一下，写了一个excel数据比对的小工具，边学边写，收获很多。这期间学习了xlrd、openpyxl、pandas处理excel文件的基本常识，有时间整理一下，对菜鸟入门或许有帮助。
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模 asyxchenchong888 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等科研应用科研的力量人工智能 ChatGPT chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
音视频学习（二十三）：srs+ffmpeg实现rtmp的推拉流却道天凉_好个秋音视频学习音视频学习 ffmpeg
rtmp协议：https://blog.csdn.net/www_dong/article/details/131026072rtmp收流：https://blog.csdn.net/www_dong/article/details/135073488rtmp发流：https://blog.csdn.net/www_dong/article/details/135254847安装和配置SRS服务器
**基于Python的数据分析与机器学习实战教程****一、引言**随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言， 2401_89451588 python 数据分析机器学习
基于Python的数据分析与机器学习实战教程一、引言随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言，在数据分析领域得到了广泛的应用。本文将介绍如何使用Python进行数据分析，并结合机器学习算法实现数据驱动的应用。二、Python基础首先，我们需要掌握Python的基本语法和常用的库。Python的语法简洁易懂，上
基于机器学习的超音速流场实时控制——Python/C++混合编程实战莱歌数字数字化转型 #职场经验 #结构热设计机器学习 python c++
作者简介：科技自媒体优质创作者个人主页：莱歌数字-CSDN博客公众号：莱歌数字个人微信：yanshanYH211、985硕士，职场15年+从事结构设计、热设计、售前、产品设计、项目管理等工作，涉足消费电子、新能源、医疗设备、制药信息化、核工业等领域涵盖新能源车载与非车载系统、医疗设备软硬件、智能工厂等业务，带领团队进行多个0-1的产品开发，并推广到多个企业客户现场落地实施。专题课程Flotherm
Awesome-SIEMENS 西门子1847 学习视频整理 Z@= PLC 可编程控制器网络 iot 智能硬件学习方法硬件架构
基于西门子1847学习平台所整理的工业自动化相关学习视频，希望方便查找所需要资源，获取所需技能，由于时间有限，不定时但持续更新。想要交流或学习相关资源，请私信联系或微信PRE_ZHY联系，添加请注明西门子资源文章目录1.基础知识与技能1.1编程1.2网络知识1.3运动相关1.4其他知识2.硬件2.1PLC2.2变频驱动及伺服G120S120V20V90变频器故障及维护2.3工控机2.4电源2.5西
【知识图谱构建系列1】数据集介绍几道之旅人工智能智能体及数字员工 Python杂货铺 AI 自建MCP 学习记录知识图谱
文章目录项目简介数据集简介数据集核心内容应用与影响小细节参考论文：hal.science/hal-04862214/项目地址：https://github.com/ChristopheCruz/LLM4KGC/项目简介我们所要学习的项目（LLM4KGC）聚焦于利用大语言模型（LLMs）实现从文本到知识图谱（Text-to-KnowledgeGraph,T2KG）的自动化构建，旨在探索高效可靠的知识
Python版-LeetCode 学习：438. 找到字符串中所有字母异位词 guyu1003 LeetCode算法字符串 python leetcode 算法
给定一个字符串s和一个非空字符串p，找到s中所有是p的字母异位词的子串，返回这些子串的起始索引。字符串只包含小写英文字母，并且字符串s和p的长度都不超过20100。说明：字母异位词指字母相同，但排列不同的字符串。不考虑答案输出的顺序。示例1:输入:s:"cbaebabacd"p:"abc"输出:[0,6]解释:起始索引等于0的子串是"cba",它是"abc"的字母异位词。起始索引等于6的子串是"b
2025年中总结 Just Jump 人生经历思考反思认知方法 2025年中总结
2025年中总结。一如往年惯例，总结近半年工作中的体悟和经验。一、把大而难的事拆解成小而具体的小目标。专注解决小目标，每周迭代交付，先完成再完善。1.1把大任务拆解成具体可执行的小目标2025年5月起我开始做大模型相关的技术调研、技术升级和开发工作。传统的机器学习、深度学习算法和大模型的算法在技术知识上还是有很大的差异的。想要快速转型使用大模型做开发、训练，是需要些时间和精力投入的，这并不是一个简
从零到云：我在达内一年的Linux云计算培训之旅
博客简介本篇博文中，我将从学员身份去分享过去一年里在达内教育培训有关Linux云计算的学习经历和收获，旨在为那些渴望踏入云计算领域的初学者提供一份指南参考，同时也尝试把笔记内容进行整理输出并分享给大家。无论你是刚接触IT的新手，还是希望通过报名培训机构转型的职场人，希望这份笔记能为你揭示关于培训机构里的Linux云计算基础知识和实践技巧。大纲概览培训笔记将按照机构课程顺序由简入深进行分享，总共分为
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
小程序学习笔记：判断分页数据边界，优化性能 you4580 学习笔记小程序
在小程序开发过程中，数据分页展示是常见的功能需求。但如果处理不当，可能会出现无效的数据请求，影响程序性能。今天咱们就来深入探讨如何在小程序开发里精准判断是否还有下一页数据，并避免发起多余请求。一、问题引入假设有80条美食数据，每页展示10条，理论上8页就能展示完。但在实际操作时，你有没有想过，会不会出现请求第9页、第10页数据这种情况呢？答案是肯定的。就像在开发美食类小程序时，用户不断上拉加载新数
小程序学习笔记：实现分页加载商铺列表数据并渲染 UI you4580 学习笔记小程序
在微信小程序开发中，实现分页加载指定分类下的商铺列表数据，并进行UI渲染是常见的功能需求。本文将详细介绍这一功能的实现过程，包括API接口调用、数据请求、数据处理以及UI渲染和样式美化，同时附上相应代码，帮助大家更好地理解和实践。一、API接口与数据请求（一）API接口地址我们要调用的API接口地址包含一个动态参数:cat_id，这个参数用于指定分类的ID。例如，如果要请求美食分类下的所有商铺列表
SafeMimic：迈向安全自主的人-到-机器人模仿移动操作三谷秋水智能体机器学习人工智能安全机器人人工智能机器学习
25年6月来自德州Austin分校的论文“SafeMimic:TowardsSafeandAutonomousHuman-to-RobotImitationforMobileManipulation”。机器人要想成为高效的家居助手，必须学会仅通过观察人类操作即可完成新的移动操作任务。仅凭人类的单个视频演示进行学习极具挑战性，因为机器人需要首先从演示中提取需要完成的任务及其方法，将策略从第三人称视角
【JAVA学习】泛型我不会写代码njdjnssj 学习
传统方法不能对加入到集合ArrayList中的数据类型进行约束，遍历的时候需要进行类型转换，如果集合中的数据量较大，对效率有影响。泛型又称参数化类型，是JDK5.0出现的新特性，解决数据类型的安全性问题，在类声明或实例化时只要指定好需要的具体类型即可。泛型的好处：1）编译时，检查添加元素的类型，提高了安全性。2）减少了类型转换的次数，提高效率。Dog->Dog->Dog不加泛型的话：Dog加入->
多模态AI：让机器像人一样“全感官”理解世界 Echo_Wish 前沿技术人工智能人工智能
多模态AI：让机器像人一样“全感官”理解世界咱们人类理解世界，从来不是只靠单一感官：眼睛看到画面，耳朵听到声音，皮肤感受到温度，嘴巴尝到味道，甚至鼻子闻到气味。正是这多感官的“多模态”输入，构筑了我们对复杂世界的深刻认知。而人工智能领域的多模态学习（MultimodalLearning），正是让机器拥有“多感官”理解能力的技术突破。今天，我想跟大家聊聊：多模态学习为何重要？当前有哪些创新模型？如何
2-感知机学习算法罗东琦统计学习笔记
感知机模型感知机学习策略学习算法算法收敛性对偶形式与线性SVM的异同感知机（perceptron）是一个线性二分类模型，其目的是寻找一个超平面将正负示例划分开，属于判别模型，也是神经网络与SVM的基础。感知机模型假设输入空间为χ⊆Rnχ⊆Rn，输出空间为Υ⊆{+1,−1}Υ⊆{+1,−1}。输入x∈χx∈χ表示实例的特征向量，输出y∈Υy∈Υ表示实例的类别。则下面的函数f(x)=sign(w⋅x+
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- PaddleOCR实例化 OCR 对象的参数介绍云天徽上 PaddleOCR python ocr 开发语言人工智能文字识别
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
感知机学习 Collin_NLP 机器学习 Python
基本概念：感知机是二类分类的线性分类模型，对应于特征空间中将实例划分为正负两类的分离超平面，属判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面。感知机的定义：从输入空间Rn到输出空间{+1,-1}的函数映射:f(x)=sign(w*x+b)模型参数：w----权值向量b----偏置wx+b=0-----分离超平面方程数据集{(xi,yi)}with1给定训练集，正例x1=(3,3)x
【微信小程序学习】搜索音乐页面代码实现 2401_84434880 程序员微信小程序学习 notepad++
}/*热搜榜*/.hotContainer.title{font-size:28rpx;height:80rpx;line-height:80rpx;border-bottom:1rpxsolid#eee;}.hotList{display:flex;flex-wrap:wrap;}.hotItem{width:50%;height:80rpx;line-height:80rpx;font-siz
最新人工智能硬件培训AI基础入门学习课程参考2025版（离线AI语音视觉识别篇）聆思科技AI芯片聆思大模型开发板实践分享语音识别人机交互人工智能视觉检测嵌入式硬件 mcu AI编程
前言端侧离线AI智能硬件作为AI技术的重要载体之一，凭借其无需依赖网络即可实现智能功能的特性，在一些网络条件受限或对数据隐私有较高要求的场景中，发挥着不可或缺的作用。本章基于CSK6大模型语音视觉开发板开箱即用的离线AI能力，分类列出学习课程知识点和实操参考，希望能够帮助大家快速掌握离线AI智能硬件的基础知识与实战技能，同时了解相关AI技术在实际场景的应用情况。正文按入下框架展开，相关理论和实操除
全网最全学习Zephyr开发中文教程资料汇总-从基础文档视频到上手实操示例聆思科技AI芯片 Zephyr保姆级上手教程 zephyr AIGC 多模态嵌入式硬件 iot 硬件工程驱动开发
Zephyr作为一款开源且极具灵活性与可扩展性的实时操作系统（RTOS），拥有原生的BLE协议栈、完整的Net协议栈，涵盖TCP/IP与应用层协议，具备出色的实时性，支持硬实时任务调度，确保系统响应的确定性延迟，并且内存占用极小。丰富的通信机制、深度集成的电源管理模式等，也进一步提升了其在嵌入式领域的竞争力。然而，要深入掌握Zephyr开发并非一蹴而就之事。为了方便大家顺利踏上Zephyr开发之路
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他