夏悠然然

微信公众号上部署自己训练的聊天机器人（腾讯云服务器+TensorFlow2.1+Django3.1）

文章目录

- 前言
- 1. 模型介绍
- - 1.1 Encoder-Decoder框架
  - 1.2 Attention机制
  - 1.3 代码实现
- 2. 安装依赖库
- 3. 模型部署
- 4. 测试

前言

哈哈，重头戏终于来了，经过两天的服务器配置、模型训练，今天终于在微信公众号上部署了自己使用TensorFlow训练的聊天机器人。
本篇博客主要介绍一下Seq2Seq模型，以及模型训练后的部署，使用的深度学习框架为TensorFlow2.1，GPU为Tesla P100（白嫖Kaggle的），由于网站有时间限制，只训练了两个epoch就先部署了哈，所以机器人目前还很沙雕。

有关腾讯云服务器配置流程和Django对接微信公众号以实现消息自动回复可以参考这两篇博客。

1. 模型介绍

$S e q 2 S e q$ 的全称是 $S e q u e n c e$ $t o$ $S e q u e n c e$ ，也就是我们常说的序列到序列模型，它是基于 $E n c o d e r - D e c o d e r$ 框架的 $R N N (R e c u r r e n t$ $N e u r a l$ $N e t w o r k, 循环神经网络)$ 变种。 $S e q 2 S e q$ 引入 $E n c o d e r - D e c o d e r$ 框架，提高了神经网络对长文本信息的提取能力，取得了比单纯使用 $L S T M (L o n g$ $S h o r t - T e r m$ $M e m o r y, 长短期记忆神经网络)$ 更好的效果。 $S e q 2 S e q$ 中有两个很重要的概念，一个就是上面提到的 $E n c o d e r - D e c o d e r$ 框架，另一个就是 $A t t e n t i o n$ 机制。这里简单介绍一下这两个概念。

1.1 Encoder-Decoder框架

$E n c o d e r - D e c o d e r$ 又称为编码器-解码器模型，顾名思义，它有两部分组成，即编码器和解码器。它是一种处理输入、输出长短不一的多对多文本预测问题的框架，其提供了有效的文本特征提取、输出预测的机制。
编码器的作用是对输入的文本信息进行有效的编码后，将其作为解码器的输入数据，其目的是对输入的文本信息进行特征提取，尽量准确高效地表征该文本的特征信息。
解码器的作用是从上下文的文本信息中获取尽可能多的特征，然后输出预测文本。根据对文本信息的获取方式不同，解码器一般分为4种结构，分别是直译式解码、循环式解码、增强式解码和注意力机制解码。

直译式解码：按照编码器的费那事进行逆操作得到的预测文本
循环式解码：将编码器输出的编码向量作为第一时刻的输入，然后将得到的输出作为下一个时刻的输入，依次进行循环解码
增强循环式解码：在循环式解码的基础上，每一时刻增加一个编码器输出的编码向量作为输入
注意力机制解码：在增强式循环解码的基础上增加注意力机制，这样可以有效地训练解码器在繁多的输入中重点关注某些有效特征信息，以增加解码器的特征获取能力，进而得到更好的解码效果。

1.2 Attention机制

虽然 $E n c o d e r - D e c o d e r$ 结构的模型在机器翻译、语音识别以及文本生成等诸多领域均取得了非常不错的效果，但同时也存在着不足之处。编码器将输入的序列编码成一个固定长度的向量，再由解码器将其解码，得到输出序列。但个固定长度的向量所具有的表征能力是有限的，解码器又受限于这个固定长度的向量，当输入的文本序列较长时，编码器很难将所有的重要信息都编码到这个定长的向量中，从而使得模型的输出结果大大折扣。
$A t t e n t i o n$ 机制有效解决了输入长序列信息时真实含义难以获取的问题。在进行长文本序列处理的任务中，影响当前时刻状态的信息可能隐藏在前面的时刻里，根据马尔可夫假设，这些信息有可能就会被忽略掉。比如，在“我快饿死了，今天搬了一天的砖，我要大吃一顿”这句话中，我们知道“我要大吃一顿”是因为“我快饿死了”，但是基于马尔可夫假设，“今天搬了一天的砖”和“我要大吃一顿”在时序上离得更近，相比于“我快饿死了”，“今天搬了一天的砖”对“我要大吃一顿”的影响力更强，但是在真实的 $N L P (N a t u r a l$ $L a n g u a g e$ $P r o c e s s i n g, 自然语言处理)$ 中不是这样的。从这个例子中可以看出，神经网络模型没有办法很好地准确获取倒装时序的语言信息，要解决这个问题就需要经过训练自动建立起“我要大吃一顿”和“我快饿死了”的关联关系，这就是 $A t t e n t i o n$ 机制，即注意力机制。

1.3 代码实现

	class Encoder(tf.keras.Model):
	    """编码器"""
	    def __init__(self, vocab_size, embedding_dim, enc_units, batch_size):
	        super(Encoder, self).__init__()
	
	        self.batch_size = batch_size
	        self.enc_units = enc_units
	        self.embedding = tf.keras.layers.Embedding(input_dim=vocab_size, output_dim=embedding_dim)
	        self.gru = tf.keras.layers.GRU(units=self.enc_units, recurrent_initializer='glorot_uniform',
	                                       return_sequences=True, return_state=True)
	
	    def call(self, x, hidden):
	        # 此处添加模型调用的代码（处理输入并返回输出）
	        x = self.embedding(x)
	        output, state = self.gru(inputs=x, initial_state=hidden)
	        return output, state
	
	    def initialize_hidden_state(self):
	        return tf.zeros(shape=(self.batch_size, self.enc_units))
	
	
	class BahdanauAttention(tf.keras.Model):
	    """Bahdanau Attention"""
	    def __init__(self, units):
	        super(BahdanauAttention, self).__init__()
	        self.W1 = tf.keras.layers.Dense(units=units)
	        self.W2 = tf.keras.layers.Dense(units=units)
	        self.V = tf.keras.layers.Dense(units=1)
	
	    def call(self, query, values):
	        # query为Encoder最后一个时间步的隐状态(hidden), shape为(batch_size, hidden_size)
	        # values为Encoder部分的输出，即每个时间步的隐状态，shape为(batch_size, max_length, hidden_size)
	        # 为方便后续计算，需将query的shape转为(batch_size, 1, hidden_size)
	        # 给query增加一个维度
	        query = tf.expand_dims(input=query, axis=1)
	
	        # 计算score(相似度), 使用MLP网络，即再引入一个神经网络来专门计算score
	        # score的shape为(batch_size, max_length, 1)
	        score = self.V(
	            inputs=tf.nn.tanh(self.W1(inputs=query) + self.W2(inputs=values))
	        )
	
	        # 计算attention_weights
	        # 计算attention_weights的shape为(batch_size, max_length, 1)
	        attention_weights = tf.nn.softmax(logits=score, axis=1)
	
	        # 计算context vector
	        # context vector的shape为(batch_size, max_length, hidden_size)
	        context_vector = attention_weights * values
	        # 加权求和
	        # 求和之后的shape为(batch_size, hidden_size)
	        context_vector = tf.reduce_sum(input_tensor=context_vector, axis=1)
	
	        return context_vector, attention_weights
	
	
	class Decoder(tf.keras.Model):
	    """解码器"""
	    def __init__(self, vocab_size, embedding_dim, dec_units, batch_size):
	        super(Decoder, self).__init__()
	
	        self.batch_size = batch_size
	        self.dec_units = dec_units
	        self.embedding = tf.keras.layers.Embedding(input_dim=vocab_size, output_dim=embedding_dim)
	        self.gru = tf.keras.layers.GRU(units=self.dec_units, recurrent_initializer='glorot_uniform',
	                                       return_sequences=True, return_state=True)
	        self.fc = tf.keras.layers.Dense(units=vocab_size)
	        self.attention = BahdanauAttention(units=self.dec_units)
	
	    def call(self, x, hidden, enc_output):
	        # 获取context vector和attention weights
	        context_vector, attention_weights = self.attention(hidden, enc_output)
	
	        # 编码之后x的shape为(batch_size, 1, embedding_dim)
	        x = self.embedding(inputs=x)
	
	        # 将context_vector与输入x进行拼接
	        # 拼接后的shape为(batch_size, 1, embedding_dim + hidden_size)
	        # 这里的hidden_size即context_vector向量的长度
	        x = tf.concat(values=[tf.expand_dims(input=context_vector, axis=1), x], axis=-1)
	
	        # 拼接后输入GRU网络
	        output, state = self.gru(inputs=x)
	        # print("Decoder output shape: {}".format(output.shape))
	        # print("Decoder state shape: {}".format(state.shape))
	
	        # (batch_size, 1, hidden_size) ==> (batch_size, hidden_size)
	        output = tf.reshape(tensor=output, shape=(-1, output.shape[2]))
	
	        # x的shape为(batch_size, vocab_size)
	        x = self.fc(inputs=output)
	
	        return x, state, attention_weights

我也是这学期才开始入手TensorFlow2，以前用的都是TensorFlow 1.13.1，代码不明白的地方可以查看《简单粗暴 TensorFlow 2》文档。

2. 安装依赖库

安装TensorFlow 2.1

	pip3 install tensorflow==2.1.0

安装jieba

	pip3 install jieba

3. 模型部署

腾讯云服务器用的是学生版的1核2G，感觉不一定能够支撑模型运行，先尝试一下吧。在此之前还是在本地通过Postman进行一下测试：

还是OK的，就是模型加载的较慢，下面把模型文件以及相关代码上传到服务器的项目目录，目录内容更新为如下：

上传到服务器之后，大致等到模型差不多加载好就可以准备测试了，测试结果如下：

查看一下日志文件，发现了一些端倪：

进程被杀死了，查了一下相关文件，说是超时了，enmmmmm，貌似有些道理【虽然不是很确定，但是模型确实是被重新加载了，更改了相关uwsgi的参数之后依旧是这个结果】，于是我直接上传了一个更改后的测试模型文件CR.py，直接在环境中运行，果不其然：

这应该是内存不够吧~OK，暂时到此结束。

昨天出了一点意外，1核2G的腾讯云服务器运行不了这个模型，所以今天换成了2核4G的阿里云服务器【有一说一，阿里云的这个学生套餐还是挺实惠的，又成功白嫖】，阿里云的配置过程同腾讯云的一样，可参考我的这篇博客。
服务器配置完成之后，把项目文件上传到阿里云服务器的wwwroot文件夹下，然后进入pyweb虚拟环境，再次运行一下CR.py文件，看看模型能不能运行起来。结果如下：

还是很nice的，模型能够运行，OK，接入到微信公众号上，配置代码很简单，只需要把微信公众号发送过来的消息送入到模型即可，代码如下：

	# views.py
	# 导入模型的接口
	from tencent.chatRobot import predict
	
	input_info = recMsg.Content.decode('utf-8')
	try:
		content = predict(sentence=input_info)
	except Exception as err:
		content = '小悠没理解主银的意思~'
	replyMsg = TextMsg(toUser, fromUser, content)

当时，还考虑了很久，模型如何先被加载，因为模型加载的时间稍长，不能等到微信公众号消息来了再加载模型，那肯定会超时的，而且每次都加载，肯定还很麻烦。当时还考虑到用线程等方法来加载，enmmmmm，后来嘛，就突然想到，为何不用全局变量的形式来加载，就是Python执行的时候是顺序执行嘛，像函数、类之类的这种对象，虽然定义了，但只要不被调用，这些代码就不会被运行，而函数、类之外的代码会正常按顺序执行，相当于就是全局变量了嘛。

	# chatRobot.py
	# -*- coding: utf-8 -*-
	# @Time    : 2021/1/4 22:47
	# @Author  : XiaYouRan
	# @Email   : [email protected]
	# @File    : chatRobot.py
	# @Software: PyCharm
	
	
	import tensorflow as tf
	import jieba
	import os
	
	
	def preprocess_sentence(sentence):
	    """
	    给句子添加开始和结束标记
	    :param sentence:
	    :return:
	    """
	    sentence = ' ' + sentence + ' '
	    return sentence
	
	
	def max_length(tensor):
	    """
	    计算数据集中问句和答句中最长的句子长度
	    :param tensor:
	    :return:
	    """
	    return max([len(t) for t in tensor])
	
	
	def tokenize(sentences):
	    """
	    分词器函数
	    :param sentence:
	    :return:
	    """
	    # 初始化分词器，并生成词典
	    sentence_tokenizer = tf.keras.preprocessing.text.Tokenizer(filters='')
	    sentence_tokenizer.fit_on_texts(sentences)
	
	    # 利用字典将文本数据转为id
	    # 也是二维的
	    tensor = sentence_tokenizer.texts_to_sequences(texts=sentences)
	
	    # 将数据填充成统一长度
	    # 默认统一为最长句子长度
	    # 将长为nb_samples的序列（标量序列）转化为形如(nb_samples,nb_timesteps) 2D numpy array
	    tensor = tf.keras.preprocessing.sequence.pad_sequences(tensor, maxlen=30, padding='post')
	
	    return tensor, sentence_tokenizer
	
	
	def load_dataset(file_path):
	    with open(file_path, 'r', encoding='utf-8') as f:
	        lines = f.readlines()
	        q = ''
	        a = ''
	        qa_pairs = []
	        # len(lines) 总行数
	        for i in range(len(lines)):
	            if i % 3 == 0:
	                q = ' '.join(jieba.cut(lines[i].strip()))
	            elif i % 3 == 1:
	                a = ' '.join(jieba.cut(lines[i].strip()))
	            else:
	                # 问句与答句进行组合
	                pair = [preprocess_sentence(q), preprocess_sentence(a)]
	                qa_pairs.append(pair)
	
	    # zip 拆解
	    q_sentences, a_sentences = zip(*qa_pairs)
	
	    # question数据集(id)及其分类器词汇表
	    q_tensor, q_tokenizer = tokenize(q_sentences)
	    # answer数据集(id)及其分类器词汇表
	    a_tensor, a_tokenizer = tokenize(a_sentences)
	
	    return q_tensor, a_tensor, q_tokenizer, a_tokenizer
	
	
	class Encoder(tf.keras.Model):
	    """编码器"""


	class BahdanauAttention(tf.keras.Model):
	    """Bahdanau Attention"""
	
	
	class Decoder(tf.keras.Model):
	    """解码器"""


	# 使用Adam优化器
	optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)
	
	
	def predict(sentence):
	    """模型测试"""
	    # 加载模型
	    checkpoint = tf.train.Checkpoint(optimizer=tf.keras.optimizers.Adam(learning_rate=0.001),
	                                     encoder=encoder,
	                                     decoder=decoder)
	    checkpoint.restore(save_path=tf.train.latest_checkpoint(checkpoint_dir=checkpoint_dir))
	
	    sentence = ' '.join(jieba.cut(sentence.strip()))
	    sentence = preprocess_sentence(sentence=sentence)
	
	    inputs = [q_tokenizer.word_index[i] for i in sentence.split(' ')]
	    inputs = tf.keras.preprocessing.sequence.pad_sequences(sequences=[inputs], maxlen=30, padding='post')
	    inputs = tf.convert_to_tensor(value=inputs)
	
	    result = ''
	
	    hidden = [tf.zeros(shape=(1, units))]
	    enc_out, enc_hidden = encoder(inputs, hidden)
	
	    dec_hidden = enc_hidden
	    dec_input = tf.expand_dims(input=[a_tokenizer.word_index['']], axis=0)
	
	    for t in range(q_tesor_length):
	        predictions, dec_hidden, attention_weights = decoder(dec_input, dec_hidden, enc_out)
	
	        predicted_id = tf.argmax(predictions[0]).numpy()
	        result += a_tokenizer.index_word[predicted_id] + ' '
	
	        if a_tokenizer.index_word[predicted_id] == '':
	            break
	
	        dec_input = tf.expand_dims(input=[predicted_id], axis=0)
	
	    # print("Q: %s" % sentence[8:-6].replace(' ', ''))
	    # print("A: {}".format(result[:-6].replace(' ', '')))
	    # print("A: {}".format(result.replace(' ', '')))
	
	    return result[:-6].replace(' ', '')
	
	
	file_path = os.path.dirname(__file__)
	corpus_path = os.path.join(file_path, 'dataset/corpus.txt')
	
	checkpoint_dir = os.path.join(file_path, 'model/train_checkpoints')
	
	q_tensor, a_tensor, q_tokenizer, a_tokenizer = load_dataset(file_path=corpus_path)
	
	q_tesor_length = max_length(q_tensor)
	a_tesor_length = max_length(a_tensor)
	
	buffer_size = len(q_tensor)
	batch_size = 32
	steps_per_epoch = len(q_tensor) // batch_size
	embedding_dim = 128
	units = 256
	
	# q_tokenizer.word_index 字典类型(word, id)
	vocab_q_size = len(q_tokenizer.word_index) + 1
	vocab_a_size = len(a_tokenizer.word_index) + 1
	
	# 模型初始化
	encoder = Encoder(vocab_size=vocab_q_size, embedding_dim=embedding_dim, enc_units=units, batch_size=batch_size)
	attention_layer = BahdanauAttention(units=10)
	decoder = Decoder(vocab_size=vocab_a_size, embedding_dim=embedding_dim, dec_units=units, batch_size=batch_size)
	
	
	if __name__ == '__main__':
	    input_sentence = "Start chatting..."
	    while input_sentence != "stop":
	        print("请输入：")
	        input_sentence = input()
	        try:
	            predict(input_sentence)
	            print("----------------------")
	        except Exception as err:
	            print('Test model error info: ', err)

4. 测试

首先要把微信公众号的基本配置改一下，把那个服务器地址更改成阿里云的公网IP，然后启动服务器就可以了(大致需要五六分钟)。
测试的结果如下：

目前来看，机器人还很沙雕，毕竟只训练了两个epoch，准备再多训练几次，不过整体来看还蛮好的，部署的流程成功的走了一下，接下来就开始继续训练模型了。
在阿里云后台看了一下服务器，模型确实比较吃内存，4G内存占用了近80%，怪不得2G内存不够用！

总的来说，很OK，很nice！！！！想体验的小伙伴们，欢迎来玩哦，关注微信公众号夏悠然。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分