旭旭_哥

Hierarchical Attention Network for Document Classification中文文本分类，以及模型部署

这周五写了尝试把attention加入rnn网络中做文本分类，实际这种思想来源于Hierarchical Attention Network for Document Classification，周末整整花了一天半的时间来搞这个网络，终于把模型在tensorflow训练好，并部署在java上面，下面看看吧：

首先是把一段中文文本看成一个doc，然后把doc分解成sen，再对sen进行分词，在这里涉及的主要逻辑是，doc怎么分解成sen，我首先是把全角转化为半角，然后按照标点符号进行split,符合涉及:

     
     
     
     
      
      
      
      public final static String splitstr = "[;。.,:?!~、]";

      
      
      
      
       
       
       
       public static String getSplitStr(String text) {
       
       
       
       		String result = qj2bj(text).replaceAll("#", "").replaceAll("\n", "#")
       
       
       
       				.replaceAll("\\s+", "#").replaceAll("\\-{2,}", "#")
       
       
       
       				.replaceAll(splitstr, "#");
       
       
       
       		return result;
       
       
       
       	}

句子跟句子之间以#号隔开，最后分词转化为下面文本:

    
    
    
    
     
     
     
     1	我是 这边 工作人员 # 要是 有 什么 问题 可以 咨询 我 #

第一列是label，以\t隔开，后面是doc，像这个doc下面有两个sen，我这边由于全部是短文本，所以全部都转化为20*20的一个形式，多余的截取，不够用0填充。后面对句子进行了分词，把文本抓化为这种形式然后就是python代码了，主要文件如下：

     
     
     
     
      
      
      
      data_utils.py  #一些方法
      
      
      
      runha.py  #主程序
      
      
      
      test.py
      
      
      
      configuration.py #一些参数
      
      
      
      model.py     #han模型
      
      
      
      tensorflow  #存放数据目录

data_utils.py :

     
     
     
     
      
      
      
      import os
      
      
      
      import numpy as np
      
      
      
      import codecs
      
      
      
      import pickle
      
      
      
      
      
      
      
      def  _read_vocab(filename):
      
      
      
          """读取词汇列别"""
      
      
      
          words=list(map(lambda line:line.strip(),codecs.open(filename,'r',encoding='utf-8').readlines()))
      
      
      
          word_to_id=dict(zip(words,range(len(words))))
      
      
      
          return words,word_to_id
      
      
      
      
      
      
      
      
      
      
      
      def _read_file(filename,word_to_id,num_classes=2,max_sent_in_doc=20,max_word_in_sent=20):
      
      
      
          data_x=[]
      
      
      
          data_y=[]
      
      
      
          with open(filename, "r") as f:
      
      
      
              for line in f:
      
      
      
                  # doc=[]
      
      
      
                  doc = np.zeros((max_sent_in_doc, max_word_in_sent), dtype=np.int32)
      
      
      
                  doclabel = line.split("\t")
      
      
      
                  if len(doclabel)>1:
      
      
      
                      label=int(doclabel[0])
      
      
      
                      sents=doclabel[1].split("#")
      
      
      
                      for i, sent in enumerate(sents):
      
      
      
                          if i < max_sent_in_doc and sent!='':
      
      
      
                              for j, word in enumerate(sent.strip().split(" ")):
      
      
      
                                  if j < max_word_in_sent and word!='' :
      
      
      
                                      doc[i][j] = word_to_id.get(word, 0)
      
      
      
                      labels = [0] * num_classes
      
      
      
                      labels[label - 1] = 1
      
      
      
                      data_y.append(labels)
      
      
      
                      data_x.append(doc.tolist())
      
      
      
          #pickle.dump((data_x, data_y), open('tensorflow/business/business_data', 'wb'))
      
      
      
          return data_x,data_y
      
      
      
      
      
      
      
      
      
      
      
      def  preocess_file(data_path,vocapath):
      
      
      
          """一次性返回所有的数据"""
      
      
      
          words,word_to_id=_read_vocab(vocapath)
      
      
      
          x_train, y_train = _read_file(data_path, word_to_id)
      
      
      
          return x_train, y_train,words
      
      
      
      
      
      
      
      def batch_iter(data,batch_size=64,num_epochs=5):
      
      
      
          """生成批次数据"""
      
      
      
          data=np.array(data)
      
      
      
          data_size=len(data)
      
      
      
          num_batchs_per_epchs=int((data_size-1)/batch_size)+1
      
      
      
          for epoch in range(num_epochs):
      
      
      
              indices=np.random.permutation(np.arange(data_size))
      
      
      
              shufflfed_data=data[indices]
      
      
      
              for batch_num  in range(num_batchs_per_epchs):
      
      
      
                  start_index=batch_num*batch_size
      
      
      
                  end_index=min((batch_num + 1) * batch_size, data_size)
      
      
      
                  yield  shufflfed_data[start_index:end_index]
      
      
      
      
      
      
      
      
      
      
      
      if __name__=='__main__':
      
      
      
          path = "tensorflow/business/vocab.txt"
      
      
      
          words,word_to_id=_read_vocab(path)
      
      
      
          print(words[0:10])
      
      
      
          print(len(word_to_id))

model.py

      
      
      
      
       
       
       
       import tensorflow as tf
       
       
       
       from tensorflow.contrib import rnn
       
       
       
       from tensorflow.contrib import  layers
       
       
       
       import  time
       
       
       
       class HAN():
       
       
       
           def __init__(self,config):
       
       
       
               self.config=config
       
       
       
               self.max_sentence_num=self.config.max_sent_in_doc
       
       
       
               self.max_sentence_length=self.config.max_word_in_sent
       
       
       
               self.vocab_size =self.config.vocab_size
       
       
       
               self.num_classes = self.config.num_classes
       
       
       
               self.embedding_size = self.config.embedding_size
       
       
       
               self.hidden_size = self.config.hidden_dim
       
       
       
               # x的shape为[batch_size, 句子数， 句子长度(单词个数)]，但是每个样本的数据都不一样，，所以这里指定为空
       
       
       
               # y的shape为[batch_size, num_classes]
       
       
       
               self.input_x = tf.placeholder(tf.int32, [None, self.max_sentence_num, self.max_sentence_length], name='input_x')
       
       
       
               self.input_y = tf.placeholder(tf.float32, [None, self.num_classes], name='input_y')
       
       
       
               self.keep_prob = tf.placeholder(tf.float32, name='keep_prob')
       
       
       
               # 构建模型
       
       
       
               word_embedded = self.word2vec()
       
       
       
               sent_vec = self.sent2vec(word_embedded)
       
       
       
               doc_vec = self.doc2vec(sent_vec)
       
       
       
               out = self.classifer(doc_vec)
       
       
       
               self.rnnhamodel(out)
       
       
       
       
       
       
       
           def rnnhamodel(self,out):
       
       
       
               with tf.name_scope("score"):
       
       
       
                   self.pred_y = tf.nn.softmax(out, name="pred_y")
       
       
       
                   tf.add_to_collection('pred_network', self.pred_y)
       
       
       
       
       
       
       
               with tf.name_scope('loss'):
       
       
       
                   self.loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=self.input_y,
       
       
       
                                                                                 logits=out,
       
       
       
                                                                                 name='loss'))
       
       
       
               with tf.name_scope('acc'):
       
       
       
                   predict = tf.argmax(out, axis=1, name='predict')
       
       
       
                   label = tf.argmax(self.input_y, axis=1, name='label')
       
       
       
                   self.acc = tf.reduce_mean(tf.cast(tf.equal(predict, label), tf.float32))
       
       
       
       
       
       
       
       
       
       
       
               global_step = tf.Variable(0, trainable=False)
       
       
       
               optimizer = tf.train.AdamOptimizer(self.config.learning_rate)
       
       
       
               # RNN中常用的梯度截断，防止出现梯度过大难以求导的现象
       
       
       
               tvars = tf.trainable_variables()
       
       
       
               grads, _ = tf.clip_by_global_norm(tf.gradients(self.loss, tvars),self.config.grad_clip)
       
       
       
               grads_and_vars = tuple(zip(grads, tvars))
       
       
       
               self.train_op = optimizer.apply_gradients(grads_and_vars, global_step=global_step)
       
       
       
       
       
       
       
           def word2vec(self):
       
       
       
               # 嵌入层
       
       
       
               with tf.name_scope("embedding"):
       
       
       
                   embedding_mat = tf.Variable(tf.truncated_normal((self.vocab_size, self.embedding_size)))
       
       
       
                   # shape为[batch_size, sent_in_doc, word_in_sent, embedding_size]
       
       
       
                   word_embedded = tf.nn.embedding_lookup(embedding_mat, self.input_x)
       
       
       
               return word_embedded
       
       
       
       
       
       
       
           def sent2vec(self, word_embedded):
       
       
       
               with tf.name_scope("sent2vec"):
       
       
       
                   # GRU的输入tensor是[batch_size, max_time, ...].在构造句子向量时max_time应该是每个句子的长度，所以这里将
       
       
       
                   # batch_size * sent_in_doc当做是batch_size.这样一来，每个GRU的cell处理的都是一个单词的词向量
       
       
       
                   # 并最终将一句话中的所有单词的词向量融合（Attention）在一起形成句子向量
       
       
       
       
       
       
       
                   # shape为[batch_size*sent_in_doc, word_in_sent, embedding_size]
       
       
       
                   word_embedded = tf.reshape(word_embedded, [-1, self.max_sentence_length, self.embedding_size])
       
       
       
                   # shape为[batch_size*sent_in_doce, word_in_sent, hidden_size*2]
       
       
       
                   word_encoded = self.BidirectionalGRUEncoder(word_embedded, name='word_encoder')
       
       
       
                   # shape为[batch_size*sent_in_doc, hidden_size*2]
       
       
       
                   sent_vec = self.AttentionLayer(word_encoded, name='word_attention')
       
       
       
                   return sent_vec
       
       
       
       
       
       
       
           def doc2vec(self, sent_vec):
       
       
       
               # 原理与sent2vec一样，根据文档中所有句子的向量构成一个文档向量
       
       
       
               with tf.name_scope("doc2vec"):
       
       
       
                   sent_vec = tf.reshape(sent_vec, [-1, self.max_sentence_num, self.hidden_size * 2])
       
       
       
                   # shape为[batch_size, sent_in_doc, hidden_size*2]
       
       
       
                   doc_encoded = self.BidirectionalGRUEncoder(sent_vec, name='sent_encoder')
       
       
       
                   # shape为[batch_szie, hidden_szie*2]
       
       
       
                   doc_vec = self.AttentionLayer(doc_encoded, name='sent_attention')
       
       
       
                   return doc_vec
       
       
       
       
       
       
       
           def classifer(self, doc_vec):
       
       
       
               # 最终的输出层，是一个全连接层
       
       
       
               with tf.name_scope('doc_classification'):
       
       
       
                   out = layers.fully_connected(inputs=doc_vec, num_outputs=self.num_classes, activation_fn=None)
       
       
       
                   return out
       
       
       
       
       
       
       
           def BidirectionalGRUEncoder(self, inputs, name):
       
       
       
               # 双向GRU的编码层，将一句话中的所有单词或者一个文档中的所有句子向量进行编码得到一个 2×hidden_size的输出向量，然后在经过Attention层，将所有的单词或句子的输出向量加权得到一个最终的句子/文档向量。
       
       
       
               # 输入inputs的shape是[batch_size, max_time, voc_size]
       
       
       
               with tf.variable_scope(name):
       
       
       
                   if self.config.isgru:
       
       
       
                       GRU_cell_fw = rnn.GRUCell(self.hidden_size)
       
       
       
                       GRU_cell_bw = rnn.GRUCell(self.hidden_size)
       
       
       
                   else:
       
       
       
                       GRU_cell_fw = rnn.LSTMCell(self.hidden_size)
       
       
       
                       GRU_cell_bw = rnn.LSTMCell(self.hidden_size)
       
       
       
       
       
       
       
                   # fw_outputs和bw_outputs的size都是[batch_size, max_time, hidden_size]
       
       
       
                   ((fw_outputs, bw_outputs), (_, _)) = tf.nn.bidirectional_dynamic_rnn(cell_fw=GRU_cell_fw,
       
       
       
                                                                                        cell_bw=GRU_cell_bw,
       
       
       
                                                                                        inputs=inputs,
       
       
       
                                                                                        sequence_length=self.length(inputs),
       
       
       
                                                                                        dtype=tf.float32)
       
       
       
                   # outputs的size是[batch_size, max_time, hidden_size*2]
       
       
       
                   outputs = tf.concat((fw_outputs, bw_outputs), 2)
       
       
       
                   return outputs
       
       
       
       
       
       
       
           def AttentionLayer(self, inputs, name):
       
       
       
               # inputs是GRU的输出，size是[batch_size, max_time, encoder_size(hidden_size * 2)]
       
       
       
               with tf.variable_scope(name):
       
       
       
                   # u_context是上下文的重要性向量，用于区分不同单词/句子对于句子/文档的重要程度,
       
       
       
                   # 因为使用双向GRU，所以其长度为2×hidden_szie
       
       
       
                   u_context = tf.Variable(tf.truncated_normal([self.hidden_size * 2]), name='u_context')
       
       
       
                   # 使用一个全连接层编码GRU的输出的到期隐层表示,输出u的size是[batch_size, max_time, hidden_size * 2]
       
       
       
                   h = layers.fully_connected(inputs, self.hidden_size * 2, activation_fn=tf.nn.tanh)
       
       
       
                   # shape为[batch_size, max_time, 1]
       
       
       
                   alpha = tf.nn.softmax(tf.reduce_sum(tf.multiply(h, u_context), axis=2, keep_dims=True), dim=1)
       
       
       
                   # reduce_sum之前shape为[batch_szie, max_time, hidden_szie*2]，之后shape为[batch_size, hidden_size*2]
       
       
       
                   atten_output = tf.reduce_sum(tf.multiply(inputs, alpha), axis=1)
       
       
       
                   atten_output = tf.nn.dropout(
       
       
       
                       atten_output, self.keep_prob,
       
       
       
                       name="dropout")
       
       
       
                   return atten_output
       
       
       
       
       
       
       
           def length(self,sequences):
       
       
       
               used = tf.sign(tf.reduce_max(tf.abs(sequences), reduction_indices=2))
       
       
       
               seq_len = tf.reduce_sum(used, reduction_indices=1)
       
       
       
               return tf.cast(seq_len, tf.int32)

config.py：

     
     
     
     
      
      
      
      class HAConfig:
      
      
      
          max_sent_in_doc = 20
      
      
      
          max_word_in_sent = 20
      
      
      
          embedding_size = 64  # 词向量维度
      
      
      
          num_classes = 2  # 类别个数
      
      
      
          vocab_size = 9000  # 词汇表的大小
      
      
      
          num_layers = 2  # 隐含层的层数
      
      
      
          hidden_dim = 128  # 隐藏层神经元
      
      
      
          rnn = 'gru'  # lstm 或 gru
      
      
      
          keep_prob = 0.7  # dropout保留比例
      
      
      
          learning_rate = 1e-3  # 学习率
      
      
      
          grad_clip=5
      
      
      
          batch_size = 64  # 每批训练大小
      
      
      
          num_epochs = 15  # 总迭代轮次
      
      
      
          print_per_batch = 100  # 每多少轮输出一次结果
      
      
      
          l2_reg_lambda = 0.003
      
      
      
          isgru = True

run.py:

结果：

     
     
     
     
      
      
      
      2017-11-26 14:48:10.169322: I tensorflow/core/common_runtime/gpu/pool_allocator.cc:247] PoolAllocator: After 3141 get requests, put_count=2789 evicted_count=1000 eviction_rate=0.358551 and unsatisfied allocation rate=0.437759
      
      
      
      2017-11-26 14:48:10.169371: I tensorflow/core/common_runtime/gpu/pool_allocator.cc:259] Raising pool_size_limit_ from 256 to 281
      
      
      
      2017-11-26 14:48:11.145964: I tensorflow/core/common_runtime/gpu/pool_allocator.cc:247] PoolAllocator: After 3278 get requests, put_count=3359 evicted_count=1000 eviction_rate=0.297708 and unsatisfied allocation rate=0.298353
      
      
      
      2017-11-26 14:48:11.146014: I tensorflow/core/common_runtime/gpu/pool_allocator.cc:259] Raising pool_size_limit_ from 655 to 720
      
      
      
      Iter:    100, Train Loss:   0.12, Train Acc:  95.31%,  Time: 0:00:12
      
      
      
      Iter:    200, Train Loss:  0.096, Train Acc:  95.31%,  Time: 0:00:22
      
      
      
      Iter:    300, Train Loss:   0.11, Train Acc:  96.88%,  Time: 0:00:33
      
      
      
      Iter:    400, Train Loss:   0.11, Train Acc:  96.88%,  Time: 0:00:44
      
      
      
      Iter:    500, Train Loss:   0.16, Train Acc:  93.75%,  Time: 0:00:55
      
      
      
      Converted 25 variables to const ops.
      
      
      
      attention模型在第500步已经保存
      
      
      
      Iter:    600, Train Loss:  0.048, Train Acc:  96.88%,  Time: 0:01:06
      
      
      
      Iter:    700, Train Loss:  0.092, Train Acc:  96.88%,  Time: 0:01:16
      
      
      
      Iter:    800, Train Loss:  0.057, Train Acc:  98.44%,  Time: 0:01:27
      
      
      
      Iter:    900, Train Loss:  0.047, Train Acc:  96.88%,  Time: 0:01:38
      
      
      
      Iter:   1000, Train Loss:  0.056, Train Acc:  98.44%,  Time: 0:01:48
      
      
      
      Converted 25 variables to const ops.
      
      
      
      attention模型在第1000步已经保存
      
      
      
      Iter:   1100, Train Loss:   0.02, Train Acc:  98.44%,  Time: 0:01:59
      
      
      
      Iter:   1200, Train Loss:  0.028, Train Acc:  98.44%,  Time: 0:02:10
      
      
      
      Iter:   1300, Train Loss: 0.0041, Train Acc: 100.00%,  Time: 0:02:21
      
      
      
      Iter:   1400, Train Loss:  0.042, Train Acc:  98.44%,  Time: 0:02:31
      
      
      
      Iter:   1500, Train Loss: 0.0043, Train Acc: 100.00%,  Time: 0:02:42

在java中调用要写两个方法具体如下：

     
     
     
     
      
      
      
      public static int[][][] gettexttoidBuinessByCutHAN(String text, Map<String, Integer> map) {
      
      
      
       int[][][] docs = new int[1][20][20];
      
      
      
      
      
      
      
       if (StringUtils.isBlank(text)) {
      
      
      
       return docs;
      
      
      
       }
      
      
      
       String docword = WordUtilHAN.getSegmentHANModelStr(text);
      
      
      
       if (StringUtils.isBlank(docword)) {
      
      
      
       return docs;
      
      
      
       }
      
      
      
       
      
      
      
       String[] sents=docword.split("#");
      
      
      
       for(int i=0;i<sents.length&& i<20;i++){
      
      
      
       if(StringUtils.isNotBlank(sents[i])){
      
      
      
       String[] words=sents[i].trim().split(" ");
      
      
      
       for(int j=0;j<words.length&& j<20;j++){
      
      
      
       if(StringUtils.isNotBlank(words[j])){
      
      
      
       if(map.containsKey(words[j])){
      
      
      
       docs[0][i][j]=map.get(words[j]);
      
      
      
       } 
      
      
      
       } 
      
      
      
       }
      
      
      
       } 
      
      
      
       
      
      
      
       }
      
      
      
       return docs;
      
      
      
       }

      
      
      
      
       
       
       
       public static double getClassifyBusinessByHANModel(String text, Session sess, Map<String, Integer> map, Tensor keep_prob) {
       
       
       
        if (StringUtils.isBlank(text)) {
       
       
       
        return 0.0;
       
       
       
        }
       
       
       
        
       
       
       
        int[][][] arr = gettexttoidBuinessByCutHAN(text, map);
       
       
       
        Tensor input = Tensor.create(arr);
       
       
       
        Tensor result = sess.runner().feed("input_x", input).feed("keep_prob", keep_prob).fetch("score/pred_y").run()
       
       
       
        .get(0);
       
       
       
       
       
       
       
        long[] rshape = result.shape();
       
       
       
        int nlabels = (int) rshape[1];
       
       
       
        int batchSize = (int) rshape[0];
       
       
       
       
       
       
       
        float[][] logits = result.copyTo(new float[batchSize][nlabels]);
       
       
       
       
       
       
       
        if (nlabels > 1 && batchSize > 0) {
       
       
       
        return logits[0][0];
       
       
       
        }
       
       
       
       
       
       
       
        return 0.0;
       
       
       
        }

启动service:

Hierarchical Attention Network for Document Classification中文文本分类，以及模型部署_第1张图片

你可能感兴趣的:(python编程,机器学习)

（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
基于 Python 的图书管理系统（源码）
摘要：本论文详细阐述了利用Python语言开发一个简易图书管理系统的过程。该系统具备图书信息录入、删除、修改、查询以及借阅管理等核心功能，可有效提升图书管理的效率与便捷性。通过阐述系统的需求分析、设计思路、代码实现及测试过程，展示了Python在小型管理系统开发中的应用潜力，为相关领域的软件开发提供了有益参考。关键词：Python编程；图书管理系统；数据结构；代码实现一、引言（一）研究背景随着数字
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
Python中的`self`：深入理解实例方法的第一个参数
在Python的面向对象编程中，self是一个经常遇到的术语，但对于初学者来说，它可能会引起困惑。为什么我们需要它？它是如何工作的？在本篇文章中，我们将深入探讨self的工作原理以及它在Python编程中的重要性。1.什么是self？在Python中，self是类的实例方法的一个参数，代表类的实例对象本身。实际上，当我们调用一个实例的方法时，Python会自动传递这个实例作为第一个参数，这就是se
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Python struct 模块：解析与打包二进制数据的利器 tekin Python 编程秘籍库 python 开发语言 python struct模块解析与打包二进制数据
Pythonstruct模块：解析与打包二进制数据的利器在Python编程中，处理二进制数据是一项常见且重要的任务，尤其是在网络编程、文件操作等场景中。Python的struct模块提供了强大的功能，能够将Python的数据类型与二进制数据进行相互转换，即把数据打包成二进制字节串，也能从二进制字节串中解析出数据。本文将详细介绍struct模块的使用方法、格式字符的含义以及实际应用场景，帮助你全面掌
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【零基础学AI】第36讲：GPT模型原理 1989 0基础学AI 人工智能 gpt lstm rnn YOLO 目标检测
本节课你将学到理解GPT模型的基本原理掌握Transformer解码器的工作机制实现一个简单的文本生成应用开始之前环境要求Python3.8+安装包：pipinstalltransformerstorch硬件：CPU即可运行（GPU可加速）前置知识了解基本的神经网络概念（第23讲内容）熟悉Python编程基础核心概念什么是GPT？GPT（GenerativePre-trainedTransform
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
头哥教学实践平台 Python初识-基本语法
第1关：HelloPython!任务描述利用Python提供的print()内置函数，打印输出HelloPython!，初步体验和感受Python编程的魅力。输入无输出HelloPython!头哥代码文件：#coding=utf-8#请在此处添加代码完成输出“HelloPython”,注意要区分大小写！######Begin######print("HelloPython!")######End#
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文