Tensorflow深度学习使用CNN分类英文文本

前言

Github源码地址

本文同时也是学习唐宇迪老师深度学习课程的一些理解与记录。

文中代码是实现在TensorFlow下使用卷积神经网络（CNN）做英文文本的分类任务（本次是垃圾邮件的二分类任务），当然垃圾邮件分类是一种应用环境，模型方法也可以推广到其它应用场景，如电商商品好评差评分类、正负面新闻等。

源码与数据

源码

- data_helpers.py

- train.py

- text_cnn.py

- eval.py（Save the evaluations to a csv, in case the user wants to inspect,analyze, or otherwise use the classifications generated by the neural net）

数据

- rt-polarity.neg

- rt-polarity.pos

train.py 源码及分析

import tensorflow as tf
import numpy as np
import os
import time
import datetime
import data_helpers
from text_cnn import TextCNN
from tensorflow.contrib import learn
# Parameters
# ==================================================
# Data loading params
# 语料文件路径定义
tf.flags.DEFINE_float("dev_sample_percentage", .1, "Percentage of the training data to use for validation")
tf.flags.DEFINE_string("positive_data_file", "./data/rt-polaritydata/rt-polarity.pos", "Data source for the positive data.")
tf.flags.DEFINE_string("negative_data_file", "./data/rt-polaritydata/rt-polarity.neg", "Data source for the negative data.")

# Model Hyperparameters
# 定义网络超参数
tf.flags.DEFINE_integer("embedding_dim", 128, "Dimensionality of character embedding (default: 128)")
tf.flags.DEFINE_string("filter_sizes", "3,4,5", "Comma-separated filter sizes (default: '3,4,5')")
tf.flags.DEFINE_integer("num_filters", 128, "Number of filters per filter size (default: 128)")
tf.flags.DEFINE_float("dropout_keep_prob", 0.5, "Dropout keep probability (default: 0.5)")
tf.flags.DEFINE_float("l2_reg_lambda", 0.0, "L2 regularization lambda (default: 0.0)")

# Training parameters
# 训练参数
tf.flags.DEFINE_integer("batch_size", 32, "Batch Size (default: 32)")
tf.flags.DEFINE_integer("num_epochs", 200, "Number of training epochs (default: 200)") # 总训练次数
tf.flags.DEFINE_integer("evaluate_every", 100, "Evaluate model on dev set after this many steps (default: 100)") # 每训练100次测试一下
tf.flags.DEFINE_integer("checkpoint_every", 100, "Save model after this many steps (default: 100)") # 保存一次模型
tf.flags.DEFINE_integer("num_checkpoints", 5, "Number of checkpoints to store (default: 5)")
# Misc Parameters
tf.flags.DEFINE_boolean("allow_soft_placement", True, "Allow device soft device placement") # 加上一个布尔类型的参数，要不要自动分配
tf.flags.DEFINE_boolean("log_device_placement", False, "Log placement of ops on devices") # 加上一个布尔类型的参数，要不要打印日志

# 打印一下相关初始参数
FLAGS = tf.flags.FLAGS
FLAGS._parse_flags()
print("\nParameters:")
for attr, value in sorted(FLAGS.__flags.items()):
    print("{}={}".format(attr.upper(), value))
print("")

# Data Preparation
# ==================================================
# Load data
print("Loading data...")
x_text, y = data_helpers.load_data_and_labels(FLAGS.positive_data_file, FLAGS.negative_data_file)
# Build vocabulary
max_document_length = max([len(x.split(" ")) for x in x_text]) # 计算最长邮件
vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length) # tensorflow提供的工具，将数据填充为最大长度，默认0填充
x = np.array(list(vocab_processor.fit_transform(x_text)))

# Randomly shuffle data
# 数据洗牌
np.random.seed(10)
# np.arange生成随机序列
shuffle_indices = np.random.permutation(np.arange(len(y)))
x_shuffled = x[shuffle_indices]
y_shuffled = y[shuffle_indices]

# 将数据按训练train和测试dev分块
# Split train/test set
# TODO: This is very crude, should use cross-validation
dev_sample_index = -1 * int(FLAGS.dev_sample_percentage * float(len(y)))
x_train, x_dev = x_shuffled[:dev_sample_index], x_shuffled[dev_sample_index:]
y_train, y_dev = y_shuffled[:dev_sample_index], y_shuffled[dev_sample_index:]
print("Vocabulary Size: {:d}".format(len(vocab_processor.vocabulary_)))
print("Train/Dev split: {:d}/{:d}".format(len(y_train), len(y_dev))) # 打印切分的比例
# Training
# ==================================================
with tf.Graph().as_default():
    session_conf = tf.ConfigProto(
        allow_soft_placement=FLAGS.allow_soft_placement,
        log_device_placement=FLAGS.log_device_placement)
    sess = tf.Session(config=session_conf)
    with sess.as_default():
        # 卷积池化网络导入
        cnn = TextCNN(
            sequence_length=x_train.shape[1],
            num_classes=y_train.shape[1], # 分几类
            vocab_size=len(vocab_processor.vocabulary_),
            embedding_size=FLAGS.embedding_dim,
            filter_sizes=list(map(int, FLAGS.filter_sizes.split(","))), # 上面定义的filter_sizes拿过来，"3,4,5"按","分割
            num_filters=FLAGS.num_filters, # 一共有几个filter
            l2_reg_lambda=FLAGS.l2_reg_lambda) # l2正则化项

        # Define Training procedure
        global_step = tf.Variable(0, name="global_step", trainable=False)
        optimizer = tf.train.AdamOptimizer(1e-3) # 定义优化器
        grads_and_vars = optimizer.compute_gradients(cnn.loss)
        train_op = optimizer.apply_gradients(grads_and_vars, global_step=global_step)

        # Keep track of gradient values and sparsity (optional)
        grad_summaries = []
        for g, v in grads_and_vars:
            if g is not None:
                grad_hist_summary = tf.summary.histogram("{}/grad/hist".format(v.name), g)
                sparsity_summary = tf.summary.scalar("{}/grad/sparsity".format(v.name), tf.nn.zero_fraction(g))
                grad_summaries.append(grad_hist_summary)
                grad_summaries.append(sparsity_summary)
        grad_summaries_merged = tf.summary.merge(grad_summaries)

        # Output directory for models and summaries
        timestamp = str(int(time.time()))
        out_dir = os.path.abspath(os.path.join(os.path.curdir, "runs", timestamp))
        print("Writing to {}\n".format(out_dir))

        # Summaries for loss and accuracy
        # 损失函数和准确率的参数保存
        loss_summary = tf.summary.scalar("loss", cnn.loss)
        acc_summary = tf.summary.scalar("accuracy", cnn.accuracy)

        # Train Summaries
        # 训练数据保存
        train_summary_op = tf.summary.merge([loss_summary, acc_summary, grad_summaries_merged])
        train_summary_dir = os.path.join(out_dir, "summaries", "train")
        train_summary_writer = tf.summary.FileWriter(train_summary_dir, sess.graph)

        # Dev summaries
        # 测试数据保存
        dev_summary_op = tf.summary.merge([loss_summary, acc_summary])
        dev_summary_dir = os.path.join(out_dir, "summaries", "dev")
        dev_summary_writer = tf.summary.FileWriter(dev_summary_dir, sess.graph)

        # Checkpoint directory. Tensorflow assumes this directory already exists so we need to create it
        checkpoint_dir = os.path.abspath(os.path.join(out_dir, "checkpoints"))
        checkpoint_prefix = os.path.join(checkpoint_dir, "model")
        if not os.path.exists(checkpoint_dir):
            os.makedirs(checkpoint_dir)

        saver = tf.train.Saver(tf.global_variables(), max_to_keep=FLAGS.num_checkpoints) # 前面定义好参数num_checkpoints

        # Write vocabulary
        vocab_processor.save(os.path.join(out_dir, "vocab"))

        # Initialize all variables
        sess.run(tf.global_variables_initializer()) # 初始化所有变量

        # 定义训练函数
        def train_step(x_batch, y_batch):
            """
            A single training step
            """
            feed_dict = {
              cnn.input_x: x_batch,
              cnn.input_y: y_batch,
              cnn.dropout_keep_prob: FLAGS.dropout_keep_prob # 参数在前面有定义
            }
            _, step, summaries, loss, accuracy = sess.run(
                [train_op, global_step, train_summary_op, cnn.loss, cnn.accuracy], feed_dict)
            time_str = datetime.datetime.now().isoformat() # 取当前时间，python的函数
            print("{}: step {}, loss {:g}, acc {:g}".format(time_str, step, loss, accuracy))
            train_summary_writer.add_summary(summaries, step)

        # 定义测试函数
        def dev_step(x_batch, y_batch, writer=None):
            """
            Evaluates model on a dev set
            """
            feed_dict = {
              cnn.input_x: x_batch,
              cnn.input_y: y_batch,
              cnn.dropout_keep_prob: 1.0 # 神经元全部保留
            }
            step, summaries, loss, accuracy = sess.run(
                [global_step, dev_summary_op, cnn.loss, cnn.accuracy], feed_dict)
            time_str = datetime.datetime.now().isoformat()
            print("{}: step {}, loss {:g}, acc {:g}".format(time_str, step, loss, accuracy))
            if writer:
                writer.add_summary(summaries, step)

        # Generate batches
        batches = data_helpers.batch_iter(list(zip(x_train, y_train)), FLAGS.batch_size, FLAGS.num_epochs)
        # Training loop. For each batch...
        # 训练部分
        for batch in batches:
            x_batch, y_batch = zip(*batch) # 按batch把数据拿进来
            train_step(x_batch, y_batch)
            current_step = tf.train.global_step(sess, global_step) # 将Session和global_step值传进来
            if current_step % FLAGS.evaluate_every == 0: # 每FLAGS.evaluate_every次每100执行一次测试
                print("\nEvaluation:")
                dev_step(x_dev, y_dev, writer=dev_summary_writer)
                print("")
            if current_step % FLAGS.checkpoint_every == 0: # 每checkpoint_every次执行一次保存模型
                path = saver.save(sess, './', global_step=current_step) # 定义模型保存路径
                print("Saved model checkpoint to {}\n".format(path))

data_helpers.py 源码及分析

import numpy as np
import re
import itertools
from collections import Counter

def clean_str(string):
    """
    Tokenization/string cleaning for all datasets except for SST.
    Original taken from https://github.com/yoonkim/CNN_sentence/blob/master/process_data.py
    """
    # 清理数据替换掉无词义的符号
    string = re.sub(r"[^A-Za-z0-9(),!?\'\`]", " ", string)
    string = re.sub(r"\'s", " \'s", string)
    string = re.sub(r"\'ve", " \'ve", string)
    string = re.sub(r"n\'t", " n\'t", string)
    string = re.sub(r"\'re", " \'re", string)
    string = re.sub(r"\'d", " \'d", string)
    string = re.sub(r"\'ll", " \'ll", string)
    string = re.sub(r",", " , ", string)
    string = re.sub(r"!", " ! ", string)
    string = re.sub(r"\(", " \( ", string)
    string = re.sub(r"\)", " \) ", string)
    string = re.sub(r"\?", " \? ", string)
    string = re.sub(r"\s{2,}", " ", string)
    return string.strip().lower()
def load_data_and_labels(positive_data_file, negative_data_file):
    """
    Loads MR polarity data from files, splits the data into words and generates labels.
    Returns split sentences and labels.
    """
    # Load data from files
    positive = open(positive_data_file, "rb").read().decode('utf-8')
    negative = open(negative_data_file, "rb").read().decode('utf-8')

    # 按回车分割样本
    positive_examples = positive.split('\n')[:-1]
    negative_examples = negative.split('\n')[:-1]

    # 去空格
    positive_examples = [s.strip() for s in positive_examples]
    negative_examples = [s.strip() for s in negative_examples]

    #positive_examples = list(open(positive_data_file, "rb").read().decode('utf-8'))
    #positive_examples = [s.strip() for s in positive_examples]
    #negative_examples = list(open(negative_data_file, "rb").read().decode('utf-8'))
    #negative_examples = [s.strip() for s in negative_examples]
    # Split by words
    x_text = positive_examples + negative_examples
    x_text = [clean_str(sent) for sent in x_text] # 字符过滤，实现函数见clean_str()
    # Generate labels
    positive_labels = [[0, 1] for _ in positive_examples]
    negative_labels = [[1, 0] for _ in negative_examples]
    y = np.concatenate([positive_labels, negative_labels], 0) # 将两种label连在一起
    return [x_text, y]

# 创建batch迭代模块
def batch_iter(data, batch_size, num_epochs, shuffle=True): # shuffle=True洗牌
    """
    Generates a batch iterator for a dataset.
    """
    # 每次只输出shuffled_data[start_index:end_index]这么多
    data = np.array(data)
    data_size = len(data)
    num_batches_per_epoch = int((len(data)-1)/batch_size) + 1 # 每一个epoch有多少个batch_size
    for epoch in range(num_epochs):
        # Shuffle the data at each epoch
        if shuffle:
            shuffle_indices = np.random.permutation(np.arange(data_size)) # 洗牌
            shuffled_data = data[shuffle_indices]
        else:
            shuffled_data = data
        for batch_num in range(num_batches_per_epoch):
            start_index = batch_num * batch_size # 当前batch的索引开始
            end_index = min((batch_num + 1) * batch_size, data_size) # 判断下一个batch是不是超过最后一个数据了
            yield shuffled_data[start_index:end_index]

text_cnn.py 源码及分析

import tensorflow as tf
import numpy as np
# 定义CNN网络实现的类
class TextCNN(object):
    """
    A CNN for text classification.
    Uses an embedding layer, followed by a convolutional, max-pooling and softmax layer.
    """
    def __init__(self, sequence_length, num_classes, vocab_size,
                 embedding_size, filter_sizes, num_filters, l2_reg_lambda=0.0): # 把train.py中TextCNN里定义的参数传进来

        # Placeholders for input, output and dropout
        self.input_x = tf.placeholder(tf.int32, [None, sequence_length], name="input_x") # input_x输入语料,待训练的内容,维度是sequence_length,"N个词构成的N维向量"
        self.input_y = tf.placeholder(tf.float32, [None, num_classes], name="input_y") # input_y输入语料,待训练的内容标签,维度是num_classes,"正面 || 负面"
        self.dropout_keep_prob = tf.placeholder(tf.float32, name="dropout_keep_prob") # dropout_keep_prob dropout参数,防止过拟合,训练时用
        # Keeping track of l2 regularization loss (optional)
        l2_loss = tf.constant(0.0) # 先不用，写0
        # Embedding layer
        # 指定运算结构的运行位置在cpu非gpu,因为"embedding"无法运行在gpu
        # 通过tf.name_scope指定"embedding"
        with tf.device('/cpu:0'), tf.name_scope("embedding"): # 指定cpu
            self.W = tf.Variable(tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0), name="W") # 定义W并初始化
            self.embedded_chars = tf.nn.embedding_lookup(self.W, self.input_x)
            self.embedded_chars_expanded = tf.expand_dims(self.embedded_chars, -1) # 加一个维度，转换为4维的格式
        # Create a convolution + maxpool layer for each filter size
        pooled_outputs = []
        # filter_sizes卷积核尺寸,枚举后遍历
        for i, filter_size in enumerate(filter_sizes):
            with tf.name_scope("conv-maxpool-%s" % filter_size):
                # Convolution Layer
                filter_shape = [filter_size, embedding_size, 1, num_filters] # 4个参数分别为filter_size高h，embedding_size宽w，channel为1，filter个数
                W = tf.Variable(tf.truncated_normal(filter_shape, stddev=0.1), name="W") # W进行高斯初始化
                b = tf.Variable(tf.constant(0.1, shape=[num_filters]), name="b") # b给初始化为一个常量
                conv = tf.nn.conv2d(
                    self.embedded_chars_expanded,
                    W,
                    strides=[1, 1, 1, 1],
                    padding="VALID", # 这里不需要padding
                    name="conv")
                # Apply nonlinearity 激活函数
                # 可以理解为,正面或者负面评价有一些标志词汇,这些词汇概率被增强，即一旦出现这些词汇,倾向性分类进正或负面评价,
                # 该激励函数可加快学习进度，增加稀疏性,因为让确定的事情更确定,噪声的影响就降到了最低。
                h = tf.nn.relu(tf.nn.bias_add(conv, b), name="relu")
                # Maxpooling over the outputs
                # 池化
                pooled = tf.nn.max_pool(
                    h,
                    ksize=[1, sequence_length - filter_size + 1, 1, 1], # (h-filter+2padding)/strides+1=h-f+1
                    strides=[1, 1, 1, 1],
                    padding='VALID', # 这里不需要padding
                    name="pool")
                pooled_outputs.append(pooled)

        # Combine all the pooled features
        num_filters_total = num_filters * len(filter_sizes)
        self.h_pool = tf.concat(3, pooled_outputs)
        self.h_pool_flat = tf.reshape(self.h_pool, [-1, num_filters_total]) # 扁平化数据，跟全连接层相连
        # Add dropout
        # drop层,防止过拟合,参数为dropout_keep_prob
        # 过拟合的本质是采样失真,噪声权重影响了判断，如果采样足够多,足够充分,噪声的影响可以被量化到趋近事实,也就无从过拟合。
        # 即数据越大,drop和正则化就越不需要。
        with tf.name_scope("dropout"):
            self.h_drop = tf.nn.dropout(self.h_pool_flat, self.dropout_keep_prob)

        # Final (unnormalized) scores and predictions
        # 输出层
        with tf.name_scope("output"):
            W = tf.get_variable(
                "W",
                shape=[num_filters_total, num_classes], #前面连扁平化后的池化操作
                initializer=tf.contrib.layers.xavier_initializer()) # 定义初始化方式
            b = tf.Variable(tf.constant(0.1, shape=[num_classes]), name="b")
            # 损失函数导入
            l2_loss += tf.nn.l2_loss(W)
            l2_loss += tf.nn.l2_loss(b)
            # xw+b
            self.scores = tf.nn.xw_plus_b(self.h_drop, W, b, name="scores") # 得分函数
            self.predictions = tf.argmax(self.scores, 1, name="predictions") # 预测结果

        # CalculateMean cross-entropy loss
        with tf.name_scope("loss"):
            # loss，交叉熵损失函数
            losses = tf.nn.softmax_cross_entropy_with_logits(logits=self.scores, labels=self.input_y)
            self.loss = tf.reduce_mean(losses) + l2_reg_lambda * l2_loss

        # Accuracy
        with tf.name_scope("accuracy"):
            # 准确率，求和计算算数平均值
            correct_predictions = tf.equal(self.predictions, tf.argmax(self.input_y, 1))
            self.accuracy = tf.reduce_mean(tf.cast(correct_predictions, "float"), name="accuracy")

以上就是Tensorflow深度学习CNN实现英文文本分类的详细内容，更多关于Tensorflow实现CNN分类英文文本的资料请关注脚本之家其它相关文章！

Kubernetes 常用命令程序员的世界你不懂《容器》kubernetes 容器云原生
Kubernetes通过KubeApiserver作为整个集群管理的入口。Apiserver是整个集群的主管理节点，用户通过Apiserver配置和组织集群，同时集群中各个节点同etcd存储的交互也是通过Apiserver进行交互。Apiserver实现了一套RESTful的接口，用户可以直接使用API同Apiserver交互。另外官方还提供了一个客户端kubectl随工具集打包，用于可直接通过k
Tcpdump使用
一介绍tcpdump，是Linux/Unix系统下强大的网络抓包工具，能够捕获和分析网络流量。用简单的语言概括就是dumpthetrafficonanetwork，是一个运行在linux平台可以根据使用者需求对网络上传输的数据包进行捕获的抓包工具，windows平台有sniffer等工具，tcpdump可以将网络中传输的数据包的“包头”全部捕获过来进程分析，其支持网络层、特定的传输协议、数据发送和
4.10 柴胡_4379
昨晚比较晚去睡，因为玩手机的瘾头还是很大。晚上三点多醒来了一次，折腾到六点左右困了又去眯了一个小时。早晨起床时，吐了几口带血的痰，很是触目惊心。要不要去做身体检查呢？心里有很多的纠结。一方面希望以自己使用花晶的方式来照顾身体，又怕检查出什么后会有很多自己不能抗的阻力。另一方面，每年都有做过胸部脑部的ct，是否要再做？我觉得更加重要的是，今早我升起了一股强烈的自我陪伴和支持的意愿和承诺。
druid oracle不同版本分页,JFinal4.3 框架总结（三）铁扇不是公举 druid oracle不同版本分页
7持久层——ActiveRecordActiveRecord模式的核心是：一个Model对象唯一对应数据库表中的一条记录，而对应关系依靠的是数据库表的主键值。因此，ActiveRecord模式要求数据库表必须要有主键。当数据库表没有主键时，只能使用Db+Record模式来操作数据库。JFinal的前端提交的formBean与数据库查询的JavaBean可以使用的是同一个Model对象，Model对
夜色木馨木馨
乘着闲暇，就着夜色，漫步在沿河路上。不赶时间，不急不躁，晚风徐徐，凉意正好。临近假期，顿生许多悠闲，便犒劳犒劳自己，带上耳机，慢慢散步，慢慢游走。耳畔的音乐或许轻快节奏，或是舒缓情殇，些许英文浪漫，偶尔DJ嗨森，脚步也轻快起来。河水潺潺，柳枝纤纤，看一路灯红酒香，听阵阵人声嚷嚷，一切都弥漫着夏日的炎热与喧嚣，却颇有一番味道。路过一个小院，简陋，黢黑，门口一位老汉正专注地拉着二胡，悠然独奏。我不禁摘
java的db是什么_java db 北斗星再亮 java的db是什么
关于javadb的搜索结果问题关于DB+RECORD操作oracle数据库的问题?报错@JFinal你好，想跟你请教个问题：我操作oracle数据库，插入一条记录Recorduser=newRecord().set("userid",...爱吃鱼的程序员2020-06-2220:22:060浏览量回答数1回答为什么不用分页查询是为了导出Excel使用的，前台页面的分页查询没有问题将jvm内存调大点
python的signal weixin_33690963 python
今天在使用python的signal时，发现第二个传的函数必须是拥有两个函数参数变量的1importsignal2importtime3flag=True4deffunc1(a,b):5print"recieveSIGTERM"6globalflag7print"flag%s"%flag8flag=False9print"flag%s"%flag101112defmain():13signal.s
JFinal极速开发框架使用笔记(三) 分析Model和ActiveRecord weixin_33905756 java 数据库测试
JFinal框架的一些新发现的用法：在JFinal框架中，实体类并不需要设置属性，更不需要配置getset方法就可以很方便的操作数据库，如果需要设置或者获取属性，可以直接使用一下方式：Useruser=newUser().set("id","MY_SEQ.nextval").set("age",18);user.save();//获取id值Integerid=user.get("id");但是，如
如何在 Windows 上安装 ONLYOFFICE 文档 v7.2 ONLYOFFICE
通过阅读本文，了解如何在Windows上安装ONLYOFFICE文档v7.2。引言使用社区版，您可以在本地服务器上安装ONLYOFFICE文档，并将在线编辑器与ONLYOFFICE协作平台或其他热门系统集成在一起。ONLYOFFICE文档是一个在线办公套件，包括文本文档、电子表格和演示文稿的查看器和编辑器，与包括.docx、.xlsx、.pptx在内的OfficeOpenXML格式完全兼容，并支持
python字符串前面加字母_Python基础字符串前加u,r,b,f含义果呀哎呀妈呀哦呀 python字符串前面加字母
1、字符串前加u例：u"我是含有中文字符组成的字符串。"作用：后面字符串以Unicode格式进行编码，一般用在中文字符串前面，防止因为源码储存格式问题，导致再次使用时出现乱码。2、字符串前加r例：r"\n\n\n\n”#表示一个普通生字符串\n\n\n\n，而不表示换行了。作用：去掉反斜杠的转移机制。(特殊字符：即那些，反斜杠加上对应字母，表示对应的特殊含义的，比如最常见的”\n”表示换行，”\t
深入理解空对象模式：优雅处理缺失对象的艺术 vvilkin的学习备忘设计模式 java jvm javascript
在软件开发中，我们经常需要处理对象可能不存在的情况。传统的方法是使用null引用，但这会导致代码中充斥着大量的null检查，不仅降低了代码的可读性，还容易引发空指针异常。空对象模式（NullObjectPattern）正是为了解决这一问题而诞生的设计模式。本文将深入探讨空对象模式的概念、实现方式、优缺点以及实际应用场景。一、空对象模式概述1.1什么是空对象模式空对象模式是一种行为设计模式，它通过提
Mysql中使用树的设计 tongle_deng mySql
Mysql中使用树的设计原来一直使用id与parent_id结合的办法设计树，最近发现有些问题：1、查询此结点下所有子结点的需求。2、查询此结点上所有父结点的需求。这些需求在oracle和sqlserver中可以使用一些办法在数据库端进行处理，但在mysql中处理就稍显麻烦，在sqlite中基本无解。所以想办法重新设计一下就显的很有必要的了。添加两列：structure_nodevarchar(1
React入门到精通：掌握前端开发的必备技能！知识分享小能手学习心得体会编程语言如门 react.js 前端 javascript
介绍：React是一个由Facebook开发和维护的JavaScript库，用于构建用户界面，特别是用于构建单页应用程序和移动应用程序的用户界面。以下是对React的详细介绍：虚拟DOM：React通过使用虚拟DOM（DocumentObjectModel）来提高应用的性能。虚拟DOM是真实DOM的轻量级副本，React在虚拟DOM上进行操作，然后高效地更新真实DOM，这种方式比直接操作DOM要快
4D习书第三章刘彦坤
了解用4D管理社会背景的坐标，并明确了坐标的诞生。我关注的内容：有关于4D的验证结论；传统方法的局限。从本章当中的学习对4D使用充满信心。因为它被充分而且反复的应用在领导力和团队发展之中。我的想法与内心独白：用个人的方法精准明确的使用4D系统有效管理团队；让自己变得更好的行动：应用这些定律，并通过实践证明这些定律。期待的结果：有效提高团队和领导至关重要的特点罗列。
在 React 中根据数值动态设置 SVG 线条粗细啃火龙果的兔子开发DEMO react.js 前端前端框架
在React中根据数值动态设置SVG线条粗细在React中，你可以根据不同的数值动态设置SVG元素的粗细（stroke-width）。以下是几种实现方式：方法1：直接根据props设置stroke-widthconstDynamicSVG=({thickness})=>();//使用示例//粗线//细线方法2：根据数值范围映射不同粗细constgetStrokeWidth=(value)=>{if
虚拟机中 Linux环境下idea 报Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=350m；秋林辉 JAVA idea linux jdk intellij idea
问题JavaHotSpot(TM)64-BitServerVMwarning:ignoringoptionMaxPermSize=350m;supportwasremovedin8.0无法启动原因在Java8中，命令行标志MaxPermSize已被删除。原因是永久代已从热点堆中删除，并已移至本机内存。所以不需要配置，内存足够！第一先看看你是不是使用JDK8，如果是MaxPermSize这个配置无效
JSON全面解析：轻量级数据交换的核心技术新人码农11111 json python
目录JSON的本质特征⚙️序列化：数据到字符串的转换反序列化：字符串到数据的还原实际应用场景⚠️常见陷阱与解决方案最佳实践建议在当今数据驱动的时代，JSON（JavaScriptObjectNotation）已成为最流行的轻量级数据交换格式。本文将深入剖析JSON的核心特性及其在Python中的应用，帮助开发者高效处理数据序列化与反序列化。JSON的本质特征JSON采用纯文本格式，具有跨平台、易读
云服务器、VPS、虚拟主机三者之间的区别一只IT攻城狮
一、VPSVPS（VirtualPrivateServer虚拟专用服务器）技术，将一台服务器分割成多个虚拟专享服务器的优质服务。实现VPS的技术分为容器技术，和虚拟化技术。在容器或虚拟机中，每个VPS都可分配独立公网IP地址、独立操作系统、实现不同VPS间磁盘空间、内存、CPU资源、进程和系统配置的隔离，为用户和应用程序模拟出“独占”使用计算资源的体验。VPS可以像独立服务器一样，重装操作系统，安
SQLite数据库文件损坏的可能几种情况（一）界忆人工智能数据库 SQLite 数据库 sqlite c++
返回：SQLite—系列文章目录上一篇：SQLiteC/C++接口详细介绍sqlite3_stmt类（十三）下一篇：SQLite使用的临时文件（二）概述SQLite数据库具有很强的抗损坏能力。如果应用程序崩溃，或操作系统崩溃，甚至电源故障发生在事务中间，部分写入的事务应在下次自动回滚将访问数据库文件。恢复过程已完全完成自动，不需要用户采取任何行动或应用程序。尽管SQLite可以抵抗数据库损坏，但它
前端15 徒做嫁衣
jquery用法思想一选择某个网页元素，然后对它进行某种操作。jquery选择器jquery选择器可以快速地选择元素，选择规则和css样式相同，使用length属性判断是否选择成功。$(document)//选择整个文档对象$('li')//选择所有的li元素$('#myId')//选择id为myId的网页元素$('.myClass')//选择class为myClass的元素$('input[na
Jfinal 使用Druid对Sqlserver数据库配置文件中的密码项进行加密解密实现迟到的微笑 java web Jfina Druid
由于最近业务表较多，导致我好久没写博客了，今天为大家奉上一篇sqlserver配置文件如何加密和解密。网上看了下有mysql的我是sqlserver的忠实用户，居然没有sqlserver的，我瞬间不淡定了，决定写一篇帮助萌新。首先我们需要一个jar包，网上有，我就不提供下载地址了。第二步就是需要用这个jar来对密码进行加密了。网上有很多是下面这样的写法。这种写法对于懒惰的我来说就是一种折磨。我使用
boost::math模块使用 agm 以高精度计算 lemniscate 常量源代码大师 Boost完整实战教程
boost::math模块使用agm以高精度计算lemniscate常量实现功能C++实现代码实现功能boost::math模块使用agm以高精度计算lemniscate常量C++实现代码#include#include#include
【C# in .NET】18. 探秘接口：契约精神阿蒙Armon C#in .NET c#.net java
探秘接口：契约精神在C#类型系统中，接口扮演着“契约”与“能力”的双重角色，它既是代码抽象的核心工具，也是.NET运行时（CLR）类型系统的重要组成部分。本文将穿透接口的语法表象，从IL代码结构、CLR类型系统实现、方法调度机制三个维度，全面揭示接口的底层工作原理，并结合框架设计实践提炼接口使用的精髓。一、接口的底层本质：并非只是“纯抽象类”接口在C#语法中表现为方法签名的集合，但在CLR层面有着
NFL的React GPT项目使用指南吕岚伊
NFL的ReactGPT项目使用指南一、项目目录结构及介绍ReactGPT是由NFL团队开发的一个尝试性项目，旨在创建一个自主的React开发者工具，利用AI辅助进行React代码的生成与修改。以下是本项目的主要目录结构和各部分功能简介：├──env#环境变量配置文件所在目录│└──.env#存放OPENAI_API_KEY等敏感信息的环境变量文件├──example#可能包含示例代码或配置的目录
hamburger-react项目安装与使用指南毕腾鉴Goddard
hamburger-react项目安装与使用指南项目简介本指南旨在帮助开发者了解并快速上手hamburger-react项目。该项目托管在GitHub上，可通过此链接访问。它是一个基于React的组件库，专注于实现汉堡菜单效果，为Web应用提供简洁易用的导航解决方案。1.项目目录结构及介绍hamburger-react/│├──public/-包含index.html以及可能的静态资源，如图标或初
React-Python项目安装与使用指南
React-Python项目安装与使用指南一、项目目录结构及介绍通常情况下，在克隆了https://github.com/facebookarchive/react-python.git仓库之后，你会看到以下的目录结构：├──README.md#项目的说明文档├──src#源码目录│├──components#React组件存放位置│├──App.py#应用主入口文件│└──index.js#引入
高防IP与高防CDN有哪些区别呢？肖家山子龙
为了避免因为攻击导致的服务器瘫痪，运营商们通常会选择具备高防御的服务器来进行运营。如果是在运营过程中遭遇了攻击，不想去更换服务器的话。这个时候，就可以采用添加高防IP或者高防CDN的形式去防御了。那么在使用上，高防IP与高防CDN有哪些区别呢？区别一：应用场景的不同高防IP与高防CDN都是具备防御攻击特性的两种产品。但是在应用上，两者应用的范围是有区别的，高防IP主要是应用在游戏上居多。而高防CD
Leetcode 523. Continuous Subarray Sum SnailTyan
文章作者：Tyan博客：noahsnail.com|CSDN|1.DescriptionContinuousSubarraySum2.Solution解析：Version1，使用前缀和来解决，遍历数组，求前缀和，求前缀和与k的余数，余数在字典中存在时，则意味着当前前缀和减去之前的前缀和等于k的倍数，此时计算两个前缀和的长度差，如果大于等于2，则返回True，如果余数不存在，则将余数保存在字典中并记
化妆品牌排行榜前十名有哪些？这10款化妆品牌,好用口碑又好值得下手高省APP珊珊
现如今，使用化妆品已不仅仅是对美的一种追求，更是对向往美好生活的一种态度。在正式场合精致的仪容仪表也是对他人的一种尊重，在平日里保养好漂亮的脸蛋也是取悦自己的一种方式。俗话说，化妆可以改变一个人，是一张名片，一个人的气质如何不仅跟体态有关，与精致的脸蛋也有很大关系。若是简单的使用化妆品就能让你保持良好的精气神，那我们是否就可以多了解下化妆品呢。今天，小编将跟大家分享小编心中化妆品排行榜的前十名。高
前端学习笔记：React.js中state和props的区别和联系
文章目录1.`props`（属性）定义用途示例2.`state`（状态）定义用途示例3.核心区别4.常见使用场景props的场景state的场景5.交互模式父组件修改子组件状态子组件通知父组件6.最佳实践总结在React.js中，state和props是两个核心概念，用于管理组件的数据和数据流。它们的设计目的不同，但共同构成了React组件的状态管理系统。1.props（属性）定义外部传入的数据：
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

Tensorflow深度学习使用CNN分类英文文本

目录

前言

源码与数据

源码

数据

train.py 源码及分析

data_helpers.py 源码及分析

text_cnn.py 源码及分析

你可能感兴趣的:(Tensorflow深度学习使用CNN分类英文文本)