wangongxi

Deeplearning4j 实战（21）：Bert简介及NLP问题应用

Eclipse Deeplearning4j GitChat课程：https://gitbook.cn/gitchat/column/5bfb6741ae0e5f436e35cd9f
Eclipse Deeplearning4j 系列博客：https://blog.csdn.net/wangongxi
Eclipse Deeplearning4j Github：https://github.com/eclipse/deeplearning4j

版权声明：本文为CSDN博主「wangongxi」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/wangongxi/article/details/106228218
在上一篇博客中，我们介绍了attention机制的基本原理以及如何基于Deeplearning4j中内置的attention layer对文本之类的序列数据进行建模的过程。这篇博客在上一篇的基础上，介绍下2019年Google的研究成果，同样也是和attention机制有关的Bert模型。在Google的论文中介绍，Bert模型在GLUE数据集上都达到的当时的历史最佳。当然后续改进的一些工作也逐步的在指标上超越了Bert，其中就有国内百度公司的工作ERNIE，但Bert构建NLP语言模型的方式方法还是非常值得去学习和研究，包括后续精简参数后的ALBert。这次的文章主要会分为4个部分，在第一部分中结合Bert的论文介绍其基本原理，第二部分中我们尝试将预训练好的Bert模型通过Deeplearning4j中的SameDiff工具导入到DL4j中并打印一些网络结构信息。在第二部分的基础上，也就是基于导入到DL4j中的Bert模型，我们尝试通过迁移学习的方式进行文本分类和序列标注任务的建模。最后我们对全文做下小结。

Bert简介

Bert模型的论文题目叫做《BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding》。从题目中可以很直接的看出，Bert其实是基于Transformer的一种网络结构。Transformer结构本身也就是基于self-attention，最早实在论文《Attention Is All You Need》中提出的，分为Encoder和Decoder两个部分，我们看下论文中的结构图。

Bert中用到的是transformer中的encoder部分，因此我们重点看下编码这块的网络结构。输入端和一般的网络结构类似，是Embedding向量化的结果以及加上了位置信息的Embedding信息。接着就利用到了上一篇博客中提到的多头自注意力机制（Multi-Head Attention）。接着，经过一个简单的position-wise的全连接网络与LayerNorm，也就同网络层的归一化就可以得到encoder部分的输出。需要注意的是，对于整个encoder的部分，输入和输出的格式是[BN,SeqLen,EmbedDim]。Transformer是第一个不依赖于RNN或者CNN结构，完全由Attention结构和普通全连接神经网络构成的。这也是为什么论文的题目叫做attention is all you need的原因。另外，为了弥补attention机制相比于RNN网络在时间维度的欠缺，transformer在输入端将位置信息向量化以后叠加到原始输入上作为共同输入信息进入到模型结构中。计算方式如下：

值得一提的是，transformer中也使用到了残差机制。从encoder部分可以看到，embedding的联合输入有一个箭头直接指向了Add&Norm，并没有经过自注意力机制，这样的设计其实借鉴了机器视觉中残差网络设计的思路，毕竟原始信息也非常重要，而且便于加深网络测层次，优化梯度弥散的问题。以上就是transformer结构中encoder部分的大概情况，我们回到Bert模型。
Bert模型是通过堆叠transformer结构来实现，主要是堆叠transformer的encoder部分。根据原论文中的描述，官方预训练的模型有堆叠12和24个transformer单元两个版本。通过一层一层的编码器，Bert模型可以获取到每个token的分布式表达，这个结果可以用来作为语言模型用于后期的文本建模等相关工作。预训练模型构建过程中，Bert采用了两个任务联合训练来获取句子以及token的语义信息，它们分别是Masked LM和Next Sentence Prediction (NSP)。对于Masked LM来说，在建模的时候会随机掩盖句子中的一些词，然后通过上下文来预测这个词。而对于NSP问题来说，在输出端将上下文两句话同时作为输入喂到模型中，结果做一个二分类就可以了。当然对于中文来说，有词和字mask两种方案，Google官方提供的中文版本是基于字的，而哈工大开源的是基于整词的，有兴趣的同学可以自己Google一下。对于英文来说，也不一定使用整个单词，可以使用粒度更细的Word Piece。下面看下论文中给出的建模示意图。

输入序列通过[CLS]和[SEP]两个特殊字符作为开始和句子的间隔（如果是单句，就是句子结尾）。Token Embedding很好理解，就是词向量，Segment Embedding是一个只含有0，1两个元素的序列，用于表示第一句和第二句。Position Embedding就是之前提到的，可以通过余弦变换得到的位置向量信息。将其累和后作为输入喂到transformer模型中。

以上就是官方给出的中文版本的预训练的Bert模型。

这是哈工大做整词mask的改进版Bert的github开源项目。
在第一部分的最后，我们尝试通过tensorbard看一下预训练好的Bert模型的结构。我们先看下导入到tensorboard后展示的结构。

从tensorboard可视化工具上面展示的预训练模型结构中，bert有三个输入placeholder。而bert这个大的模块其中就包含了transformer结构。

Bert模型导入SameDiff

我们首先从官网上下载中文的预训练模型。下面截图是解压缩后的预训练。

然后通过以下脚本导出pb格式的模型。

import tensorflow as tf
from tensorflow.python.tools import freeze_graph
from tensorflow.tools.graph_transforms import TransformGraph
from tensorflow.summary import FileWriter
import argparse

def load_graph(checkpoint_path, mb, seq_len):
    init_all_op = tf.initialize_all_variables()
    graph2 = tf.Graph()
    with graph2.as_default():
        with tf.Session(graph=graph2) as sess:
            saver = tf.train.import_meta_graph(checkpoint_path + '.meta')
            saver.restore(sess, checkpoint_path)
            print("Restored structure...")
            saver.restore(sess, checkpoint_path)
            print("Restored params...")
            graph_def = graph2.as_graph_def()
            FileWriter("__tb-ch", graph2)

            input_names = ["Placeholder", "Placeholder_1", "Placeholder_2"]
            output_names = ["bert/pooler/dense/Tanh"]
            transforms = ['strip_unused_nodes(type=int32, shape="' + str(mb) + ',' + str(seq_len) + '")']
            graph2 = TransformGraph(graph2.as_graph_def(), inputs=input_names, outputs=output_names, transforms=transforms)

            return graph2


parser = argparse.ArgumentParser(description='Freeze BERT model')
parser.add_argument('--minibatch', help='Minibatch size', default=4)
parser.add_argument('--seq_length', help='Sequence length', default=128)
parser.add_argument('--input_dir', help='Input directory for model', default="D:/chinese_L-12_H-768_A-12/chinese_L-12_H-768_A-12/")
parser.add_argument('--ckpt', help='Checkpoint filename in input dir', default="bert_model.ckpt")

args = parser.parse_args()
mb = int(args.minibatch)
seq_len = int(args.seq_length)

print("minibatch: ", mb)
print("seq_length: ", seq_len)
print("input_dir: ", args.input_dir)
print("checkpoint: ", args.ckpt)

dirIn = args.input_dir
dirOut = dirIn + "frozen/"
ckpt = args.ckpt
graph = load_graph(dirIn + ckpt, mb, seq_len)
txtName = "bert_export_mb" + str(mb) + "_len" + str(seq_len) + ".pb.txt"
txtPath = dirOut + txtName
tf.train.write_graph(graph, dirOut, txtName, True)


output_graph = dirOut + "bert_frozen_mb" + str(mb) + "_len" + str(seq_len) + ".pb"
print("Freezing Graph...")
freeze_graph.freeze_graph(
    input_graph=txtPath,
    input_checkpoint=dirIn+ckpt,
    input_saver="",
    output_graph=output_graph,
    input_binary=False,
    output_node_names="bert/pooler/dense/Tanh",     #This is log(prob(x))
    # output_node_names="loss/Softmax",     #This is log(prob(x))
    restore_op_name="save/restore_all",
    filename_tensor_name="save/Const:0",
    clear_devices=True,
    initializer_nodes="")
print("Freezing graph complete...")

下面我们将保存好的pb模型文件通过SameDiff导入到DL4j中并打印模型的基本信息。

	File f = new File("E:/bert_frozen_ch", "bert_frozen_mb4_len128.pb");
    SameDiff sd = TFGraphMapper.importGraph(f);
    System.out.println(sd.summary());

这段逻辑比较简单，我们直接看下summary打印出的结果。

从summary的截图可以比较清楚地看到，encoder共有0~11个transformer单元模块，并在最后一个block做了pooling，这主要方便做后续的迁移学习。需要注意的是，在Bert源码中pooling的操作其实是拿出了第一个token的向量来作为整个序列的语义向量，我们在基于预训练模型做进一步的优化的时候，可以不完全按照这种方式，例如我们可以直接将每个token的序列做线性加和来达到获取整个序列语义的目的。以下Bert是源码中对pooling的解释。

我们截图出一个单独的transformer单元，并对照上文中transformer的结构来看下。

从截图中我们可以看到，红框的部分是自注意力机制的计算部分，蓝框的部分则是add&norm的部分。这和《Attention is all you need》论文中对于transformer的结构描述是一致的。开发人员可以根据和论文中的对照关系对导入的模型结构进行分析。该部分最后我们看下DL4j提供的用于Bert模型的数据迭代器。
Deeplearning4j主要为Bert提供了BertWordPieceTokenizerFactory和BertIterator两个组件。BertWordPieceTokenizerFactory支持加载官方提供的字典数据，主要维护token以及对应索引值的键值对关系。BertIterator主要用于构建Bert预训练任务和迁移监督学习任务的训练数据。对于预训练模型这块，目前只支持Mask LM的任务，暂不支持NSP。我们看下源码实现的注释中给出的例子。

从图中我们可以看到，第一步我们需要加载字典到BertWordPieceTokenizerFactory的实例中，接着我们设置BertIterator对象的参数，包括分词的工具、序列的长度、batch size、单句或者上下文序列预处理工具等等。对于预训练模型的Mask LM任务，以下这几个参数是需要指定的

.task(BertIterator.Task.UNSUPERVISED)
.masker(new BertMaskedLMMasker(new Random(12345), 0.2, 0.5, 0.5))
.unsupervisedLabelFormat(BertIterator.UnsupervisedLabelFormat.RANK2_IDX)
.maskToken("[MASK]")

task用于指定预训练的任务类型，masker参数则是用于确定掩码的token的比例，unsupervisedLabelFormat用于指定预训练模式下的标注的格式，maskToken则是指定掩盖token的特殊标识符。而对于非预训练建模问题的配置上，需要设置以下参数

.featureArrays(BertIterator.FeatureArrays.INDICES_MASK)
.vocabMap(t.getVocab())
.task(BertIterator.Task.SEQ_CLASSIFICATION)

对于非预训练任务，我们需要通过task参数设置任务的类型，示例中是序列分类。下面两个部分将分别使用预训练好的模型进行迁移学习。其中也会涉及内置Bert数据迭代器的使用。

基于Bert预训练模型的文本分类

在上面的部分中，我们介绍了如何将预训练好的中文Bert模型保存成pb格式并通过SameDiff工具导入到DL4j中。我们基于预训练好的模型可以在此基础上做进一步的迁移学习，这个部分我们首先介绍下如何通过添加部分网络结构来实现文本分类的功能。
在已经导入pb模型的基础上，我们添加以下结构

SDVariable labels = sd.placeHolder("label", DataType.FLOAT, 1, 2);
NameScope my_transfer = sd.withNameScope("loss");
SDVariable input = sd.getVariable("bert/pooler/dense/Tanh");
SDVariable my_flatten_weights = sd.var("flatten_weights", new XavierInitScheme('c', 768, 2), DataType.FLOAT, 768, 2);
SDVariable my_flatten_bias = sd.var("flatten_bias", new UniformInitScheme('c', 2),DataType.FLOAT, 2);
SDVariable linear_output = input.mmul(my_flatten_weights).add("linear_output",my_flatten_bias);
SDVariable softmax_output = sd.nn().softmax("softmax", linear_output);
SDVariable loss = sd.loss().logLoss("Loss", labels, softmax_output);
my_transfer.close();
//
sd.setLossVariables(loss);
sd.addListeners(new ScoreListener(1));

这段逻辑的核心在于我们将“bert/pooler/dense/Tanh”变量作为整个预训练模型的输出，其实就是一个768维的向量，然后我们添加一个全连接网络作为整个网络结构的输出。这里涉及到的算子比较简单，通过SameDiff的mmul、add以及softmaxLoss就可以在预训练的Bert模型上搭建起序列分类的模型结构。这里需要提一点，就是我用了NameScope为相关域范围内的算子和变量添加的命名范围，如果不使用也是可以的。通过setLossVariables来定义该网络结构的损失函数。我们同样可以输出模型结构的summary来看下整个迁移后的模型结构。

由于name scope设置的名称是loss，所以添加的网络结构的前缀都会带有loss。其余未截图出来的结构和之前Bert预训练的模型结构是一致的，这里不多描述了。下面介绍下训练数据的准备。由于时间原因，这里没有准备非常翔实的语料数据，但实现逻辑是一致的，我们先来看下

private static MyBertIterator getSupervisedDataIterator(String bertModelPath) throws Exception {
	List sentences = new ArrayList() {{add("这个菜很好吃");
											add("那个商品质量太差了");
											add("差评！太垃圾了！");
											add("非常喜欢这个品类");}};
	List sentencesR = new ArrayList() {{add("");add("");add("");add("");}};
	List label = new ArrayList() {{add("pos");add("neg");add("neg");add("pos");}};
	CollectionLabeledPairSentenceProvider labeledPairSentenceProvider = new CollectionLabeledPairSentenceProvider(sentences, sentencesR, label, new Random(123L));
    File wordPieceTokens = new File("E:/bert_frozen_ch/vocab.txt");

    BertWordPieceTokenizerFactory t = new BertWordPieceTokenizerFactory(wordPieceTokens, true, true, StandardCharsets.UTF_8);
    MyBertIterator b = MyBertIterator.builder()
                  .tokenizer(t)
                  .lengthHandling(MyBertIterator.LengthHandling.FIXED_LENGTH, 128)
                  .minibatchSize(1)
                  .sentenceProvider(null)
                  .sentencePairProvider(labeledPairSentenceProvider)
                  .featureArrays(MyBertIterator.FeatureArrays.INDICES_MASK_SEGMENTID)
                  .vocabMap(t.getVocab())
                  .task(MyBertIterator.Task.SEQ_CLASSIFICATION)
                  .prependToken("[CLS]")
                  .appendToken("[SEP]")
                  .build();

    return b;
}

上面的逻辑中我们一共准备了4段短文本，主要是围绕评论的。在label这个对象中，我们为每段文本添加了一个标注，neg或者pos，也就是负面或者正面。而对于sentencesR这个对象，其实是用于sentence pair的输入的第二句文本，这里我们不需要所以将其置空。labeledPairSentenceProvider对象其实是处理原始语料和label的工具类，直接使用即可。这里有一点需要注意，就是需要从Bert模型的字典文件，也就是wordPieceTokens指向的文件位置，需要通过BertWordPieceTokenizerFactory加载到内存中。字典文件可以直接用文本编辑器打开，里面存储的是一些中文单字和英文。

单字的索引在BertWordPieceTokenizerFactory实例化后会自动维护，这里对用户是透明的。最后就是声明一个BertIterator迭代器了。这里需要注意的是，BertIterator源码中对于sentencePairProvider的reset操作有一个bug，因此我做一些修改，这里直接用我自定义的MyBertIterator，绝大部分功能实现和BertIterator是一样的。我们来看下训练模型的主逻辑。

MyBertIterator datasetIter = getSupervisedDataIterator();
SameDiff sd = getBertModel();
TrainingConfig c = TrainingConfig.builder()
            .updater(new Adam(0.01))
            .l2(1e-5)
            .dataSetFeatureMapping("Placeholder", "Placeholder_1")
            .dataSetFeatureMaskMapping("Placeholder_2")
            .dataSetLabelMapping("label")
            .build();
sd.setTrainingConfig(c);
System.out.println("Start Training...");
long start = System.currentTimeMillis();
for( int i = 0; i < 50; ++i ){
	sd.fit(datasetIter, 1);
	datasetIter.reset();
}
long end = System.currentTimeMillis();
System.out.println("Total Time Cost: " + (end - start) + "ms");
System.out.println("End Training...");

这段逻辑首先我们构建了训练语料并封装在Bert数据迭代器中，接着获取模型实例，当然这里的模型已经是在预训练模型基础上添加了全连接网络。我们通过TrainingConfig来配置训练的参数，其中包含优化器和学习率、L2正则化项以及整个模型的输入和输出。我们一共训练50个epoch并在每一轮训练完毕后需要reset一下Bert数据迭代器。我们看下控制台的部分输出。

从日志中可以看到每一轮训练后的loss情况，由于语料的数量较少，因此不能反映实际工程的状况，但可以作为开发人员的参考。最后我们对这部分做下简单的小结。
对于基于Bert预训练好的中文模型，我们先通过SameDiff导入到DL4j中，然后在预训练好的pooling层添加一个全连接网络用于分类任务。语料的准备是比较简单的构造了几句正面和负面的评价，然后通过BertIterator解析成可以喂到Bert模型中的数据格式。在构建好训练数据集以及迁移的模型后，我们设置一些训练的参数，包括优化器和学习率等超参数，然后和以往的神经网络一样训练若干个epoch即可完成基于Bert的分类建模任务。下面我们来看下Bert预训练模型如果做NER问题的。

基于Bert预训练模型的实体识别问题

基于Bert预训练模型做NER问题和文本分类有一些区别，我们需要对序列中的每一个token进行打标，而不是对于整个序列进行识别，因此我们其实并不需要预训练中pooling层的结果，我们需要的其实是12层transformer encoder结果的输出，也就是每一个batch中每一个token的768维的encoder结果。我们先给出网络结构的迁移部分的逻辑再做解释。

private static SameDiff getBertModel() throws IOException {
	File f = new File("E:/bert_frozen_ch", "bert_frozen_mb4_len128.pb");
    SameDiff sd = TFGraphMapper.importGraph(f);
    //
    SDVariable labels = sd.placeHolder("label", DataType.INT, 1, 128);
    NameScope my_transfer = sd.withNameScope("loss");
    SDVariable input = sd.getVariable("bert/encoder/layer_11/output/LayerNorm/batchnorm/add_1");
    SDVariable my_flatten_weights = sd.var("flatten_weights", new XavierInitScheme('c', 768, 7), DataType.FLOAT, 768, 7);
    SDVariable my_flatten_bias = sd.var("flatten_bias", new UniformInitScheme('c', 7),DataType.FLOAT, 7);
    SDVariable linear_output = input.mmul(my_flatten_weights).add("linear_output",my_flatten_bias);
    SDVariable softmax_output = sd.nn().softmax("softmax", linear_output);
    SDVariable loss = sd.loss().sparseSoftmaxCrossEntropy("Loss", softmax_output, labels);
    my_transfer.close();
    //
    sd.setLossVariables(loss);
    sd.addListeners(new ScoreListener(1));
    //
    return sd;
}

首先我们基于SameDiff导入预训练好的模型，这个和上一部分中的逻辑相同。我们重点看下NameScope中的部分逻辑。我们把encoder部分的output部分的输出变量拿出来，然后我们用全连接网络对输出张量做线性变化并得到一个[Batch,SeqLen,LabelCount]的张量。这里的LabelCount是指的包括特殊字符[CLS]和[SEP]都在内的所有标签的数量，由于我们准备做BMSE标签方法做一个分词工具，因此除了预留的label=0之外，剩余的标签数量就是共有6个，总共是7个，这也是我们做全连接网络线性变化的时候用的是768x7的结构的原因。需要注意的是我们这里用的是sparseSoftmaxCrossEntropy作为损失函数，而不是普通的softmax交差熵loss，sparse的loss可用于每个label独立且互斥的情况。同时label数据的格式不再是one-hot的格式，而是一个整数序列。我们给出训练数据准备的逻辑。

private static List getDataIter(String fileName, Map vocab) throws IOException{
	List lines = FileUtils.readLines(new File(fileName), Charset.forName("utf-8"));
	List datasets = new LinkedList<>();
	List idxsLst = new ArrayList<>(128);
	List maskLst = new ArrayList<>(128);
	List labelLst = new ArrayList<>(128);
	//
	for( String line : lines ){
		String[] tokens = line.split("\t");
		idxsLst.add(101);//头部增加[CLS]
		labelLst.add(1);//CLS的默认标注
		maskLst.add(1);
		for( String token : tokens ){
			String[] wordAndLabel = token.split("/");
			String word = wordAndLabel[0];
			String label = wordAndLabel[1];
			idxsLst.add(vocab.getOrDefault(word, 100));	//字典中查找每个字的索引，否则默认是UNK.
			maskLst.add(1);
			labelLst.add(labelMap.get(label));
		}
		idxsLst.add(102);//尾部增加[SEP]
		idxsLst.addAll(Collections.nCopies(128 - idxsLst.size(), 0));
		labelLst.add(2);//SEP的默认标注
		labelLst.addAll(Collections.nCopies(128 - labelLst.size(), 0));
		maskLst.add(1);
		maskLst.addAll(Collections.nCopies(128 - maskLst.size(), 0));
		//
		INDArray idxs = Nd4j.create(idxsLst);
		INDArray mask = Nd4j.create(maskLst);
		INDArray segmentIdxs = Nd4j.zeros(128);
		INDArray labelArr = Nd4j.create(labelLst);
		MultiDataSet mds = new org.nd4j.linalg.dataset.MultiDataSet(new INDArray[]{idxs, mask, segmentIdxs}, new INDArray[]{labelArr});
		datasets.add(mds);
		//
		idxsLst.clear();
		maskLst.clear();
		labelLst.clear();
	}
	return datasets;
}

截图是语料的标注情况，当然为了验证模型我们也只是准备了非常少量的语料数据。下面的逻辑就是数据预处理的过程。当读取一条记录后，我们以tab来分割字符串并取出token以及token的label，从vocab这个字典对象中获取该token的索引值否则用正整数100来代替，它的物理含义是UNK。需要注意的是，为了兼容Bert模型的训练数据格式，我们在每一个序列的开始需要添加“CLS”这个token，它对应的索引整数是101，同时在每个序列的结尾需要添加“SEP”这个token，它对应的索引整数值是102。至于label的数据方面，我们可以为CLS、SEP以及UNK设定默认的label值，否则就按照语料中给label并给出相关的索引值。除了token序列以及标注序列，我们需要准备一个掩码序列。这个掩码序列的功能主要是标识哪些位置是有效，哪些是无效位置，用0-1二值表示即可。在构建完这三个List之后，我们就可以创建三个张量对象，然后逐个封装在MultiDataSet对象中。下面看下完整的建模过程。

File wordPieceTokens = new File("E:/bert_frozen_ch/vocab.txt");
BertWordPieceTokenizerFactory t = new BertWordPieceTokenizerFactory(wordPieceTokens, true, true, StandardCharsets.UTF_8);
Map vocab = t.getVocab();
List iter = getDataIter("seg.corpus",vocab);
//
SameDiff sd = getBertModel();
TrainingConfig c = TrainingConfig.builder()
					      .updater(new Adam(0.01))
					      .l2(1e-5)
					      .dataSetFeatureMapping("Placeholder", "Placeholder_1","Placeholder_2")
					      .dataSetLabelMapping("label")
					      .build();
sd.setTrainingConfig(c);
//
long start = System.currentTimeMillis();
for( int numEpoch = 0; numEpoch < 10; numEpoch++ ){
     for( int i = 0; i < iter.size(); ++i ){
          sd.fit(iter.get(i));
     }
}

该部分逻辑和上一部分文本分类的建模逻辑类似，首先我们需要从磁盘上读取字典文件到内存中。并且结合上面介绍的训练数据准备逻辑，将token序列和label都封装在MultiDataSet的对象中。从getBertModel方法中我们可以按照之前介绍的逻辑获取序列标注的迁移模型结构。然后和之前文本分类的逻辑一致，设置训练的参数以及多轮的训练。最后我们看下控制台的日志。

总结

我们对这篇文章的内容做一下总结。对于Bert模型，我们解释了它内部的transformer结构并介绍了完整Bert预训练模型是如何构建的，包括Mask LM和NSP两个预训练任务。对于中文预训练Bert模型，我们介绍了如何先将其转化为pb模型文件以及如何借助SameDiff导入到DL4j中。此外，在Deeplearning4j中，内置了一些工具类用于支持Bert模型的训练和数据的ETL，我们也给出了对应的使用介绍。我们通过打印summary信息到控制台，可以比较清晰地看到预训练模型的结构，并对照论文进行进一步的理解。接着，在导入预训练模型的基础上，我们为其添加一些网络结构使其支持做文本分类和序列标注的迁移学习。Bert模型其实在迁移学习的过程中起到了提取特征的作用，而我们基于这样的特征提取器可以更好地进行相关的NLP任务。由于时间有限，我们没有准备太过丰富的语料信息，有兴趣的同学可以自行准备并进行验证。
Bert模型本身结构其实没有给出太过原始的创新点，主要是基于transformer的encoder部分搭建整个网络的架构。此外，由于attention机制本身对位置信息的缺失，在输入层将token以及其位置的embedding信息进行线性叠加，这样从理论上可以弥补一些时序信息的缺失。Bert本身更想做一个一个LM，这个语言模型可以迁移到其他的一些NLP任务当中，而不是像传统网络结构一样每次都重新train一个LM。NLP任务确实是AI一个难点，毕竟文字这种符号化的东西是人类自身创造的，意义也是人赋予的，而不像CV的一些问题可以认为是原始信息的一些采集。还是很期待以Bert为代表的新一代NLP解决方案可以进一步推进AI的发展。

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
JVM与Spring Boot核心解析 AIHacksCash Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
20k软件测试工程师必会——Jenkins+Git+Appium 持续集成策略测试小姐姐哟软件测试 jenkins 运维
持续集成（Continuousintegration，简称CI）持续集成是一种开发实践，它倡导团队成员需要频繁的集成他们的工作，每次集成都通过自动化构建（包括编译、构建、自动化测试）来验证，从而尽快地发现集成中的错误。让正在开发的软件始终处于可工作状态，让产品可以快速迭代，同时还能保持高质量。Jenkins是基于Java开发的持续集成工具，开源免费，官网：https://jenkins.io/Ap
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
Spring Boot + Mybatis数据库多数据源解决驼峰映射不生效问题 yy1209357299 springBoot mybatis mybatis 数据库 spring boot
1、问题描述做查询操作时，返回数据为NULL,导致当使用这条数据报空指针错误2、说明在数据库字段命名规范中，通常使用下划线“_”来连接两个单词，比如：user_id。但是在Java开发中，实体字段通常采用驼峰命名法，比如userId。如果不开启驼峰命名法，则映射到对象无法赋值解决方法：1、直接为结果集设定一个resultMapselectuser_idfromtable;2、配置文件加入以下配置m
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
Spring Boot项目中大文件上传的优化策略与实践代码老y spring boot 后端 java
在现代的Web开发中，文件上传是一个常见的功能需求。然而，当涉及到大文件上传时，传统的文件上传方式往往会面临诸多挑战，如内存溢出、上传速度慢、网络不稳定导致上传失败等问题。SpringBoot作为当前流行的Java开发框架，提供了强大的功能支持，但如何在SpringBoot项目中高效地实现大文件上传，仍然是一个值得深入探讨的话题。本文将详细介绍大文件上传的常见问题、解决方案以及优化策略，帮助开发者
MyBatis-Plus：提升数据库操作效率的利器代码老y 数据库 mybatis oracle
在Java开发中，MyBatis是一个非常流行的持久层框架，它简化了数据库操作，提供了灵活的SQL映射功能。然而，随着项目规模的扩大和业务复杂度的增加，开发者需要更高效、更便捷的方式来处理数据库操作。MyBatis-Plus应运而生，它在MyBatis的基础上进行了扩展和优化，提供了许多强大的功能，帮助开发者提升开发效率和代码质量。本文将深入探讨MyBatis-Plus的核心特性及其在实际项目中的
Swagger快速入门实战指南 Matthew Um
本文还有配套的精品资源，点击获取简介：Swagger是一款功能强大的API开发工具，帮助开发者设计、构建、记录和使用RESTfulWeb服务。它通过直观的用户界面，简化了API的查看、测试和理解过程，特别是与Java开发和SpringMVC框架的无缝集成。本快速入门指南将带你通过五个简单步骤学习Swagger的基本使用，包括添加依赖、配置Swagger、使用API注解、运行应用以及如何在Swagg
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
DDD实践：技术细节解析 MoneyHacksPro Java场景面试宝典 DDD Software Architecture Domain Modeling
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
ShardingSphere技术解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
微服务架构核心技术解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
JVM与Spring Boot核心解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Spring MVC 框架解析 MoneyHacksPro Java场景面试宝典 Spring MVC Web Development Java Framework
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
JAVA打断点技巧 weixin_43783165 java
以下是Java开发中高效使用断点的核心技巧，结合调试场景分类整理，帮助开发者精准定位问题：一、断点类型与适用场景行断点（最常用）用法：在代码行号左侧双击（IDE通用）。场景：暂停在特定代码行，检查变量状态或执行流程。技巧：结合命中次数（HitCount）：循环中设置i==N，仅在第N次循环时暂停。临时禁用断点：避免频繁暂停，右键断点取消勾选"Enabled"。方法断点（接口/实现类调试）用法：在方
Lombok的作用与使用 weixin_43783165 java
Lombok是一个用于简化Java开发的工具库，主要通过注解在编译时自动生成代码，减少开发中的样板代码。其核心作用如下：1.消除样板代码（核心价值）Getter/Setter：通过@Getter/@Setter注解自动生成字段的访问方法，无需手动编写冗长的getXxx()和setXxx()方法。构造方法：@NoArgsConstructor：生成无参构造器。@AllArgsConstructor：
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

Deeplearning4j 实战 （21）：Bert简介及NLP问题应用

Bert简介

Bert模型导入SameDiff

基于Bert预训练模型的文本分类

基于Bert预训练模型的实体识别问题

总结

你可能感兴趣的:(自然语言处理,Java开发,机器学习)

Deeplearning4j 实战（21）：Bert简介及NLP问题应用