xlturing

浅谈分词算法（5）基于字的分词方法（bi-LSTM）

前言
目录
循环神经网络
基于LSTM的分词
- Embedding
- 数据预处理
- 模型
- 如何添加用户词典

前言

很早便规划的浅谈分词算法，总共分为了五个部分，想聊聊自己在各种场景中使用到的分词方法做个总结，种种事情一直拖到现在，今天抽空赶紧将最后一篇补上。前面几篇博文中我们已经阐述了不论分词、词性标注亦或NER，都可以抽象成一种序列标注模型，seq2seq，就是将一个序列映射到另一个序列，这在NLP领域是非常常见的，因为NLP中语序、上下文是非常重要的，那么判断当前字或词是什么，我们必须回头看看之前说了什么，甚至之后说了什么，这也符合人类在阅读理解时的习惯。由于抽象成了Seq2Seq的模型，那么我们便可以套用相关模型来求解，比如HMM、CRF以及深度中的RNN，本文我们就来聊聊LSTM在分词中的应用，以及使用中的一些trick，比如如何添加字典等。

循环神经网络

在之前的博文马里奥AI实现方式探索 ——神经网络+增强学习，我阐述了关于神经网络的历程，以及最近这波人工智能浪潮的起始CNN，即卷积神经网络的概念。卷积神经网络给图像领域带来了质的飞越，也将之前由李飞飞教授建立的ImageNet比赛提升到了新的高度，图像识别领域，计算机第一次超越了人类，从而引爆了最近两三年来对人工智能、深度学习的持续关注。
当CNN在图像领域火爆之后，自然作为人工智能三大领域之一的NLP，也很快拿来使用，即著名的Text-CNN，大家感兴趣的可以去看看这篇论文Convolutional Neural Networks for Sentence Classification，对NLP领域也具有重要的里程碑意义，现在引用量也达到了3436。
但是CNN有个比较严重的问题是，其没有序列的概念在里面，如果我们将一个句子做好embedding丢到CNN中做分类模型，那么CNN更多的是将这个句子看做一个词袋（bag-of-words bag），这样在NLP领域重要的语序信息就丢失了，那么我们便引出了RNN，即循环神经网络或说递归神经网络（这里值得注意的是，如果是对语句做分类模型，那么用CNN进行不同kernel的卷积，然后拼接是可以提取到一些语序信息，这其中也涉及到各种变种的CNN，大家可以多查查资料）。
对于循环神经网络，其实与CRF、HMM有很多共通之处，对于每一个输入$x_t$，我们通过网络变换都会得到一个状态$h_t$，对于一个序列来说，每一个token（可以是字也可以是词，在分词时是字）都会进入网络迭代，注意网络中的参数是共享的。这里不可免俗的放上经典图像吧：

这里将循环神经网络展开，就是后面那样。大家注意下图中的$A$，在RNN中就是一个比较简单的前馈神经网络，在RNN中会有一个严重的问题，就是当序列很长的时候，BP算法在反馈时，梯度会趋于零，即所谓的梯度消失（vanishing gradient）问题，这便引出了LSTM（Long Short Term Memory）。
LSTM本质上还是循环神经网络，只不过呢它把上面我们提到的$A$换了换，加了三个门，其实就是关于向量的几个变换表达式，来规避这种梯度消失问题，使得LSTM的逻辑单元能够更好的保存序列信息，同样不可免俗上下面这张经典的图片：

图中对应了四个表达式如下：
遗忘门：

\[f_t=\sigma (W_f\cdot [h_{t-1},x_t]+b_f \]

输入门：

\[i_t=\sigma (W_i\cdot [h_{t-1},x_t]+b_i \]

\[\widetilde{C}=tanh(W_C\cdot [h_{t-1},x_t]+b_C \]

状态更新：

\[C_t=f_t*C_{t-1}+i_t*\widetilde{C}_t \]

输出门：

\[O_t=\sigma (W_o[h_{t-1},x_t]+b_o) \]

\[h_t=O_t*tanh(C_t) \]

一般呢LSTM都是一个方向将序列循环输入到网络之中，然而有时候我们需要两头关注序列的信息，这样便引出了Bi-LSTM，即双向LSTM，很简单，就是对于一个序列，我们有两个LSTM网络，一个正向输入序列，一个反向输入序列，然后将输出的state拼接在一起，供后续使用。
到这里我们简单的说了下关于循环神经网络的事情，下面我们看下在分词中应用LSTM

基于LSTM的分词

前文以及之前的系列博文，我们已经熟悉分词转换为Seq2Seq的思路，那么对于LSTM，我们需要做的是将一串句子映射成为Embedding，然后逐个输出到网络中，得到状态输出，进行序列标注。我们采用TensorFlow来开发。

Embedding

关于Embedding，我们可以直接下载网上公开的Wiki数据集训练好的Embedding，一般维度是100，也可以自己根据场景，利用Word2Vec、Fasttext等训练自己的Embedding。

数据预处理

其实深度的好多模型已经很成熟，最麻烦的是数据的预处理，在数据预处理阶段核心要做的是将序列映射到Embedding文件对应的id序列，并且按照Batch来切分，一般根据数据集的大小会设置64、128、256等不同的batch大小，在向网络输入数据，进行epoch迭代时，注意进行必要的shuffle操作，对于结果提高很有用，shuffle类似如下：

def shuffle(char_data, tag_data, dict_data, len_data):
    char_data = np.asarray(char_data)
    tag_data = np.asarray(tag_data)
    dict_data = np.asarray(dict_data)
    len_data = np.asarray(len_data)
    idx = np.arange(len(len_data))
    np.random.shuffle(idx)

    return (char_data[idx], tag_data[idx], dict_data[idx], len_data[idx])

数据预处理我这里不多讲了，读者可以直接看github上开源的代码，有问题随时留言，我有空会来解答~

模型

我们的核心模型结构也很简单，将输入的id序列，通过Tensorflow 的查表操作，映射成对应的Embedding，然后输入到网络中，得到最终结果，进行Decode操作，得到每个字符的标记（BEMS），核心代码如下：

    def __init__(self, config, init_embedding = None):
        self.batch_size = batch_size = config.batch_size
        self.embedding_size = config.embedding_size # column
        self.hidden_size = config.hidden_size
        self.vocab_size = config.vocab_size # row

        # Define input and target tensors
        self._input_data = tf.placeholder(tf.int32, [batch_size, None], name="input_data")
        self._targets = tf.placeholder(tf.int32, [batch_size, None], name="targets_data")
        self._dicts = tf.placeholder(tf.float32, [batch_size, None], name="dict_data")
        self._seq_len = tf.placeholder(tf.int32, [batch_size], name="seq_len_data")

        with tf.device("/cpu:0"):
            if init_embedding is None:
                self.embedding = tf.get_variable("embedding", [self.vocab_size, self.embedding_size], dtype=data_type())
            else:
                self.embedding = tf.Variable(init_embedding, name="embedding", dtype=data_type())
        inputs = tf.nn.embedding_lookup(self.embedding, self._input_data)
        inputs = tf.nn.dropout(inputs, config.keep_prob)
        inputs = tf.reshape(inputs, [batch_size, -1, 9 * self.embedding_size])
        d = tf.reshape(self._dicts, [batch_size, -1, 16])
        self._loss, self._logits, self._trans = _bilstm_model(inputs, self._targets, d, self._seq_len, config)
        # CRF decode
        self._viterbi_sequence, _ = crf_model.crf_decode(self._logits, self._trans, self._seq_len)
        with tf.variable_scope("train_ops") as scope:
            # Gradients and SGD update operation for training the model.
            self._lr = tf.Variable(0.0, trainable=False)
            tvars = tf.trainable_variables()  # all variables need to train
            # use clip to avoid gradient explosion or gradients vanishing
            grads, _ = tf.clip_by_global_norm(tf.gradients(self._loss, tvars), config.max_grad_norm)
            self.optimizer = tf.train.AdamOptimizer(self._lr)
            self._train_op = self.optimizer.apply_gradients(
                zip(grads, tvars),
                global_step=tf.contrib.framework.get_or_create_global_step())

            self._new_lr = tf.placeholder(data_type(), shape=[], name="new_learning_rate")
            self._lr_update = tf.assign(self._lr, self._new_lr)
        self.saver = tf.train.Saver(tf.global_variables())

代码逻辑很清晰，将各种输入得到后，embedding查表结束后，放入Bi-LSTM模型，得到的结果进行Decode，这里注意我们用了一个CRF进行尾部Decode，经过试验效果更好，其实直接上一层Softmax也ok。对于bilstm如下：

def _bilstm_model(inputs, targets, dicts, seq_len, config):
    '''
    @Use BasicLSTMCell, MultiRNNCell method to build LSTM model
    @return logits, cost and others
    '''
    batch_size = config.batch_size
    hidden_size = config.hidden_size
    vocab_size = config.vocab_size
    target_num = config.target_num  # target output number
    seq_len = tf.cast(seq_len, tf.int32)

    fw_cell = lstm_cell(hidden_size)
    bw_cell = lstm_cell(hidden_size)

    with tf.variable_scope("seg_bilstm"): # like namespace
        # we use only one layer
        (forward_output, backward_output), _ = tf.nn.bidirectional_dynamic_rnn(
            fw_cell,
            bw_cell,
            inputs,
            dtype=tf.float32,
            sequence_length=seq_len,
            scope='layer_1'
        )
        # [batch_size, max_time, cell_fw.output_size]/[batch_size, max_time, cell_bw.output_size]
        output = tf.concat(axis=2, values=[forward_output, backward_output])  # fw/bw dimension is 3
        if config.stack: # False
            (forward_output, backward_output), _ = tf.nn.bidirectional_dynamic_rnn(
                fw_cell,
                bw_cell,
                output,
                dtype=tf.float32,
                sequence_length=seq_len,
                scope='layer_2'
            )
            output = tf.concat(axis=2, values=[forward_output, backward_output])

        output = tf.concat(values=[output, dicts], axis=2)  # add dicts to the end
        # outputs is a length T list of output vectors, which is [batch_size*maxlen, 2 * hidden_size]
        output = tf.reshape(output, [-1, 2 * hidden_size + 16])
        softmax_w = tf.get_variable("softmax_w", [hidden_size * 2 + 16, target_num], dtype=data_type())
        softmax_b = tf.get_variable("softmax_b", [target_num], dtype=data_type())

        logits = tf.matmul(output, softmax_w) + softmax_b
        logits = tf.reshape(logits, [batch_size, -1, target_num])

    with tf.variable_scope("loss") as scope:
        # CRF log likelihood
        log_likelihood, transition_params = tf.contrib.crf.crf_log_likelihood(
            logits, targets, seq_len)
        loss = tf.reduce_mean(-log_likelihood)
    return loss, logits, transition_params

注意这里做了两次LSTM，并将结果拼接在一起，而我们的损失函数是关于crf_log_likelihood。

如何添加用户词典

我们可以看到在整个模型训练好后，inference的过程是直接根据网络权重进行的，那么如何添加用户词典呢，这里我们采用的方式是将用户词典作为额外的特征拼接在Bi-LSTM结果的后面，就是在上面代码的output = tf.concat(values=[output, dicts], axis=2) # add dicts to the end这里，这个词典会分成四个部分，head、mid、single、tail，词头、词中、词尾以及单字词，这样对于用户词典是否出现用one-hot形式表达，不过实际使用过程中也还是存在切不出来的问题，读者可以考虑加强这部分特征。

整个代码我放在github上了，感兴趣的读者直接看源代码，有问题欢迎留言~
https://github.com/xlturing/machine-learning-journey/tree/master/seg_bilstm

终于写好这个系列了，之后谢谢最近在弄的Attention、Transformer以及BERT这一套在文本分类中的应用哈，欢迎大家交流。

Android Binder 用法详解令狐掌门 Android开发笔记 android binder Android Binder
Binder是Android系统中的一种进程间通信（IPC）机制，它允许不同进程之间进行高效通信。Binder在Android系统中被广泛使用，例如在Activity与Service的交互中。Binder的基本组成实现Binder通信通常包含以下几个关键部分：AIDL接口定义：通过AndroidInterfaceDefinitionLanguage定义接口服务端实现：实现AIDL接口并在Servi
3.1、密码学基础山兔1 信息安全工程师密码学网络服务器
目录密码学概念与法律密码安全分析密码体制分类-私钥密码/对称密码体制密码体制分类-公钥密码/非对称密码体制密码体制分类-混合密码体制密码学概念与法律密码学主要是由密码编码以及密码分析两个部分组成，密码编码就是加密，密码分析就是把我们的密文变化成相应的明文，就是解密跟密码相关的有两个法律，密码法在2020年1月1日起开始实施。2005年，实施了电子签名法密码学相关的一些概念，罗列了一些明文密文，加密
AWS Amazon Aurora MySQL 性能监控与安全治理实战指南 ivwdcwso 运维 aws mysql 安全 rds
引言AmazonAuroraMySQL凭借其云原生架构和高性能特性，已成为企业核心数据库的首选。然而，缺乏体系化的监控与安全治理可能导致资源浪费、性能瓶颈甚至数据泄露。本文结合AWS官方最佳实践与真实运维场景，从监控工具、性能调优、安全加固到自动化治理，构建全链路解决方案。©ivwdcwso(ID:u012172506)一、监控体系搭建：工具选型与指标解读1.原生工具组合：精准捕捉核心指标Clou
Oracle 数据库基础入门（五）：限制查询与范式三约定深度解析 Aphelios380 Oracle 数据库 oracle 学习 java
在Oracle数据库的学习进程中，限制查询与范式三约定是两个极为重要的概念。限制查询帮助我们精准获取特定范围的数据，而范式三约定则为数据库设计提供了科学的指导框架。对于Java全栈开发者而言，掌握这些知识不仅有助于高效地从数据库中提取数据，更能设计出结构合理、性能优良的数据库，为构建强大的应用系统奠定坚实基础。目录一、Oracle限制查询（一）与MySQL限制查询的对比（二）伪列的奥秘（三）限制查
win10 安装WSL ubuntu20、配置git问题及解决记录 YANGM git ubuntu linux
1WslRegisterDistributionfailedwitherror:0x800701bc问题问题现象如下图：处理方式有两种：1）切换使用WSL1，在windows命令输入wsl命令：wsl--set-default-version12）安装新内核，内核没有升级，前往微软WSL官网下载安装适用于x64计算机的最新WSL2Linux内核更新包即可。下载链接：https://wslstore
Mac下，protoc-gen-go-grpc: program not found or is not executable问题的解决攻城狮joe Go开发集合工具使用 golang protoc grpc brew macos
一问题来源在公司的项目中，需要把对应的proto文件生成对应的pb文件，当执行protoc相关命令时，出现报错：protoc-gen-go-grpc:programnotfoundorisnotexecutablePleasespecifyaprogramusingabsolutepathormakesuretheprogramisavailableinyourPATHsystemvariable
ReactNative组件详解 Code4Android 编程语言 android ios react-native
ReactNative学习记录传送门ReactNative核心思想就是组件化，它基于前端框架React,在我们使用其开发Android和iOS的时候，共用一套组件即一套代码，增加了代码复用性。今天的这篇文章不不分析过多的知识点，主要介绍如下内容：如何进行自定义组件如何使用自定义组件组件的生命周期自定义组件ReactNative中我们实现的UI都是有组件组成的，但是有时候为了实现我们想要的效果，并且
7-11 sdut-String-5 图书价格汇总（II） (10 分) 灯火穿透了 PTA Java题 java
假设图书馆中图书信息的格式为：Java程序设计：34；Web程序设计：56；JSP程序设计：20按要求输出每本图书的名称及价格，计算所有图书的总价格并输出。输入格式:读入一行图书信息。如：Java程序设计：34；Web程序设计：56；JSP程序设计：20提示：每本书的价格是整数，价格与下一本书的名字之间有一个中文；价格前可能有空格，可能没有。输出格式:分别输出每本图书的名称及价格，一本书占一行，形
7-2 藏头诗 (15分) 灯火穿透了 c语言
7-2藏头诗(15分)本题要求编写一个解密藏头诗的程序。输入格式：输入为一首中文藏头诗，一共四句，每句一行。注意：一个汉字占两个字节。输出格式：取出每句的第一个汉字并连接在一起形成一个字符串并输出。同时在末尾输入一个换行符。输入样例：一叶轻舟向东流帆稍轻握杨柳手风纤碧波微起舞顺水任从雅客流输出样例：一帆风顺#includeintmain(){chara[50];charb[9];inti,j=0,
vue项目中使用scss 筱筱° #scss vue.js scss
vue项目中使用scss一、安装使用scss1.安装scss2.安装node-sass和sass-loader3.配置webpack.base.conf.js文件4.组件中使用scss二、设置scss变量1.使用sass-resources-loader实现全局变量2.新建一个public.scss文件3.根目录下找到build下的utils.js文件4.运行项目三、常用全局变量1.设置变量2.使
三、Jvm内存分配刘总Java Java虚拟机 jvm java 开发语言
今天的博客主题Java虚拟机——》Jvm内存分配什么是JVM内存分配呢？就是当我们创建一个对象的时候，要在JVM内存空间里为这个对象分配一些空间，来存放对象的一些属性信息。对象创建的流程1）类加载检查在创建对象的过程中，也就是new一个对象的时候。首先检查new指令的参数在常量池中定位到一个类的符号引用，并检查这个符号引用代表的类是否已经被加载，解析和初始化过。如有没有，说明这个类没有被加载使用过
Java生成LRC纵向冗余校验 YunFeiDong Java java 开发语言 Modbus ASCII
纵向冗余校验（LongitudinalRedundancyCheck，简称：LRC）是通信中常用的一种校验形式，也称LRC校验或纵向校验；它是一种从纵向通道上的特定比特串产生校验比特的错误检测方法；通常Modbus协议ASCII模式采用LRC算法。1.生成LRC校验/***生成LRC校验值：**1）对需要校验的数据（2n个字符）两两组成一个16进制的数值求和；*2）将求和结果与256求模；*3）用
React入门简介地信小学生 WebGIS一起学 react.js 前端前端框架 javascript
Vue与React是前端编程中常用的两个JS框架，两者的一些简单如下所示。Vue建立在一个基于组件的架构上，以组件为中心，可以更轻松地创建动态用户界面。它还有一个强大的双向数据绑定系统，可以让我们轻松地保持数据和用户界面同步；Vue轻量、灵活且强大，最重要的是对于初学者来说相对简单。Vue中文官网包含了详细的说明与教程：https://cn.vuejs.org/React为开发人员提供了一种声明式
python运行代码时标红_PyCharm 中写 Turtle代码没提示以及标黄问题 weixin_39977642 python运行代码时标红
PyCharm中在使用Turtle(海龟)库绘图体系时，代码明明是正确可以运行的，但是没有提示，代码出现黄色标记以及红色波浪线，经验不足的人还以为自己的书写方法错误，毕竟出现了红色波浪线，效果如下图：原因说明：出现这个问题往往可能并不是你的问题，而是pycharm和turtle库有冲突，不能自己识别出turtle下的方法，站在pycharm本身的角度下它觉得你的代码出错了，找不到，所以给你标红线，
Java基础之JVM对象内存分配机制简介 aoneword JVM基础 jvm java 开发语言
一对象内存分配1.1运行时数据区域1.2常见java应用启动JVM参数：-Xss：每个线程的栈大小(单位kb)-Xms：堆的初始大小，默认物理内存的1/64,示例：-Xms:4g-Xms:10m-Xmx：堆的最大可用大小，默认物理内存的1/4-Xmn：新生代大小-XX:NewRatio：默认2，表示新生代占老年代的1/2，占整个堆内存的1/3-XX:SurvivorRatio：默认8，表示一个su
python 控制浏览器注入js_js注入+chrome插件爬虫 weixin_39574555 python 控制浏览器注入js
本例以http://www.biqugexsw.com/30_30505/为例页面如下(1)什么是js注入首先观察控制台例子的控制台，发现所有的链接在.linsmain下在console.log下输入Vars=$(".listmaina");for(vari=0;i便能获得所有链接这就是简单的js注入python爬虫Python简单便捷为爬虫首选语言爬取(1)中的内容并用正则表达式处理开始爬取单章
python文件修改后不生效_pycharm修改代码后第一次运行不生效解决 weixin_39959126 python文件修改后不生效
SVN搭建简单教程一.引言笔者曾经试图在网上搜索一篇关于SVN源代码服务器搭建方面的中文技术文章,可惜,所找到的,要么是不完整,要么就是对笔者没什么帮助的文章,TortoiseSvn的帮助文档固然强大,但因为是英文,...java零碎知识点1.字符串有整型的相互转换12Stringa=String.valueOf(2);//integertonumericstringinti=Integer.pa
golang mysql分表_go分库分表主从分离例子连根塞 golang mysql分表
网上有很多介绍分库分表的文章，方法很多：```分区表切分垂直切分水平切分区间切分取模切分```这里不细说分库分表简单，但后期会带来一系列的难题：```事务Join分页```**数据库：**```master和slave是一个主从架构imagespider_db：[ImageSpider](https://github.com/bccber/imagespider)项目采集回来的数据，不需要部署主从
react 基础理想和远方_在路上 react.js jsx
一.什么是react？react是一种用于构建用户界面的javaScript库react主要用来写html，或构建web应用如果用mvc的角度来看，react仅仅是视图层（v），也就是只负责视图的渲染，并不是提供了完成的M和C的功能。二.react的特点1.声明式只需要描述html看起来是什么样，就跟写html一样。react负责渲染UI，并在数据变化是更新UI。constjsx=HelloRea
go mysql 中间件_GitHub - wushilong/go-sharding: Mysql 分库分表中间件网络安全技术联盟 go mysql 中间件
Go-Sharding简介数据库分库分表中间件，尽可能兼容ShardingSphere的golang实现，基于小米Gaea魔改，但是路由算法支持ShardingSphere的inline表达式风格，而不是Mycat/kingshard这类晦涩而又不灵活的配置，移除多租户功能(配置太复杂了，部署多套即可)为什么造这个轮子尝试了ShardingSphereProxy,其有着糟糕的insert性能和CP
golang mysql集群_golang mysql分库分表性能实战 Ishikari Nobito golang mysql集群
按照规矩，这里应该介绍一下golang和分库表，懒得写，跳过。本文主要介绍两种分表方式，hash和range，对应不同对业务特性，假设有这样一个user表，字段id，name，home，balance：user表数量大概1000w条：一个查询大概耗时是这样的：加索引肯定快多了，但是今天咱们讨论的主题不是索引，而是分表，就不给加索引了。接下来是分表了，先假定业务逻辑是用户用昵称登陆，获取用户信息，那
SpringAI赋能Java开发打造智能应用 java技术小馆 java AI编程
一、SpringAI是什么？为什么你需要它？想象一下，你的Java应用能够：理解自然语言自动生成代码智能分析数据提供个性化推荐这就是SpringAI带来的变革！它是Spring官方推出的AI集成框架，让你的Java应用轻松获得AI能力。传统开发vsSpringAI开发对比：能力传统开发SpringAI开发自然语言处理需要集成第三方SDK开箱即用开发效率手动实现复杂逻辑自动生成代码维护成本高低可扩展
运行时候的导包搜索路径虽然pycharm中标红但不影响程序的执行火星种萝卜 python实践深度学习人工智能
在pycharm中报如下包找不到frommodels.yolo_layerimportYoloLayer，但是该行的前面已经导入了搜包的路径，运行时并不报错，只是pycharm在分析静态代码结构层面会标红提示找不到包importosimportsysPACKAGE_PARENT='..'SCRIPT_DIR=os.path.dirname(os.path.realpath(os.path.join
【Elasticsearch】ignore_malformed risc123456 Elasticsearch elasticsearch
在Elasticsearch中，`ignore_malformed`是一个字段映射参数，用于控制在索引文档时，如果字段数据不符合其定义的数据类型，Elasticsearch应该如何处理这种情况。具体来说，`ignore_malformed`参数决定了是否忽略格式错误的数据，而不是直接拒绝整个文档。作用当启用`ignore_malformed`参数时（设置为`true`），Elasticsearch
Window 10使用WSL2成功编译Android R shusuanly 车机系统 android framework
一、安装WSL参考Microsoft官方文档安装WSL2，并从MicrosoftStore选择Linux发行版进行安装，此处选择Ubuntu18.04.5LTS安装。首次进入Linux需设置Linux用户名和密码二、迁移WSL
蓝桥杯模拟赛胃口很大的一条小蛇仔蓝桥杯算法
1.最少操作次数有一个整数A=2021，每一次，可以将这个数加1、减1或除以2，其中除以2必须在数是偶数的时候才允许。例如，2021经过一次操作可以变成2020、2022。再如，2022经过一次操作可以变成2021、2023或1011。请问，2021最少经过多少次操作可以变成1。类似最短路径和最少操作次数这样的题都可以用bfs来求解答案：14分析：为什么想到用BFS呢？答：因为bfs就是从一个点出
第十三届蓝桥杯模拟赛（第四期）试题与题解 C++ 小球同学. 蓝桥杯模拟赛蓝桥杯
目录试题A试题B试题C试题D试题E试题F试题G试题H试题I试题J试题A【问题描述】以下是一个25行25列的字母矩阵，全部由字母A和B组成。AAAAAAABABBAABABABAAAAAAAABBBBBABBAABBBBBABABBBBBAABAAABABBBABAABBBBABAAABAABAAABABBBBBAABAABABAAABAABAAABABBABABBABABABAAABAABBB
IDEA编写JAVA的常用快捷键峥嵘轻稠 intellij-idea java intellij idea
（摘要：这是我平常使用IDEA的快捷键，希望能帮到和我一样刚入门的小白~~创作不易，希望能得到点赞关注支持嘿嘿嘿~~~）Ctrl+A：全选Ctrl+Z：撤销Ctrl+X：剪切Ctrl+C：复制Ctrl+V：粘贴Ctrl+Y：删除当前行Ctrl+D：复制当前行到下一行Ctrl+O：选择可重写的方法Ctrl+I：重写接口方法Ctrl+/：快速单行注释Ctrl+Shift+/：快速多行注释Ctrl+Al
超详细的docker以及docker-compose的部署教程沉默的良 docker docker java
目录一、docker安装1.准备工作2.安装docker3.设置国内镜像2.docker-compose安装1.准备工作2.通过curl命令下载（不建议）3.手动安装（强烈建议）3.docker常用命令一、docker安装1.准备工作（1）一台Linux服务器，如果使用的是CentOS系统，请确保内核要不低于3.10。以下的演示环境皆为CentOS7.6。（2）安装之前，请执行下面的命令卸载旧的d
JVM两种内存分配方式小白，想脱白 jvm
1、指针碰撞如果jvm内存是规整的，就是一边是已使用的内存，另外一边是未使用的内存，中间是指针，jvm需要给新对象分配内存时，就会将指针往未使用的内存移动一段和新对象一样大小的距离，这样jvm就完成了内存分配。2、空闲列表如果jvm内存不是规整的，已使用的，未使用的内存，都是杂乱无章的，这个时候就不可能使用指针碰撞，Java虚拟机就会维护一个空闲列表，用来记录哪些内存是可用的，然后jvm给新对象分
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交