iioSnail

【论文源码解读】（中文拼写检查, CSC）SCOPE：Improving Chinese Spelling Check by Character Pronunciation Prediction

文章目录

论文信息
论文的贡献与思路
模型架构
- Encoder
- Char Projection
- CSC Decoder
- CSC Task损失函数 $L^{(c)}$
- Pron Projection
- CPP Decoder
- CPP Task损失函数 $L^{(p)}$
- Similarity
模型训练
- 预训练
- 数据集
模型预测
- Constrained Iterative Correction(约束迭代矫正)
模型结果
- 消融实验
论文复现
个人总结

论文信息

论文地址：https://arxiv.org/pdf/2210.10996.pdf

论文年份：2022年10月

论文源码(官方) : https://github.com/jiahaozhenbang/SCOPE

阅读前提：熟悉CSC任务，要具备大概看一下模型架构图就能知道作者是怎么做的能力。

Hugging Face地址(非官方)：https://huggingface.co/iioSnail/ChineseBERT-for-csc

论文的贡献与思路

在CSC任务的基础上，该论文又构建了一个辅助任务来进行拼音预测，这样就让模型的Encoder具备了编码拼音的能力。
针对上面这点，论文对辅助任务的损失进行调整。
作者提供了预训练的SCOPE模型，可供后续做迁移学习。
作者提出了CIC(约束迭代矫正)方法，解决了连续错字问题。

我将论文中的SCOPE预训练的ChineseBERT部分提取出来了，百度网盘链接：链接：https://pan.baidu.com/s/1bvcvplGdcF__8lTMIBt-FQ?pwd=9m2s 提取码：9m2s

论文提供的预训练模型在Sighan15Test上的结果如下：

Character-level Detect Acc: 0.9882, P: 0.7671, R: 0.6230, F1: 0.6876
Character-level Correct Acc: 0.9857, P: 0.7280, R: 0.5064, F1: 0.5973
Sentence-level Detect Acc: 0.7227, P: 0.8172, R: 0.5619, F1: 0.6659
Sentence-level Correct Acc: 0.6845, P: 0.7939, R: 0.4843, F1: 0.6016

在CSCD-IME Test上的结果如下：

Character-level Detect Acc: 0.9836, P: 0.2733, R: 0.5249, F1: 0.3594
Character-level Correct Acc: 0.9829, P: 0.2442, R: 0.4509, F1: 0.3168
Sentence-level Detect Acc: 0.4749, P: 0.4243, R: 0.3921, F1: 0.4076
Sentence-level Correct Acc: 0.4533, P: 0.3936, R: 0.3452, F1: 0.3678

模型架构

该模型架构比较容易理解，大致如下：

CSC任务：使用Encoder(ChineseBERT)对正确句子进行编码，然后使用全连接层进行Token的预测，最后使用CrossEntropyLoss计算损失 $L^{(c)}$
CPP(Chinese pronunciation prediction Decoder)任务：使用Encoder对正确句子进行编码，然后使用3个全连接层分别输出每个token的声母(initials)、韵母(finals)和声调(tones)的预测结果，然后使用CrossEntropy计算损失 $L^{(p)}$
调整CPP损失：对正确句子使用Encoder进行编码，然后使用一个Linear进行和正确句子相同的线性变化后得到错误句子每个token的embedding，然后每个token和正确句子对应token的embeddings计算相似度，得到权重，调整CPP损失。相似度越大，权重越高。

接下来对每个模块进行源码分析。

Encoder

Encoder使用的ChineseBERT，详情可见ChineseBERT解读

源码中对应：models/modeling_multitask.py第73行：

class Dynamic_GlyceBertForMultiTask(BertPreTrainedModel):
    def __init__(self, config):
        super(Dynamic_GlyceBertForMultiTask, self).__init__(config)

        self.bert = GlyceBertModel(config)	# 这个就是ChineseBERT
        self.cls = MultiTaskHeads(config)
        self.loss_fct = CrossEntropyLoss()

        self.init_weights()

Char Projection

是一个“Linear+GELU激活函数+LayerNorm”的组合

源码为：

class BertPredictionHeadTransform(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.dense = nn.Linear(config.hidden_size, config.hidden_size)
        # 这里是配置激活函数的
        if isinstance(config.hidden_act, str):
            self.transform_act_fn = ACT2FN[config.hidden_act]
        else:
            self.transform_act_fn = config.hidden_act
        self.LayerNorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)

    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
        hidden_states = self.dense(hidden_states)
        hidden_states = self.transform_act_fn(hidden_states)
        hidden_states = self.LayerNorm(hidden_states)
        return hidden_states

这段源码是transformers框架中的，所在位置为：transformers.models.bert.modeling_bert.py

CSC Decoder

在Char Projection步骤后，最后再用一个Linear层输出预测结果（未进行Softmax前的结果）。

源码为：

class BertLMPredictionHead(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.transform = BertPredictionHeadTransform(config) # 这个就是Char Projection

        self.decoder = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
        self.bias = nn.Parameter(torch.zeros(config.vocab_size))
        self.decoder.bias = self.bias

    def forward(self, hidden_states):
        hidden_states = self.transform(hidden_states)
        hidden_states = self.decoder(hidden_states)
        return hidden_states

同样这段源码也是transformers框架中的，所在位置为：transformers.models.bert.modeling_bert.py

作者的 Char Projection->Char Decoder 本质就是使用了tranformers中的BertLMPredictionHead作为预测层。

CSC Task损失函数 $L^{(c)}$

CSC任务的损失函数比较传统，就是CrossEntropy。

对应源码为：

class Dynamic_GlyceBertForMultiTask(BertPreTrainedModel):
    def __init__(self, config):
        super(Dynamic_GlyceBertForMultiTask, self).__init__(config)

        self.bert = GlyceBertModel(config)
        self.cls = MultiTaskHeads(config)
		# 这里指定reduction='none'是因为后面会手动求平均
        self.loss_fct = CrossEntropyLoss(reduction='none') 
		...
	
	def forward(...):
		...
		# 对input_ids中的 pad(0), （101），(102) 进行mask，它们不需要计算loss
		loss_mask = (input_ids != 0)*(input_ids != 101)*(input_ids != 102).long()
		...
		loss_fct = self.loss_fct
		if labels is not None and pinyin_labels is not None:
			# 将不需要计算loss的部分的label更新成-100（因为CrossEntropy默认忽略-100这个index）
			# 然后使用CrossEntropyLoss计算CSC Task的loss
			active_loss = loss_mask.view(-1) == 1
            active_labels = torch.where(
                active_loss, labels.view(-1), torch.tensor(loss_fct.ignore_index).type_as(labels)
            )
            masked_lm_loss = loss_fct(prediction_scores.view(-1, self.config.vocab_size), active_labels)

			...
			def weighted_mean(weight, input):
                return torch.sum(weight * input) / torch.sum(weight)
            # 对CrossEntropyLoss求平均。这里的weight其实对CSC Task没什么用。
            # 作者之所以这么写主要是用于对辅助任务(拼音预测)的。
			masked_lm_loss = weighted_mean(torch.ones_like(masked_lm_loss), masked_lm_loss)

			...
		... # end if
		...

Pron Projection

拼音映射层。和Char Projection使用的都是BertPredictionHeadTransform。

CPP Decoder

CPP Decoder (Chinese pronunciation prediction Decoder) 负责将Pron Projection编码好的特征预测成三种数据，分别为：

声母(initials)：包含'zh', 'ch', 'sh', 'b', 'p', 'm', 'f', 'd', 't', 'n', 'l', 'g', 'k', 'h', 'j', 'q', 'x', 'r', 'z', 'c', 's', 'y', 'w'，共23个
韵母(finals): 包含'a', 'ai', 'an', 'ang', 'ao', 'e', 'ei', 'en', 'eng', 'er', 'i', 'ia', 'ian', 'iang', 'iao', 'ie', 'in', 'ing', 'iong', 'iu', 'o', 'ong', 'ou', 'u', 'ua', 'uai', 'uan', 'uang', 'ue', 'ui', 'un', 'uo', 'v', 've'，共34个
声调(tones): 包含'1', '2', '3', '4', '5'，即1-4声和无声。

例如对于鸡应该输出 j, i, 1。

因此，CPP Decoder有三个线性层。源码如下：

class Phonetic_Classifier(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.pinyin=Pinyin()
        self.transform = BertPredictionHeadTransform(config)  # Pron Projection
        # 声母分类器
        self.sm_classifier=nn.Linear(config.hidden_size,self.pinyin.sm_size)
        # 韵母分类器
        self.ym_classifier=nn.Linear(config.hidden_size,self.pinyin.ym_size)
        # 声调分类器
        self.sd_classifier=nn.Linear(config.hidden_size,self.pinyin.sd_size)

    def forward(self, sequence_output):
        sequence_output = self.transform(sequence_output)
        sm_scores = self.sm_classifier(sequence_output)
        ym_scores = self.ym_classifier(sequence_output)
        sd_scores = self.sd_classifier(sequence_output)
        # 返回三种数据softmax前的数据
        return sm_scores,ym_scores,sd_scores

CPP Task损失函数 $L^{(p)}$

由于CPP Decoder有三个输出（声母、韵母、声调），所以CPP Task需要对这三种分别计算Loss。最后再将Loss相加。

因为声母、韵母、声调都是多分类任务，所以同样采用CrossEntropy。

源码如下：

class Dynamic_GlyceBertForMultiTask(BertPreTrainedModel):
    def __init__(self, config):
        super(Dynamic_GlyceBertForMultiTask, self).__init__(config)

        self.bert = GlyceBertModel(config) # Encoder
        self.cls = MultiTaskHeads(config)  # Projection和Decoder
        self.loss_fct = CrossEntropyLoss(reduction='none')

		...

	def forward(...):
		...
		# 对input_ids中的 pad(0), （101），(102) 进行mask，它们不需要计算loss
		loss_mask = (input_ids != 0)*(input_ids != 101)*(input_ids != 102).long()
		...
		factor = ... # 计算权重w，后面会讲
		...
		# 得到韵母、声母和声调的输出
		prediction_scores, sm_scores,ym_scores,sd_scores = self.cls(encoded_x)
		...
		loss_fct = self.loss_fct
		if labels is not None and pinyin_labels is not None:
			active_loss = loss_mask.view(-1) == 1

			...
			
			# 将不需要计算loss的部分的label更新成-100（因为CrossEntropy默认忽略-100这个index）
			# 然后使用CrossEntropyLoss计算loss
			# 计算声母loss
			active_labels = torch.where(
                active_loss, pinyin_labels[...,0].view(-1), torch.tensor(loss_fct.ignore_index).type_as(pinyin_labels)
            )
            sm_loss = loss_fct(sm_scores.view(-1, self.cls.Phonetic_relationship.pinyin.sm_size), active_labels)
			
			# 计算韵母Loss
            active_labels = torch.where(
                active_loss, pinyin_labels[...,1].view(-1), torch.tensor(loss_fct.ignore_index).type_as(pinyin_labels)
            )
            ym_loss = loss_fct(ym_scores.view(-1, self.cls.Phonetic_relationship.pinyin.ym_size), active_labels)

			# 计算声调loss
            active_labels = torch.where(
                active_loss, pinyin_labels[...,2].view(-1), torch.tensor(loss_fct.ignore_index).type_as(pinyin_labels)
            )
            sd_loss = loss_fct(sd_scores.view(-1, self.cls.Phonetic_relationship.pinyin.sd_size), active_labels)
			
			# 最后将这三个loss相加，得到L^p
			phonetic_loss=(sm_loss+ym_loss+sd_loss)/3

            def weighted_mean(weight, input):
                return torch.sum(weight * input) / torch.sum(weight)
			
			# w和L^p相乘，求得加权后的损失
			phonetic_loss = weighted_mean(factor.view(-1), phonetic_loss)
		# end if
		...
	...

Similarity

在计算拼音预测的Loss时，要乘以一个权重，以便于降低错字对拼音预测的干扰。Similary模块就是用于这个权重的计算。

根据源码分析，作者目的是降低错字的Loss权重。根据论文中的描述，这个还挺重要的

源码如下：

class Dynamic_GlyceBertForMultiTask(BertPreTrainedModel):
    def __init__(self, config):
        super(Dynamic_GlyceBertForMultiTask, self).__init__(config)

        self.bert = GlyceBertModel(config)	# Encoder
        self.cls = MultiTaskHeads(config)	# Projection和Decoder
        self.loss_fct = CrossEntropyLoss(reduction='none')	
        ...

	def forward(...):
		...
		outputs_x = self.bert(...) # 错误句子的BERT输出
		encoded_x = outputs_x[0] 
		if tgt_pinyin_ids is not None:
			# 开始对正确的句子进行编码。这里不需要更新梯度，所以用torch.no_grad封装一下
			with torch.no_grad():
				outputs_y = self.bert(...)  # 正确句子的bert输出
				encoded_y = outputs_y[0]
				# self.cls.Phonetic_relationship.transform 就是 Pron Projection
				pron_x = self.cls.Phonetic_relationship.transform(encoded_x)
				pron_y = self.cls.Phonetic_relationship.transform(encoded_y)
				# 求正确句子和错误句子对应token的相似度
				sim_xy = F.cosine_similarity(pron_x, pron_y, dim= -1)
				# 根据相似度求权重。这个factor就是图中的w。var是超参，作者取的应该是1
				factor = torch.exp( -((sim_xy -1.0) / var).pow(2)).detach()

根据源码分析，我们可以得出以下结论：

相似度函数使用的是余弦相似度。（余弦相似度的范围是[-1,1]，其结果越大表示越相似，1表示完全一致）。
权重计算公式为： $w=e^{-(s-1)^2}$
对于正确的字，由于使用的是同一个BERT和Pron Projection，所以它们向量的几乎接近1。（这里之所以不是1，是因为正确字的特征向量是结合了上下文的，因为上下文不一样，所以它们的特征向量也不会完全相同）。
对于错误的字，因为字不同，所以embedding肯定也不一样，所以相似度小于1，最终权重也小于1。但按照公式来看，即使相似度为-1的情况下，权重也有 $e^{-4}$ ，约为0.018。
综上，作者是想让错字的拼音预测Loss小一点。

模型训练

预训练

作者在正式训练前，使用wiki2019zh数据集预训练了SCOPE模型。该数据集包含100w个文章，作者将其分解成句子，然后使用混淆集(confusion set)构造数据集。

构造方式为：随机替换15%的字。对于被替换的字，80%使用混淆字替换，10%进行随机替换，10%不替换。

作者预训练好的模型如下：FPT(Further Pre-training)

数据集

训练数据：Wang271K+SIGHAN13训练集+SIGHAN14训练集+SIGHAN15训练集

作者并没有和其他论文一样，先使用Wang271K训练，再使用SIGHAN微调，而是直接把它们混合起来一起训练。

测试集： SIGHAN15,14,13

模型预测

Constrained Iterative Correction(约束迭代矫正)

作者提出“模型通常会矫枉过正(overcorrect)”，所以他发明了一个简单有效的方法来解决这个问题，同时这个方法也解决了连续错字的情况。

作者的思路是这样的，首先使用多次预测的方式可以解决连续的错字。例如对于这句话：“我什么都不集的了”。

若你将其送给模型，他通常会给你这样的结果：“我什么都不记的了”。即，现有的CSC模型通常都只能处理单个字的错误，很难处理连续错字。

若你将预测结果“我什么都不记的了”送给模型进行预测，模型的第二次的输出大概率就会输出“我什么都不记得了”

到这里，感觉好像挺好的，只要进行两次，或者更多反复的预测，直到这句话不再发生改变，这样不就可以处理更长的连续错字啦？没错，实事确实是这样。

然而，会出现另一种情况，就是在修改连续错字时，其他位置的错字发生了改变。

例如：“他喜欢唱跳rap烂酋”。我们现在将其连续重复预测，可能会得到如下的结果：

她喜欢唱跳rap篮酋
她喜欢唱跳rap篮球
他喜欢唱跳rap篮球

前两次预测符合预期，但却在第三次发生了意外，将“她”过度矫正为了“他”（可能是因为模型看到了篮球，就认为应该是男他）。这应该就是作者说的“过度矫正(overcorrect)”。

为了解决过度矫正的问题，作者进行了“加窗”处理，即在重复预测时，只允许对上次修改错字的周边字进行修改。例如：假设窗口大小为1，第一次预测对“烂”字进行修改，那么在第二次预测时，只能对“烂”字左边和右边的1个字进行修改，如果对更远地方的字进行修改时，则不采纳。

经过“加窗”处理后，“他喜欢唱跳rap烂酋” 这句话的预测流程变为了这样（假设窗口大小为1）：

她喜欢唱跳rap篮酋。对“烂”字进了修改，则对其进行加窗
她喜欢唱跳ra[p篮球]。本次对“酋”字进行了修改，在窗口范围内，采纳修改。
他喜欢唱跳rap[篮球。] 本次对“他”字进行了修改，其不在窗口范围内，所以不予采纳。将句子恢复成“她喜欢唱跳rap篮球”

最终，预测过程通过“连续预测+加窗”预测出了正确的结果。

该算法包含两个超参数：

窗口的大小，作者采用的是1
重复预测的次数，作者采用的是1，即重复预测1次。

源码分析：

def predict_step(self, batch, batch_idx, dataloader_idx=0):
    # 注意，这里一个batch是一条句子。即一次预测一句
    input_ids, pinyin_ids, labels, pinyin_labels, ids, srcs, tokens_size = batch
    mask = (input_ids != 0) * (input_ids != 101) * (input_ids != 102).long()
    batch_size, length = input_ids.shape
    pinyin_ids = pinyin_ids.view(batch_size, length, 8)
    # 第一遍：进行前向传递，然后argmax求出每个token的index
    logits = self.forward(input_ids=input_ids, pinyin_ids=pinyin_ids).logits
    predict_scores = F.softmax(logits, dim=-1)
    predict_labels = torch.argmax(predict_scores, dim=-1) * mask
    
    # 如果测试集是sighan13，则不对“地”和“得”这两个字进行预测
    if '13' in self.args.label_file:
        predict_labels[(predict_labels == self.tokenizer.token_to_id('地')) | (predict_labels == self.tokenizer.token_to_id('得'))] = \
            input_ids[(predict_labels == self.tokenizer.token_to_id('地')) | (predict_labels == self.tokenizer.token_to_id('得'))]

    # 保存一下第一次预测的结果
    pre_predict_labels = predict_labels

    # 进行第二次预测（可以重复多次）
    for _ in range(1):
        record_index = []   # 记录上次预测结果中对哪个token进行了修改
        # 遍历input和pred，找出修改了的token对应的index
        for i,(a,b) in enumerate(zip(list(input_ids[0,1:-1]),list(predict_labels[0,1:-1]))):
            if a!=b:
                record_index.append(i)

        # 用第一次的预测结果作为输入，然后再预测一次
        input_ids[0,1:-1] = predict_labels[0,1:-1]
        sent, new_pinyin_ids = decode_sentence_and_get_pinyinids(input_ids[0,1:-1].cpu().numpy().tolist())
        if new_pinyin_ids.shape[1] == input_ids.shape[1]:
            pinyin_ids = new_pinyin_ids
        pinyin_ids = pinyin_ids.to(input_ids.device)
        # print(input_ids.device, pinyin_ids.device)
        logits = self.forward(input_ids=input_ids, pinyin_ids=pinyin_ids).logits
        predict_scores = F.softmax(logits, dim=-1)
        # 得到第二次的预测结果
        predict_labels = torch.argmax(predict_scores, dim=-1) * mask

        # 遍历本次的预测结果的每个token
        for i,(a,b) in enumerate(zip(list(input_ids[0,1:-1]),list(predict_labels[0,1:-1]))):
            # 若这个token被修改了，且在窗口范围内，则什么都不做。
            if a!=b and any([abs(i-x)<=1 for x in record_index]):
                print(ids,srcs)
                print(i+1,)
            else:
                # 若 a==b ，则执行 predict_labels[0,i+1] = input_ids[0,i+1] 和不执行是一样的
                # 若 a==b and any(...) == False: 那么表示该token进行了修改，但不在窗口范围内，则恢复到原本的样子
                predict_labels[0,i+1] = input_ids[0,i+1]
                
        # TODO，没看懂这个break是想干嘛
        if predict_labels[0,i+1] == input_ids[0,i+1]:
            break
        # 如果测试集是sighan13，则不对“地”和“得”这两个字进行预测
        if '13' in self.args.label_file:
            predict_labels[(predict_labels == self.tokenizer.token_to_id('地')) | (predict_labels == self.tokenizer.token_to_id('得'))] = \
                input_ids[(predict_labels == self.tokenizer.token_to_id('地')) | (predict_labels == self.tokenizer.token_to_id('得'))]

    # 返回预测结果
    return {
        "tgt_idx": labels.cpu(),
        "post_pred_idx": predict_labels.cpu(),
        "pred_idx": pre_predict_labels.cpu(),
        "id": ids,
        "src": srcs,
        "tokens_size": tokens_size,
    }

模型结果

截止“2023-04”，这应该是学术圈表现最好的CSC工作了。

消融实验

w/o CPP：without CPP。不使用拼音预测辅助任务。
w/o FPT：不使用预训练模型。
w/o CIC：不使用约束矫正方法。

论文复现

使用作者提供的代码，未进行任何修改，环境配置也保持一致，最终复现结果如下：

1.跑了30个epoch，最后的5个epoch的checkpoint如下：

# 格式为 epoch={epoch}-df={detection sentence f1}-cf={correct sentence f1}.ckpt
# 这里的f1都不包含最后的CIC模块，即网络直接预测出的结果
epoch=23-df=79.3537-cf=78.0969.ckpt 
epoch=25-df=80.1070-cf=78.1445.ckpt 
epoch=26-df=80.1810-cf=78.5520.ckpt 
epoch=28-df=80.1802-cf=78.7387.ckpt  
epoch=29-df=80.2158-cf=78.5971.ckpt

单看epoch=29-df=80.2158-cf=78.5971.ckpt可以看出与作者消融实验中的w/o CIC结果一致。

2.使用最后一个epoch的checkpinyin进行sighan2015的测试结果如下：

# epoch 29
# without CIC
'sent-detect-acc': 85.36363636363636, 'p': 78.10858143607706, 'r': 82.43992606284658, 'f1': 80.21582733812951 
'sent-correct-acc': 84.54545454545455, 'p': 76.5323992994746, 'r': 80.77634011090574, '': 78.59712230215827
'char-detect-f1': 86.45614035087719, 'f1': 91.12964366944655

# with CIC
'sent-detect-acc': 86.27272727272727, 'p': 79.75133214920072, 'r': 82.99445471349352, 'f1': 81.34057971014492, 
'sent-correct-acc': 85.45454545454545, 'p': 78.15275310834814, 'r': 81.33086876155268, 'f1': 79.71014492753623, 
'char-detect-f1': 87.1578947368421, 'f1': 91.38972809667673

在SIGHAN2015上的w/o CIC部分的correct指标完全符合论文结果，但detect部分不符。但with CIC部分的结果与论文的结果比差了整整一个点

3.使用最后一个epoch的checkpinyin进行sighan2014的测试结果如下：

# epoch 29
# without CIC
'sent-detect-acc': 77.30696798493409, 'p': 65.70397111913357, 'r': 70.0, 'f1': 67.78398510242086
'sent-correct-acc': 76.45951035781545, 'p': 64.07942238267148, 'r': 68.26923076923077, 'f1': 66.10800744878958
 'char-detect-f1': 79.7157622739018, 'f1': 86.74351585014409}

# with CIC
'sent-detect-acc': 78.53107344632768, 'p': 67.99276672694394, 'r': 72.3076923076923, 'f1': 70.0838769804287, 
'sent-correct-acc': 77.68361581920904, 'p': 66.36528028933093, 'r': 70.57692307692308, 'f1': 68.4063373718546, 
'char-detect-f1': 80.81580624601658, 'f1': 87.68683274021353

在SIGHAN14上同样无法复现论文结果，甚至去除CIC后，效果还不如ReaLiSe

4.使用最后一个epoch的checkpinyin进行sighan2013的测试结果如下：

epoch29
# without CIC
'sent-detect-acc': 81.2, 'p': 86.12021857923497, 'r': 81.15345005149331, 'f1': 83.56309650053022
'sent-correct-acc': 80.30000000000001, 'p': 85.13661202185793, 'r': 80.22657054582905, 'f1': 82.6086956521739
'char-detect-f1': 90.96091205211727, 'f1': 94.31866723622383

# with CIC
'sent-detect-acc': 80.4, 'p': 85.33916849015317, 'r': 80.32955715756952, 'f1': 82.75862068965517, 
'sent-correct-acc': 79.7, 'p': 84.57330415754923, 'r': 79.6086508753862, 'f1': 82.0159151193634
'char-detect-f1': 90.6655844155844, 'f1': 94.14780008543357

Sighan2013上也跑不过ReaLise，而且加了CIC后，反而下降了

关于无法完全复现论文结论的问题，我在github（#7）上问了，作者表示在构造数据集时因为有shuffle操作，而这个shuffle没指定seed，所以训练时的数据顺序和原论文是不一样的。

个人总结

作者提出的方法主要有以下借鉴之处：

作者提出了CPP辅助任务，可以让Encoder模型学会对汉语拼音进行编码。
作者提供了一个预训练好的SCOPE模型，后续的CSC任务可以用这个做迁移学习
作者提出了CIC（约束矫正方法），可以用在预测阶段。

你可能感兴趣的:(机器学习,深度学习,CSC,中文拼写纠错,自然语言处理)

有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Windows平台下Android Studio搭建Flutter开发环境的正确姿势（202506）
Flutter作为Google推出的跨平台移动应用开发框架，近年来获得了广泛关注。它允许开发者使用单一代码库构建iOS和Android应用，大大提高了开发效率。本文将带你一步步在Windows系统上搭建完整的Flutter开发环境。第一步：下载并安装FlutterSDK首先，我们需要获取FlutterSDK：访问Flutter官方中文文档的安装页面：https://docs.flutter.cn/
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
Python3 内置函数 AI老李 python python
关键要点Python3的内置函数是解释器直接提供的，无需导入即可使用，涵盖数据类型转换、数学操作、序列处理等多种功能。推荐使用官方文档、菜鸟教程和腾讯云开发者社区的中文资源，适合初学者和中级学习者。资源提供详细解释和示例，学习时可结合实际项目实践。简介Python3的内置函数是编程中常用的工具，方便用户快速实现各种操作。以下是几个主要资源，帮助您学习这些函数的用法。资源推荐Python官方文档：内
three前置课程知识
学习中文网(1.threejs文件包下载和目录简介|Three.js中文网)threejs官方文件包所有版本：https://github.com/mrdoob/three.js/releases更新迭代较快，要选择对应版本使用---下载zip压缩包Threejs官网中文文档链接：https://threejs.org/docs/index.html#manual/zh/重要的内容docs包:文档
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
前端每周清单第 16 期：JavaScript 模块化现状；Node V8 与V6 真实性能对比
前端每周清单第16期：JavaScript模块化现状；NodeV8与V6真实性能对比；Nuxt.jsSSR与权限验证指南为InfoQ中文站特供稿件，首发地址为这里；如需转载，请与InfoQ中文站联系。从属于笔者的Web前端入门与工程实践的前端每周清单系列系列；部分文章需要自备梯子。前端每周清单第16期：JavaScript模块化现状；NodeV8与V6真实性能对比；Nuxt.jsSSR与权限验证指
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag