阿里云大数据AI技术

EasyNLP发布融合语言学和事实知识的中文预训练模型CKBERT

导读

预训练语言模型在NLP的各个应用中都有及其广泛的应用；然而，经典的预训练语言模型（例如BERT）缺乏对知识的理解，例如知识图谱中的关系三元组。知识增强预训练模型使用外部知识（知识图谱，字典和文本等）或者句子内部的语言学知识进行增强。我们发现，知识注入的过程都伴随着很大规模的知识参数，下游任务fine-tune的时候仍然需要外部数据的支撑才能达到比较好的效果，从而无法在云环境中很好的提供给用户进行使用。CKBERT（Chinese Knowledge-enhanced BERT）是EasyNLP团队自研的中文预训练模型，结合了两种知识类型（外部知识图谱，内部语言学知识）对模型进行知识注入，同时使得知识注入的方式方便模型可扩展。我们的实验验证也表明CKBERT的模型精度超越了多种经典中文模型。在本次的框架升级中，我们将多种规模的CKBERT模型贡献给开源社区，并且这些CKBERT模型与HuggingFace Models完全兼容。此外，用户也可以在阿里云机器学习平台PAI上方便地利用云资源使用CKBERT模型。

EasyNLP（https://github.com/alibaba/EasyNLP）是阿⾥云机器学习PAI 团队基于 PyTorch 开发的易⽤且丰富的中⽂NLP算法框架，⽀持常⽤的中⽂预训练模型和⼤模型落地技术，并且提供了从训练到部署的⼀站式 NLP 开发体验。EasyNLP 提供了简洁的接⼝供⽤户开发 NLP 模型，包括NLP应⽤ AppZoo 和预训练 ModelZoo，同时提供技术帮助⽤户⾼效的落地超⼤预训练模型到业务。由于跨模态理解需求的不断增加，EasyNLP也⽀持各种跨模态模型，特别是中⽂领域的跨模态模型，推向开源社区，希望能够服务更多的 NLP 和多模态算法开发者和研究者，也希望和社区⼀起推动 NLP /多模态技术的发展和模型落地。

本⽂简要介绍CKBERT的技术解读，以及如何在EasyNLP框架、HuggingFace Models和阿里云机器学习平台PAI上使⽤CKBERT模型。

中文预训练语言模型概览

在这一节中，我们首先简要回顾经典的中文预训练语言模型。目前中文预训练语言模型主要包括了两种类型：

通用领域的预训练语言模型，主要包括了BERT、MacBERT和PERT等模型；
知识增强的中文预训练模型，主要包括了ERNIE-baidu，Lattice-BERT，K-BERT和ERNIE-THU等模型。

通用领域的预训练语言模型

BERT直接使用Google发布的基于中文维基文本语料进行训练的模型。MacBERT是BERT的改进版本，引入了纠错型掩码语言模型（MLM as correction，Mac）预训练任务，缓解了“预训练-下游任务”不一致的问题。在掩码语言模型（MLM）中，引入了[MASK]标记进行掩码，但[MASK]标记并不会出现在下游任务中。在MacBERT中，使用相似词来取代[MASK]标记。相似词通过Synonyms toolkit 工具获取，算法基于word2vec相似度计算。同时，MacBERT也引入了Whole Word Masking和N-gram Masking技术。当要对N-gram进行掩码时，会对N-gram里的每个词分别查找相似词；当没有相似词可替换时，将使用随机词进行替换。由于一定程度的乱序文本不影响语义理解，PBERT从乱序文本中学习语义知识。它对原始输入文本进行一定的词序调换，从而形成乱序文本（因此不会引入额外的[MASK]标记），其学习目标是预测原Token所在的位置。

知识增强的中文预训练模型

BERT在预训练过程中使用的数据仅是对单个字符进行屏蔽，例如下图所示，训练BERT时通过“哈”与“滨”的局部共现判断出“尔”字，但是模型其实并没有学习到与“哈尔滨”相关的知识，即只是学习到“哈尔滨”这个词，但是并不知道“哈尔滨”所代表的含义。ERNIE-Baidu在预训练时使用的数据是对整个词进行屏蔽，从而学习词与实体的表达，例如屏蔽“哈尔滨”与“冰雪”这样的词，使模型能够建模出“哈尔滨”与“黑龙江”的关系，学到“哈尔滨”是“黑龙江”的省会以及“哈尔滨”是个冰雪城市这样的含义。

与ERNIE-Baidu类似，Lattice-BERT利用Word-Lattice结构整合词级别信息。具体来说，Lattice-BERT设计了一个Lattice位置注意机制，来表达词级别的信息，同时提出了Masked Segment Prediction的预测任务，以推动模型学习来自丰富但冗余的内在Lattice信息。

除了语言学知识，更多的工作利用知识图谱中的事实性知识丰富中文预训练模型的表征。其中，K-BERT提出了面向知识图谱的知识增强语言模型，将三元组作为领域知识注入到句子中。然而，过多的知识融入会导致知识噪音，使句子偏离其正确的含义。为了克服知识噪音, K-BERT引入了Soft-position和Visibel Matrix来限制知识的影响。由于K-BERT能够从预训练的BERT中加载模型参数，因此通过配备KG，可以很容易地将领域知识注入到模型中，而不需要对模型进行预训练。EasyNLP框架也集成了K-BERT的模型和功能（看这里）。

ERNIE-THU是一种融入知识Embedding的预训练模型。它首先使用TAGME提取文本中的实体，并将这些实体链指到KG中的对应实体对象，然后获得这些实体对象对应的Embedding。实体对象的Embedding由知识表示方法（例如TransE）训练得到。此外，ERNIE-THU在BERT模型的基础上进行改进，除了MLM、NSP任务外，重新添加了一个和KG相关的预训练目标：Mask掉Token和Entity (实体) 的对齐关系，并要求模型从图谱的实体中选择合适的Entity完成对齐。

自研CKBERT模型技术详解

由于当前的知识增强预训练模型大都使用外部知识（知识图谱，字典和文本等）或者句子内部的语言学知识进行增强，同时知识注入的过程都伴随着很大规模的知识参数，下游任务fine-tune的时候仍然需要外部数据的支撑才能达到比较好的效果，从而无法在云环境中很好的提供给用户进行使用。CKBERT（Chinese Knowledge-enhanced BERT）是EasyNLP团队自研的中文预训练模型，结合了两种知识类型（外部知识图谱，内部语言学知识）对模型进行知识注入，同时使得知识注入的方式方便模型可扩展。针对实际的业务需求，我们提供了三种不同规模参数量的模型，详细配置如下所示：

模型配置	alibaba-pai/pai-ckbert-base-zh	alibaba-pai/pai-ckbert-large-zh	alibaba-pai/pai-ckbert-huge-zh
参数量（Parameters）	151M	428M	1.3B
层数（Number of Layers）	12	24	24
注意力头数（Attention Heads）	12	16	8
隐向量维度（Hidden Size）	768	1024	2048
文本长度（Text Length）	128	128	128
FFN 层维度	3072	4096	8192

CKBERT的模型架构如下图所示：

为了方便模型进行扩展参数，模型只在数据输入层面和预训练任务层面进行了改动，没有对模型架构进行改动。因此，CKBERT的模型结构与社区版的BERT模型对齐。在数据输入层，一共要处理两部分的知识，外部图谱三元组和句子级内部的语言学知识。针对语言学知识，我们使用了哈工大LTP平台进行句子数据的处理，进行语义角色标注和依存句法分析等，然后根据规则，将识别结果中重要的成分进行标注。针对外部三元组知识是根据句子中出现的实体构造实体的正负三元组样本，正样本是根据图谱中1-hop 实体进行的采样，负样本是根据图谱中multi-hop进行的采样，但负样本的采样过程只能在规定的多跳范围内，而不能在图谱中距离太远。

CKBERT采用两种预训练任务进行模型的预训练，语言学感知的掩码语言模型和多跳知识对比学习：

语言学感知的掩码语言模型（Linguistic-aware MLM）：在语义依存关系中的主体角色（施事者AGT和当事者EXP ）部分用[MASK]进行遮掩，同时在词的前后都加上[SDP][/SDP]，附加上词汇的边界信息。在依存句法关系中，将主谓冰关系，定中关系，并列关系等按照上述mask机制进行处理为[DEP][/DEP]。整体进行预训练的token数量是整句话的15%，其中40%进行随机MASK，30%和30%分配到语义依存关系和依存句法关系词汇上来。损失函数如下：

多跳知识对比学习：将上述构造的正负样本数据针对该注入的实体进行处理，每一个句中实体构造1个正样本，4个负样本，通过标准的infoNCE损失任务进行外部知识的学习。损失函数如下：

其中， $h_{et}$ 是预训练模型产生的上下文实体表示， $h_{tp}$ 表示正样本的三元组表示结果， $h_{tn}$ 表示负样本的三元组表示结果。

CKBERT模型的实现

在EasyNLP框架中，我们的模型实现分为三个部分：数据预处理，模型结构微调和损失函数的设计。首先，在数据预处理环节，主要由以下两个步骤组成：1.NER实体及语义关系的提取；2.知识图谱的信息注入。关于NER实体及语义信息的提取，主要采用LTP（Language Technology Platform）对原始句子进行分词和句法分析，该部分的核心代码如下所示：

def ltp_process(ltp: LTP, 
                data: List[Dict[str, Union[str, List[Union[int, str]]]]]):
    """use ltp to process the data
    Args:
        Dict ([str, str]): data
        example:
            {'text':['我叫汤姆去拿伞。'],...}
    Returns:
        Dict[str, str]: result
    """
    new_data = list(map(lambda x:x['text'][0].replace(" ", ""), data))
    seg, hiddens = ltp.seg(new_data)
    result = {}
    result['seg'] = seg
    result['ner'] = ltp.ner(hiddens)
    result['dep'] = ltp.dep(hiddens)
    result['sdp'] = ltp.sdp(hiddens)
    for index in range(len(data)):
        data[index]['text'][0] = data[index]['text'][0].replace(" ", "")
        data[index]['seg'] = result['seg'][index]
        data[index]['ner'] = result['ner'][index]
        data[index]['dep'] = result['dep'][index]
        data[index]['sdp'] = result['sdp'][index]

该部分完成之后需要基于原始句子中的语义依存关系对相应的词进行整体的mask，该部分的mask策略参考BERT的mask策略的设计，给不同类型的关系分配特定的概率，并基于该概率对不同类型关系进行mask，该部分的核心代码如下：

def dep_sdp_mask(left_numbers: List[int], 
                     data_new: List[List[Union[int, str]]], 
                     markers_: List[List[int]], 
                     selected_numbers_: set, 
                     number_: int,
                     marker_attrs: Dict[str, List[int]]) -> int:
        """ mask the `mask_labels` for sdp and dep and record the maskers for each mask item
        Args:
            left_numbers (List[int]): the options that have not been used
            data_new (List[List[Union[int, str]]]): preprocessed data for original dep and sdp
            markers_ (List[List[int]]): a list that is uesd to save the maskers for each mask item
            selected_numbers_ (set): a set that is used to save the selected options
            number_ (int): the number of mask labels
            marker_attrs Dict[str, List[int]]: marker attributes
        Returns:
            int: 0 mean no mask, the others mean the number of masked ids
        """
        np.random.shuffle(left_numbers)
        for item_ in left_numbers:
            target_item = data_new[item_]
            seg_ids = np.array(target_item[:2]) - 1
            delete_ids = np.where(seg_ids < 1)[0]
            seg_ids = np.delete(seg_ids, delete_ids)
            temp_ids = seg2id(seg_ids)
            ids = []
            for item in temp_ids:
                ids += item.copy()
            if check_ids(ids):
                length_ = len(ids)
                if number_ > length_:
                    for id_ in ids:
                        mask_labels[id_] = 1
                    if target_item[2] in marker_attrs:
                        detail_info.append([
                            target_item,
                            [seg_data[target_item[0] - 1],seg_data[target_item[1] - 1]],
                        ])
                        if len(temp_ids) == 1:
                            markers_.append([temp_ids[0][0], temp_ids[0][-1]])
                        elif len(temp_ids) == 2:
                            for i in marker_attrs[target_item[2]]:
                                markers_.append([temp_ids[i][0], temp_ids[i][-1]])
                    selected_numbers_.add(item_)
                    return length_
                else:
                    return 0
        return 0

在完成对原始句子的预处理之后，在模型的dataloader里需要对数据进行知识注入，由于模型中引入了对比学习，因此该部分需要在数据转换阶段同时生成positive和negative的样本数据。实现这一过程的核心代码如下：

def get_positive_and_negative_examples(
    self,
    ner_data: str,
    negative_level: int = 3) -> Union[bool, Dict[str, List[str]]]:
    """get the positive examples and negative examples for the ner data
    Args:
        ner_data (str): the ner entity
        negative_level (int, optional): the deepth of the relationship. Defaults to 3.
    Returns:
        Union[bool, Dict[str, List[str]]]: if the `ner_data` not in `konwledge`, return False, otherwise, return the positive and negative examples
    """
    knowledge: Dict[str, Dict[str, str]] = self.Knowledge_G
    common_used = set()
    def get_data(key: str, 
                data: Dict[str, str], 
                results: List[str], 
                deep: int, 
                insert_flag: bool = False):
        """get the negative examples recursively
        Args:
            key (str): the ner
            data (Dict[str, str]): the related data about `key`
            results (List[str]): a list used to save the negative examples
            deep (int): the recursive number
            insert_flag (bool, optional): whether insert data to `results`. Defaults to False.
        """
        nonlocal knowledge
        common_used.add(key)
        if deep == 0:
            return
        else:
            for key_item in data:
                if data[key_item] not in common_used and insert_flag == True:
                    results.append(data[key_item])
                if data[key_item] in knowledge and data[key_item] not in common_used:
                    get_data(data[key_item], knowledge[data[key_item]], results, deep - 1, True)
    
    all_examples = {
        'ner': ner_data,
        'positive_examples': [],
        'negative_examples': []
    }
    if ner_data in knowledge:
        tp_data = knowledge[ner_data]
        negative_examples = []
        if '描述' in tp_data:
            positive_example = tp_data['描述']
        else:
            keys = list(tp_data.keys())
            choice = np.random.choice([_ for _ in range(len(keys))], 1)[0]
            positive_example = tp_data[keys[choice]]
        # # the description usually contains the ner entity, if not, concate the `ner_data` and the positive example
        if ner_data in positive_example:
            all_examples['positive_examples'].append(positive_example)
        else:
            all_examples['positive_examples'].append(ner_data + positive_example)
        get_data(ner_data, tp_data, negative_examples, negative_level)
        # concate the ner entity and each negative example
        negative_examples = list(map(lambda x: ner_data + x if ner_data not in x else x, negative_examples))
        all_examples['negative_examples'] = negative_examples
        return all_examples
    return False

在完成知识注入之后，模型的数据预处理环节就实现了。紧接着，由于知识注入需要额外添加特殊的Token，因此，在模型的Embedding层需要重新调整大小，该部分的实现代码如下：

model.backbone.resize_token_embeddings(len(train_dataset.tokenizer))
model.config.vocab_size = len(train_dataset.tokenizer)

在对模型结构进行微调之后，最后就是修改原始的loss函数，由于引入了对比学习，这里需要在原来loss的基础之上新加一个对比学习的loss（CKBert采用SimCLS作为对比学习的loss函数），该部分的核心代码实现如下：

def compute_simcse(self, original_outputs: torch.Tensor, 
                   forward_outputs: torch.Tensor) -> float:
        original_hidden_states = original_outputs['hidden_states'].unsqueeze(-2)
        loss = nn.CrossEntropyLoss()
        forward_outputs = torch.mean(forward_outputs, dim=-2)
        cos_result = self.CosSim(original_hidden_states, forward_outputs)
        cos_result_size = cos_result.size()
        cos_result = cos_result.view(-1, cos_result_size[-1])
        labels = torch.zeros(cos_result.size(0), device=original_outputs['hidden_states'].device).long()
        loss_ = loss(cos_result, labels)
        return loss_

CKBERT加速预训练

由于CKBERT的预训练需要耗费大量时间和计算资源，我们有必须对CKBERT的预训练进行加速。由于CKBERT采用PyTorch框架实现，与Tensorflow 1.x Graph Execution方式相比，PyTorch采用Eager Execution的方式运行，具有很好的易用性、容易开发调试等特点。但是，Pytorch缺少模型的Graph IR（Intermediate Representation）表达，因此无法进行更深度的优化。受到LazyTensor 和Pytorch/XLA（https://github.com/pytorch/xla）的启发，PAI团队在PyTorch框架中开发了TorchAccelerator，旨在解决PyTorch上的训练优化问题，在保证用户易用性和可调试行的基础上，提升用户训练速度。

由于LazyTensor在Eager Execution到Graph Execution转化过程中还存在很多缺陷。通过将Custom Operation封装进XLA CustomCall、对Python代码进行AST解析等手段，TorchAccelerator提升了Eager Execution到Graph Execution的完备性和转化性能，通过多Stream优化、Tensor异步传输等手段提升编译优化效果。

从实验结果来看，将TorchAccelerator和AMP（Automatic Mixed Precision，混合精度训练）结合起来使用，训练速度将会有40%以上的提升，说明在AMP和TorchAccelerator进行相互作用下有比较好的加速效果。

CKBERT实验效果评测

为了验证CKBERT模型在各种任务上的精度，我们在多个公开数据集上验证了句子分类和NER任务的效果，如下所示：

CLUE数据集实验效果

模型	Text Classification						Question Answering			Total Score
模型	AFQMC	TNEWS	IFLYTEK	OCNLI	WSC	CSL	CMRC	CHID	C3	Total Score
BERT	72.73	55.22	59.54	66.53	72.49	81.77	73.40	79.19	57.91	69.72
MacBERT	69.90	57.93	60.35	67.43	74.71	82.13	73.55	79.51	58.89	70.28
PERT	73.61	54.50	57.42	66.70	76.07	82.77	73.80	80.19	58.03	70.18
ERNIE-Baidu	73.08	56.22	60.11	67.48	75.79	82.14	72.86	80.03	57.63	69.83
Lattice-BERT	72.96	56.14	58.97	67.54	76.10	81.99	73.47	80.24	57.80	70.29
K-BERT	73.15	55.91	60.19	67.83	76.21	82.24	72.74	80.29	57.48	70.35
ERNIE-THU	72.88	56.59	59.33	67.95	75.82	82.35	72.96	80.22	56.30	69.98
CKBERT-base	73.17	56.44	60.65	68.53	76.38	82.63	73.55	81.69	57.91	71.36
CKBERT-large	74.75	55.86	60.62	70.57	78.89	82.30	73.45	82.34	58.12	72.23
CKBERT-huge	75.03	59.72	60.96	78.26	85.16	89.47	77.25	97.73	86.59	78.91
CKBERT-huge (ensemble)	77.05	61.16	61.19	82.80	87.14	94.23	80.40	97.91	87.26	81.02

NER数据集实验效果

模型	MSRA	Weibo	Onto.	Resu.
BERT	95.20	54.65	81.61	94.86
MacBERT	95.07	54.93	81.96	95.22
PERT	94.99	53.74	81.44	95.10
ERNIE-Baidu	95.39	55.14	81.17	95.13
Lattice-BERT	95.28	54.99	82.01	95.31
K-BERT	94.97	55.21	81.98	94.92
ERNIE-THU	95.25	53.85	82.03	94.89
CKBERT-base	95.35	55.97	82.19	95.68
CKBERT-large	95.58	57.09	82.43	96.08
CKBERT-huge	96.79	58.66	83.87	97.19

上述结果说明，首先在CLUE数据集上：（1）知识增强预训练模型的性能相较于BERT均有较大提升，在一定程度说明了知识的注入能帮助模型进行更好的语义推理；（2）跟先前的较好的baseline模型相比，CKBERT的性能进一步得到了提升，这也说明了异构知识的注入有利于模型性能的提升；（3）模型参数量越大，异构知识的的注入所带来的提升越明显，这在我们的huge模型和base模型之间的对比上可以看出。其次，在NER数据集上：（1）知识增强预训练模型的性能相较于BERT也有一定的提升；（2）CKBERT模型相较于其他baseline模型的提升较大，这进一步说明了异构知识的注入对于模型性能的提升是有帮助的。

CKBERT模型使⽤教程

以下我们简要介绍如何在EasyNLP框架使⽤CKBERT模型。

安装EasyNLP

⽤户可以直接参考GitHub（https://github.com/alibaba/EasyNLP）上的说明安装EasyNLP算法框架。

模型预训练

以下介绍CKBERT模型的预训练调用过程，如果用户没有自行预训练的需求可以跳过此部分。

数据准备

CKBERT是一个知识嵌入的预训练模型，需要用户自己准备相应的原始训练数据（xxx.json）和知识图谱（xxx.spo）,其中数据分隔均使用\t分隔符。训练数据的格式为{'text':['xxx'], 'title':'xxx'}，样例如下：

{'text': ['我想,如果我没有去做大学生村官,恐怕我这个在昆明长大的孩子永远都不能切身感受到云南这次60年一遇的特大旱情的严重性,恐怕我只是每天看着新闻上那些缺水的镜头,嘴上说要节水,但事实行动保持不了三天。 我任职的地方在昆明市禄劝县的一个村委会,说实话这里距离禄劝县城不远,自然环境不算很差。目前,只有一个自然村保证不了饮用水。一个自然村基本能保证有饮用水到5月。这里所说的饮用水,是指从山肚子里出来的水,积在小水坝或是水塘里又通过管道输送到村子里的水,和我们城市里真正意义上消过毒的、能安全饮用的饮用水不同。在整个输送的过程中,可能已经产生了有害物质。我觉得是。 没有饮用水的那个自然村叫大海子村,50户,近200多人。地处山头,交通很不便利,走路大概要1个半小时到两个小时,而且坡度比较大,是一个苗族村寨。地理条件限制,基本没有什么经济作物,算是靠天吃饭的那种。今年遇到60年一遇的干旱,村里的两个水窖都基本干了,之前几天,他们村长来反映,几个老人已经是抬个小板凳坐到窖底用碗舀水了。 面对这么严峻的旱情,村委会的领导和各小组长都在想办法。但是上山的路路面情况差,大车重车上不去；周边水源地少。最可行的办法就是从武定那边绕路上去。但每天运水上去也不是办法,长远来看还是要修建一个小水坝。村委会的领导主动捐款,村民也自行筹资,开始自救。 最近每个周末都回家,添置防晒品,因为基本每天都上山下村去了解情况,必须掌握辖区内13个村小组水资源的情况。我每次回家见到朋友们,第一句就是,要节约用水啊~~ 朋友们,你们现在看到的只是简单理解的"缺水"。你们所不知道的是,没水小春作物面临绝收、4月份插秧没有水泡秧田、5月份种烤烟也没有水。。。那么对农民就意味着今年一年就没有了收入。我们现在能努力做好的,只是保证人的饮用水。 上周就在想能不能通过什么渠道帮村民们做点事。叔叔叫我弄个抗旱的基金,他发动周围的朋友来捐赠,希望能口口相传带动多一点朋友。我正在筹备阶段,看怎样才能做到最大的公开透明,让捐赠的人完全放心。 周一接到一个朋友的电话,说他们公司想为旱灾献点爱心,想买点水送去我们那儿。昨天见了负责人,很谦和的一个姐姐,她说大家都想做点什么,觉得捐钱没什么意义,想亲自送水到最需要的地方。 其实人家只是家私营的小公司,但我真的很感谢他们。姐姐还特别交代我,我们只需要找拖拉机下来帮忙把水运上山去,其他的什么都不用管,他们会安排好的。这个周末,将有 400件矿泉水会送到村民家里。我想,应该可以暂时缓解旱情。再次代村民感谢他们！ 下半年,旱情给农民的生产、生活带来的问题还很多。但是我个人的力量很有限,希望能够看到这些帖子的朋友们,如果有能力,有这份心意的话,请给予旱灾地区的农民更多的帮助。 我想大家都知道,昆明80%以上的用水都来自禄劝的云龙水库,云龙的同事们也在"抗旱",他们的工作任务是要保证严格的节约用水,要寻求其他水源用水,从而保证昆明的用水。所以,请每一个昆明人都节水吧,禄劝的很多地方都在缺水,我们那里不算严重的,请珍惜你们现在在用的每一滴水~ 也许,要经历过这样一次触目惊心的大旱才真正知道水的珍贵。希望我们都行动起来,不要再让这样的旱灾侵袭我们的家乡。'], 'title': '旱情记要-----昆明人,请珍惜你们现在在用的每一滴水~'}

知识图谱数据格式为三列数据，从左到右分别是实体关系的描述，样例如下：

红色食品	标签	生活

数据预处理

可以使用提供的数据预处理脚本(preprocess/run_local_preprocess.sh)来对原始数据进行一键处理，在经过LTP处理之后，数据样例如下：

{"text": ["我想,如果我没有去做大学生村官,恐怕我这个在昆明长大的孩子永远都不能切身感受到云南这次60年一遇的特大旱情的严重性,恐怕我只是每天看着新闻上那些缺水的镜头,嘴上说要节水,但事实行动保持不了三天。我任职的地方在昆明市禄劝县的一个村委会,说实话这里距离禄劝县城不远,自然环境不算很差。目前,只有一个自然村保证不了饮用水。一个自然村基本能保证有饮用水到5月。这里所说的饮用水,是指从山肚子里出来的水,积在小水坝或是水塘里又通过管道输送到村子里的水,和我们城市里真正意义上消过毒的、能安全饮用的饮用水不同。在整个输送的过程中,可能已经产生了有害物质。我觉得是。没有饮用水的那个自然村叫大海子村,50户,近200多人。地处山头,交通很不便利,走路大概要1个半小时到两个小时,而且坡度比较大,是一个苗族村寨。地理条件限制,基本没有什么经济作物,算是靠天吃饭的那种。今年遇到60年一遇的干旱,村里的两个水窖都基本干了,之前几天,他们村长来反映,几个老人已经是抬个小板凳坐到窖底用碗舀水了。面对这么严峻的旱情,村委会的领导和各小组长都在想办法。但是上山的路路面情况差,大车重车上不去；周边水源地少。最可行的办法就是从武定那边绕路上去。但每天运水上去也不是办法,长远来看还是要修建一个小水坝。村委会的领导主动捐款,村民也自行筹资,开始自救。最近每个周末都回家,添置防晒品,因为基本每天都上山下村去了解情况,必须掌握辖区内13个村小组水资源的情况。我每次回家见到朋友们,第一句就是,要节约用水啊~~朋友们,你们现在看到的只是简单理解的\"缺水\"。你们所不知道的是,没水小春作物面临绝收、4月份插秧没有水泡秧田、5月份种烤烟也没有水。。。那么对农民就意味着今年一年就没有了收入。我们现在能努力做好的,只是保证人的饮用水。上周就在想能不能通过什么渠道帮村民们做点事。叔叔叫我弄个抗旱的基金,他发动周围的朋友来捐赠,希望能口口相传带动多一点朋友。我正在筹备阶段,看怎样才能做到最大的公开透明,让捐赠的人完全放心。周一接到一个朋友的电话,说他们公司想为旱灾献点爱心,想买点水送去我们那儿。昨天见了负责人,很谦和的一个姐姐,她说大家都想做点什么,觉得捐钱没什么意义,想亲自送水到最需要的地方。其实人家只是家私营的小公司,但我真的很感谢他们。姐姐还特别交代我,我们只需要找拖拉机下来帮忙把水运上山去,其他的什么都不用管,他们会安排好的。这个周末,将有400件矿泉水会送到村民家里。我想,应该可以暂时缓解旱情。再次代村民感谢他们！下半年,旱情给农民的生产、生活带来的问题还很多。但是我个人的力量很有限,希望能够看到这些帖子的朋友们,如果有能力,有这份心意的话,请给予旱灾地区的农民更多的帮助。我想大家都知道,昆明80%以上的用水都来自禄劝的云龙水库,云龙的同事们也在\"抗旱\",他们的工作任务是要保证严格的节约用水,要寻求其他水源用水,从而保证昆明的用水。所以,请每一个昆明人都节水吧,禄劝的很多地方都在缺水,我们那里不算严重的,请珍惜你们现在在用的每一滴水~也许,要经历过这样一次触目惊心的大旱才真正知道水的珍贵。希望我们都行动起来,不要再让这样的旱灾侵袭我们的家乡。"], "title": "旱情记要-----昆明人,请珍惜你们现在在用的每一滴水~", "seg": ["我", "想", ",", "如果", "我", "没有", "去", "做", "大学生村官", ",", "恐怕", "我", "这个", "在", "昆明长大", "的", "孩子", "永远", "都", "不能切身感受到", "云南", "这次", "60年", "一遇的", "特大旱情", "的", "严重性", ",", "恐怕", "我", "只是", "每天", "看", "着", "新闻上", "那些", "缺水", "的", "镜头", ",", "嘴上说要节水", ",", "但事实行动", "保持不了", "三天", "。", "我", "任职", "的", "地方", "在", "昆明市禄劝县", "的", "一个", "村委会", ",", "说实话", "这里", "距离禄", "劝县城不远", ",", "自然环境", "不算", "很差", "。", "目前", ",", "只有", "一个", "自然村", "保证不了", "饮用水", "。", "一个", "自然村", "基本", "能", "保证", "有", "饮用水", "到", "5月", "。", "这里所说", "的", "饮用水", ",", "是指", "从", "山肚子里", "出来", "的", "水", ",积在", "小水坝", "或是", "水塘里", "又", "通过", "管道", "输送到", "村子里", "的水", ",", "和", "我们", "城市里", "真正意义上", "消过毒的", "、能安全", "饮用", "的", "饮用水不同", "。", "在", "整个", "输送", "的", "过程", "中", ",", "可能", "已经", "产生", "了", "有害物质", "。", "我", "觉得", "是", "。", "没有", "饮用水", "的", "那", "个", "自然村叫大海子村", ",", "50户", ",近", "200多人", "。地处山头", ",", "交通", "很不便利", ",", "走路", "大概要", "1个半小时到", "两个", "小时", ",", "而且坡度", "比较大", ",", "是", "一个", "苗族村寨", "。地理条件", "限制", ",", "基本", "没有什么经济作物", ",", "算是", "靠天", "吃饭", "的", "那种", "。", "今年", "遇到", "60年一遇", "的", "干旱", ",村里", "的", "两个水窖", "都", "基本", "干", "了", ",之前几天", ",", "他们", "村长来反映", ",", "几个老人", "已经", "是", "抬个小板凳坐到窖底用碗舀水", "了", "。面对", "这么", "严峻的", "旱情", ",", "村委会", "的领导", "和", "各小组长", "都", "在", "想", "办法", "。", "但是上山的", "路路面情况", "差", ",", "大车重车上不去", "；", "周边水源地少", "。", "最", "可行", "的", "办法", "就是", "从武定", "那边", "绕路上去", "。", "但", "每天运水上"], "ner": [["Ns", 14, 14], ["Ns", 20, 20], ["Ns", 51, 51]], "dep": [[1, 2, "SBV"], [2, 0, "HED"], [3, 2, "WP"], [4, 6, "ADV"], [5, 6, "SBV"], [6, 2, "VOB"], [7, 6, "COO"], [8, 7, "COO"], [9, 8, "VOB"], [10, 8, "WP"], [11, 7, "COO"], [12, 172, "SBV"], [13, 172, "ADV"], [14, 172, "ADV"], [15, 14, "POB"], [16, 172, "RAD"], [17, 172, "SBV"], [18, 172, "ADV"], [19, 172, "ADV"], [20, 172, "ADV"], [21, 172, "SBV"], [22, 172, "ADV"], [23, 172, "ADV"], [24, 172, "ADV"], [25, 172, "ADV"], [26, 172, "RAD"], [27, 172, "VOB"], [28, 156, "WP"], [29, 33, "ADV"], [30, 33, "SBV"], [31, 33, "ADV"], [32, 33, "ADV"], [33, 156, "COO"], [34, 33, "RAD"], [35, 39, "ATT"], [36, 39, "ATT"], [37, 39, "ATT"], [38, 37, "RAD"], [39, 33, "VOB"], [40, 33, "WP"], [41, 44, "ADV"], [42, 44, "WP"], [43, 44, "ADV"], [44, 33, "COO"], [45, 44, "CMP"], [46, 44, "WP"], [47, 48, "SBV"], [48, 55, "ATT"], [49, 48, "RAD"], [50, 51, "POB"], [51, 48, "ADV"], [52, 51, "POB"], [53, 48, "RAD"], [54, 55, "ATT"], [55, 44, "SBV"], [56, 44, "WP"], [57, 44, "ADV"], [58, 59, "SBV"], [59, 44, "ADV"], [60, 44, "COO"], [61, 44, "WP"], [62, 63, "SBV"], [63, 71, "CMP"], [64, 71, "CMP"], [65, 71, "WP"], [66, 71, "ADV"], [67, 71, "WP"], [68, 71, "ADV"], [69, 70, "ATT"], [70, 71, "SBV"], [71, 44, "COO"], [72, 71, "COO"], [73, 71, "WP"], [74, 75, "ATT"], [75, 71, "SBV"], [76, 78, "ADV"], [77, 78, "ADV"], [78, 44, "COO"], [79, 78, "VOB"], [80, 78, "VOB"], [81, 80, "CMP"], [82, 81, "POB"], [83, 78, "WP"], [84, 86, "ATT"], [85, 84, "RAD"], [86, 78, "COO"], [87, 78, "WP"], [88, 44, "COO"], [89, 91, "ADV"], [90, 89, "POB"], [91, 93, "ATT"], [92, 91, "RAD"], [93, 101, "VOB"], [94, 101, "WP"], [95, 101, "CMP"], [96, 97, "LAD"], [97, 101, "VOB"], [98, 101, "ADV"], [99, 101, "ADV"], [100, 99, "POB"], [101, 156, "COO"], [102, 101, "SBV"], [103, 101, "RAD"], [104, 101, "WP"], [105, 109, "ADV"], [106, 107, "ATT"], [107, 105, "POB"], [108, 109, "ADV"], [109, 156, "COO"], [110, 111, "WP"], [111, 109, "COO"], [112, 109, "RAD"], [113, 109, "COO"], [114, 129, "WP"], [115, 129, "ADV"], [116, 119, "ATT"], [117, 119, "ATT"], [118, 117, "RAD"], [119, 120, "ATT"], [120, 115, "POB"], [121, 129, "WP"], [122, 124, "ADV"], [123, 124, "ADV"], [124, 129, "COO"], [125, 124, "RAD"], [126, 129, "COO"], [127, 129, "WP"], [128, 129, "SBV"], [129, 109, "COO"], [130, 129, "VOB"], [131, 129, "WP"], [132, 133, "COO"], [133, 109, "COO"], [134, 109, "RAD"], [135, 109, "ADV"], [136, 137, "ATT"], [137, 109, "SBV"], [138, 109, "WP"], [139, 109, "ADV"], [140, 109, "WP"], [141, 109, "ADV"], [142, 109, "WP"], [143, 109, "WP"], [144, 109, "COO"], [145, 109, "ADV"], [146, 156, "WP"], [147, 156, "SBV"], [148, 156, "ADV"], [149, 151, "ATT"], [150, 151, "ATT"], [151, 156, "VOB"], [152, 156, "WP"], [153, 156, "ADV"], [154, 156, "ADV"], [155, 156, "WP"], [156, 167, "COO"], [157, 158, "ATT"], [158, 167, "VOB"], [159, 160, "WP"], [160, 167, "COO"], [161, 160, "WP"], [162, 163, "ADV"], [163, 167, "COO"], [164, 165, "WP"], [165, 163, "COO"], [166, 163, "ADV"], [167, 27, "ATT"], [168, 167, "RAD"], [169, 172, "ADV"], [170, 172, "WP"], [171, 172, "ADV"], [172, 7, "COO"], [173, 175, "ATT"], [174, 175, "RAD"], [175, 172, "VOB"], [176, 175, "WP"], [177, 175, "RAD"], [178, 175, "ATT"], [179, 181, "ADV"], [180, 181, "ADV"], [181, 6, "COO"], [182, 181, "RAD"], [183, 181, "WP"], [184, 181, "WP"], [185, 190, "SBV"], [186, 190, "SBV"], [187, 190, "WP"], [188, 190, "SBV"], [189, 190, "ADV"], [190, 181, "COO"], [191, 190, "VOB"], [192, 191, "RAD"], [193, 191, "WP"], [194, 195, "ADV"], [195, 204, "CMP"], [196, 204, "VOB"], [197, 204, "WP"], [198, 204, "SBV"], [199, 198, "RAD"], [200, 204, "LAD"], [201, 204, "SBV"], [202, 204, "ADV"], [203, 204, "ADV"], [204, 191, "COO"], [205, 204, "VOB"], [206, 204, "WP"], [207, 204, "ADV"], [208, 209, "SBV"], [209, 191, "ADV"], [210, 209, "WP"], [211, 209, "SBV"], [212, 209, "WP"], [213, 209, "SBV"], [214, 209, "WP"], [215, 216, "ADV"], [216, 218, "ATT"], [217, 216, "RAD"], [218, 209, "SBV"], [219, 209, "ADV"], [220, 191, "ADV"], [221, 191, "ADV"], [222, 181, "COO"], [223, 181, "WP"], [224, 181, "ADV"], [225, 181, "ADV"]], "sdp": [[1, 2, "AGT"], [1, 129, "AGT"], [2, 0, "Root"], [3, 2, "mPUNC"], [4, 7, "mRELA"], [5, 7, "AGT"], [5, 8, "AGT"], [6, 7, "mNEG"], [6, 8, "mNEG"], [7, 2, "dCONT"], [8, 7, "eSUCC"], [9, 8, "LINK"], [10, 8, "mPUNC"], [11, 8, "eSUCC"], [12, 172, "EXP"], [13, 172, "SCO"], [14, 15, "mRELA"], [15, 167, "LOC"], [15, 172, "LOC"], [16, 172, "mDEPD"], [17, 172, "EXP"], [18, 172, "mDEPD"], [19, 172, "mDEPD"], [20, 172, "mNEG"], [21, 172, "AGT"], [22, 172, "SCO"], [23, 172, "EXP"], [24, 172, "EXP"], [25, 172, "MANN"], [26, 172, "mDEPD"], [27, 172, "CONT"], [28, 172, "mPUNC"], [29, 33, "mDEPD"], [30, 33, "AGT"], [31, 33, "mDEPD"], [32, 33, "mDEPD"], [33, 172, "eSUCC"], [34, 33, "mDEPD"], [35, 39, "FEAT"], [36, 39, "SCO"], [37, 39, "rEXP"], [38, 37, "mDEPD"], [39, 33, "CONT"], [40, 33, "mPUNC"], [41, 44, "LOC"], [42, 44, "mPUNC"], [43, 44, "mRELA"], [44, 33, "eSUCC"], [45, 44, "TIME"], [46, 44, "mPUNC"], [47, 48, "AGT"], [47, 60, "PAT"], [47, 204, "AGT"], [48, 55, "rDATV"], [49, 48, "mDEPD"], [50, 48, "LOC"], [51, 50, "mRELA"], [52, 50, "FEAT"], [53, 48, "mDEPD"], [54, 55, "MEAS"], [55, 44, "EXP"], [56, 44, "mPUNC"], [57, 44, "eCOO"], [58, 59, "EXP"], [59, 44, "eSUCC"], [60, 44, "eSUCC"], [61, 60, "mPUNC"], [62, 60, "PAT"], [63, 60, "eSUCC"], [64, 63, "mDEPD"], [65, 71, "mPUNC"], [66, 71, "TIME"], [67, 66, "mPUNC"], [68, 71, "mDEPD"], [69, 70, "MEAS"], [70, 71, "AGT"], [71, 60, "eCOO"], [72, 71, "dCONT"], [73, 72, "mPUNC"], [74, 75, "MEAS"], [75, 72, "AGT"], [76, 78, "mDEPD"], [77, 78, "mDEPD"], [78, 44, "eSUCC"], [79, 78, "dCONT"], [80, 79, "LINK"], [81, 79, "eCOO"], [82, 81, "TIME"], [83, 91, "mPUNC"], [84, 91, "LOC"], [85, 91, "mDEPD"], [86, 88, "EXP"], [87, 88, "mPUNC"], [88, 91, "mDEPD"], [89, 90, "mRELA"], [90, 91, "LOC"], [91, 79, "eSUCC"], [92, 91, "mDEPD"], [93, 79, "EXP"], [94, 93, "mPUNC"], [95, 93, "FEAT"], [96, 97, "mRELA"], [97, 93, "eCOO"], [98, 78, "mDEPD"], [99, 100, "mRELA"], [100, 101, "MANN"], [101, 78, "dCONT"], [102, 107, "FEAT"], [102, 109, "SCO"], [103, 109, "mDEPD"], [104, 109, "mPUNC"], [105, 107, "mRELA"], [106, 107, "FEAT"], [107, 109, "SCO"], [108, 109, "mDEPD"], [109, 101, "ePREC"], [110, 109, "mPUNC"], [111, 109, "eSUCC"], [112, 109, "mDEPD"], [113, 109, "eSUCC"], [114, 129, "mPUNC"], [115, 119, "mRELA"], [116, 119, "SCO"], [117, 119, "FEAT"], [118, 117, "mDEPD"], [119, 124, "STAT"], [120, 119, "mDEPD"], [121, 119, "mPUNC"], [122, 124, "mDEPD"], [123, 124, "mDEPD"], [124, 129, "dCONT"], [125, 124, "mDEPD"], [126, 129, "dCONT"], [127, 129, "mPUNC"], [128, 129, "AGT"], [129, 109, "eSUCC"], [130, 129, "dCONT"], [131, 129, "mPUNC"], [132, 109, "ePREC"], [133, 109, "eSUCC"], [134, 109, "mDEPD"], [135, 109, "SCO"], [136, 137, "MEAS"], [137, 109, "FEAT"], [138, 109, "mPUNC"], [139, 109, "FEAT"], [140, 109, "mPUNC"], [141, 109, "FEAT"], [142, 109, "mPUNC"], [143, 8, "mPUNC"], [143, 109, "mPUNC"], [144, 109, "eSUCC"], [145, 160, "mDEPD"], [146, 160, "mPUNC"], [147, 160, "eSUCC"], [148, 147, "mDEPD"], [149, 147, "MEAS"], [150, 151, "MEAS"], [151, 147, "TIME"], [152, 147, "mPUNC"], [153, 156, "mRELA"], [154, 156, "mRELA"], [155, 156, "mPUNC"], [156, 160, "mDEPD"], [157, 158, "MEAS"], [158, 156, "LINK"], [159, 156, "mPUNC"], [160, 109, "eSUCC"], [161, 160, "mPUNC"], [162, 163, "mDEPD"], [163, 160, "dEXP"], [164, 165, "mPUNC"], [165, 160, "eCOO"], [166, 167, "mRELA"], [167, 165, "dEXP"], [168, 167, "mDEPD"], [169, 167, "SCO"], [170, 160, "mPUNC"], [171, 172, "TIME"], [172, 11, "dCONT"], [173, 8, "MEAS"], [174, 175, "mDEPD"], [175, 8, "eSUCC"], [176, 175, "mPUNC"], [177, 181, "mDEPD"], [178, 181, "EXP"], [179, 181, "mDEPD"], [180, 181, "mDEPD"], [181, 2, "dCONT"], [182, 44, "mDEPD"], [182, 209, "mDEPD"], [183, 209, "mPUNC"], [184, 209, "mPUNC"], [185, 44, "AGT"], [185, 209, "EXP"], [186, 185, "eCOO"], [187, 209, "mPUNC"], [188, 191, "MEAS"], [189, 191, "mDEPD"], [190, 191, "eSUCC"], [191, 209, "dEXP"], [192, 204, "mDEPD"], [193, 204, "mPUNC"], [194, 195, "SCO"], [195, 204, "FEAT"], [196, 204, "CONT"], [197, 204, "mPUNC"], [198, 204, "AGT"], [199, 48, "mDEPD"], [199, 198, "mDEPD"], [200, 204, "mRELA"], [201, 204, "AGT"], [202, 204, "mDEPD"], [203, 204, "eCOO"], [204, 209, "ePREC"], [205, 204, "CONT"], [206, 204, "mPUNC"], [207, 204, "mDEPD"], [208, 204, "LOC"], [209, 181, "eSUCC"], [210, 209, "mPUNC"], [211, 209, "EXP"], [212, 209, "mPUNC"], [213, 209, "EXP"], [214, 209, "mPUNC"], [215, 216, "mDEPD"], [216, 218, "FEAT"], [217, 37, "mDEPD"], [217, 216, "mDEPD"], [218, 209, "EXP"], [219, 209, "mDEPD"], [220, 221, "mRELA"], [221, 209, "LOC"], [222, 181, "eSUCC"], [223, 181, "mPUNC"], [224, 181, "mRELA"], [225, 181, "SCO"]]}

紧接着，调用相应的mask策略对数据进行处理，处理后的数据样例如下：

[['[CLS]', '我', '想', ',', '如', '果', '我', '没', '有', '去', '做', '大', '学', '生', '村', '官', ',', '恐', '怕', '我', '这', '个', '在', '昆', '明', '长', '大', '的', '孩', '子', '永', '远', '都', '不', '能', '切', '身', '感', '受', '到', '云', '南', '这', '次', '6', '0', '年', '一', '遇', '的', '特', '大', '旱', '情', '的', '严', '重', '性', ',', '恐', '怕', '[sdp]', '我', '[sdp]', '只', '是', '每', '天', '[sdp]', '看', '[sdp]', '着', '新', '闻', '上', '那', '些', '缺', '水', '的', '镜', '头', ',', '嘴', '上', '说', '要', '节', '水', ',', '但', '事', '实', '行', '动', '保', '持', '不', '了', '三', '天', '。', '我', '任', '职', '的', '地', '方', '在', '昆', '明', '市', '禄', '劝', '县', '的', '一', '个', '村', '委', '会', ',', '说', '实', '话', '这', '里', '[SEP]'], [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], ['昆明长大', '云南', '昆明市禄劝县']]

预训练脚本

数据处理完毕之后，就可以调用预训练脚本进行模型的预训练，脚本如下：

gpu_number=1
negative_e_number=4
negative_e_length=16

base_dir=$PWD
checkpoint_dir=$base_dir/checkpoints
resources=$base_dir/resources
local_kg=$resources/ownthink_triples_small.txt
local_train_file=$resources/train_small.txt
remote_kg=https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/ckbert/ownthink_triples_small.txt
remote_train_file=https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/ckbert/train_small.txt

if [ ! -d $checkpoint_dir ];then
mkdir $checkpoint_dir
fi

if [ ! -d $resources ];then
mkdir $resources
fi

if [ ! -f $local_kg ];then
wget -P $resources $remote_kg
fi

if [ ! -f $local_train_file ];then
wget -P $resources $remote_train_file
fi

python -m torch.distributed.launch --nproc_per_node=$gpu_number \
--master_port=52349 \
$base_dir/main.py \
--mode=train \
--worker_gpu=$gpu_number \
--tables=$local_train_file, \
--learning_rate=5e-5  \
--epoch_num=5  \
--logging_steps=10 \
--save_checkpoint_steps=2150 \
--sequence_length=256 \
--train_batch_size=20 \
--checkpoint_dir=$checkpoint_dir \
--app_name=language_modeling \
--use_amp \
--save_all_checkpoints \
--user_defined_parameters="pretrain_model_name_or_path=hfl/macbert-base-zh external_mask_flag=True contrast_learning_flag=True negative_e_number=${negative_e_number} negative_e_length=${negative_e_length} kg_path=${local_kg}"

模型Finetune

CKBERT模型与BERT是同样的架构，只需要使用通用的EasyNLP框架命令就可以进行调用。以下命令分别为Train和Predict状态的例子，使用的模型为ckbert-base。

当前在EasyNLP框架中也可以调用large和huge模型进行测试，只需要替换命令中的参数即可

pretrain_model_name_or_path=alibaba-pai/pai-ckbert-large-zh

pretrain_model_name_or_path=alibaba-pai/pai-ckbert-huge-zh

$ easynlp \
   --mode=train \
   --worker_gpu=1 \
   --tables=train.tsv,dev.tsv \
   --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 \
   --first_sequence=sent1 \
   --label_name=label \
   --label_enumerate_values=0,1 \
   --checkpoint_dir=./classification_model \
   --epoch_num=1  \
   --sequence_length=128 \
   --app_name=text_classify \
   --user_defined_parameters='pretrain_model_name_or_path=alibaba-pai/pai-ckbert-base-zh'

$ easynlp \
  --mode=predict \
  --tables=dev.tsv \
  --outputs=dev.pred.tsv \
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 \
  --output_schema=predictions,probabilities,logits,output \
  --append_cols=label \
  --first_sequence=sent1 \
  --checkpoint_path=./classification_model \
  --app_name=text_classify

在HuggingFace上使用CKBERT模型

为了方便开源用户使用CKBERT，我们也将三个CKBERT模型在HuggingFace Models上架，其Model Card如下所示：

用户也可以直接使用HuggingFace提供的pipeline进行模型推理，样例如下：

from transformers import AutoTokenizer, AutoModelForMaskedLM, FillMaskPipeline

tokenizer = AutoTokenizer.from_pretrained("alibaba-pai/pai-ckbert-base-zh", use_auth_token=True)
model = AutoModelForMaskedLM.from_pretrained("alibaba-pai/pai-ckbert-base-zh", use_auth_token=True)
unmasker = FillMaskPipeline(model, tokenizer)   
unmasker("巴黎是[MASK]国的首都。",top_k=5)

[
    {'score': 0.8580496311187744, 
     'token': 3791, 
     'token_str': '法', 
     'sequence': '巴 黎 是 法 国 的 首 都 。'}, 
    {'score': 0.08550138026475906, 
     'token': 2548, 
     'token_str': '德', 
     'sequence': '巴 黎 是 德 国 的 首 都 。'}, 
    {'score': 0.023137662559747696, 
     'token': 5401, 
     'token_str': '美', 
     'sequence': '巴 黎 是 美 国 的 首 都 。'}, 
    {'score': 0.012281022034585476, 
     'token': 5739, 'token_str': '英', 
     'sequence': '巴 黎 是 英 国 的 首 都 。'}, 
    {'score': 0.005729076452553272, 
     'token': 704, 'token_str': '中', 
     'sequence': '巴 黎 是 中 国 的 首 都 。'}
]

或者也可以使用Pytorch加载模型，样例如下：

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("alibaba-pai/pai-ckbert-base-zh", use_auth_token=True)
model = AutoModelForMaskedLM.from_pretrained("alibaba-pai/pai-ckbert-base-zh", use_auth_token=True)
text = "巴黎是[MASK]国的首都。"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在阿里云机器学习平台PAI上使用CKBERT模型

PAI-DSW（Data Science Workshop）是阿里云机器学习平台PAI开发的云上IDE，面向不同水平的开发者，提供了交互式的编程环境（文档）。在DSW Gallery中，提供了各种Notebook示例，方便用户轻松上手DSW，搭建各种机器学习应用。我们也在DSW Gallery中上架了使用CKBERT进行中文命名实体识别的Sample Notebook（见下图），欢迎大家体验！

未来展望

在未来，我们计划在EasyNLP框架中集成更多中⽂知识模型，覆盖各个常⻅中⽂领域，敬请期待。我们也将在EasyNLP框架中集成更多SOTA模型（特别是中⽂模型），来⽀持各种NLP和多模态任务。此外，阿⾥云机器学习PAI团队也在持续推进中⽂多模态模型的⾃研⼯作，欢迎⽤户持续关注我们，也欢迎加⼊我们的开源社区，共建中⽂NLP和多模态算法库！

Github地址：https://github.com/alibaba/EasyNLP

Reference

Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022
Taolin Zhang, Junwei Dong, Jianing Wang, Chengyu Wang, Ang Wang, Yinghui Liu, Jun Huang, Yong Li, Xiaofeng He. Revisiting and Advancing Chinese Natural Language Understanding with Accelerated Heterogeneous Knowledge Pre-training. EMNLP 2022
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu. Revisiting Pre-Trained Models for Chinese Natural Language Processing. EMNLP (Findings) 2020
Yiming Cui, Ziqing Yang, Ting Liu. PERT: Pre-training BERT with Permuted Language Model. arXiv
Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Xuyi Chen, Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian, Hua Wu. ERNIE: Enhanced Representation through Knowledge Integration. arXiv
Yuxuan Lai, Yijia Liu, Yansong Feng, Songfang Huang, and Dongyan Zhao. Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models. NAACL 2021
Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Qi Ju, Haotang Deng, Ping Wang. K-BERT: Enabling Language Representation with Knowledge Graph. AAAI 2020
Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, Qun Liu. ERNIE: Enhanced Language Representation with Informative Entities. ACL 2019

阿里灵杰回顾

阿里灵杰：阿里云机器学习PAI开源中文NLP算法框架EasyNLP，助力NLP大模型落地
阿里灵杰：预训练知识度量比赛夺冠！阿里云PAI发布知识预训练工具
阿里灵杰：EasyNLP带你玩转CLIP图文检索
阿里灵杰：EasyNLP中文文图生成模型带你秒变艺术家
阿里灵杰：EasyNLP集成K-BERT算法，借助知识图谱实现更优Finetune
阿里灵杰：中文稀疏GPT大模型落地 — 通往低成本&高性能多任务通用自然语言理解的关键里程碑
阿里灵杰：EasyNLP玩转文本摘要（新闻标题）生成
阿里灵杰：跨模态学习能力再升级，EasyNLP电商文图检索效果刷新SOTA
阿里灵杰：EasyNLP带你实现中英文机器阅读理解

你可能感兴趣的:(开源技术)

每天了解一个不同的证书类型之红帽篇咕噜Yuki0609 linux
红帽是一家专注于开源技术的公司，其业务涵盖了Linux系统的发行、云计算、容器化应用、人工智能等，并且在全球市场上有广泛的用户群体。同时，红帽也在不断加强其在开源技术领域的研发，不断推出新的产品和服务，以满足客户的需求。因此，红帽公司在开源技术领域中处于领先地位，并且在市场中有着良好的发展前景。红帽证书分为三个级别：红帽认证系统管理员（RHCSA）是最基础的认证级别，要求考生掌握Linux系统的安
php案例分析百度云_基于阿里云平台的大数据教学案例 —— B站弹幕数据分析 weixin_39892311 php案例分析百度云
简介：实验基于所学的大数据处理知识，结合阿里云大数据相关产品，分组完成一个大数据分析项目，数据集可以使用开源数据集或自行爬取，最终完成一个完整的实验报告：1、能够使用阿里云大数据相关产品完成数据分析、数据建模与模型优化2、能够基于分析结构构建可视化门户或可视化大屏，分析和呈现不少于5个3、分析案例有实用价值并能够形成有效结论4、能够将开源技术与阿里云产品结合，综合利用提升开发效率，降低成本5、能够
（二十）Flink Paimon springk Flink全景解析大数据实时数据实时数据处理 paimon flink paimon
数据湖、湖仓一体是当前大数据领域技术发展的重要趋势。近几年开源数据湖技术如ApacheHudi、ApacheIceberg、ApachePaimon、DeltaLake等不断涌现，基于湖仓一体架构的统一元数据管理、数据治理也越来越受到关注。从传统数仓到数据湖、湖仓一体架构，从流批一体计算到基于数据湖的流批一体存储，越来越多的企业基于开源技术，在集成、计算、存储、查询分析等方面不断优化，建设形成适合
Orillusion感谢谷歌GDG DevFest开发者大会2023（北京）的推荐前端
谷歌开发者社区（GoogleDeveloperGroups）是谷歌开发者部门发起的全球项目，是面向对Google和开源技术、开放技术感兴趣的开发者社区，由对谷歌开发技术感兴趣的开发者们主导。其内容涵盖Web、Android、TensorFlow、Flutter和其它GoogleAPI等。至2020年11月，全球已有1000多个GDG社区，分布在130多个国家。中国大陆有27个GDG社区，中国台湾有
Orillusion感谢谷歌GDG DevFest开发者大会2023（北京）的推荐前端
谷歌开发者社区（GoogleDeveloperGroups）是谷歌开发者部门发起的全球项目，是面向对Google和开源技术、开放技术感兴趣的开发者社区，由对谷歌开发技术感兴趣的开发者们主导。其内容涵盖Web、Android、TensorFlow、Flutter和其它GoogleAPI等。至2020年11月，全球已有1000多个GDG社区，分布在130多个国家。中国大陆有27个GDG社区，中国台湾有
技术产品研发型企业的发展困境数蚕
目前中小企业想要发展自己的业务，必须使用到底层架构技术，于是企业多采用三种技术方案，一、招相关技术人员，并为之长期投入技术成本；二、使用相关开源技术框架，并培养相关业务人员；三、购买大型软件基础服务公司提供的云服务，并为之按量或时付费。其中方案一多为传统型生产型软件企业，其优点是人员稳定性强，研发周期稳定，市场发布规律，潜在用户群体流失性低；长期来看，对企业人员稳定，技术沉淀，都有着十分重要的贡献
基于WebGPU的AI原生3D引擎将会迎来新机遇！Orillusion在GOTC上做主题演讲！前端
全球开源技术峰会（GlobalOpen-sourceTechnologyConferencGOTC2023由开放原子开源基金会、Linux基金会亚太区、上海浦东软件园和开源中国联合发起，于5月27日至28日在上海顺利举行。GOTC是面向全球开发者的一场盛大开源技术盛宴，大会以行业展览、主题发言、专题论坛、开源市集的形式展现，与会者将一起探讨元宇宙、3D与游戏、eBPF、Web3.0、区块链等热门技
C#/.NET/.NET Core学习、工作 He少年 .net .netcore c#数据结构
‍C#/.NET/.NETCore学习、工作、面试指南让现在的自己不再迷茫✨✨✨。DotNetGuideDotNetGuide技术社区是一个面向.NET开发者的开源技术社区，旨在为开发者们提供全面的C#/.NET/.NETCore相关学习资料、技术分享和咨询、项目推荐、招聘资讯和解决问题的平台。在这个社区中，开发者们可以分享自己的技术文章、项目经验、遇到的疑难技术问题以及解决方案，并且还有机会结识
Fisco Bcos 去远方追逐
公司要发展区块链相关的技术。由此技术部对联盟链的底层平台进行了技术选型。目前我们选择的是金链盟的FISCOBCOS。以下是具体的访问地址。经过我们运维团队的搭建，这套平台我们可以自主控制，而且他们的沟通群和技术支持还不错。要想从0开始搞的，不妨借鉴一下。FISCOBCOS以一揽子开源技术方案为核心，全面构建了满足分布式商业发展要求的金融级区块链基础设施，并以此孵化区块链上的应用生态。image.p
vue 文字转语音mp3_vue 语音合成 - 梦魂清风的个人空间 - OSCHINA - 中文开源技术交流社区... 左锦辉 vue 文字转语音mp3
1、百度语音restAPIhttps请求，在线语音合成免费tex必填合成的文本，使用UTF-8编码。小于2048个中文字或者英文数字。(文本在百度服务器内转换为GBK后，长度必须小于4096字节)tok必填开放平台获取到的开发者access_token(见上面的“鉴权认证机制”段落)cuid必填用户唯一标识，用来计算UV值。建议填写能区分用户的机器MAC地址或IMEI码，长度为60字符以内ctp必
关于RedHat Linux各版本介绍 jackgogogo 程序人生 linux redhat 服务器数据库产品 server
关于RedHatLinux各版本介绍关键词:RHEL4U2ASWSES区别不同RedHat是全球最大的开源技术厂家，其产品RedHatLinux也是全世界应用最广泛的Linux。国内的代理：http://www.mylinux.cn/redhat.htm单是RedHat也有多个版本可以选择，如下：
【开源精选导航】GitHub-Chinese-Top-Charts：一榜在手，优质中文项目轻松找寻 GitCode 官方 gitcode 开源
各位热爱开源技术的朋友们，你们是否有过这样的困扰：面对浩瀚的GitHub海洋，想找寻那些具有高质量中文文档的优秀开源项目却无从下手？今天，我们就为大家揭晓一个宝藏般的开源项目——GitHub中文项目集合（访问地址：https://gitcode.com/GrowingGit/GitHub-Chinese-Top-Charts/overview），它就如同你的私人开源项目顾问，帮你轻松跨过语言鸿沟，
整理一份程序员常用的各类工具、技术站点 python爬虫人工智能大数据
点击上方“测试开发技术”，选择“加为星标”优质文章，第一时间送达！1.技术站点HackerNews：非常棒的针对编程的链接聚合网站MSDN：微软相关的官方技术集中地，主要是文档类infoQ：企业级应用，关注软件开发领域OSChina：开源技术社区，开源方面做的不错哦博客园、51CTO、CSDN：常见的技术社区，各有专长stackoverflow：IT技术问答网站GitHub：全球最大的源代码管理平
混战在帝都的妹纸一枚，整理于Github上的工具合集 ch3rry 敏捷开发
来自：SegmentFault作者：妹纸一枚链接：http://segmentfault.com/q/1010000002404545原标题：GitHub上整理的一些工具，求补充技术站点HackerNews：非常棒的针对编程的链接聚合网站Programmingreddit：同上MSDN：微软相关的官方技术集中地，主要是文档类infoq：企业级应用，关注软件开发领域OSChina：开源技术社区，开源
Open Assistant 真的可以平替拆GPT吗一号专家智囊团
OpenAssistant是一个开源项目，为构建对话式人工智能助手提供了一个框架。它允许开发人员创建聊天机器人、语音助手和其他可以用自然语言与用户交互的对话界面。它建立在几种流行的开源技术之上，包括TensorFlow、Keras和Flask。它提供了一组用于处理自然语言处理、意图识别和对话管理的预构建组件，以及用于训练和部署模型的工具。OpenAssistant的一个主要优点是它的灵活性。它可以
“Linux 中国” 开源社区宣布停止运营 Lorin 洛林互联网资讯 linux 运维服务器
今日，“Linux中国”微信公众号发布消息，宣布该社区及其相关平台将无限期停止更新和运营，包括其主网、微信公众号、视频号，以及《硬核观察》栏目。主理人“硬核老王”在公告中透露，停止运营的原因包括以下几个方面：首先，“Linux中国”已完成了其历史使命。最初，他们的愿景是建立一个传播开源技术的公益型社区。然而，随着时间的推移，开源文化和与Linux相关的技术已经广泛传播，因此继续运营对推动该领域的作
白鲸开源荣膺2023年度大数据产业最具投资价值企业奖项 DolphinScheduler社区大数据
北京时间2024年2月20日，中国领先的开源技术公司，白鲸开源科技有限公司（以下简称"白鲸开源"）荣幸宣布，该公司获得了第六届"年度金猿季大型主题策划活动"颁发的"2023大数据产业年度最具投资价值"奖项。这一殊荣是对白鲸开源在大数据领域取得的卓越成就和突出贡献的认可。金猿季推动产业升级"年度金猿季大型主题活动"由金猿、数据猿、上海大数据联盟共同组成的金猿组委会发起。本届金猿季以"小趋势·大未来"
深掘开源安全需求，破解开源治理难题开源网安开源安全产品面面观安全开源开源软件软件成分分析 sca
当下，中国金融科技行业在数字支付、数字信贷、金融风控等领域取得了很多创新成果，大幅提升了金融数字化和智能化水平，已经在金融科技的全球竞争中走在前列。在此进程中，开源技术发挥了不可或缺的重要作用，根据我国金融行业开源技术应用社区调研结果显示，金融机构中超过90%的企业引入了开源软件，近四成金融机构使用超过1000个开源软件。开源技术的广泛应用，不仅加速了数字产品的研发周期，降低了创新成本，还以社区协
怎样才是优秀的程序员？乐之者v 工作-软技能职场和发展
工作工作，学习，效率非常高。知道该做什么事情，什么事情优先级高。独立思考的能力，不盲目听从。目标多给自己定目标。心仪的薪酬想要X万，Y点下班。技术熟悉开源技术。学习有长期价值的技术。十年后还有用的技术。linux、mysql、redis、kafka、netty.学习系统性地学习，而不止于碎片知识。善于向优秀的人学习~每解决一个问题，就多进步一点点。知其然，还知其所以然。看书，看官方文档，阅读源码。
第一章初识Docker 小白之比白更白 Docker docker 容器运维
什么是Docker？Docker的主要目的是“build,ShipandRunAnyApp,Anywhere"，即通过对应用组件的封装、分发、部署、运行等生命周期的管理，达到应用组件级别的”一次封装，到处运行“。这里的应用组件，既可以是一个Web应用也可以是一套数据库服务，甚至是一个操作系统或编译器。Docker基于Linux的多项开源技术提供了搞笑、敏捷和轻量级的容器方案，并且支持在多种主流平台
一些开源革命的幕后人物发疯的小猿轻知识笔记
文章目录《FacesofOpenSource》1.INTERNET2.WWW3.UNIX4.BSD5.LINUX6.LANGUAGES7.ROS8.XWINDOW《FacesofOpenSource》是一本关于开源革命幕后人物的持续摄影记录。该项目由著名或无名英雄的肖像组成，他们致力于创造和推进我们的开源技术。此项目的链接来源：https://www.facesofopensource.com/摄
Linux 磁盘IO 祁小彬
原文：MySQL调优基础(四)Linux磁盘IO-IT--小哥的个人空间-OSCHINA-中文开源技术交流社区一、IO处理过程磁盘IO经常会成为系统的一个瓶颈，特别是对于运行数据库的系统而言。数据从磁盘读取到内存，在到CPU缓存和寄存器，然后进行处理，最后写回磁盘，中间要经过很多的过程，下图是一个以write为例的Linux磁盘IO子系统的架构：image可以看到IO操作分成了四个层面：1）文件系
基于JAVA,SpringBoot,HTML宠物商店交易管理系统设计程序猿大波 Java java spring boot 开发语言
摘要：本研究旨在设计并实现一个基于Java,SpringBoot框架以及HTML前端技术的宠物商店交易管理系统。系统采用模块化的设计思想，将整个宠物商店的交易管理流程数字化和自动化，以提高管理效率，优化用户体验，并确保交易过程的透明度和安全性。在技术架构方面，后端采用SpringBoot框架，利用其自动配置、独立运行以及与众多开源技术的无缝集成能力，实现业务逻辑层和数据访问层的快速开发。Sprin
基于Kubernetes（K8s）构建企业容器云基础运行环境赵文宇（温玉） cncfstack kubernetes 容器云原生
cncfstack新文章上线：书名：《云原生解决方案》地址：https://zhaowenyu.com/cncf-solution访问：文章底部“阅读原文”或访问域名云原生计算是云计算发展新的里程碑阶段，是当今与未来很长一段时间中IT发展的技术基础。但当我们初次接触到云原生技术栈时，特别是云原生全景图（CloudNativeLandscape），会看到大量的开源技术与云原生生态，会感叹他的宏大与复
探索技术的无限可能-云原生计算2023年度奖项字节跳动云原生计算云原生大数据
在过去的一年里，字节跳动云原生计算团队获得了「DataFun年度数据智能先锋奖」、「开源中国-优秀开源技术团队」和「火山引擎开发者社区-年度优质内容」奖项。这些奖项既是鼓励，也是鞭策。在未来技术的道路上，我们将继续与大家同行，共同探索技术的无限可能！再次感谢大家对云原生计算团队的关注～Datafun年度数据智能先锋奖规模化的数据智能应用带来无数变量的冲突，不同的权衡取舍造就了不同的技术创新。有多少
程序员必备的20个学习网站 wd_cloud 个人开发开发语言团队开发
今天好学编程小编整理了20个程序员必备的学习网站，此篇对于新手程序员比较有用，技术老鸟们也可以查缺补漏。话不多说，纯纯干货呈上，赶紧点个赞+收藏，以后会用得上！技术网站类1、博客园一个面向开发者的知识分享社区，聚集许多优秀的开发者，分享知识、信息以及技术讨论。2、CSDN这个不用多说吧，中文最大的技术社区，全球知名中文IT技术交流平台，超多大神在这里！3、开源中国目前国内最大的开源技术社区，资源、
使用 Woodpecker 与 Gitea 搭建纯开源的 CI 流程｜极限降本 -白泽- golang 运维 CI gitea 开源 ci/cd
最近开源了一个挂机冒险游戏《模拟龙生》，有热心同学不仅帮忙做优化，还连夜在给游戏加页面，泪目。详见文末小结部分。一、前言大家好，这里是白泽。这篇文章是《WoodpeckerCI设计分析》的续接，将通过阅读Woodpecker和Gitea的源代码，解决前一篇文章最后遗留的问题，并最终实现本地部署Woodpecker和Gitea，实现持续集成（CI）全流程使用开源技术，极限降本。遗留问题：通过dock
麒麟系统—— openKylin 安装到虚拟机以及开放SSH通过工具连接盗理者 Linux ssh 运维
麒麟系统——openKylin安装到虚拟机以及开放SSH通过工具连接1.在VMware中安装openKylin麒麟系统步骤1：准备VMware环境步骤2：创建新的虚拟机步骤3：安装openKylin麒麟系统步骤4：调整分别率步骤5：安装SSH2.使用OpenSSH进行连接步骤1：在Windows上安装FinalShell步骤2：设置配置步骤3：连接Windows与麒麟系统随着开源技术的不断进步，国
调研 7 个开源项目后，这家数据合规平台如何构建高性能网关阿里云云原生开源阿里云云原生
作者：张俊，杭州用九智汇科技有限公司系统架构师用九智汇介绍用九智汇是一家面向企业提供数据合规、隐私保护相关产品和解决方案的数据合规公司，致力于帮助客户在合法合规、充分保护用户隐私的基础上发挥数据的最大价值，已服务众多世界500强企业。当前我们的产品交付主要基于云原生相关的基础设施和开源技术栈，如Kubernetes、Istio、ApacheDubbo、AlibabaNacos等，既支持以SaaS的
SCA SaaS版本免费网安云的小运营开源软件开源安全安全性测试
根据中国信通院调查数据显示，目前已有超过九成的企业使用开源技术，其中金融、通信等行业的开源组件使用率超过数千个，云计算、大数据开源的应用率超过40%，开源技术已成为主流。“软件吞噬世界，开源吞噬软件”，开源代码已成为企业数字化转型的重要组成部分。随着企业对开源技术的广泛应用，加速数字化转型升级的同时，开源组件安全与合规问题也日益显现——根据Synopsys发布的《2023开源安全和风险分析》报告显
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa