阿里云云栖号

EasyNLP 发布融合语言学和事实知识的中文预训练模型 CKBERT

导读

预训练语言模型在NLP的各个应用中都有及其广泛的应用；然而，经典的预训练语言模型（例如BERT）缺乏对知识的理解，例如知识图谱中的关系三元组。知识增强预训练模型使用外部知识（知识图谱，字典和文本等）或者句子内部的语言学知识进行增强。我们发现，知识注入的过程都伴随着很大规模的知识参数，下游任务fine-tune的时候仍然需要外部数据的支撑才能达到比较好的效果，从而无法在云环境中很好的提供给用户进行使用。CKBERT（Chinese Knowledge-enhanced BERT）是EasyNLP团队自研的中文预训练模型，结合了两种知识类型（外部知识图谱，内部语言学知识）对模型进行知识注入，同时使得知识注入的方式方便模型可扩展。我们的实验验证也表明CKBERT的模型精度超越了多种经典中文模型。在本次的框架升级中，我们将多种规模的CKBERT模型贡献给开源社区，并且这些CKBERT模型与HuggingFace Models完全兼容。此外，用户也可以在阿里云机器学习平台PAI上方便地利用云资源使用CKBERT模型。

EasyNLP（https://github.com/alibaba/EasyNLP）是阿⾥云机器学习PAI 团队基于 PyTorch 开发的易⽤且丰富的中⽂NLP算法框架，⽀持常⽤的中⽂预训练模型和⼤模型落地技术，并且提供了从训练到部署的⼀站式 NLP 开发体验。EasyNLP 提供了简洁的接⼝供⽤户开发 NLP 模型，包括NLP应⽤ AppZoo 和预训练 ModelZoo，同时提供技术帮助⽤户⾼效的落地超⼤预训练模型到业务。由于跨模态理解需求的不断增加，EasyNLP也⽀持各种跨模态模型，特别是中⽂领域的跨模态模型，推向开源社区，希望能够服务更多的 NLP 和多模态算法开发者和研究者，也希望和社区⼀起推动 NLP /多模态技术的发展和模型落地。

本⽂简要介绍CKBERT的技术解读，以及如何在EasyNLP框架、HuggingFace Models和阿里云机器学习平台PAI上使⽤CKBERT模型。

中文预训练语言模型概览

在这一节中，我们首先简要回顾经典的中文预训练语言模型。目前中文预训练语言模型主要包括了两种类型：

通用领域的预训练语言模型，主要包括了BERT、MacBERT和PERT等模型；
知识增强的中文预训练模型，主要包括了ERNIE-baidu，Lattice-BERT，K-BERT和ERNIE-THU等模型。

通用领域的预训练语言模型

BERT直接使用Google发布的基于中文维基文本语料进行训练的模型。MacBERT是BERT的改进版本，引入了纠错型掩码语言模型（MLM as correction，Mac）预训练任务，缓解了“预训练-下游任务”不一致的问题。在掩码语言模型（MLM）中，引入了[MASK]标记进行掩码，但[MASK]标记并不会出现在下游任务中。在MacBERT中，使用相似词来取代[MASK]标记。相似词通过Synonyms toolkit 工具获取，算法基于word2vec相似度计算。同时，MacBERT也引入了Whole Word Masking和N-gram Masking技术。当要对N-gram进行掩码时，会对N-gram里的每个词分别查找相似词；当没有相似词可替换时，将使用随机词进行替换。由于一定程度的乱序文本不影响语义理解，PBERT从乱序文本中学习语义知识。它对原始输入文本进行一定的词序调换，从而形成乱序文本（因此不会引入额外的[MASK]标记），其学习目标是预测原Token所在的位置。

知识增强的中文预训练模型

BERT在预训练过程中使用的数据仅是对单个字符进行屏蔽，例如下图所示，训练BERT时通过“哈”与“滨”的局部共现判断出“尔”字，但是模型其实并没有学习到与“哈尔滨”相关的知识，即只是学习到“哈尔滨”这个词，但是并不知道“哈尔滨”所代表的含义。ERNIE-Baidu在预训练时使用的数据是对整个词进行屏蔽，从而学习词与实体的表达，例如屏蔽“哈尔滨”与“冰雪”这样的词，使模型能够建模出“哈尔滨”与“黑龙江”的关系，学到“哈尔滨”是“黑龙江”的省会以及“哈尔滨”是个冰雪城市这样的含义。

与ERNIE-Baidu类似，Lattice-BERT利用Word-Lattice结构整合词级别信息。具体来说，Lattice-BERT设计了一个Lattice位置注意机制，来表达词级别的信息，同时提出了Masked Segment Prediction的预测任务，以推动模型学习来自丰富但冗余的内在Lattice信息。

除了语言学知识，更多的工作利用知识图谱中的事实性知识丰富中文预训练模型的表征。其中，K-BERT提出了面向知识图谱的知识增强语言模型，将三元组作为领域知识注入到句子中。然而，过多的知识融入会导致知识噪音，使句子偏离其正确的含义。为了克服知识噪音, K-BERT引入了Soft-position和Visibel Matrix来限制知识的影响。由于K-BERT能够从预训练的BERT中加载模型参数，因此通过配备KG，可以很容易地将领域知识注入到模型中，而不需要对模型进行预训练。EasyNLP框架也集成了K-BERT的模型和功能（看这里）。

ERNIE-THU是一种融入知识Embedding的预训练模型。它首先使用TAGME提取文本中的实体，并将这些实体链指到KG中的对应实体对象，然后获得这些实体对象对应的Embedding。实体对象的Embedding由知识表示方法（例如TransE）训练得到。此外，ERNIE-THU在BERT模型的基础上进行改进，除了MLM、NSP任务外，重新添加了一个和KG相关的预训练目标：Mask掉Token和Entity (实体) 的对齐关系，并要求模型从图谱的实体中选择合适的Entity完成对齐。

自研CKBERT模型技术详解

由于当前的知识增强预训练模型大都使用外部知识（知识图谱，字典和文本等）或者句子内部的语言学知识进行增强，同时知识注入的过程都伴随着很大规模的知识参数，下游任务fine-tune的时候仍然需要外部数据的支撑才能达到比较好的效果，从而无法在云环境中很好的提供给用户进行使用。CKBERT（Chinese Knowledge-enhanced BERT）是EasyNLP团队自研的中文预训练模型，结合了两种知识类型（外部知识图谱，内部语言学知识）对模型进行知识注入，同时使得知识注入的方式方便模型可扩展。针对实际的业务需求，我们提供了三种不同规模参数量的模型，详细配置如下所示：

模型配置	alibaba-pai/pai-ckbert-base-zh	alibaba-pai/pai-ckbert-large-zh	alibaba-pai/pai-ckbert-huge-zh
参数量（Parameters）	151M	428M	1.3B
层数（Number of Layers）	12	24	24
注意力头数（Attention Heads）	12	16	8
隐向量维度（Hidden Size）	768	1024	2048
文本长度（Text Length）	128	128	128
FFN 层维度	3072	4096	8192

CKBERT的模型架构如下图所示：

为了方便模型进行扩展参数，模型只在数据输入层面和预训练任务层面进行了改动，没有对模型架构进行改动。因此，CKBERT的模型结构与社区版的BERT模型对齐。在数据输入层，一共要处理两部分的知识，外部图谱三元组和句子级内部的语言学知识。针对语言学知识，我们使用了哈工大LTP平台进行句子数据的处理，进行语义角色标注和依存句法分析等，然后根据规则，将识别结果中重要的成分进行标注。针对外部三元组知识是根据句子中出现的实体构造实体的正负三元组样本，正样本是根据图谱中1-hop 实体进行的采样，负样本是根据图谱中multi-hop进行的采样，但负样本的采样过程只能在规定的多跳范围内，而不能在图谱中距离太远。

CKBERT采用两种预训练任务进行模型的预训练，语言学感知的掩码语言模型和多跳知识对比学习：

语言学感知的掩码语言模型（Linguistic-aware MLM）：在语义依存关系中的主体角色（施事者AGT和当事者EXP ）部分用[MASK]进行遮掩，同时在词的前后都加上[SDP][/SDP]，附加上词汇的边界信息。在依存句法关系中，将主谓冰关系，定中关系，并列关系等按照上述mask机制进行处理为[DEP][/DEP]。整体进行预训练的token数量是整句话的15%，其中40%进行随机MASK，30%和30%分配到语义依存关系和依存句法关系词汇上来。损失函数如下：

多跳知识对比学习：将上述构造的正负样本数据针对该注入的实体进行处理，每一个句中实体构造1个正样本，4个负样本，通过标准的infoNCE损失任务进行外部知识的学习。损失函数如下：

其中，

是预训练模型产生的上下文实体表示，

表示正样本的三元组表示结果，

表示负样本的三元组表示结果。

CKBERT模型的实现

在EasyNLP框架中，我们的模型实现分为三个部分：数据预处理，模型结构微调和损失函数的设计。首先，在数据预处理环节，主要由以下两个步骤组成：1.NER实体及语义关系的提取；2.知识图谱的信息注入。关于NER实体及语义信息的提取，主要采用LTP（Language Technology Platform）对原始句子进行分词和句法分析，该部分的核心代码如下所示：

def ltp_process(ltp: LTP, 
                data: List[Dict[str, Union[str, List[Union[int, str]]]]]):
    """use ltp to process the data
    Args:
        Dict ([str, str]): data
        example:
            {'text':['我叫汤姆去拿伞。'],...}
    Returns:
        Dict[str, str]: result
    """
    new_data = list(map(lambda x:x['text'][0].replace(" ", ""), data))
    seg, hiddens = ltp.seg(new_data)
    result = {}
    result['seg'] = seg
    result['ner'] = ltp.ner(hiddens)
    result['dep'] = ltp.dep(hiddens)
    result['sdp'] = ltp.sdp(hiddens)
    for index in range(len(data)):
        data[index]['text'][0] = data[index]['text'][0].replace(" ", "")
        data[index]['seg'] = result['seg'][index]
        data[index]['ner'] = result['ner'][index]
        data[index]['dep'] = result['dep'][index]
        data[index]['sdp'] = result['sdp'][index]

该部分完成之后需要基于原始句子中的语义依存关系对相应的词进行整体的mask，该部分的mask策略参考BERT的mask策略的设计，给不同类型的关系分配特定的概率，并基于该概率对不同类型关系进行mask，该部分的核心代码如下：

def dep_sdp_mask(left_numbers: List[int], 
                     data_new: List[List[Union[int, str]]], 
                     markers_: List[List[int]], 
                     selected_numbers_: set, 
                     number_: int,
                     marker_attrs: Dict[str, List[int]]) -> int:
        """ mask the `mask_labels` for sdp and dep and record the maskers for each mask item
        Args:
            left_numbers (List[int]): the options that have not been used
            data_new (List[List[Union[int, str]]]): preprocessed data for original dep and sdp
            markers_ (List[List[int]]): a list that is uesd to save the maskers for each mask item
            selected_numbers_ (set): a set that is used to save the selected options
            number_ (int): the number of mask labels
            marker_attrs Dict[str, List[int]]: marker attributes
        Returns:
            int: 0 mean no mask, the others mean the number of masked ids
        """
        np.random.shuffle(left_numbers)
        for item_ in left_numbers:
            target_item = data_new[item_]
            seg_ids = np.array(target_item[:2]) - 1
            delete_ids = np.where(seg_ids < 1)[0]
            seg_ids = np.delete(seg_ids, delete_ids)
            temp_ids = seg2id(seg_ids)
            ids = []
            for item in temp_ids:
                ids += item.copy()
            if check_ids(ids):
                length_ = len(ids)
                if number_ > length_:
                    for id_ in ids:
                        mask_labels[id_] = 1
                    if target_item[2] in marker_attrs:
                        detail_info.append([
                            target_item,
                            [seg_data[target_item[0] - 1],seg_data[target_item[1] - 1]],
                        ])
                        if len(temp_ids) == 1:
                            markers_.append([temp_ids[0][0], temp_ids[0][-1]])
                        elif len(temp_ids) == 2:
                            for i in marker_attrs[target_item[2]]:
                                markers_.append([temp_ids[i][0], temp_ids[i][-1]])
                    selected_numbers_.add(item_)
                    return length_
                else:
                    return 0
        return 0

在完成对原始句子的预处理之后，在模型的dataloader里需要对数据进行知识注入，由于模型中引入了对比学习，因此该部分需要在数据转换阶段同时生成positive和negative的样本数据。实现这一过程的核心代码如下：

def get_positive_and_negative_examples(
    self,
    ner_data: str,
    negative_level: int = 3) -> Union[bool, Dict[str, List[str]]]:
    """get the positive examples and negative examples for the ner data
    Args:
        ner_data (str): the ner entity
        negative_level (int, optional): the deepth of the relationship. Defaults to 3.
    Returns:
        Union[bool, Dict[str, List[str]]]: if the `ner_data` not in `konwledge`, return False, otherwise, return the positive and negative examples
    """
    knowledge: Dict[str, Dict[str, str]] = self.Knowledge_G
    common_used = set()
    def get_data(key: str, 
                data: Dict[str, str], 
                results: List[str], 
                deep: int, 
                insert_flag: bool = False):
        """get the negative examples recursively
        Args:
            key (str): the ner
            data (Dict[str, str]): the related data about `key`
            results (List[str]): a list used to save the negative examples
            deep (int): the recursive number
            insert_flag (bool, optional): whether insert data to `results`. Defaults to False.
        """
        nonlocal knowledge
        common_used.add(key)
        if deep == 0:
            return
        else:
            for key_item in data:
                if data[key_item] not in common_used and insert_flag == True:
                    results.append(data[key_item])
                if data[key_item] in knowledge and data[key_item] not in common_used:
                    get_data(data[key_item], knowledge[data[key_item]], results, deep - 1, True)
    
    all_examples = {
        'ner': ner_data,
        'positive_examples': [],
        'negative_examples': []
    }
    if ner_data in knowledge:
        tp_data = knowledge[ner_data]
        negative_examples = []
        if '描述' in tp_data:
            positive_example = tp_data['描述']
        else:
            keys = list(tp_data.keys())
            choice = np.random.choice([_ for _ in range(len(keys))], 1)[0]
            positive_example = tp_data[keys[choice]]
        # # the description usually contains the ner entity, if not, concate the `ner_data` and the positive example
        if ner_data in positive_example:
            all_examples['positive_examples'].append(positive_example)
        else:
            all_examples['positive_examples'].append(ner_data + positive_example)
        get_data(ner_data, tp_data, negative_examples, negative_level)
        # concate the ner entity and each negative example
        negative_examples = list(map(lambda x: ner_data + x if ner_data not in x else x, negative_examples))
        all_examples['negative_examples'] = negative_examples
        return all_examples
    return False

在完成知识注入之后，模型的数据预处理环节就实现了。紧接着，由于知识注入需要额外添加特殊的Token，因此，在模型的Embedding层需要重新调整大小，该部分的实现代码如下：

model.backbone.resize_token_embeddings(len(train_dataset.tokenizer))
model.config.vocab_size = len(train_dataset.tokenizer)

在对模型结构进行微调之后，最后就是修改原始的loss函数，由于引入了对比学习，这里需要在原来loss的基础之上新加一个对比学习的loss（CKBert采用SimCLS作为对比学习的loss函数），该部分的核心代码实现如下：

def compute_simcse(self, original_outputs: torch.Tensor, 
                   forward_outputs: torch.Tensor) -> float:
        original_hidden_states = original_outputs['hidden_states'].unsqueeze(-2)
        loss = nn.CrossEntropyLoss()
        forward_outputs = torch.mean(forward_outputs, dim=-2)
        cos_result = self.CosSim(original_hidden_states, forward_outputs)
        cos_result_size = cos_result.size()
        cos_result = cos_result.view(-1, cos_result_size[-1])
        labels = torch.zeros(cos_result.size(0), device=original_outputs['hidden_states'].device).long()
        loss_ = loss(cos_result, labels)
        return loss_

CKBERT加速预训练

由于CKBERT的预训练需要耗费大量时间和计算资源，我们有必须对CKBERT的预训练进行加速。由于CKBERT采用PyTorch框架实现，与Tensorflow 1.x Graph Execution方式相比，PyTorch采用Eager Execution的方式运行，具有很好的易用性、容易开发调试等特点。但是，Pytorch缺少模型的Graph IR（Intermediate Representation）表达，因此无法进行更深度的优化。受到LazyTensor 和Pytorch/XLA（https://github.com/pytorch/xla）的启发，PAI团队在PyTorch框架中开发了TorchAccelerator，旨在解决PyTorch上的训练优化问题，在保证用户易用性和可调试行的基础上，提升用户训练速度。

由于LazyTensor在Eager Execution到Graph Execution转化过程中还存在很多缺陷。通过将Custom Operation封装进XLA CustomCall、对Python代码进行AST解析等手段，TorchAccelerator提升了Eager Execution到Graph Execution的完备性和转化性能，通过多Stream优化、Tensor异步传输等手段提升编译优化效果。

从实验结果来看，将TorchAccelerator和AMP（Automatic Mixed Precision，混合精度训练）结合起来使用，训练速度将会有40%以上的提升，说明在AMP和TorchAccelerator进行相互作用下有比较好的加速效果。

CKBERT实验效果评测

为了验证CKBERT模型在各种任务上的精度，我们在多个公开数据集上验证了句子分类和NER任务的效果，如下所示：

CLUE数据集实验效果

模型	Text Classification						Question Answering			Total Score
模型	AFQMC	TNEWS	IFLYTEK	OCNLI	WSC	CSL	CMRC	CHID	C3	Total Score
BERT	72.73	55.22	59.54	66.53	72.49	81.77	73.40	79.19	57.91	69.72
MacBERT	69.90	57.93	60.35	67.43	74.71	82.13	73.55	79.51	58.89	70.28
PERT	73.61	54.50	57.42	66.70	76.07	82.77	73.80	80.19	58.03	70.18
ERNIE-Baidu	73.08	56.22	60.11	67.48	75.79	82.14	72.86	80.03	57.63	69.83
Lattice-BERT	72.96	56.14	58.97	67.54	76.10	81.99	73.47	80.24	57.80	70.29
K-BERT	73.15	55.91	60.19	67.83	76.21	82.24	72.74	80.29	57.48	70.35
ERNIE-THU	72.88	56.59	59.33	67.95	75.82	82.35	72.96	80.22	56.30	69.98
CKBERT-base	73.17	56.44	60.65	68.53	76.38	82.63	73.55	81.69	57.91	71.36
CKBERT-large	74.75	55.86	60.62	70.57	78.89	82.30	73.45	82.34	58.12	72.23
CKBERT-huge	75.03	59.72	60.96	78.26	85.16	89.47	77.25	97.73	86.59	78.91
CKBERT-huge (ensemble)	77.05	61.16	61.19	82.80	87.14	94.23	80.40	97.91	87.26	81.02

NER数据集实验效果

模型	MSRA	Weibo	Onto.	Resu.
BERT	95.20	54.65	81.61	94.86
MacBERT	95.07	54.93	81.96	95.22
PERT	94.99	53.74	81.44	95.10
ERNIE-Baidu	95.39	55.14	81.17	95.13
Lattice-BERT	95.28	54.99	82.01	95.31
K-BERT	94.97	55.21	81.98	94.92
ERNIE-THU	95.25	53.85	82.03	94.89
CKBERT-base	95.35	55.97	82.19	95.68
CKBERT-large	95.58	57.09	82.43	96.08
CKBERT-huge	96.79	58.66	83.87	97.19

上述结果说明，首先在CLUE数据集上：（1）知识增强预训练模型的性能相较于BERT均有较大提升，在一定程度说明了知识的注入能帮助模型进行更好的语义推理；（2）跟先前的较好的baseline模型相比，CKBERT的性能进一步得到了提升，这也说明了异构知识的注入有利于模型性能的提升；（3）模型参数量越大，异构知识的的注入所带来的提升越明显，这在我们的huge模型和base模型之间的对比上可以看出。其次，在NER数据集上：（1）知识增强预训练模型的性能相较于BERT也有一定的提升；（2）CKBERT模型相较于其他baseline模型的提升较大，这进一步说明了异构知识的注入对于模型性能的提升是有帮助的。

CKBERT模型使⽤教程

以下我们简要介绍如何在EasyNLP框架使⽤CKBERT模型。

安装EasyNLP

⽤户可以直接参考GitHub（https://github.com/alibaba/EasyNLP）上的说明安装EasyNLP算法框架。

模型预训练

以下介绍CKBERT模型的预训练调用过程，如果用户没有自行预训练的需求可以跳过此部分。

数据准备

CKBERT是一个知识嵌入的预训练模型，需要用户自己准备相应的原始训练数据（xxx.json）和知识图谱（xxx.spo）,其中数据分隔均使用\t分隔符。训练数据的格式为{'text':['xxx'], 'title':'xxx'}，样例如下：

{'text': ['我想,如果我没有去做大学生村官,恐怕我这个在昆明长大的孩子永远都不能切身感受到云南这次60年一遇的特大旱情的严重性,恐怕我只是每天看着新闻上那些缺水的镜头,嘴上说要节水,但事实行动保持不了三天。 我任职的地方在昆明市禄劝县的一个村委会,说实话这里距离禄劝县城不远,自然环境不算很差。目前,只有一个自然村保证不了饮用水。一个自然村基本能保证有饮用水到5月。这里所说的饮用水,是指从山肚子里出来的水,积在小水坝或是水塘里又通过管道输送到村子里的水,和我们城市里真正意义上消过毒的、能安全饮用的饮用水不同。在整个输送的过程中,可能已经产生了有害物质。我觉得是。 没有饮用水的那个自然村叫大海子村,50户,近200多人。地处山头,交通很不便利,走路大概要1个半小时到两个小时,而且坡度比较大,是一个苗族村寨。地理条件限制,基本没有什么经济作物,算是靠天吃饭的那种。今年遇到60年一遇的干旱,村里的两个水窖都基本干了,之前几天,他们村长来反映,几个老人已经是抬个小板凳坐到窖底用碗舀水了。 面对这么严峻的旱情,村委会的领导和各小组长都在想办法。但是上山的路路面情况差,大车重车上不去；周边水源地少。最可行的办法就是从武定那边绕路上去。但每天运水上去也不是办法,长远来看还是要修建一个小水坝。村委会的领导主动捐款,村民也自行筹资,开始自救。 最近每个周末都回家,添置防晒品,因为基本每天都上山下村去了解情况,必须掌握辖区内13个村小组水资源的情况。我每次回家见到朋友们,第一句就是,要节约用水啊~~ 朋友们,你们现在看到的只是简单理解的"缺水"。你们所不知道的是,没水小春作物面临绝收、4月份插秧没有水泡秧田、5月份种烤烟也没有水。。。那么对农民就意味着今年一年就没有了收入。我们现在能努力做好的,只是保证人的饮用水。 上周就在想能不能通过什么渠道帮村民们做点事。叔叔叫我弄个抗旱的基金,他发动周围的朋友来捐赠,希望能口口相传带动多一点朋友。我正在筹备阶段,看怎样才能做到最大的公开透明,让捐赠的人完全放心。 周一接到一个朋友的电话,说他们公司想为旱灾献点爱心,想买点水送去我们那儿。昨天见了负责人,很谦和的一个姐姐,她说大家都想做点什么,觉得捐钱没什么意义,想亲自送水到最需要的地方。 其实人家只是家私营的小公司,但我真的很感谢他们。姐姐还特别交代我,我们只需要找拖拉机下来帮忙把水运上山去,其他的什么都不用管,他们会安排好的。这个周末,将有 400件矿泉水会送到村民家里。我想,应该可以暂时缓解旱情。再次代村民感谢他们！ 下半年,旱情给农民的生产、生活带来的问题还很多。但是我个人的力量很有限,希望能够看到这些帖子的朋友们,如果有能力,有这份心意的话,请给予旱灾地区的农民更多的帮助。 我想大家都知道,昆明80%以上的用水都来自禄劝的云龙水库,云龙的同事们也在"抗旱",他们的工作任务是要保证严格的节约用水,要寻求其他水源用水,从而保证昆明的用水。所以,请每一个昆明人都节水吧,禄劝的很多地方都在缺水,我们那里不算严重的,请珍惜你们现在在用的每一滴水~ 也许,要经历过这样一次触目惊心的大旱才真正知道水的珍贵。希望我们都行动起来,不要再让这样的旱灾侵袭我们的家乡。'], 'title': '旱情记要-----昆明人,请珍惜你们现在在用的每一滴水~'}

知识图谱数据格式为三列数据，从左到右分别是实体关系的描述，样例如下：

红色食品标签生活

数据预处理

可以使用提供的数据预处理脚本(preprocess/run_local_preprocess.sh)来对原始数据进行一键处理，在经过LTP处理之后，数据样例如下：

{"text": ["我想,如果我没有去做大学生村官,恐怕我这个在昆明长大的孩子永远都不能切身感受到云南这次60年一遇的特大旱情的严重性,恐怕我只是每天看着新闻上那些缺水的镜头,嘴上说要节水,但事实行动保持不了三天。我任职的地方在昆明市禄劝县的一个村委会,说实话这里距离禄劝县城不远,自然环境不算很差。目前,只有一个自然村保证不了饮用水。一个自然村基本能保证有饮用水到5月。这里所说的饮用水,是指从山肚子里出来的水,积在小水坝或是水塘里又通过管道输送到村子里的水,和我们城市里真正意义上消过毒的、能安全饮用的饮用水不同。在整个输送的过程中,可能已经产生了有害物质。我觉得是。没有饮用水的那个自然村叫大海子村,50户,近200多人。地处山头,交通很不便利,走路大概要1个半小时到两个小时,而且坡度比较大,是一个苗族村寨。地理条件限制,基本没有什么经济作物,算是靠天吃饭的那种。今年遇到60年一遇的干旱,村里的两个水窖都基本干了,之前几天,他们村长来反映,几个老人已经是抬个小板凳坐到窖底用碗舀水了。面对这么严峻的旱情,村委会的领导和各小组长都在想办法。但是上山的路路面情况差,大车重车上不去；周边水源地少。最可行的办法就是从武定那边绕路上去。但每天运水上去也不是办法,长远来看还是要修建一个小水坝。村委会的领导主动捐款,村民也自行筹资,开始自救。最近每个周末都回家,添置防晒品,因为基本每天都上山下村去了解情况,必须掌握辖区内13个村小组水资源的情况。我每次回家见到朋友们,第一句就是,要节约用水啊~~朋友们,你们现在看到的只是简单理解的\"缺水\"。你们所不知道的是,没水小春作物面临绝收、4月份插秧没有水泡秧田、5月份种烤烟也没有水。。。那么对农民就意味着今年一年就没有了收入。我们现在能努力做好的,只是保证人的饮用水。上周就在想能不能通过什么渠道帮村民们做点事。叔叔叫我弄个抗旱的基金,他发动周围的朋友来捐赠,希望能口口相传带动多一点朋友。我正在筹备阶段,看怎样才能做到最大的公开透明,让捐赠的人完全放心。周一接到一个朋友的电话,说他们公司想为旱灾献点爱心,想买点水送去我们那儿。昨天见了负责人,很谦和的一个姐姐,她说大家都想做点什么,觉得捐钱没什么意义,想亲自送水到最需要的地方。其实人家只是家私营的小公司,但我真的很感谢他们。姐姐还特别交代我,我们只需要找拖拉机下来帮忙把水运上山去,其他的什么都不用管,他们会安排好的。这个周末,将有400件矿泉水会送到村民家里。我想,应该可以暂时缓解旱情。再次代村民感谢他们！下半年,旱情给农民的生产、生活带来的问题还很多。但是我个人的力量很有限,希望能够看到这些帖子的朋友们,如果有能力,有这份心意的话,请给予旱灾地区的农民更多的帮助。我想大家都知道,昆明80%以上的用水都来自禄劝的云龙水库,云龙的同事们也在\"抗旱\",他们的工作任务是要保证严格的节约用水,要寻求其他水源用水,从而保证昆明的用水。所以,请每一个昆明人都节水吧,禄劝的很多地方都在缺水,我们那里不算严重的,请珍惜你们现在在用的每一滴水~也许,要经历过这样一次触目惊心的大旱才真正知道水的珍贵。希望我们都行动起来,不要再让这样的旱灾侵袭我们的家乡。"], "title": "旱情记要-----昆明人,请珍惜你们现在在用的每一滴水~", "seg": ["我", "想", ",", "如果", "我", "没有", "去", "做", "大学生村官", ",", "恐怕", "我", "这个", "在", "昆明长大", "的", "孩子", "永远", "都", "不能切身感受到", "云南", "这次", "60年", "一遇的", "特大旱情", "的", "严重性", ",", "恐怕", "我", "只是", "每天", "看", "着", "新闻上", "那些", "缺水", "的", "镜头", ",", "嘴上说要节水", ",", "但事实行动", "保持不了", "三天", "。", "我", "任职", "的", "地方", "在", "昆明市禄劝县", "的", "一个", "村委会", ",", "说实话", "这里", "距离禄", "劝县城不远", ",", "自然环境", "不算", "很差", "。", "目前", ",", "只有", "一个", "自然村", "保证不了", "饮用水", "。", "一个", "自然村", "基本", "能", "保证", "有", "饮用水", "到", "5月", "。", "这里所说", "的", "饮用水", ",", "是指", "从", "山肚子里", "出来", "的", "水", ",积在", "小水坝", "或是", "水塘里", "又", "通过", "管道", "输送到", "村子里", "的水", ",", "和", "我们", "城市里", "真正意义上", "消过毒的", "、能安全", "饮用", "的", "饮用水不同", "。", "在", "整个", "输送", "的", "过程", "中", ",", "可能", "已经", "产生", "了", "有害物质", "。", "我", "觉得", "是", "。", "没有", "饮用水", "的", "那", "个", "自然村叫大海子村", ",", "50户", ",近", "200多人", "。地处山头", ",", "交通", "很不便利", ",", "走路", "大概要", "1个半小时到", "两个", "小时", ",", "而且坡度", "比较大", ",", "是", "一个", "苗族村寨", "。地理条件", "限制", ",", "基本", "没有什么经济作物", ",", "算是", "靠天", "吃饭", "的", "那种", "。", "今年", "遇到", "60年一遇", "的", "干旱", ",村里", "的", "两个水窖", "都", "基本", "干", "了", ",之前几天", ",", "他们", "村长来反映", ",", "几个老人", "已经", "是", "抬个小板凳坐到窖底用碗舀水", "了", "。面对", "这么", "严峻的", "旱情", ",", "村委会", "的领导", "和", "各小组长", "都", "在", "想", "办法", "。", "但是上山的", "路路面情况", "差", ",", "大车重车上不去", "；", "周边水源地少", "。", "最", "可行", "的", "办法", "就是", "从武定", "那边", "绕路上去", "。", "但", "每天运水上"], "ner": [["Ns", 14, 14], ["Ns", 20, 20], ["Ns", 51, 51]], "dep": [[1, 2, "SBV"], [2, 0, "HED"], [3, 2, "WP"], [4, 6, "ADV"], [5, 6, "SBV"], [6, 2, "VOB"], [7, 6, "COO"], [8, 7, "COO"], [9, 8, "VOB"], [10, 8, "WP"], [11, 7, "COO"], [12, 172, "SBV"], [13, 172, "ADV"], [14, 172, "ADV"], [15, 14, "POB"], [16, 172, "RAD"], [17, 172, "SBV"], [18, 172, "ADV"], [19, 172, "ADV"], [20, 172, "ADV"], [21, 172, "SBV"], [22, 172, "ADV"], [23, 172, "ADV"], [24, 172, "ADV"], [25, 172, "ADV"], [26, 172, "RAD"], [27, 172, "VOB"], [28, 156, "WP"], [29, 33, "ADV"], [30, 33, "SBV"], [31, 33, "ADV"], [32, 33, "ADV"], [33, 156, "COO"], [34, 33, "RAD"], [35, 39, "ATT"], [36, 39, "ATT"], [37, 39, "ATT"], [38, 37, "RAD"], [39, 33, "VOB"], [40, 33, "WP"], [41, 44, "ADV"], [42, 44, "WP"], [43, 44, "ADV"], [44, 33, "COO"], [45, 44, "CMP"], [46, 44, "WP"], [47, 48, "SBV"], [48, 55, "ATT"], [49, 48, "RAD"], [50, 51, "POB"], [51, 48, "ADV"], [52, 51, "POB"], [53, 48, "RAD"], [54, 55, "ATT"], [55, 44, "SBV"], [56, 44, "WP"], [57, 44, "ADV"], [58, 59, "SBV"], [59, 44, "ADV"], [60, 44, "COO"], [61, 44, "WP"], [62, 63, "SBV"], [63, 71, "CMP"], [64, 71, "CMP"], [65, 71, "WP"], [66, 71, "ADV"], [67, 71, "WP"], [68, 71, "ADV"], [69, 70, "ATT"], [70, 71, "SBV"], [71, 44, "COO"], [72, 71, "COO"], [73, 71, "WP"], [74, 75, "ATT"], [75, 71, "SBV"], [76, 78, "ADV"], [77, 78, "ADV"], [78, 44, "COO"], [79, 78, "VOB"], [80, 78, "VOB"], [81, 80, "CMP"], [82, 81, "POB"], [83, 78, "WP"], [84, 86, "ATT"], [85, 84, "RAD"], [86, 78, "COO"], [87, 78, "WP"], [88, 44, "COO"], [89, 91, "ADV"], [90, 89, "POB"], [91, 93, "ATT"], [92, 91, "RAD"], [93, 101, "VOB"], [94, 101, "WP"], [95, 101, "CMP"], [96, 97, "LAD"], [97, 101, "VOB"], [98, 101, "ADV"], [99, 101, "ADV"], [100, 99, "POB"], [101, 156, "COO"], [102, 101, "SBV"], [103, 101, "RAD"], [104, 101, "WP"], [105, 109, "ADV"], [106, 107, "ATT"], [107, 105, "POB"], [108, 109, "ADV"], [109, 156, "COO"], [110, 111, "WP"], [111, 109, "COO"], [112, 109, "RAD"], [113, 109, "COO"], [114, 129, "WP"], [115, 129, "ADV"], [116, 119, "ATT"], [117, 119, "ATT"], [118, 117, "RAD"], [119, 120, "ATT"], [120, 115, "POB"], [121, 129, "WP"], [122, 124, "ADV"], [123, 124, "ADV"], [124, 129, "COO"], [125, 124, "RAD"], [126, 129, "COO"], [127, 129, "WP"], [128, 129, "SBV"], [129, 109, "COO"], [130, 129, "VOB"], [131, 129, "WP"], [132, 133, "COO"], [133, 109, "COO"], [134, 109, "RAD"], [135, 109, "ADV"], [136, 137, "ATT"], [137, 109, "SBV"], [138, 109, "WP"], [139, 109, "ADV"], [140, 109, "WP"], [141, 109, "ADV"], [142, 109, "WP"], [143, 109, "WP"], [144, 109, "COO"], [145, 109, "ADV"], [146, 156, "WP"], [147, 156, "SBV"], [148, 156, "ADV"], [149, 151, "ATT"], [150, 151, "ATT"], [151, 156, "VOB"], [152, 156, "WP"], [153, 156, "ADV"], [154, 156, "ADV"], [155, 156, "WP"], [156, 167, "COO"], [157, 158, "ATT"], [158, 167, "VOB"], [159, 160, "WP"], [160, 167, "COO"], [161, 160, "WP"], [162, 163, "ADV"], [163, 167, "COO"], [164, 165, "WP"], [165, 163, "COO"], [166, 163, "ADV"], [167, 27, "ATT"], [168, 167, "RAD"], [169, 172, "ADV"], [170, 172, "WP"], [171, 172, "ADV"], [172, 7, "COO"], [173, 175, "ATT"], [174, 175, "RAD"], [175, 172, "VOB"], [176, 175, "WP"], [177, 175, "RAD"], [178, 175, "ATT"], [179, 181, "ADV"], [180, 181, "ADV"], [181, 6, "COO"], [182, 181, "RAD"], [183, 181, "WP"], [184, 181, "WP"], [185, 190, "SBV"], [186, 190, "SBV"], [187, 190, "WP"], [188, 190, "SBV"], [189, 190, "ADV"], [190, 181, "COO"], [191, 190, "VOB"], [192, 191, "RAD"], [193, 191, "WP"], [194, 195, "ADV"], [195, 204, "CMP"], [196, 204, "VOB"], [197, 204, "WP"], [198, 204, "SBV"], [199, 198, "RAD"], [200, 204, "LAD"], [201, 204, "SBV"], [202, 204, "ADV"], [203, 204, "ADV"], [204, 191, "COO"], [205, 204, "VOB"], [206, 204, "WP"], [207, 204, "ADV"], [208, 209, "SBV"], [209, 191, "ADV"], [210, 209, "WP"], [211, 209, "SBV"], [212, 209, "WP"], [213, 209, "SBV"], [214, 209, "WP"], [215, 216, "ADV"], [216, 218, "ATT"], [217, 216, "RAD"], [218, 209, "SBV"], [219, 209, "ADV"], [220, 191, "ADV"], [221, 191, "ADV"], [222, 181, "COO"], [223, 181, "WP"], [224, 181, "ADV"], [225, 181, "ADV"]], "sdp": [[1, 2, "AGT"], [1, 129, "AGT"], [2, 0, "Root"], [3, 2, "mPUNC"], [4, 7, "mRELA"], [5, 7, "AGT"], [5, 8, "AGT"], [6, 7, "mNEG"], [6, 8, "mNEG"], [7, 2, "dCONT"], [8, 7, "eSUCC"], [9, 8, "LINK"], [10, 8, "mPUNC"], [11, 8, "eSUCC"], [12, 172, "EXP"], [13, 172, "SCO"], [14, 15, "mRELA"], [15, 167, "LOC"], [15, 172, "LOC"], [16, 172, "mDEPD"], [17, 172, "EXP"], [18, 172, "mDEPD"], [19, 172, "mDEPD"], [20, 172, "mNEG"], [21, 172, "AGT"], [22, 172, "SCO"], [23, 172, "EXP"], [24, 172, "EXP"], [25, 172, "MANN"], [26, 172, "mDEPD"], [27, 172, "CONT"], [28, 172, "mPUNC"], [29, 33, "mDEPD"], [30, 33, "AGT"], [31, 33, "mDEPD"], [32, 33, "mDEPD"], [33, 172, "eSUCC"], [34, 33, "mDEPD"], [35, 39, "FEAT"], [36, 39, "SCO"], [37, 39, "rEXP"], [38, 37, "mDEPD"], [39, 33, "CONT"], [40, 33, "mPUNC"], [41, 44, "LOC"], [42, 44, "mPUNC"], [43, 44, "mRELA"], [44, 33, "eSUCC"], [45, 44, "TIME"], [46, 44, "mPUNC"], [47, 48, "AGT"], [47, 60, "PAT"], [47, 204, "AGT"], [48, 55, "rDATV"], [49, 48, "mDEPD"], [50, 48, "LOC"], [51, 50, "mRELA"], [52, 50, "FEAT"], [53, 48, "mDEPD"], [54, 55, "MEAS"], [55, 44, "EXP"], [56, 44, "mPUNC"], [57, 44, "eCOO"], [58, 59, "EXP"], [59, 44, "eSUCC"], [60, 44, "eSUCC"], [61, 60, "mPUNC"], [62, 60, "PAT"], [63, 60, "eSUCC"], [64, 63, "mDEPD"], [65, 71, "mPUNC"], [66, 71, "TIME"], [67, 66, "mPUNC"], [68, 71, "mDEPD"], [69, 70, "MEAS"], [70, 71, "AGT"], [71, 60, "eCOO"], [72, 71, "dCONT"], [73, 72, "mPUNC"], [74, 75, "MEAS"], [75, 72, "AGT"], [76, 78, "mDEPD"], [77, 78, "mDEPD"], [78, 44, "eSUCC"], [79, 78, "dCONT"], [80, 79, "LINK"], [81, 79, "eCOO"], [82, 81, "TIME"], [83, 91, "mPUNC"], [84, 91, "LOC"], [85, 91, "mDEPD"], [86, 88, "EXP"], [87, 88, "mPUNC"], [88, 91, "mDEPD"], [89, 90, "mRELA"], [90, 91, "LOC"], [91, 79, "eSUCC"], [92, 91, "mDEPD"], [93, 79, "EXP"], [94, 93, "mPUNC"], [95, 93, "FEAT"], [96, 97, "mRELA"], [97, 93, "eCOO"], [98, 78, "mDEPD"], [99, 100, "mRELA"], [100, 101, "MANN"], [101, 78, "dCONT"], [102, 107, "FEAT"], [102, 109, "SCO"], [103, 109, "mDEPD"], [104, 109, "mPUNC"], [105, 107, "mRELA"], [106, 107, "FEAT"], [107, 109, "SCO"], [108, 109, "mDEPD"], [109, 101, "ePREC"], [110, 109, "mPUNC"], [111, 109, "eSUCC"], [112, 109, "mDEPD"], [113, 109, "eSUCC"], [114, 129, "mPUNC"], [115, 119, "mRELA"], [116, 119, "SCO"], [117, 119, "FEAT"], [118, 117, "mDEPD"], [119, 124, "STAT"], [120, 119, "mDEPD"], [121, 119, "mPUNC"], [122, 124, "mDEPD"], [123, 124, "mDEPD"], [124, 129, "dCONT"], [125, 124, "mDEPD"], [126, 129, "dCONT"], [127, 129, "mPUNC"], [128, 129, "AGT"], [129, 109, "eSUCC"], [130, 129, "dCONT"], [131, 129, "mPUNC"], [132, 109, "ePREC"], [133, 109, "eSUCC"], [134, 109, "mDEPD"], [135, 109, "SCO"], [136, 137, "MEAS"], [137, 109, "FEAT"], [138, 109, "mPUNC"], [139, 109, "FEAT"], [140, 109, "mPUNC"], [141, 109, "FEAT"], [142, 109, "mPUNC"], [143, 8, "mPUNC"], [143, 109, "mPUNC"], [144, 109, "eSUCC"], [145, 160, "mDEPD"], [146, 160, "mPUNC"], [147, 160, "eSUCC"], [148, 147, "mDEPD"], [149, 147, "MEAS"], [150, 151, "MEAS"], [151, 147, "TIME"], [152, 147, "mPUNC"], [153, 156, "mRELA"], [154, 156, "mRELA"], [155, 156, "mPUNC"], [156, 160, "mDEPD"], [157, 158, "MEAS"], [158, 156, "LINK"], [159, 156, "mPUNC"], [160, 109, "eSUCC"], [161, 160, "mPUNC"], [162, 163, "mDEPD"], [163, 160, "dEXP"], [164, 165, "mPUNC"], [165, 160, "eCOO"], [166, 167, "mRELA"], [167, 165, "dEXP"], [168, 167, "mDEPD"], [169, 167, "SCO"], [170, 160, "mPUNC"], [171, 172, "TIME"], [172, 11, "dCONT"], [173, 8, "MEAS"], [174, 175, "mDEPD"], [175, 8, "eSUCC"], [176, 175, "mPUNC"], [177, 181, "mDEPD"], [178, 181, "EXP"], [179, 181, "mDEPD"], [180, 181, "mDEPD"], [181, 2, "dCONT"], [182, 44, "mDEPD"], [182, 209, "mDEPD"], [183, 209, "mPUNC"], [184, 209, "mPUNC"], [185, 44, "AGT"], [185, 209, "EXP"], [186, 185, "eCOO"], [187, 209, "mPUNC"], [188, 191, "MEAS"], [189, 191, "mDEPD"], [190, 191, "eSUCC"], [191, 209, "dEXP"], [192, 204, "mDEPD"], [193, 204, "mPUNC"], [194, 195, "SCO"], [195, 204, "FEAT"], [196, 204, "CONT"], [197, 204, "mPUNC"], [198, 204, "AGT"], [199, 48, "mDEPD"], [199, 198, "mDEPD"], [200, 204, "mRELA"], [201, 204, "AGT"], [202, 204, "mDEPD"], [203, 204, "eCOO"], [204, 209, "ePREC"], [205, 204, "CONT"], [206, 204, "mPUNC"], [207, 204, "mDEPD"], [208, 204, "LOC"], [209, 181, "eSUCC"], [210, 209, "mPUNC"], [211, 209, "EXP"], [212, 209, "mPUNC"], [213, 209, "EXP"], [214, 209, "mPUNC"], [215, 216, "mDEPD"], [216, 218, "FEAT"], [217, 37, "mDEPD"], [217, 216, "mDEPD"], [218, 209, "EXP"], [219, 209, "mDEPD"], [220, 221, "mRELA"], [221, 209, "LOC"], [222, 181, "eSUCC"], [223, 181, "mPUNC"], [224, 181, "mRELA"], [225, 181, "SCO"]]}

紧接着，调用相应的mask策略对数据进行处理，处理后的数据样例如下：

[['[CLS]', '我', '想', ',', '如', '果', '我', '没', '有', '去', '做', '大', '学', '生', '村', '官', ',', '恐', '怕', '我', '这', '个', '在', '昆', '明', '长', '大', '的', '孩', '子', '永', '远', '都', '不', '能', '切', '身', '感', '受', '到', '云', '南', '这', '次', '6', '0', '年', '一', '遇', '的', '特', '大', '旱', '情', '的', '严', '重', '性', ',', '恐', '怕', '[sdp]', '我', '[sdp]', '只', '是', '每', '天', '[sdp]', '看', '[sdp]', '着', '新', '闻', '上', '那', '些', '缺', '水', '的', '镜', '头', ',', '嘴', '上', '说', '要', '节', '水', ',', '但', '事', '实', '行', '动', '保', '持', '不', '了', '三', '天', '。', '我', '任', '职', '的', '地', '方', '在', '昆', '明', '市', '禄', '劝', '县', '的', '一', '个', '村', '委', '会', ',', '说', '实', '话', '这', '里', '[SEP]'], [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], ['昆明长大', '云南', '昆明市禄劝县']]

预训练脚本

数据处理完毕之后，就可以调用预训练脚本进行模型的预训练，脚本如下：

gpu_number=1
negative_e_number=4
negative_e_length=16

base_dir=$PWD
checkpoint_dir=$base_dir/checkpoints
resources=$base_dir/resources
local_kg=$resources/ownthink_triples_small.txt
local_train_file=$resources/train_small.txt
remote_kg=https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/ckbert/ownthink_triples_small.txt
remote_train_file=https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/ckbert/train_small.txt

if [ ! -d $checkpoint_dir ];then
mkdir $checkpoint_dir
fi

if [ ! -d $resources ];then
mkdir $resources
fi

if [ ! -f $local_kg ];then
wget -P $resources $remote_kg
fi

if [ ! -f $local_train_file ];then
wget -P $resources $remote_train_file
fi

python -m torch.distributed.launch --nproc_per_node=$gpu_number \
--master_port=52349 \
$base_dir/main.py \
--mode=train \
--worker_gpu=$gpu_number \
--tables=$local_train_file, \
--learning_rate=5e-5  \
--epoch_num=5  \
--logging_steps=10 \
--save_checkpoint_steps=2150 \
--sequence_length=256 \
--train_batch_size=20 \
--checkpoint_dir=$checkpoint_dir \
--app_name=language_modeling \
--use_amp \
--save_all_checkpoints \
--user_defined_parameters="pretrain_model_name_or_path=hfl/macbert-base-zh external_mask_flag=True contrast_learning_flag=True negative_e_number=${negative_e_number} negative_e_length=${negative_e_length} kg_path=${local_kg}"

模型Finetune

CKBERT模型与BERT是同样的架构，只需要使用通用的EasyNLP框架命令就可以进行调用。以下命令分别为Train和Predict状态的例子，使用的模型为ckbert-base。

当前在EasyNLP框架中也可以调用large和huge模型进行测试，只需要替换命令中的参数即可

pretrain_model_name_or_path=alibaba-pai/pai-ckbert-large-zh
pretrain_model_name_or_path=alibaba-pai/pai-ckbert-huge-zh

$ easynlp \
   --mode=train \
   --worker_gpu=1 \
   --tables=train.tsv,dev.tsv \
   --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 \
   --first_sequence=sent1 \
   --label_name=label \
   --label_enumerate_values=0,1 \
   --checkpoint_dir=./classification_model \
   --epoch_num=1  \
   --sequence_length=128 \
   --app_name=text_classify \
   --user_defined_parameters='pretrain_model_name_or_path=alibaba-pai/pai-ckbert-base-zh'

$ easynlp \
  --mode=predict \
  --tables=dev.tsv \
  --outputs=dev.pred.tsv \
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 \
  --output_schema=predictions,probabilities,logits,output \
  --append_cols=label \
  --first_sequence=sent1 \
  --checkpoint_path=./classification_model \
  --app_name=text_classify

在HuggingFace上使用CKBERT模型

为了方便开源用户使用CKBERT，我们也将三个CKBERT模型在HuggingFace Models上架，其Model Card如下所示：

用户也可以直接使用HuggingFace提供的pipeline进行模型推理，样例如下：

from transformers import AutoTokenizer, AutoModelForMaskedLM, FillMaskPipeline

tokenizer = AutoTokenizer.from_pretrained("alibaba-pai/pai-ckbert-base-zh", use_auth_token=True)
model = AutoModelForMaskedLM.from_pretrained("alibaba-pai/pai-ckbert-base-zh", use_auth_token=True)
unmasker = FillMaskPipeline(model, tokenizer)   
unmasker("巴黎是[MASK]国的首都。",top_k=5)

[
    {'score': 0.8580496311187744, 
     'token': 3791, 
     'token_str': '法', 
     'sequence': '巴 黎 是 法 国 的 首 都 。'}, 
    {'score': 0.08550138026475906, 
     'token': 2548, 
     'token_str': '德', 
     'sequence': '巴 黎 是 德 国 的 首 都 。'}, 
    {'score': 0.023137662559747696, 
     'token': 5401, 
     'token_str': '美', 
     'sequence': '巴 黎 是 美 国 的 首 都 。'}, 
    {'score': 0.012281022034585476, 
     'token': 5739, 'token_str': '英', 
     'sequence': '巴 黎 是 英 国 的 首 都 。'}, 
    {'score': 0.005729076452553272, 
     'token': 704, 'token_str': '中', 
     'sequence': '巴 黎 是 中 国 的 首 都 。'}
]

或者也可以使用Pytorch加载模型，样例如下：

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("alibaba-pai/pai-ckbert-base-zh", use_auth_token=True)
model = AutoModelForMaskedLM.from_pretrained("alibaba-pai/pai-ckbert-base-zh", use_auth_token=True)
text = "巴黎是[MASK]国的首都。"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在阿里云机器学习平台PAI上使用CKBERT模型

PAI-DSW（Data Science Workshop）是阿里云机器学习平台PAI开发的云上IDE，面向不同水平的开发者，提供了交互式的编程环境（文档）。在DSW Gallery中，提供了各种Notebook示例，方便用户轻松上手DSW，搭建各种机器学习应用。我们也在DSW Gallery中上架了使用CKBERT进行中文命名实体识别的Sample Notebook（见下图），欢迎大家体验！

未来展望

在未来，我们计划在EasyNLP框架中集成更多中⽂知识模型，覆盖各个常⻅中⽂领域，敬请期待。我们也将在EasyNLP框架中集成更多SOTA模型（特别是中⽂模型），来⽀持各种NLP和多模态任务。此外，阿⾥云机器学习PAI团队也在持续推进中⽂多模态模型的⾃研⼯作，欢迎⽤户持续关注我们，也欢迎加⼊我们的开源社区，共建中⽂NLP和多模态算法库！

Github地址：https://github.com/alibaba/EasyNLP

Reference

Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022
Taolin Zhang, Junwei Dong, Jianing Wang, Chengyu Wang, Ang Wang, Yinghui Liu, Jun Huang, Yong Li, Xiaofeng He. Revisiting and Advancing Chinese Natural Language Understanding with Accelerated Heterogeneous Knowledge Pre-training. EMNLP 2022
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu. Revisiting Pre-Trained Models for Chinese Natural Language Processing. EMNLP (Findings) 2020
Yiming Cui, Ziqing Yang, Ting Liu. PERT: Pre-training BERT with Permuted Language Model. arXiv
Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Xuyi Chen, Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian, Hua Wu. ERNIE: Enhanced Representation through Knowledge Integration. arXiv
Yuxuan Lai, Yijia Liu, Yansong Feng, Songfang Huang, and Dongyan Zhao. Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models. NAACL 2021
Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Qi Ju, Haotang Deng, Ping Wang. K-BERT: Enabling Language Representation with Knowledge Graph. AAAI 2020
Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, Qun Liu. ERNIE: Enhanced Language Representation with Informative Entities. ACL 2019

原文链接

本文为阿里云原创内容，未经允许不得转载。

你可能感兴趣的:(知识图谱,人工智能,大数据,云计算,阿里云)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
#千锋逆战班郭燕学习的一天开启郭千岁呗
在千锋"逆战"学习云计算第17天加油努力会有好结果复习昨天知识中国加油！武汉加油！千峰加油!我自己加油！
阿里云服务器4核8G配置购买及价格类文章汇总（10篇）阿里云最新优惠和活动汇总
阿里云服务器4核8G配置如何购买？价格是多少？4核8G配置的阿里云服务器可以通过云服务器产品页购买也可以通过阿里云活动去下单购买，一般通过活动购买的用户比较多，但是不同实例规格的阿里云服务器价格不一样，带宽不同价格也不一样，本文为大家汇总了10篇关于阿里云服务器4核8G配置购买教程文章和价格类文章，分为购买类文章和价格类文章，以供大家参考如何购买阿里云服务器4核8G配置和最新优惠价格是多少。阿里云
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
信息系统安全相关概念(上) YuanDaima2048 课程笔记基础概念安全信息安全笔记
文章总览：YuanDaiMa2048博客文章总览下篇:信息系统安全相关概念(下)信息系统安全相关概念[上]信息系统概述信息系统信息系统架构信息系统发展趋势：信息系统日趋大型化、复杂化信息系统面临的安全威胁信息系统安全架构设计--以云计算为例信息系统安全需求及安全策略自主访问控制策略DAC强制访问控制策略MAC信息系统概述信息系统用于收集、存储和处理数据以及传递信息、知识和数字产品的一组集成组件。几
【2023年】云计算金砖牛刀小试6 geekgold 云计算服务器网络 kubernetes 容器
第一套【任务1】私有云服务搭建[10分]【题目1】基础环境配置[0.5分]使用提供的用户名密码，登录提供的OpenStack私有云平台，在当前租户下，使用CentOS7.9镜像，创建两台云主机，云主机类型使用4vCPU/12G/100G_50G类型。当前租户下默认存在一张网卡，自行创建第二张网卡并连接至controller和compute节点（第二张网卡的网段为10.10.X.0/24，X为工位号
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
音视频知识图谱 2022.04 关键帧Keyframe
前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看《音视频面试题集锦2022.04》。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱。下面是2022.04月知识图谱新增的内容节选：1）图谱路径：**采集/音频采集/声音三要素/响度******主观计量响
阿里云国际 CDN 和低延迟全球云解决方案九河云阿里云网络服务器安全
延迟与隐藏程度成反比。C数据存在，并且连接已建立，但在接收客户端请求响应和显示用户请求的内容时存在明显延迟。将数据从源移动到目标时，会出现即时丢失。延迟是数据发送器和数据接收器之间的时间差。此外，当通过云响应用户查询时，这种延迟会被放大。有多种因素会导致满足用户请求的潜在延迟。想象一下，您在美国数据中心部署了服务，并且您的用户遍布全球。在此拓扑中，来自美国的用户将能够以正常（如果不是很好）的性能使
AIGC图生视频技术下的巴黎奥运高光时刻阿里云视频云 AIGC与媒体生产 AIGC
共享，奥运夺金时刻。巴黎奥运会的高光片段中国奥运的夺金时刻动漫风格下的别样风态以下AI动漫视频内容BY「阿里云视频云」智能生成从首金到21金镜头倒转尽情回顾······更多巴黎奥运高光时刻更多AIGC精彩内容可在「新华社官方」新媒体账号观看阿里云视频云用视频云+AI，持续助力奥运
raksmart洛杉矶云服务器全面解析 rak部落服务器 raksmart洛杉矶云服务器
RAKsmart洛杉矶云服务器是一种高性能的云计算解决方案，专为满足不同业务需求而设计。以下是对RAKsmart洛杉矶云服务器的具体介绍，rak小编为您整理发布raksmart洛杉矶云服务器全面解析。1.线路选择：RAKsmart洛杉矶云服务器提供多种网络线路选项，包括大陆优化线路和CN2ONLY线路。这些线路能够提供更稳定和快速的连接速度，特别适合需要高效数据传输和低延迟的业务环境。2.性能表现
阿里云服务器4核8G配置可选实例规格及最新优惠价格表（2023最新）阿里云最新优惠和活动汇总
阿里云4核8G服务器有十几种实例规格可选，其中计算型c7、通用算力型u1和计算优化型c7（国外地域）三种实例规格有优惠，其中计算型c7实例4核8G配置1M带宽优惠价格为3127.61元1年、5M带宽优惠价格为3862.01元1年；通用算力型u1实例4核8G配置1M带宽1367.86元1年、5M带宽优惠价格为1735.06元1年；计算优化型c7（国外地域）实例4核8G配置1M带宽5907.19元1年
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end