Yang SiCheng

【NLP】14 ERNIE应用在语义匹配NLP任务——Paddlehub安装、BERT推广的使用、与Simnet_bow与Word2Vec效果比较

Ernie语义匹配

1. ERNIE 基于paddlehub的语义匹配0-1预测
- 1.1 数据
- 1.2 paddlehub
- 1.3 三种BERT模型结果
2. 中文STS(semantic text similarity)语料处理
3. ERNIE 预训练+微调
- 3.1 过程与结果
- 3.2 全部代码
4. Simnet_bow与Word2Vec 效果
- 4.1 ERNIE 和 simnet_bow 简单服务器调用
- 4.2 Word2Vec 求和取平均
- 4.3 全部代码
5. STS-B 数据集
6. 其它
小结

1. ERNIE 基于paddlehub的语义匹配0-1预测

可参考此官方教程：PaddleHub实战——使用ERNIE优化医疗场景文本语义匹配任务，利用paddlehub进行模型搭建，并且这样可以轻松的选择不同的模型

1.1 数据

利用天池“公益AI之星”挑战赛-新冠疫情相似句对判定大赛提供的数据集，这是COVID9疫情相关的呼吸领域的真实数据积累，数据粒度更加细化，判定难度相比多科室文本相似度匹配更高，同时问答数据也更具时效性

数据集给出了文本对（text_a、text_b，text_a为query，text_b为title）以及类别（label）。其中label为1，表示text_a、text_b的文本语义相似，否则表示不相似

pointwise，每一个样本通常由两个文本组成（query，title）。类别形式为0或1，0表示query与title不匹配； 1表示匹配

1.2 paddlehub

输入以下代码安装paddlehub 1.8 及以上版本，注意：不能安装最新即2.0版本！

pip install paddlehub==1.8.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

其中最大序列长度max_seq_len是可以调整的参数，建议值128，根据任务文本长度不同可以调整该值，但不要超过512。

num_slots: 文本匹配任务输入文本的数据量。pointwise文本匹配任务num_slots应为2，表示query和title

关于numpy求最大值：

import numpy as np
x = [[0.08017547, 0.9198245 ],
       [0.21695773, 0.78304225],
       [0.9055544 , 0.0944456 ]]

print(np.argmax(x))
> 1
print(np.argmax(x[0]))
> 1
print(np.argmax(x, axis=1))
> [1 1 0]
print(np.argmax(x, axis=0))
> [2 0]

这里修改了BaseTask的self._compatible_mode，以便模型能够返回置信度，三句话如下：

[["小孩吃了百令胶囊能打预防针吗", "小孩吃了百令胶囊能不能打预防针"],
["请问呕血与咯血有什么区别?", "请问呕血与咯血异同？" ],
['新冠疫情相似句对判定大赛', '疫情相关的呼吸领域的真实数据']]

1.3 三种BERT模型结果

ERNIE三句话判断的标签与置信度如下：

[2021-04-03 11:59:32,171] [    INFO] - PaddleHub model checkpoint loaded. current_epoch=4, global_step=204, best_score=0.90833
...
['1', '1', '1']
[0.08017547 0.21695773 0.0944456 ]
[0.9198245  0.78304225 0.9055544 ]

将模型换成BERT base Chinese，结果如下：

[2021-04-03 11:56:23,166] [    EVAL] - [dev dataset evaluation result] loss=0.25818 acc=0.89466 f1=0.87201 precision=0.85167 recall=0.89335 [step/sec: 11.73]
...
['1', '1', '1']
[0.06025315 0.4611525  0.4954325 ]
[0.93974686 0.5388475  0.50456756]

再将模型换成chinese-bert-wwm，这是哈工大讯飞联合实验室（HFL）发布的模型，官方链接，wwm意思是全词遮罩（Whole Word Masking）

问题：服务器上下载很慢，可以在Windows上用paddlehub 2.0下载好后发送到服务器上，注意，Windos上不能是paddlehub 1.8 版本，否则会报错，也不行

再将模型换成chinese-electra-base，谷歌与斯坦福大学共同研发的最新预训练模型ELECTRA因其小巧的模型体积以及良好的模型性能受到了广泛关注。为了进一步促进中文预训练模型技术的研究与发展，哈工大讯飞联合实验室基纡官方ELECTRA训练代码以及大规模的中文数据训练出中文ELECTRA预训练模型供大家下载使用。其中ELECTRA-small模型可与BERT-base甚至其他同等规模的模型相媲美，参数数量仅为BERT-base的1/10，谷歌&斯坦福大学官方的ELECTRA，中文ELECTRA可见此

再将模型换成chinese-roberta-wwm-ext，主要是在BERT基础上做了几点调整，其它可见：

动态Masking，相比于静态，动态Masking是每次输入到序列的Masking都不一样
移除next predict loss，相比于BERT，采用了连续的full-sentences和doc-sentences作为输入（长度最多为512）
更大batch size，batch size更大，training step减少，实验效果相当或者更好些
text encoding，基于bytes的编码可以有效防止unknown问题。另外，预训练数据集从16G增加到了160G，训练轮数比BERT有所增加

[2021-04-03 18:16:58,015] [    EVAL] - [dev dataset evaluation result] loss=0.22186 acc=0.90978 f1=0.89119 precision=0.86439 recall=0.91970 [step/sec: 11.72]
...
['1', '1', '1']
[0.02443924 0.22384807 0.24285851]
[0.9755608 0.7761519 0.7571415]

2. 中文STS(semantic text similarity)语料处理

数据来自 ChineseSTS、CCKS2018、XNLI、Chinese SNLI MultiNLI，未使用：LCQMC、OCNLI

数据处理代码如下：

# path_CCKS2018 = '... your path/中文STS/CCKS2018/task3_train.txt'
# path_output = '... your path/中文STS/CCKS2018/train.txt'
# with open(path_CCKS2018, 'r', encoding='utf-8') as file:
#     for line in file.readlines():
#         print(line.strip().split('\t'))

# path_ChineseSTS_master = '... your path/中文STS/ChineseSTS-master/simtrain_to05sts_same.txt'
# path_ChineseSTS_master2 = '... your path/中文STS/ChineseSTS-master/train2.txt'
# list = []
# f = open(path_ChineseSTS_master2, 'w', encoding='utf-8')
# with open(path_ChineseSTS_master, 'r', encoding='utf-8') as file:
#     for line in file.readlines():
#         # print(line.strip().split('\t'))
#         tmp = line.strip().split('\t')
#         if eval(tmp[4]) >= 3:tmp[4]=1
#         elif eval(tmp[4]) < 3:tmp[4]=0
#         f.write(tmp[1] + '\t' +tmp[3] + '\t' + str(tmp[4]) + '\n')

# path = '... your path/中文STS/Chinese SNLI MultiNli/train.txt'
# output = '... your path/中文STS/Chinese SNLI MultiNli/processing.txt'
# f = open(output, 'w', encoding='utf-8')
# with open(path, 'r',encoding='utf-8') as file:
#     for line in file.readlines():
#         tmp = line.strip().split('\t')
#         try:
#             if tmp[2] == 'neutral':continue
#             elif tmp[2] == 'contradiction':
#                 tmp[2] = '0'
#             elif tmp[2] == 'entailment':
#                 tmp[2] = '1'
#             f.write(tmp[0] + '\t' + tmp[1] + '\t' + tmp[2] + '\n')
#         except:
#             print(tmp)

# path = '... your path/中文STS/XNLI/XNLI-1.0/xnli.test.tsv'
# path_out = '... your path/中文STS/XNLI/XNLI-1.0/train2.txt'
# f = open(path_out, 'w', encoding='utf-8')
# with open(path, 'r', encoding='utf-8') as file:
#     for line in file.readlines():
#         tmp = line.strip().split('\t')
#         if tmp[0] != 'zh':continue
#         if tmp[1] == 'neutral':continue
#         if tmp[1] == 'entailment':
#             tmp[1] = '1'
#         elif tmp[1] == 'contradiction':
#             tmp[1] = '0'
#         f.write(tmp[6] + '\t' + tmp[7] + '\t' + tmp[1] + '\n')

由以上代码，将CCKS2018、Chinese SNLI MultiNli、ChineseSTS-master、XNLI四个数据集进行格式处理与合并，得到以下格式的数据集，用’\t’进行分隔：

总句子对数量：412101，文件大小：44.2MB

随机打乱数据，95%的数据作为训练集，5%的数据作为测试集：

path = '... your path/Chinese STS/data.txt'
path_train = '... your path/Chinese STS/train.txt'
path_dev = '... your path/Chinese STS/dev.txt'

f1 = open(path_train, 'w', encoding='utf-8')
f2 = open(path_dev, 'w', encoding='utf-8')

import random
list = []
with open(path, 'r', encoding='utf-8') as file:
    for line in file.readlines():
        list.append(line)
print(len(list))
L = random.sample(range(0, len(list)), len(list))
for i in range(len(list)):
    if random.randint(1, 100) > 5:      # 训练集
        f1.write(list[L[i]])
    else:       # 测试集
        f2.write(list[L[i]])

训练集句子长度：391374，测试集句子长度：20727

3. ERNIE 预训练+微调

3.1 过程与结果

训练的超参数设为迭代一次，训练过程如下：

[2021-04-03 19:09:58,762] [   TRAIN] - step 300 / 3057: loss=0.43742 acc=0.79688
[2021-04-03 19:10:31,878] [    EVAL] - [dev dataset evaluation result] loss=0.42460 acc=0.80115
[2021-04-03 19:15:25,458] [   TRAIN] - step 600 / 3057: loss=0.35716 acc=0.84219 f1=0.84650 precision=0.83634 recall=0.85692 [step/sec: 1.05]
[2021-04-03 19:15:52,798] [    EVAL] - [dev dataset evaluation result] loss=0.33696 acc=0.85229 f1=0.85776 precision=0.84240 recall=0.87368 [step/sec: 5.92]
[2021-04-03 19:20:47,694] [   TRAIN] - step 900 / 3057: loss=0.31624 acc=0.85938 f1=0.86547 precision=0.87068 recall=0.86033 [step/sec: 1.02]
[2021-04-03 19:21:15,012] [    EVAL] - [dev dataset evaluation result] loss=0.31917 acc=0.86447 f1=0.86435 precision=0.88239 recall=0.84703 [step/sec: 5.93]
[2021-04-03 19:26:08,743] [   TRAIN] - step 1200 / 3057: loss=0.33277 acc=0.85547 f1=0.85995 precision=0.85801 recall=0.86191 [step/sec: 1.04]
[2021-04-03 19:26:36,122] [    EVAL] - [dev dataset evaluation result] loss=0.29532 acc=0.87655 f1=0.87966 precision=0.87428 recall=0.88510 [step/sec: 5.91]
[2021-04-03 19:31:30,448] [   TRAIN] - step 1500 / 3057: loss=0.29113 acc=0.87734 f1=0.88240 precision=0.88174 recall=0.88306 [step/sec: 1.01]
[2021-04-03 19:31:57,800] [    EVAL] - [dev dataset evaluation result] loss=0.28233 acc=0.88301 f1=0.88647 precision=0.87710 recall=0.89605 [step/sec: 5.92]
[2021-04-03 19:36:50,822] [   TRAIN] - step 1800 / 3057: loss=0.28595 acc=0.88281 f1=0.88987 precision=0.88081 recall=0.89911 [step/sec: 1.06]
[2021-04-03 19:37:18,143] [    EVAL] - [dev dataset evaluation result] loss=0.27718 acc=0.88310 f1=0.88768 precision=0.86995 recall=0.90614 [step/sec: 5.93]
[2021-04-03 19:42:14,001] [   TRAIN] - step 2100 / 3057: loss=0.28871 acc=0.86719 f1=0.86593 precision=0.86050 recall=0.87143 [step/sec: 1.03]
[2021-04-03 19:42:41,323] [    EVAL] - [dev dataset evaluation result] loss=0.26953 acc=0.88922 f1=0.89035 precision=0.89851 recall=0.88234 [step/sec: 5.93]
[2021-04-03 19:47:36,276] [   TRAIN] - step 2400 / 3057: loss=0.27113 acc=0.88281 f1=0.88372 precision=0.85202 recall=0.91787 [step/sec: 1.02]
[2021-04-03 19:48:03,595] [    EVAL] - [dev dataset evaluation result] loss=0.26500 acc=0.89150 f1=0.89265 precision=0.90044 recall=0.88501 [step/sec: 5.93]
[2021-04-03 19:52:56,993] [   TRAIN] - step 2700 / 3057: loss=0.25304 acc=0.89844 f1=0.90441 precision=0.90708 recall=0.90176 [step/sec: 1.00]
[2021-04-03 19:53:24,280] [    EVAL] - [dev dataset evaluation result] loss=0.25736 acc=0.89451 f1=0.89667 precision=0.89540 recall=0.89795 [step/sec: 5.93]
[2021-04-03 19:58:19,393] [   TRAIN] - step 3000 / 3057: loss=0.25258 acc=0.89141 f1=0.89681 precision=0.88433 recall=0.90964 [step/sec: 1.00]
[2021-04-03 19:58:46,698] [    EVAL] - [dev dataset evaluation result] loss=0.25527 acc=0.89533 f1=0.89708 precision=0.89927 recall=0.89491 [step/sec: 5.93]
[2021-04-03 19:59:38,235] [   TRAIN] - step 3050 / 3057: loss=0.25146 acc=0.89531 f1=0.89612 precision=0.89752 recall=0.89474 [step/sec: 1.01]
[2021-04-03 20:00:12,357] [    EVAL] - [dev dataset evaluation result] loss=0.25513 acc=0.89509 f1=0.89688 precision=0.89877 recall=0.89500 [step/sec: 5.93]

['1', '1', '1']
[0.00513761 0.03052873 0.42773667]
[0.9948624  0.9694713  0.57226336]

可见最后能达到89.5%的精确度

3.2 全部代码

import numpy as np
from paddlehub.dataset.base_nlp_dataset import TextMatchingDataset

class COVID19Competition(TextMatchingDataset):
    def __init__(self, tokenizer=None, max_seq_len=None):
        # base_path = '/mnt/Data1/ysc/COVID19_sim_competition/'
        base_path = '/mnt/Data1/ysc/STS/'
        super(COVID19Competition, self).__init__(
            is_pair_wise=False,  # 文本匹配类型，是否为pairwise
            base_path=base_path,
            train_file="train.txt",  # 相对于base_path的文件路径    # 2021.04.03
            dev_file="dev.txt",  # 相对于base_path的文件路径        # 2021.04.03
            train_file_with_header=False,        # 2021.04.03
            dev_file_with_header=False,      # 2021.04.03
            label_list=["0", "1"],
            tokenizer=tokenizer,
            max_seq_len=max_seq_len)

import paddle
paddle.enable_static()


import paddlehub as hub
# module = hub.Module(name='chinese-bert-wwm-ext')      # download, /home/ysc/anaconda3/lib/python3.8/site-packages/paddlehub/module/manager.py
module = hub.Module(directory='/mnt/Data1/ysc/.paddlehub/modules/ernie')
# module = hub.Module(directory='/mnt/Data1/ysc/.paddlehub/modules/bert_chinese_L_12_H_768_A_12')     # please decrease the batch size of your model.
# module = hub.Module(directory='/mnt/Data1/ysc/.paddlehub/modules/chinese_roberta_wwm_ext')


inputs, outputs, program = module.context(trainable=True, max_seq_len=128, num_slots=2)

tokenizer = hub.BertTokenizer(vocab_file=module.get_vocab_path(), tokenize_chinese_chars=True)

dataset = COVID19Competition(tokenizer=tokenizer, max_seq_len=128)

strategy = hub.AdamWeightDecayStrategy(weight_decay=0.01, warmup_proportion=0.1, learning_rate=5e-5)

config = hub.RunConfig(
    eval_interval=300,
    use_cuda=True,
    num_epoch=1,        # 3
    batch_size=32,      # 32 for ERNIE, 16 for bert, 16 for chinese_roberta_wwm_ext
    checkpoint_dir='/mnt/Data1/ysc/.paddlehub/Check_Point/ernie',
    strategy=strategy)

query = outputs["sequence_output"]
title = outputs['sequence_output_2']

# 创建pointwise文本匹配任务
pointwise_matching_task = hub.PointwiseTextMatchingTask(
    dataset=dataset,
    query_feature=query,
    title_feature=title,
    tokenizer=tokenizer,
    config=config)

run_states=pointwise_matching_task.finetune_and_eval()

# pointwise_matching_task.load_parameters('ernie.pth')

text_pairs = [
    [
        "小孩吃了百令胶囊能打预防针吗",  # query
        "小孩吃了百令胶囊能不能打预防针"  # title
    ],
    [
        "请问呕血与咯血有什么区别?",  # query
        "请问呕血与咯血异同？"  # title
    ]
]

label_list=['0', '1']

# The source code of predict function is modified here 2021.04.03
# paddlehub.finetune.task.base_task.RunState
run_states = pointwise_matching_task.predict([["小孩吃了百令胶囊能打预防针吗", "小孩吃了百令胶囊能不能打预防针"],
                                           ["请问呕血与咯血有什么区别?", "请问呕血与咯血异同？" ],
                                            ['新冠疫情相似句对判定大赛', '疫情相关的呼吸领域的真实数据']], max_seq_len=128, label_list=label_list, return_result=False, accelerate_mode=True)

result =[]
for batch_states in run_states:
    batch_results = batch_states.run_results
    batch_infer = np.argmax(batch_results[0], axis=1)
    result +=[label_list[sample_infer] for sample_infer in batch_infer]
    label_0 = np.array(batch_results[0])[:,0]
    label_1 = np.array(batch_results[0])[:, 1]

print(result)
print(label_0)
print(label_1)


# results = pointwise_matching_task.predict(
#     data=text_pairs,
#     max_seq_len=128,
#     label_list=dataset.get_labels(),
#     return_result=True,
#     accelerate_mode=True)       # False is None!
#
# print(results)
#
# for index, text in enumerate(text_pairs):
#     print("data: %s, prediction_label: %s" % (text, results[index]))

4. Simnet_bow与Word2Vec 效果

4.1 ERNIE 和 simnet_bow 简单服务器调用

可参考此文章，代码在此，和语音识别和文本识别一样，利用API，没有什么难度，感觉不太会用，可能是版本问题，服务器使用见此，不好用
文本相似度计算可用paddle的短文本相似度的框架，SimNet是一个计算短文本相似度的模型，可以根据用户输入的两个文本，计算出相似度得分。该PaddleHub Module基于百度海量搜索数据进行训练，支持命令行和Python接口进行预测。同时支持用该Module的预训练embedding Fine-tune下游任务。词袋模型，不考虑语法和语序，用一组无序单词来表达一段文本
SimNet (Similarity Net) 是一个计算短文本相似度的框架，主要包括 BOW、CNN、RNN、MMDNN 等核心网络结构形式。SimNet 框架在百度各产品上广泛应用，提供语义相似度计算训练和预测框架，适用于信息检索、新闻推荐、智能客服等多个应用场景，帮助企业解决语义匹配问题

4.2 Word2Vec 求和取平均

句向量为空：

她傲慢地环视了一下会场。	自比乐毅。
一艘载着两个人的小船在水中移动。	船在动。
微拉贷	开通微米贷
一对跳舞的夫妇正在表演一场俯卧在地板上的戏。	有些人在动。
我想贷	借贷
下載	我从哪下载呀

使用simnet_bow(0.633)和word2vec(0.6188)时余弦相似度阈值设为0.7的时候，与原标签的预测精确度都为0.6左右，仅仅比瞎蒙(0.5)好一点点，比较simnet_bow和word2vec预测的标签，精确度也只有0.7左右，分类错误的句子例如：

两个小女孩穿着白色空手道制服。 两个女孩穿着拳击服。 0 1 0
两个人正在梯子上一起工作。 一个人在梯子上 0 1 0
一个戴着帽子和围裙的人在自行车上工作。 男人在摩托车上工作 0 1 0
地下储罐 地下狗屋。 0 1 0
她不合作 她在合作。 1 0 0
更换银行卡 我想重新绑定银行卡 1 0 0
两个孩子正在试验昆虫。 两个孩子在玩国旗足球。 1 0 0
没有借钱这个地方 微信借钱在哪里啊 1 0 0
刚才没接到电话，请重新打过来，谢谢 没有接到银行电话 1 0 1
具体的网址是 网站 1 0 1
一男一女站在路标前。 两个人站着。 1 0 1
开通颗粒贷 开通，微贷款 1 0 1
整体直径接近8英尺。 它的直径约为80英尺。 1 0 0
电子账单 5000分10期的账单 1 0 1
我微信流水账你们看不到吗 没看见我的流水？ 1 0 1
1000元1天多少息 18000日息多少一天 1 0 1
更换电话 手机换号，怎么更改 1 0 1
在篮球场上滑板的人 在户外的人。 0 1 1
两个穿着蓝色潜水衣的孩子冲浪。 两个孩子冲浪。 0 1 1
这些戴着头盔的人正在户外攀岩。 人们正在攀岩 0 1 1
这个女孩正用绳子在一个小池塘上摇摆。 一个女孩在摇摆。 0 1 1

4.3 全部代码

import paddlehub as hub

simnet_bow = hub.Module(name="simnet_bow")
base_path = '/mnt/Data1/ysc/STS/dev.txt'

text1 = []
text2 = []
label = []
with open(base_path, 'r', encoding='utf-8')as file:
    for line in file.readlines():
        tmp = line.strip().split('\t')
        text1.append(tmp[0])
        text2.append(tmp[1])
        label.append(eval(tmp[2]))

test_text = [text1, text2]

results = simnet_bow.similarity(texts=test_text, use_gpu=False)

predict = []
max_score = 0.7     # 0.8--0.6000  0.75--0.6244  0.7--0.6333   0.75--0.6261   0.6--0.6152   0.5--0.5749

for result in results:
    if result['similarity'] > max_score:
        predict.append(1)
    else:
        predict.append(0)

cnt = 0
for i in range(len(label)):
    if label[i]==predict[i]:
        cnt += 1
print(cnt/len(label))

from gensim.models import KeyedVectors
import jieba
import numpy as np
import re
from scipy.spatial.distance import cosine
word_vectors = KeyedVectors.load('vectors.kv')

def get_sentence_vec(sentence):
    sentence = ''.join(re.findall('[\u4e00-\u9fa5|\n]',sentence))
    sentence_list = ' '.join(jieba.cut(sentence)).split(' ')
    vecsum = np.zeros(word_vectors.vector_size)
    cnt = 0
    for word in sentence_list:
        try:
            vecsum = vecsum + word_vectors[word]
            cnt += 1
        except:
            continue
    if cnt == 0:
        # print('Not exist!')
        return vecsum
    return vecsum/cnt


score = 0.7     # 0.8--0.5909      0.75--0.6103    0.7--0.6188     0.65--0.621      0.6--0.6176
predict2 = []
for i in range(len(label)):
    vec1 = get_sentence_vec(text1[i])
    vec2 = get_sentence_vec(text2[i])
    if vec1.all() == 0 or vec2.all() == 0:
        # print(text1[i] + '\t' + text2[i])
        predict2.append(-1)
    else:
        if 1 - cosine(vec1, vec2) > score:
            predict2.append(1)
        else:
            predict2.append(0)


cnt2 = 0
length = 0
for i in range(len(label)):
    if predict2[i] == -1:
        continue
    length += 1
    if predict2[i] == label[i]:
        cnt2 += 1
print(cnt2/length)

cnt3 = 0
length2 = 0
for i in range(len(label)):
    if predict2[i] == -1:
        continue
    length2 += 1
    if predict[i] == predict2[i]:
        cnt3 += 1
    else:
        print(text1[i],text2[i],predict[i], predict2[i], label[i])
print(cnt3/length2)     # 0.7108

5. STS-B 数据集

Semantic Textual Similarity Benchmark: 这是一个类似回归的问题——给出一对句子, 使用1~5(0-5?)的评分评价两者在语义上的相似程度，来自比赛的Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation，介绍，参考文献引用：

Cer D M, Diab M T, Agirre E, et al. SemEval-2017 Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation[J]. meeting of the association for computational linguistics, 2017: 1-14.

不同模型在Semantic Textual Similarity on STS Benchmark数据集上的表现与排名

6. 其它

官方给了一个语义匹配的示例脚本，但是看不懂

ERNIE的论文代码复现过程在此，ERNIE的简介见–ERNIE: Enhanced Language Representation with Informative Entities，语义匹配，不同数据集有不同的表现最好的模型

wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2		# Download Wikidump
wget -c https://cloud.tsinghua.edu.cn/f/a519318708df4dc8a853/?dl=1 -O alias_entity.txt		# Download alise
python3 pretrain_data/WikiExtractor.py enwiki-latest-pages-articles.xml.bz2 -o pretrain_data/output -l --min_text_length 100 --filter_disambig_pages -it abbr,b,big --processes 4		# WikiExtractor
python3 pretrain_data/extract.py 4		# Modify anchors with 4 processes
python3 pretrain_data/create_ids.py 4		# Preprocess with 4 processes
...

Preprocess with 4 processes这一步需要安装tensorflow：

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple/ --upgrade tensorflow-gpu

INFO: Finished 4-process extraction of 6132409 articles in 4192.1s (1462.9 art/s)
INFO: total of page: 11143091, total of articl page: 6274306; total of used articl page: 6132409
...

还是放弃了，他们使用8个NVIDIA-2080Ti对我们的模型进行预训练，每个GPU中有32个实例。完成训练需要将近一天的时间（一个epoch就足够了），我觉得并不能很好的复现他们的结果

另：glue排名，ERNIE的综合表现是相当好的：

小结

Paddlehub是个好东西，但是对2.0的支持不太行，只能1.8的版本，这样的话只能有3个BERT模型可以使用，主要还是套ERNIE的语义匹配的代码
中文STS语料还是东找找西找找拼起来的一个数据集，感觉什么微粒贷的数据集其实可以不需要，这里只迭代了一次，精度就可以达到90%左右了，总体来说还可以
Simnet_bow其实原来是什么不太清楚，是不是就是BOW，应该就是的呢，效果一般，Word2Vec效果也一般，但是感觉仅考虑语义的话是不是又不太行？这里之后可以考虑加权求和或者D-S融合处理一下
英语模型应该不用复现吧，直接查论文或者官网的Rank呗，英文其实原理都是一样的，就是WordEmbedding不一样，就不管了吧
总之文本处理到这里真结束了，明天开始语音的学习！！！

《左轮手枪》韩国电影资源【1080p超清中文字幕】免费在线观看未删减完整版夸克网盘高清迅雷网盘百度云下载步骤全网优惠分享君
《左轮手枪》是一部充满悬疑与犯罪元素的韩国电影，由吴胜旭执导，汇集了全度妍、池昌旭、林智妍等实力派演员，于2024年8月7日在韩国上映。影片以其紧凑的剧情、深刻的角色塑造和紧张的氛围，吸引了众多观众的关注。提示：文章排版原因，观影资源链接地址放在文章结尾，往下翻就行故事围绕着背负所有罪责、被诬陷入狱的前警察河秀英（全度妍饰）展开。河秀英本是一位正直勇敢的警察，却因某种原因被栽赃陷害，失去了职业生涯
最新麦当劳优惠券折扣，怎么吃麦当劳最便宜，麦当劳优惠折扣技巧高省_飞智666600
麦当劳优惠券怎么获得？作为全球规模最大的快餐集团，麦当劳食品对人们具有十分强大的诱惑力，很多人都喜欢麦当劳食品，而麦当劳优惠券的使用自然受人们所关注。但是，麦当劳优惠券怎么获得呢？至于我为何用高省APP领取淘宝商城优惠卷返佣金呢，当然是高省佣金更高，模式更好。【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码666888，注册送2皇冠会员。麦当劳优惠券怎
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
2024台剧《某某》全16集网盘资源【1080p超清】刘冬沁等主演某某夸克网盘高清迅雷网盘百度云免费在线观看无删减完整版帮忙赚赏金
《某某》是一部改编自木苏里同名BL网络小说的剧集，由柳广辉导演，刘冬沁、曾向镇、洪小铃、段钧豪、姚爱寗、蔡振廷等主演。这部剧集聚焦于同性题材，讲述了两个因父母再婚而成为“兄弟”的高中生之间意外发展出的深切感情。某某夸克全集资源https://pan.quark.cn/s/89c05ff422ac台湾地区一直以来都是耽改题材的聚集地，无论是从剧本制作还是演员表演，都走在了业界的前沿。这次《某某》的拍
关于时间一棵大榕树
最近事情太多，脑袋处于严重超载状态。多年不用的时间管理要派上用场了。每天的规划提前一天要做出来。细想自己的碎片时间还是没有充分的利用起来。自己做了朋友圈和百度新闻的奴隶。
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
外卖返利小程序有哪些?外卖返利平台哪个好好项目高省
现在使用美团外卖点餐的人越来越多，但是绝大多数人还不知道在美团外卖点餐还可以获得返利。下面就为大家介绍下美团外卖返利平台，以及如何获得点外卖返利。一、进入美团外卖返利平台高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。古楼导师高省邀请码518518，注册送2皇冠会员，送万元推广大礼包。高省邀请码518518二、如
《喋血双雄》2024美版电影[1080p中文字幕]免费在线观看未删减完整版夸克网盘高清迅雷网盘百度云全网优惠分享君
《喋血双雄》作为吴宇森导演的经典之作，其1989年的港版曾一度成为香港动作电影的标杆，其独特的暴力美学风格和深刻的兄弟情谊让无数影迷为之倾倒。然而，时隔三十五年，吴宇森亲自操刀翻拍的2024美版《喋血双雄》却引发了诸多争议与讨论。本文将从剧情、角色、风格以及观众反响等方面，对这部新作进行全面点评。提示：文章排版原因，喋血双雄资源链接地址放在文章结尾，往下翻就行提示：文章排版原因，喋血双雄资源链接地
大语言模型应用指南：网页实时浏览 AGI大模型与大数据研究院 AI大模型应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：网页实时浏览作者：禅与计算机程序设计艺术1.背景介绍1.1大语言模型的崛起1.1.1自然语言处理的发展历程1.1.2Transformer模型的突破1.1.3预训练语言模型的优势1.2网页浏览的痛点1.2.1信息过载与检索困难1.2.2内容理解与知识提取1.2.3个性化与智能化需求1.3大语言模型与网页浏览的结合1.3.1智能问答与对话系统1.3.2知识图谱与语义搜索1.3.3
《叛军岭》网飞电影【1080p超清中字】逆岭完整未删减版免费在线观看高清迅雷UC网盘百度云资源提取码优惠攻略官
《叛军岭》（RebelRidge）是由杰瑞米·索尔尼尔编剧并执导的一部动作惊悚片，主演包括亚伦·皮埃尔、大卫·丹曼、艾莫里·科恩等。这部电影在2024年9月6日于美国网络上映，片长为131分钟，IMDb编码为tt11301886。提示：文章排版原因，观影资源链接地址放在文章结尾，往下翻就行提示：文章排版原因，观影资源链接地址放在文章结尾，往下翻就行影片讲述了前海军陆战队队员特里（亚伦·皮埃尔饰）前
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
ORACLE 11g 使用ROWNUM完美解决ORA-00600 内部错误代码有点智慧
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！1，ORA-00600：内部错误代码Oracle从11.2.0.1升级到11.2.0.4，开发人员报告说一个job运行失败，调试有报错信息，ORA-00600:内部错误代码，参数：[rwoirw:checkret
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
寄东西怎么寄?如何寄快递最方便? 一起高省
近两年随着互联网和配送行业的融合，收发快递已成为我们生活中密不可分的一部分。新型的购物方式已经普及到人们日常生活中，各大快递公司网点也已基本上覆盖每个城镇的大街小巷，那么小编带大家一起看看寄东西怎么寄?如何寄快递方便?大家好，我是高省最大古楼团队导师拂晓，高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。拂晓导师高
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
唯品会返利软件叫什么？唯品会内部优惠券app 高省张导师
不想等618的伙伴有福了！现在除了淘宝京东外，唯品会也有隐藏优惠券和返利了，唯品会返利app叫什么？用什么软件？想不到吧~今天小呆就来手把手大家领取唯品会的优惠券和返利佣金，废话不多说，先上平台。大家好，我是高省APP最大团队，【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码520888，注册送2皇冠会员，送万元推广大礼包。我以前一直以为只有淘宝京东拼
超异能族【韩剧】全集1080p超清中字免费在线观看超异能族完整未删减版百度云/夸克资源网盘免费高清链接下载全集迅雷（推荐热门剧） 6a3de85245co
近年来，韩剧以其独特的魅力在全球范围内吸引了大量粉丝。其中，一部名为《超异能族》的剧集凭借其精彩的剧情、引人入胜的角色以及独特的超能力设定，成为了不少观众的心头好。提示：文章排版原因，观影资源链接地址放在文章结尾，往下翻就行提示：文章排版原因，观影资源链接地址放在文章结尾，往下翻就行如今，该剧全集1080p超清中字版已正式上线，让我们一起穿越现实与幻想的界限，共同领略这个充满无限可能的世界。《超异
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
MCP协议技术解析：AI时代的通信基础设施革命
MCP协议技术解析：AI时代的通信基础设施革命在AI从工具演变为协作伙伴的进程中，MCP协议正在成为连接智能体与现实世界的“数字神经系统”。当前人工智能技术正经历从孤立模型向生态系统协作的关键转型，而通信协议作为AI能力的“连接器”，其设计直接决定了智能系统的边界与效率。MCP协议（ModelContextProtocol）作为新一代AI通信基础设施，正在开发者社区引发一场静默革命。本文将从技术原
甘超波：NLP中EMBA状态管理甘超波
哈喽，大家好我是甘超波，一名NLP爱好者，每天一篇文章，分享我的NLP实战经验和案例，希望给你些启发和帮助，这是第23篇原创文章什么是EMBAEMBA：是总裁班吗？在NLP中EMBA指的一种状态管理，我们NLP所有技巧都是在EMBA中展开的，像催眠，潜意识沟通......等都是在基于EMBA。如果把NLP比作一个楼房，EMBA就是楼房的地基如果把NLP比作一个汽车，EMBA就是汽车的发动机。其中E
659、反者道之动，弱者道之用。快乐_d0b5
常听晓平老师说到这句“反者道之动，弱者道之用。”有时候觉得一下子就明了了，有时候又觉模模糊糊，似懂非懂！今天百度了一下！此句出自于老子的《道德经》，原文为：“反者道之动，弱者道之用。天下万物生于有，有生于无。”意为：循环往复的运动变化，是道的运动，道的作用是微妙、柔弱的。天下的万物产生于看得见的有形质，有形质又产生于不可见的无形质。老子在《道德经》里，多次涉及到“事物的矛盾和对立转化是永恒不变的规
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习计算机视觉
GeneralistRewardModels:FoundInsideLargeLanguageModelshttps://arxiv.org/pdf/2506.232351.概述将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人和诚实）对齐，仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习（RLHF）[Christianoetal.,2017;Baietal.,
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
韩剧《当我的指尖触碰到你的温度时》1080p超清中字2024电视剧全集完整未删减版免费在线观看夸克网盘高清迅雷网盘百度云全网优惠分享君
在韩剧的璀璨星空中，《当我的指尖触碰到你的温度时》无疑是一颗温暖而独特的星辰，它以细腻的情感笔触，缓缓铺陈了一段跨越心灵壁垒、寻找彼此救赎的浪漫故事。该剧自播出以来，便以其深刻的情感共鸣与精妙的剧情设计，赢得了广泛的好评与热议。提示：文章排版原因，观剧资源链接地址放在文章结尾，往下翻就行故事围绕着两位主角展开，他们各自背负着不为人知的伤痛，在生活的洪流中孤独前行。一次偶然的相遇，仿佛是命运巧妙的安
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr