唐僧爱吃唐僧肉

预训练过程训练数据分析1

源代码地址
大佬预训练代码地址
模型结构之前已经进行分析过了，这里从训练过程开始分析

training_args = TrainingArguments(
    output_dir='record',
    num_train_epochs=num_train_epochs,
    learning_rate=learning_rate,
    per_device_train_batch_size=batch_size,
    save_steps=save_steps,
    logging_steps=500,
    save_total_limit=5,
    prediction_loss_only=True,
    seed=seed
)

得到对应的training_args

training_args = 
output_dir:record
overwrite_output_dir:False
do_train:False
do_eval:False
do_predict:False
evaluation_strategy:IntervalStrategy.NO
prediction_loss_only:True
per_device_train_batch_size:32
per_device_eval_batch_size:8
per_gpu_train_batch_size:None
per_gpu_eval_batch_size:None
gradient_accumulation_steps:1

接着定义Trainer的内容

trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=dataset
)

然后调用trainer.train()进入训练的过程
这里首先调用data_collator.py之中的mask_tokens的内容
首先分析DataCollatorForLanguageModeling类之中的内容

class DataCollatorForLanguageModeling:
	tokenizer: PreTrainedTokenizerBase
	mlm: bool = True
	mlm_probability: float = 0.15
	pad_to_multiple_of: Optional[int] = None
	def __post_init__(self):
		if self.mlm and self.tokenizer.mask_token is None:
            raise ValueError(
                "This tokenizer does not have a mask token which is necessary for masked language modeling. "
                "You should pass `mlm=False` to train on causal language modeling instead."
            )

这是初始化之中的一些参数，之前初始化过了，这里直接调用DataCollatorForLanguageModeling之中的__call__函数

    def __call__(
        self, examples: List[Union[List[int], torch.Tensor, Dict[str, torch.Tensor]]]
    ) -> Dict[str, torch.Tensor]:
        if isinstance(examples[0], (dict, BatchEncoding)):
            batch = self.tokenizer.pad(examples, return_tensors="pt", pad_to_multiple_of=self.pad_to_multiple_of)
        else:
            batch = {"input_ids": _collate_batch(examples, self.tokenizer, pad_to_multiple_of=self.pad_to_multiple_of)}
        # If special token mask has been preprocessed, pop it from the dict.
        special_tokens_mask = batch.pop("special_tokens_mask", None)
        #special_tokens_mask = None
        if self.mlm:
            #special_tokens_mask = None
            batch["input_ids"], batch["labels"] = self.mask_tokens(
                batch["input_ids"], special_tokens_mask=special_tokens_mask
            )
        else:
            labels = batch["input_ids"].clone()
            if self.tokenizer.pad_token_id is not None:
                labels[labels == self.tokenizer.pad_token_id] = -100
            batch["labels"] = labels
        return batch

这里对应的放入的内容为：

[{'input_ids': tensor([  101,   169,   107, 10539,   142,  8231,   107,   131,   107,   146,
                       8189,  8168,  9402,  8156,  8177,  8660,  8154,  8408,  8921,  8148,
                       ............
                        100,   100,   107,   171,   117,   169,   107, 10539,   107,   102])},
                       ............
{'input_ids': tensor([  101,   169,   107, 10539,   142,  8231,   107,   131,   107,  8424,
                       8161, 12540, 12675,  8154, 10696,  9647,  8168,  8849,  8139,  9355,
                       ............
                        100,  8123,   118,  8143,   100,   100,   100,   100,   100,   102])},
                       ............]

接着调用对应的pad函数

batch = self.tokenizer.pad(examples,return_tensors="pt,pad_to_multiple_of=self.pad_to_multiple_of)

这里发现上面的数据有很多100的对应数值，联想到之前数据分词的时候可能有所操作。
回看之前LineByLineTextDataset的分词部分操作的内容

batch_encoding = tokenizer(lines, add_special_tokens=True, truncation=True, max_length=block_size)

对应初始化操作之中

tokenizer:PreTrainedTokenizer

所以这里的self.tokenizer.pad要去PreTrainedTokenizer中的pad函数之中去查看
进入到PreTrainedTokenizer之中，也就是说直接使用PreTrainedTokenizer(…)的内容去进行相应的分词操作。

真实的tokenizer定义在main()的对应定义之中

tokenizer = BertTokenizer.from_pretrained(vocab_file)

经过的相应输出之后，发现这里的内容仍然为PreTrainedTokenizer的内容

tokenizer = 
PreTrainedTokenizer(name_or_path=
'/home/xiaoguzai/数据/nezha-chinese-base/vocab.txt', vocab_size=21128, 
model_max_len=1000000000000000019884624838656, is_fast=False, 
padding_side='right', special_tokens={'unk_token': '[UNK]', 
'sep_token': '[SEP]', 'pad_token': '[PAD]', 
'cls_token': '[CLS]', 'mask_token': '[MASK]'})

所以这里调用的DataCollatorForWholeWordMask的对应函数内容
这里面调用函数的过程如下：

PreTrainedTokenizer tokenize
PreTrainedTokenizer split_on_tokens
PreTrainedTokenizer split_on_token
PreTrainedTokenizer split_on_token
PreTrainedTokenizer split_on_token
PreTrainedTokenizer split_on_token
PreTrainedTokenizer split_on_token
PreTrainedTokenizer convert_tokens_to_ids
PreTrainedTokenizer _convert_token_to_id_with_added_voc
PreTrainedTokenizer _convert_token_to_id_with_added_voc
PreTrainedTokenizer _convert_token_to_id_with_added_voc
PreTrainedTokenizer _convert_token_to_id_with_added_voc
PreTrainedTokenizer _convert_token_to_id_with_added_voc
......

下一波又进入了这种调用函数的运行状态之中：

PreTrainedTokenizer tokenize
PreTrainedTokenizer split_on_tokens
PreTrainedTokenizer split_on_token
PreTrainedTokenizer split_on_token
PreTrainedTokenizer split_on_token
PreTrainedTokenizer split_on_token
PreTrainedTokenizer split_on_token
PreTrainedTokenizer convert_tokens_to_ids
PreTrainedTokenizer _convert_token_to_id_with_added_voc
PreTrainedTokenizer _convert_token_to_id_with_added_voc
PreTrainedTokenizer _convert_token_to_id_with_added_voc
PreTrainedTokenizer _convert_token_to_id_with_added_voc
PreTrainedTokenizer _convert_token_to_id_with_added_voc
......

这里有一个相应的疑点，就是直接调用的时候为什么就调用到了PreTrainedTokenizer tokenize函数之中了，猜想大概是因为在初始化过程之中绑定了tokenize函数，使得调用了对应的tokenize的函数内容。
这里的实现应该类似于建立模型之后使用model(input_ids)直接找到对应的输出内容。
进入PreTrainedTokenizer的tokenize函数之中去查看调用的过程：

def tokenize(self, text: TextInput, **kwargs) -> List[str]:

这里输入的text =

{"text_id": "e225b9fd36b8914f42c188fc92e8918f", "query": "河南省巩义市新华路街道办事处桐和街6号钢苑新区3号楼一单元", "candidate": [{"text": "巩义市桐和街", "label": "不匹配"}, 
{"text": "桐和街依家小店", "label": "不匹配"}, {"text": "桐和街CHANG六LIULIU", "label": "不匹配"}, {"text": "桐和街佳乐钢琴", "label": "不匹配"}, 
{"text": "世博领秀城南门桐和街囍饭食堂", "label": "不匹配"}]}

接着运行对应的all_special_tokens_extended内容

all_special_tokens_extended = dict(
            (str(t), t) for t in self.all_special_tokens_extended if isinstance(t, AddedToken)
        )

输出对应的all_special_tokens_extended

all_special_tokens_extended = {}

接下来调用prepare_for_tokenization函数内容

text, kwargs = self.prepare_for_tokenization(text,**kwargs)

得到的text和kwargs没有变化，kwargs = {}仍然不变。
接下来

if hasattr(self,"do_lower_case") and self.do_lower_case:
	......

这里由于都是中文，所以不会运行这一句
接下来调用split_on_token函数和split_on_tokens函数内容

no_split_token = self.unique_no_split_tokens
tokenized_text = split_on_tokens(no_split_token,text)

进入split_on_tokens之中
这里放入我修改过之后的split_on_tokens函数

def split_on_tokens(tok_list, text):
    print('PreTrainedTokenizer split_on_tokens')
    if not text.strip():
        return []
    if not tok_list:
        return self._tokenize(text)

    tokenized_text = []
    text_list = [text]
    for tok in tok_list:
        tokenized_text = []
        for sub_text in text_list:
            if sub_text not in self.unique_no_split_tokens:
                tokenized_text.extend(split_on_token(tok, sub_text))
            else:
                tokenized_text.append(sub_text)
        text_list = tokenized_text

    return list(
        itertools.chain.from_iterable(
            (
                self._tokenize(token) if token not in self.unique_no_split_tokens else [token]
                for token in tokenized_text
            )
        )
    )

这中间的内容都没有改变，关键在于最后return这一部分的内容

return list(
   	   itertools.chain.from_iterable(
   	   (
       		self._tokenize(token) if token not in self.unique_no_split_tokens else [token] for token in tokenized_text
       )
   )
)

这里的

self.unique_no_split_tokens = ['[CLS]','[MASK]','[PAD]','[SEP]','[UNK]']

处理完之后，对应的字符串内容为

['{', '"', 'text', '_', 'id', '"', ':', '"', 'e2', '##25', '##b', '##9', '##f', '##d', '##36', '##b', '##89', '##14', '##f', '##42', '##c', '##18', '##8', '##fc', '##92', '##e', '##89', '##18', '##f', '"', ',', '"', 'q', '##ue', '##ry', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', 
'[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '6', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '3', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', 
'"', ',', '"', 'can', '##di', '##da', '##te', '"', ':', '[', '{', '"', 'text', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '"', ',', '"', 'lab', '##el', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '"', '}', ',', '{', '"', 'text', '"', ':', '"', 
'[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '"', ',', '"', 'lab', '##el', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '"', '}', ',', '{', '"', 'text', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', 'chang', '[UNK]', 'liu', '##li', '##u', '"', ',', '"', 'lab', '##el', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '"', '}', ',', 
'{', '"', 'text', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '"', ',', '"', 'lab', '##el', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '"', '}', ',',
'{', '"', 'text', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '"', ',', '"', 'lab', '##el', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '"', '}', ']', '}']

可以看出，所有的中文汉字都被替换成为了标志’[UNK]'的内容
比如传入的字符串为

['{"text_id": "e225b9fd36b8914f42c188fc92e8918f", 
   "query": "河南省巩义市新华路街道办事处桐和街6号钢苑新区3号楼一单元", 
   "candidate": [{"text": "巩义市桐和街", "label": "不匹配"}, {"text": "桐和街依家小店", "label": "不匹配"}, 
   {"text": "桐和街chang六liuliu", "label": "不匹配"}, {"text": "桐和街佳乐钢琴", "label": "不匹配"}, 
   {"text": "世博领秀城南门桐和街囍饭食堂", "label": "不匹配"}]}']

得到对应的list数组内容为

PreTrainedTokenizer split_on_tokens
['{', '"', 'text', '_', 'id', '"', ':', '"', 'e2', '##25', '##b', '##9', '##f', '##d', '##36', '##b', '##89', '##14', '##f', '##42', '##c', '##18', '##8', '##fc', '##92', '##e', '##89', '##18', '##f', '"', ',', '"', 'q', '##ue', '##ry', '"', ':', '"', '[UNK]',
'[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '6', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '3', '[UNK]', '[UNK]', 
'[UNK]', '[UNK]', '[UNK]', '"', ',', '"', 'can', '##di', '##da', '##te', '"', ':', '[', '{', '"', 'text', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '"', ',', '"', 'lab', '##el', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '"', '}', ',', '{', '"', 
'text', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '"', ',', '"', 'lab', '##el', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '"', '}', ',', '{', '"', 'text', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', 'chang', '[UNK]', 'liu', 
'##li', '##u', '"', ',', '"', 'lab', '##el', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '"', '}', ',', '{', '"', 'text', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '"', ',', '"', 'lab', '##el', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', 
'"', '}', ',', '{', '"', 'text', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '"', ',', '"', 'lab', '##el', '"', ':', '"', '[UNK]', '[UNK]', '[UNK]', '"', '}', ']', '}']
ids = 
[169, 107, 10539, 142, 8231, 107, 131, 107, 12357, 8743, 8204, 8160, 8189, 8168, 9159, 8204, 9402, 8717, 8189, 9240, 8177, 8662, 8156, 9717, 9595, 8154, 9402, 8662, 8189, 107, 117, 
107, 159, 8803, 8449, 107, 131, 107, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 127, 100, 100, 100, 100, 100, 124, 100, 100, 100, 100, 100, 107, 117, 
107, 9109, 9172, 8521, 8299, 107, 131, 138, 169, 107, 10539, 107, 131, 107, 100, 100, 100, 100, 100, 100, 107, 117, 107, 11441, 8472, 107, 131, 107, 100, 100, 100, 107, 171, 117, 169, 107, 
10539, 107, 131, 107, 100, 100, 100, 100, 100, 100, 100, 107, 117, 107, 11441, 8472, 107, 131, 107, 100, 100, 100, 107, 171, 117, 169, 107, 10539, 107, 131, 107, 100, 100, 100, 11680, 100, 
12306, 8636, 8207, 107, 117, 107, 11441, 8472, 107, 131, 107, 100, 100, 100, 107, 171, 117, 169, 107, 10539, 107, 131, 107, 100, 100, 100, 100, 100, 100, 100, 107, 117, 107, 11441, 8472, 107, 
131, 107, 100, 100, 100, 107, 171, 117, 169, 107, 10539, 107, 131, 107, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 107, 117, 107, 11441, 8472, 107, 131, 107, 100, 100, 100, 107, 171, 140, 171]

从上面的内容可以看出，中文的内容全被使用[UNK]遮盖住了，而英文的内容则被保留了下来。
接下来查看训练数据的过程

trainer = Trainer(
	model=model,
	args=training_args,
	data_collator=data_collator,
	train_dataset=dataset
)

这里面首先调用的是DataCollatorForLanguageModeling类的调用__call__函数的过程

def __call__(
    self, examples: List[Union[List[int], torch.Tensor, Dict[str, torch.Tensor]]]
) -> Dict[str, torch.Tensor]:
    print('data/data_collator.py __call__')
    # Handle dict or lists with proper padding and conversion to tensor.
    print('data_collator examples = ')
    print(examples)
    print('#########################')
    if isinstance(examples[0], (dict, BatchEncoding)):
        #运行第一个对应的if语句
        batch = self.tokenizer.pad(examples, return_tensors="pt", pad_to_multiple_of=self.pad_to_multiple_of)
        #这里的tokenizer使用的是PreTrainedTokenizerBase
        print('|||self.tokenizer = |||')
        print(self.tokenizer)
        print('---self.pad_to_multiple_of---')
        print(self.pad_to_multiple_of)
        r"""
        self.tokenizer = PreTrainedTokenizer(name_or_path='/home/...vocab.txt',
        special_tokens={'unk_token':'[UNK]','sep_token':'[SEP]',...'mask_token':'[MASK]'}
        """
    else:
        print('situation2')
        batch = {"input_ids": _collate_batch(examples, self.tokenizer, pad_to_multiple_of=self.pad_to_multiple_of)}
    print('999batch = 999')
    print(batch)
    r"""
    batch = 
    {'input_ids':tensor(
    [[101,169,...102],
     ................
     [101,169,...102]]),
     'attention_mask':tensor(
    [[1,1,...1,1]
    """
    #batch['input_ids'].shape = ([32,90])
    #batch['attention_mask'].shape = ([32,90])
    print('99999999999999')
    r"""
    batch = 
    {'input_ids': tensor(
    [[  101,   169,   107,  ..., 10539,   107,   102],
    [  101,   169,   107,  ...,   100,   100,   102],
    [  101,   169,   107,  ...,   100,   100,   102],
    ...,
    [  101,   169,   107,  ...,   100,   100,   102],
    [  101,   169,   107,  ...,   100,   100,   102],
    [  101,   169,   107,  ...,   117,   169,   102]]), 
    'attention_mask': tensor(
    [[1, 1, 1,  ..., 1, 1, 1],
    [1, 1, 1,  ..., 1, 1, 1],
    [1, 1, 1,  ..., 1, 1, 1],
    ...,
    [1, 1, 1,  ..., 1, 1, 1],
    [1, 1, 1,  ..., 1, 1, 1],
    [1, 1, 1,  ..., 1, 1, 1]])}
    """
    # If special token mask has been preprocessed, pop it from the dict.
    special_tokens_mask = batch.pop("special_tokens_mask", None)
    #special_tokens_mask = None
    r"""
    special_tokens_mask = 
    [[1,0,0,...0,0,1],
     [1,0,0,...1,1,1],
     ...............
     [1,0,0,...0,0,1]]
    """
    if self.mlm:
        #special_tokens_mask = None
        batch["input_ids"], batch["labels"] = self.mask_tokens(
            batch["input_ids"], special_tokens_mask=special_tokens_mask
        )
        r"""
        ***batch = ***
        {'input_ids': tensor(
        [[  101,   169,   107,  ..., 10539,   107,   102],
        [  101,   169,   107,  ...,   100,   100,   102],
        [  101,   169,   107,  ...,   100,   100,   102],
        ...,
        [  101,   169,   107,  ...,   100,   100,   102],
        [  101,   169,   107,  ...,   100,   100,   102],
        [  101,   169,   107,  ...,   103,   169,   102]]), 
        'attention_mask': tensor(
        [[1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 1, 1, 1],
        ...,
        [1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 1, 1, 1]]), 
        'labels': tensor(
        [[-100, -100, -100,  ..., -100,  107, -100],
        [-100, -100, -100,  ..., -100, -100, -100],
        [-100, -100, -100,  ..., -100, -100, -100],
        ...,
        [-100, -100, -100,  ..., -100, -100, -100],
        [-100, -100, -100,  ..., -100, -100, -100],
        [-100, -100, -100,  ...,  117, -100, -100]])}
        """
    else:
        labels = batch["input_ids"].clone()
        if self.tokenizer.pad_token_id is not None:
            labels[labels == self.tokenizer.pad_token_id] = -100
        batch["labels"] = labels
    return batch

首先输出

data_collator examples =
[{'input_ids': tensor([  101,   169,   107, 10539,   142,  8231,   107,   131,   107,  8360,
         8717,  8139,  9099,  8168,  9267,  8157,  8177,  9446,  8177,  9419,
         8510, 10340, 10696,  8129, 11008,  8160,  8204,  8849,  8152,  8139,
         ...........
         107, 10539,   107,   131,   107,   100,   100,   100,   100,   102])},
         ......
 {'input_ids': tensor([  101,   169,   107, 10539,   142,  8231,   107,   131,   107,  9226,
                          9102,  9039,  8854,  8748,  8159,  9717,  8204,  8189,  9242,  8168,
                          8189, 11219, 11414,  8148,  8154,  9102,  9410,  8157,  8139,   107,
                           117,   107,   159,  8803,  8449,   107,   131,   107,   100,   100,
                           100,   100,   100,   100,   100,   100,   100,   100,   100,   100,
                           100,   100,   100,   100,   100,   100,   100,   100,   100,   127,
                           100,   100,   100,   100,   100,   107,   117,   107,  9109,  9172,
                          8521,  8299,   107,   131,   138,   169,   107, 10539,   107,   131,
                           107,   100,   100,   100,   100,   100,   100,   107,   171,   102])}]

接着输出对应的内容

self.pad_to_multiple_of = None

这里得到对应的attention_mask的内容

batch = 
{'input_ids': tensor(
	   [[  101,   169,   107,  ..., 10539,   107,   102],
        [  101,   169,   107,  ...,   100,   100,   102],
        [  101,   169,   107,  ...,   100,   100,   102],
        ...,
        [  101,   169,   107,  ...,   100,   100,   102],
        [  101,   169,   107,  ...,   100,   100,   102],
        [  101,   169,   107,  ...,   117,   169,   102]]), 
 'attention_mask': tensor(
       [[1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 1, 1, 1],
        ...,
        [1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 1, 1, 1]])}

接着调用对应的语句

special_tokens_mask = batch.pop("special_tokens_mask",None)

由于上面的batch之中没有对应的special_tokens_mask的属性，所以得到对应的special_tokens_mask的对应值为None

special_tokens_mask = None

接着进入调用语句

if self.mlm:
    #special_tokens_mask = None
    batch["input_ids"], batch["labels"] = self.mask_tokens(
        batch["input_ids"], special_tokens_mask=special_tokens_mask
    )

这里面需要进入self.mask_tokens去调用

    def mask_tokens(
        self, inputs: torch.Tensor, special_tokens_mask: Optional[torch.Tensor] = None
    ) -> Tuple[torch.Tensor, torch.Tensor]:
        print('data/data_collator.py mask_tokens')
        """
        Prepare masked tokens inputs/labels for masked language modeling: 80% MASK, 10% random, 10% original.
        """
        labels = inputs.clone()
        # We sample a few tokens in each sequence for MLM training (with probability `self.mlm_probability`)
        r"""
        labels = tensor(
       [[  101,   169,   107,  ..., 10539,   107,   102],
        [  101,   169,   107,  ...,   100,   100,   102],
        [  101,   169,   107,  ...,   100,   100,   102],
        ...,
        [  101,   169,   107,  ...,   100,   100,   102],
        [  101,   169,   107,  ...,   100,   100,   102],
        [  101,   169,   107,  ...,   117,   169,   102]])
        """
        probability_matrix = torch.full(labels.shape, self.mlm_probability)
        r"""
        probability_matrix = 
        tensor([[0.1500,0.1500,...],
                [0.1500,0.1500,...],
                ..................
            
        """
        if special_tokens_mask is None:
            special_tokens_mask = [
                self.tokenizer.get_special_tokens_mask(val, already_has_special_tokens=True) for val in labels.tolist()
            ]
            special_tokens_mask = torch.tensor(special_tokens_mask, dtype=torch.bool)
        else:
            special_tokens_mask = special_tokens_mask.bool()

        probability_matrix.masked_fill_(special_tokens_mask, value=0.0)
        masked_indices = torch.bernoulli(probability_matrix).bool()
        labels[~masked_indices] = -100  # We only compute loss on masked tokens

        # 80% of the time, we replace masked input tokens with tokenizer.mask_token ([MASK])
        indices_replaced = torch.bernoulli(torch.full(labels.shape, 0.8)).bool() & masked_indices
        inputs[indices_replaced] = self.tokenizer.convert_tokens_to_ids(self.tokenizer.mask_token)

        # 10% of the time, we replace masked input tokens with random word
        indices_random = torch.bernoulli(torch.full(labels.shape, 0.5)).bool() & masked_indices & ~indices_replaced
        random_words = torch.randint(len(self.tokenizer), labels.shape, dtype=torch.long)
        inputs[indices_random] = random_words[indices_random]

        # The rest of the time (10% of the time) we keep the masked input tokens unchanged
        return inputs, labels

首先复制一下对应的labels的值

labels = inputs.clone()

labels = tensor(
	   [[  101,   169,   107,  ..., 10539,   107,   102],
        [  101,   169,   107,  ...,   100,   100,   102],
        [  101,   169,   107,  ...,   100,   100,   102],
        ...,
        [  101,   169,   107,  ...,   100,   100,   102],
        [  101,   169,   107,  ...,   100,   100,   102],
        [  101,   169,   107,  ...,   117,   169,   102]]
)

接着调用对应的probability_matrix矩阵

probability_matrix = torch.full(labels.shape,self.mlm_probability)

得到的对应的probability_matrix矩阵

probability_matrix = 
tensor([[0.1500,0.1500,...],
        [0.1500,0.1500,...],
        ..................
        [0.1500,0.1500,...]])

接下来查看对于masked_indices的调用

if special_tokens_mask is None:
    special_tokens_mask = [
        self.tokenizer.get_special_tokens_mask(val, already_has_special_tokens=True) for val in labels.tolist()
    ]
    print('special_tokens_mask1 = ')
    print(special_tokens_mask)
    special_tokens_mask = torch.tensor(special_tokens_mask, dtype=torch.bool)
    print('special_tokens_mask2 = ')
    print(special_tokens_mask)
else:
    special_tokens_mask = special_tokens_mask.bool()

得到对应的内容为

special_tokens_mask1 = 
[[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1],
.....................
[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 1]]

对应的special_tokens_mask2的内容为

special_tokens_mask2 = 
tensor([[ True, False, False,  ..., False, False,  True],
        ...,
        [ True, False, False,  ..., False, False,  True]])

这里调用special_tokens_mask1需要调用get_special_tokens_mask的函数内容

special_tokens_mask = [
	self.tokenizer.get_special_tokens_mask(val,already_head_special_tokens=True) for valu in labels.tolist()
]

下一篇博客继续解读相应的代码内容

你可能感兴趣的:(bert源码解读)

BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
go语言安装快速入门吉祥鸟hu
[TOC]go语言是什么Go是一个开源的编程语言，它能让构造简单、可靠且高效的软件变得容易。Go是从2007年末由RobertGriesemer,RobPike,KenThompson主持开发，后来还加入了IanLanceTaylor,RussCox等人，并最终于2009年11月开源，在2012年早些时候发布了Go1稳定版本。现在Go的开发已经是完全开放的，并且拥有一个活跃的社区如何安装环境笔者这
解决BERT模型bert-base-chinese报错（无法自动联网下载）搬砖修狗 bert 人工智能深度学习 python
一、下载问题hugging-face是访问BERT模型的最初网站，但是目前hugging-face在中国多地不可达，在代码中涉及到该网站的模型都会报错，本文我们就以bert-base-chinese报错为例，提供一个下载到本地的方法来解决问题。二、网站google-bert(BERTcommunity)Thisorganizationismaintainedbythetransformerstea
ROS yaml参数文件的使用 Sun Shiteng ROS
举个例子，若在params.yaml文件中定义如下参数LidarImageFusion:points_src:"/hilbert_h/deskew/cloud_info"image_src:"/usb_cam0/image_raw"camera_info_src:"/home/hdj/fusion_slam/Color_SLAM_ws/src/hilbert_h/config/firefly_8s
《昇思 25 天学习打卡营第 25 天 | 基于 MindSpore 实现 BERT 对话情绪识别》 Sam9029 Mindscope模型学习深度学习
《昇思25天学习打卡营第25天|基于MindSpore实现BERT对话情绪识别》活动地址：https://xihe.mindspore.cn/events/mindspore-training-camp签名：Sam9029环境配置确保安装了正确版本的MindSpore和MindNLP库。!pipuninstallmindspore-y!pipinstall-ihttps://pypi.mirror
Go的学习路线 JSU-YSJ Golang基础学习 golang 学习开发语言
Golang简介go语言Go（又称Golang）是Google的RobertGriesemer，RobPike及KenThompson开发的一种静态强类型、编译型语言。Go语言语法与C相近，但功能上有：内存安全，GC（垃圾回收），结构形态及CSP-style并发计算。为什么要学习Go现有的编程语言风格各异，不能完全的运动好电脑的硬件，不高效，及各种优势于一身的语言Golang(谷歌创建)兼容静态编
K8S源码及定制化系列-源码解读第一步Kubectl(三) 申专 Golang 云原生 kubernetes 容器云原生
本节重点介绍:kubectl的职责和kubectl的代码原理cobra库的使用简介kubectl的职责主要的工作是处理用户提交的东西（包括，命令行参数，yaml文件等）然后其会把用户提交的这些东西组织成一个数据结构体然后把其发送给APIServerKubectl系统架构图kubectl的代码原理从命令行和yaml文件中获取信息通过Builder模式并把其转成一系列的资源最后用Visitor模式模式
爱无常，恨无常，珍惜好时光爱博文学翻译社
爱无常，恨无常，珍惜好时光编辑:AlbertXu片尾曲《匆匆那年》很好听，看的过程中感觉美好、惊醒、奇妙、困惑和无常：1.美好的是青春，是逝去的时光，是那些已经改变又从未改变的人，也是那些深深刻在脑海中的爱的印记，甚至是后悔，那些证明我们存在于世的全部经历。当人们从一个原点出发，相逢又散去，投入到各自的生活洪流中时，片刻的驻足，怀念起过去，几乎很多人都在习惯性美化它们。长大后觉得甜蜜的回忆，在经历
大规模语言模型的书籍分享，从零基础入门到精通非常详细收藏我这一篇就够了黑客-雨语言模型人工智能自然语言处理学习大模型学习大模型入门大模型教程
在当今人工智能领域，大规模语言模型成为了研究和应用的热点之一。它们以其大规模的参数和强大的性能表现，推动着机器学习和深度学习技术的发展。对于GPT系列大规模语言模型的发展历程，有两点令人印象深刻。第一点是可拓展的训练架构与学习范式:Transformer架构能够拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为预测下一个词这一通用学习范式;第二点是对于数据质量与数据规模的重视:不同于BERT
【Tools】大模型中的BERT概念音乐学家方大刚工具 bert 人工智能深度学习
摇来摇去摇碎点点的金黄伸手牵来一片梦的霞光南方的小巷推开多情的门窗年轻和我们歌唱摇来摇去摇着温柔的阳光轻轻托起一件梦的衣裳古老的都市每天都改变模样方芳《摇太阳》BERT（BidirectionalEncoderRepresentationsfromTransformers）是一种基于Transformer的预训练语言模型，由Google于2018年发布。BERT的目标是通过大规模无监督预训练学习来
详述Python环境下配置AI大模型Qwen-72B的步骤 Play_Sai #Python开发 python AI大模型人工智能
随着人工智能技术的发展，大规模预训练模型如Qwen-72B等逐渐成为研究和应用的重点。本篇博客旨在提供一份详细的指南，帮助Python开发者们在自己的环境中顺利配置并使用Qwen-72B大模型。请注意：由于Qwen-72B这一模型目前并未公开存在，所以以下内容仅为假设性描述，实际上你需要替换为你想要配置的真实存在的大模型，例如GPT-3、BERT等。一、环境准备1.安装必要的库首先确保你已经安装了
突发奇想，玩家用《我的世界》重现美术大师画作，还原度很高爱游戏的萌博士
如果你喜欢绘画，在其中又特别钟情风景画的话，你可能听说过鲍伯·鲁斯（BobRoss）。这其实是罗伯特·诺曼·鲁斯（RobertNormanRoss）的艺名，他是位美国画家，同时也是一位艺术指导与电视节目主持人。鲁斯以他温柔且和乐的语气为特色，在他著名的电视节目“欢乐画室（TheJoyofPainting）”中担任即席教学画家兼主持人，这个节目活跃于上世纪八九十年代。博士为什么要提上面这位顶着爆炸头
大模型落地指南：从下载到本地化部署全流程解析网安猫叔人工智能自然语言处理语言模型 AIGC 深度学习
一、引言随着人工智能技术的迅猛发展，大规模预训练模型（如GPT-4、BERT等）在自然语言处理、图像识别等领域展现出了卓越的性能。然而，如何将这些强大的模型从理论落地到实际应用中，仍然是许多技术从业者面临的挑战。本篇文章旨在为读者提供一份详尽的大模型落地指南，从模型的下载、文件结构的解析，到本地化部署的具体步骤，全面覆盖整个流程。无论你是初次接触大模型的新手，还是希望深入了解部署细节的资深开发者，
netty源码解读三（NioEventLoop） orcharddd_real netty java netty
NioEventLoop初始化EventExecutor类型的数组数组大小默认为cpu数量的两倍，遍历数组，通过newNioEventLoop(xxx)往数组中添加元素，NioEventLoop继承了EventExecutor；每次需要线程时，执行chooser的next方法从数组中取出一个线程；关键代码打开netty源码，找到example包下的EchoService类，追溯创建boss线程组和
解决Can‘t load tokenizer for ‘bert-base-chinese‘.问题 CSDNhdlg NLP bert 人工智能深度学习自然语言处理
报错提示：OSError:Can'tloadtokenizerfor'bert-base-chinese'.Ifyouweretryingtoloaditfrom'https://huggingface.co/models',makesureyoudon'thavealocaldirectorywiththesamename.Otherwise,makesure'bert-base-chinese
如何用RoBERTa高效提取事件文本结构特征：多层次上下文建模与特征融合大多_C 人工智能
基于RoBERTa-BASE的特征提取器，提取事件文本数据的结构特征（如段落和篇章结构）涉及多个步骤。RoBERTa作为一种预训练语言模型，可以很好地捕捉输入文本的上下文和依赖关系。具体步骤如下：1.文本预处理在提取事件文本的结构特征之前，需要对文本进行适当的预处理。这一步包括：分句和分段处理：将事件文本拆分为不同的句子或段落，并对每个句子/段落进行标记。每个段落可以视为一个独立的输入序列。Tok
这样的电影都骂烂，是我握不动刀还是有人太飘 Sir电影
年度最WTF电影来了！年度最争议电影来了！威尼斯电影节首映，有的观众起立鼓掌，有的观众恨不得朝屏幕丢鞋。观众这样，更别说影评人……迷之又迷的，比如《RogerEbert.com》：恐怖、勾人、迷惑……这是一部刷新你认知的电影。恨之入骨的，比如《纽约观察者报》——我不愿给它贴上“年度最差电影”标签，因为“世纪最差电影”更适合它。评分网站呢，一个比一个不给面子：IMDb7.0，烂番茄68%，豆瓣6.7
Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用 Funhpc_huachen transformer bert gpt 语言模型深度学习
作为AI智能大模型的专家训练师，我将从主流模型框架的角度来分析其核心技术特点及其在不同实际行业中的应用。我们重点讨论以下几个主流模型框架：Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用。1.Transformer框架Transformer是一种基础的深度学习模型架构，由Google于2017年提出。它引入了注意力机制（Self-Attention）
fpga图像处理实战-边缘检测（Roberts算子）梦梦梦梦子~ OV5640+图像处理图像处理计算机视觉人工智能
Roberts算子Roberts算子是一种用于边缘检测的算子，主要用于图像处理中检测图像的边缘。它是最早的边缘检测算法之一，以其计算简单、速度快而著称。Roberts算子通过计算图像像素在对角方向的梯度来检测边缘，从而突出图像中灰度变化最剧烈的部分。原理Roberts算子通过对图像应用两个2x2的卷积核（也称为掩模或滤波器）来计算图像在水平和垂直方向上的梯度。假设原始图像的像素值为I(x,y)，则
Rhinoceros 8 for Mac/Win：重塑三维建模边界的革新之作平安喜乐616 Rhinoceros 8 Rhino 8 三维建模软件犀牛8
Rhinoceros8（简称Rhino8），作为一款由RobertMcNeel&Assoc公司开发的顶尖三维建模软件，无论是对于Mac还是Windows用户而言，都是一款不可多得的高效工具。Rhino8以其强大的功能、广泛的应用领域以及卓越的性能，在建筑设计、工业设计、产品设计、三维动画制作、科学研究及机械设计等多个领域展现出了非凡的实力。强大的建模能力Rhino8支持多种建模技术，包括曲面建模、
预训练语言模型的前世今生 - 从Word Embedding到BERT 脚步的影子语言模型 embedding bert
目录一、预训练1.1图像领域的预训练1.2预训练的思想二、语言模型2.1统计语言模型2.2神经网络语言模型三、词向量3.1独热（Onehot）编码3.2WordEmbedding四、Word2Vec模型五、自然语言处理的预训练模型六、RNN和LSTM6.1RNN6.2RNN的梯度消失问题6.3LSTM6.4LSTM解决RNN的梯度消失问题七、ELMo模型7.1ELMo的预训练7.2ELMo的Fea
【大模型系列篇】预训练模型：BERT & GPT 木亦汐丫大模型 bert gpt 人工智能预训练模型大模型
2018年，Google首次推出BERT（BidirectionalEncoderRepresentationsfromTransformers）。该模型是在大量文本语料库上结合无监督和监督学习进行训练的。BERT的目标是创建一种语言模型，可以理解句子中单词的上下文和含义，同时考虑到它前后出现的单词。2018年，OpenAI首次推出GPT（GenerativePre-trainedTransfor
【人工智能】Transformers之Pipeline（十三）：填充蒙版（fill-mask） LDG_AGI Pipeline 人工智能机器学习计算机视觉 python 时序数据库大数据自然语言处理
目录一、引言二、填充蒙版（fill-mask）2.1概述2.2技术原理2.2.1BERT模型的基本概念2.2.2BERT模型的工作原理2.2.3BERT模型的结构2.2.4BERT模型的应用2.2.5BERT模型与Transformer的区别和联系2.3应用场景2.4pipeline参数2.4.1pipeline对象实例化参数2.4.2pipeline对象使用参数2.4.3pipeline返回参数
IT历史：互联网简史 weixin_34275734 网络操作系统 java
Hobbes的互联网大事记-权威的互联网发展史Hobbes’Internet大事记v4.2作者：RobertH’obbes’ZakonInternet福音传道者译者：郭力Internet大事记的版权归RobertHZakon所有(c)1993-9。只要保留版权说明，给出在一个在本文档最后的指向本大事记的连接地址，并且不是出于商业目的，均可以使用本文的部分或全部内容，但是使用者必须向作者提供一份使用
大模型--个人学习心得挚爱清&虚人工智能
大模型LLM定义大模型LLM，全称LargeLanguageModel，即大型语言模型LLM是一种基于Transformer架构模型，它通过驯良大量文本数据，学习语言的语法、语义和上下文信息，从而能够对自然语言文本进行建模这种模型在自然语言处理(NLP)领域具有广泛应用常见的13个大模型BERT、GPT系列、T5、Meta的Llama系列、华为盘古模型、阿里巴巴通义大模型、科大讯飞星火大模型、百度
基于Bert-base-chinese训练多分类文本模型(代码详解）一颗洋芋 bert 分类自然语言处理
目录一、简介二、模型训练三、模型推理一、简介BERT（BidirectionalEncoderRepresentationsfromTransformers）是基于深度学习在自然语言处理（NLP）领域近几年出现的、影响深远的创新模型之一。在BERT之前，已经有许多预训练语言模型，如ELMO和GPT，它们展示了预训练模型在NLP任务中的强大性能。然而，这些模型通常基于单向的上下文信息，即只考虑文本中
Java源码解读-数据容器都是如何实现同步的问道飞鱼 Java开发 Java源码解读数据容器同步机制
用Java的同学可能在自己使用或者面试的时候经常遇到这么一个问题，哪些数据结构或者容器是同步的，是怎么实现的同步？其实很多的数据同步原理都比较简单，我把目前知道的数据容器的同步方式稍微梳理了一下1.线程安全容器StringBuffer(太明显，synchronized关键字）@OverridepublicsynchronizedStringBufferappend(Stringstr){toStr
【深度学习 transformer】使用pytorch 训练transformer 模型,hugginface 来啦东华果汁哥深度学习-文本分类深度学习 transformer pytorch
HuggingFace是一个致力于开源自然语言处理（NLP）和机器学习项目的社区。它由几个关键组件组成：Transformers：这是一个基于PyTorch的库，提供了各种预训练的NLP模型，如BERT、GPT、RoBERTa、DistilBERT等。它还提供了一个简单易用的API来加载这些模型，并进行微调以适应特定的下游任务。Datasets：这是一个用于加载和预处理NLP数据集的库，与Tran
LLM大模型落地-从理论到实践 hhaiming_ 语言模型人工智能 ai 深度学习
简述按个人偏好和目标总结了学习目标和路径（可按需学习），后续将陆续整理出相应学习资料和资源。学习目标熟悉主流LLM（Llama,ChatGLM,Qwen）的技术架构和技术细节；有实际应用RAG、PEFT和SFT的项目经验较强的NLP基础，熟悉BERT、T5、Transformer和GPT的实现和差异，能快速掌握业界进展，有对话系统相关研发经验掌握TensorRT-LLM、vLLM等主流推理加速框架
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round