喜欢打酱油的老鸟

“瘦身成功”的ALBERT，能取代BERT吗？

2020-03-22 12:04:46

十三发自凹非寺
量子位报道 | 公众号 QbitAI

参数比BERT少了80%，性能却提高了。

这就是谷歌去年提出的“瘦身成功版BERT”模型——ALBERT。

这个模型一经发布，就受到了高度关注，二者的对比也成为了热门话题。

而最近，网友Naman Bansal就提出了一个疑问：

是否应该用ALBERT来代替BERT？

能否替代，比比便知。

BERT与ALBERT

BERT模型是大家比较所熟知的。

2018年由谷歌提出，训练的语料库规模非常庞大，包含33亿个词语。

模型的创新点集中在了预训练过程，采用Masked LM和Next Sentence Prediction两种方法，分别捕捉词语和句子级别的表示。

BERT的出现，彻底改变了预训练产生词向量和下游具体NLP任务的关系。

时隔1年后，谷歌又提出ALBERT，也被称作“lite-BERT”，骨干网络和BERT相似，采用的依旧是 Transformer 编码器，激活函数也是GELU。

其最大的成功，就在于参数量比BERT少了80%，同时还取得了更好的结果。

与BERT相比的改进，主要包括嵌入向量参数化的因式分解、跨层参数共享、句间连贯性损失采用SOP，以及移除了dropout。

下图便是BERT和ALBERT，在SQuAD和RACE数据集上的性能测试比较结果。

可以看出，ALBERT性能取得了较好的结果。

如何实现自定义语料库(预训练)ALBERT？

为了进一步了解ALBERT，接下来，将在自定义语料库中实现ALBERT。

所采用的数据集是“用餐点评数据集”，目标就是通过ALBERT模型来识别菜肴的名称。

第一步：下载数据集并准备文件

 1#Downlading all files and data
 2
 3!wget https://github.com/LydiaXiaohongLi/Albert_Finetune_with_Pretrain_on_Custom_Corpus/raw/master/data_toy/dish_name_train.csv
 4!wget https://github.com/LydiaXiaohongLi/Albert_Finetune_with_Pretrain_on_Custom_Corpus/raw/master/data_toy/dish_name_val.csv
 5!wget https://github.com/LydiaXiaohongLi/Albert_Finetune_with_Pretrain_on_Custom_Corpus/raw/master/data_toy/restaurant_review.txt
 6!wget https://github.com/LydiaXiaohongLi/Albert_Finetune_with_Pretrain_on_Custom_Corpus/raw/master/data_toy/restaurant_review_nopunct.txt
 7!wget https://github.com/LydiaXiaohongLi/Albert_Finetune_with_Pretrain_on_Custom_Corpus/raw/master/models_toy/albert_config.json
 8!wget https://github.com/LydiaXiaohongLi/Albert_Finetune_with_Pretrain_on_Custom_Corpus/raw/master/model_checkpoint/finetune_checkpoint
 9!wget https://github.com/LydiaXiaohongLi/Albert_Finetune_with_Pretrain_on_Custom_Corpus/raw/master/model_checkpoint/pretrain_checkpoint
10
11#Creating files and setting up ALBERT
12
13!pip install sentencepiece
14!git clone https://github.com/google-research/ALBERT
15!python ./ALBERT/create_pretraining_data.py --input_file "restaurant_review.txt" --output_file "restaurant_review_train" --vocab_file "vocab.txt" --max_seq_length=64
16!pip install transformers
17!pip install tfrecord

第二步：使用transformer并定义层

 1#Defining Layers for ALBERT
 2
 3from transformers.modeling_albert import AlbertModel, AlbertPreTrainedModel
 4from transformers.configuration_albert import AlbertConfig
 5import torch.nn as nn
 6class AlbertSequenceOrderHead(nn.Module):
 7    def __init__(self, config):
 8        super().__init__()
 9        self.dense = nn.Linear(config.hidden_size, 2)
10        self.bias = nn.Parameter(torch.zeros(2))
11
12    def forward(self, hidden_states):
13        hidden_states = self.dense(hidden_states)
14        prediction_scores = hidden_states + self.bias
15
16        return prediction_scores
17
18from torch.nn import CrossEntropyLoss
19from transformers.modeling_bert import ACT2FN
20class AlbertForPretrain(AlbertPreTrainedModel):
21
22    def __init__(self, config):
23        super().__init__(config)
24
25        self.albert = AlbertModel(config)       
26
27        # For Masked LM
28        # The original huggingface implementation, created new output weights via dense layer
29        # However the original Albert 
30        self.predictions_dense = nn.Linear(config.hidden_size, config.embedding_size)
31        self.predictions_activation = ACT2FN[config.hidden_act]
32        self.predictions_LayerNorm = nn.LayerNorm(config.embedding_size)
33        self.predictions_bias = nn.Parameter(torch.zeros(config.vocab_size)) 
34        self.predictions_decoder = nn.Linear(config.embedding_size, config.vocab_size)
35
36        self.predictions_decoder.weight = self.albert.embeddings.word_embeddings.weight
37
38        # For sequence order prediction
39        self.seq_relationship = AlbertSequenceOrderHead(config)
40
41
42    def forward(
43        self,
44        input_ids=None,
45        attention_mask=None,
46        token_type_ids=None,
47        position_ids=None,
48        head_mask=None,
49        inputs_embeds=None,
50        masked_lm_labels=None,
51        seq_relationship_labels=None,
52    ):
53
54        outputs = self.albert(
55            input_ids,
56            attention_mask=attention_mask,
57            token_type_ids=token_type_ids,
58            position_ids=position_ids,
59            head_mask=head_mask,
60            inputs_embeds=inputs_embeds,
61        )
62
63        loss_fct = CrossEntropyLoss()
64
65        sequence_output = outputs[0]
66
67        sequence_output = self.predictions_dense(sequence_output)
68        sequence_output = self.predictions_activation(sequence_output)
69        sequence_output = self.predictions_LayerNorm(sequence_output)
70        prediction_scores = self.predictions_decoder(sequence_output)
71
72
73        if masked_lm_labels is not None:
74            masked_lm_loss = loss_fct(prediction_scores.view(-1, self.config.vocab_size)
75                                      , masked_lm_labels.view(-1))
76
77        pooled_output = outputs[1]
78        seq_relationship_scores = self.seq_relationship(pooled_output)
79        if seq_relationship_labels is not None:  
80            seq_relationship_loss = loss_fct(seq_relationship_scores.view(-1, 2), seq_relationship_labels.view(-1))
81
82        loss = masked_lm_loss + seq_relationship_loss
83
84        return loss

第三步：使用LAMB优化器并微调ALBERT

  1#Using LAMB optimizer
  2#LAMB -  "https://github.com/cybertronai/pytorch-lamb"
  3
  4import torch
  5from torch.optim import Optimizer
  6class Lamb(Optimizer):
  7    r"""Implements Lamb algorithm.
  8    It has been proposed in `Large Batch Optimization for Deep Learning: Training BERT in 76 minutes`_.
  9    Arguments:
 10        params (iterable): iterable of parameters to optimize or dicts defining
 11            parameter groups
 12        lr (float, optional): learning rate (default: 1e-3)
 13        betas (Tuple[float, float], optional): coefficients used for computing
 14            running averages of gradient and its square (default: (0.9, 0.999))
 15        eps (float, optional): term added to the denominator to improve
 16            numerical stability (default: 1e-8)
 17        weight_decay (float, optional): weight decay (L2 penalty) (default: 0)
 18        adam (bool, optional): always use trust ratio = 1, which turns this into
 19            Adam. Useful for comparison purposes.
 20    .. _Large Batch Optimization for Deep Learning: Training BERT in 76 minutes:
 21        https://arxiv.org/abs/1904.00962
 22    """
 23
 24    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-6,
 25                 weight_decay=0, adam=False):
 26        if not 0.0 <= lr:
 27            raise ValueError("Invalid learning rate: {}".format(lr))
 28        if not 0.0 <= eps:
 29            raise ValueError("Invalid epsilon value: {}".format(eps))
 30        if not 0.0 <= betas[0] < 1.0:
 31            raise ValueError("Invalid beta parameter at index 0: {}".format(betas[0]))
 32        if not 0.0 <= betas[1] < 1.0:
 33            raise ValueError("Invalid beta parameter at index 1: {}".format(betas[1]))
 34        defaults = dict(lr=lr, betas=betas, eps=eps,
 35                        weight_decay=weight_decay)
 36        self.adam = adam
 37        super(Lamb, self).__init__(params, defaults)
 38
 39    def step(self, closure=None):
 40        """Performs a single optimization step.
 41        Arguments:
 42            closure (callable, optional): A closure that reevaluates the model
 43                and returns the loss.
 44        """
 45        loss = None
 46        if closure is not None:
 47            loss = closure()
 48
 49        for group in self.param_groups:
 50            for p in group['params']:
 51                if p.grad is None:
 52                    continue
 53                grad = p.grad.data
 54                if grad.is_sparse:
 55                    raise RuntimeError('Lamb does not support sparse gradients, consider SparseAdam instad.')
 56
 57                state = self.state[p]
 58
 59                # State initialization
 60                if len(state) == 0:
 61                    state['step'] = 0
 62                    # Exponential moving average of gradient values
 63                    state['exp_avg'] = torch.zeros_like(p.data)
 64                    # Exponential moving average of squared gradient values
 65                    state['exp_avg_sq'] = torch.zeros_like(p.data)
 66
 67                exp_avg, exp_avg_sq = state['exp_avg'], state['exp_avg_sq']
 68                beta1, beta2 = group['betas']
 69
 70                state['step'] += 1
 71
 72                # Decay the first and second moment running average coefficient
 73                # m_t
 74                exp_avg.mul_(beta1).add_(1 - beta1, grad)
 75                # v_t
 76                exp_avg_sq.mul_(beta2).addcmul_(1 - beta2, grad, grad)
 77
 78                # Paper v3 does not use debiasing.
 79                # bias_correction1 = 1 - beta1 ** state['step']
 80                # bias_correction2 = 1 - beta2 ** state['step']
 81                # Apply bias to lr to avoid broadcast.
 82                step_size = group['lr'] # * math.sqrt(bias_correction2) / bias_correction1
 83
 84                weight_norm = p.data.pow(2).sum().sqrt().clamp(0, 10)
 85
 86                adam_step = exp_avg / exp_avg_sq.sqrt().add(group['eps'])
 87                if group['weight_decay'] != 0:
 88                    adam_step.add_(group['weight_decay'], p.data)
 89
 90                adam_norm = adam_step.pow(2).sum().sqrt()
 91                if weight_norm == 0 or adam_norm == 0:
 92                    trust_ratio = 1
 93                else:
 94                    trust_ratio = weight_norm / adam_norm
 95                state['weight_norm'] = weight_norm
 96                state['adam_norm'] = adam_norm
 97                state['trust_ratio'] = trust_ratio
 98                if self.adam:
 99                    trust_ratio = 1
100
101                p.data.add_(-step_size * trust_ratio, adam_step)
102
103        return loss
104
105 import time
106import torch.nn as nn
107import torch
108from tfrecord.torch.dataset import TFRecordDataset
109import numpy as np
110import os
111
112LEARNING_RATE = 0.001
113EPOCH = 40
114BATCH_SIZE = 2
115MAX_GRAD_NORM = 1.0
116
117print(f"--- Resume/Start training ---")   
118feat_map = {"input_ids": "int", 
119           "input_mask": "int",
120           "segment_ids": "int",
121           "next_sentence_labels": "int",
122           "masked_lm_positions": "int",
123           "masked_lm_ids": "int"}
124pretrain_file = 'restaurant_review_train'
125
126# Create albert pretrain model
127config = AlbertConfig.from_json_file("albert_config.json")
128albert_pretrain = AlbertForPretrain(config)
129# Create optimizer
130optimizer = Lamb([{"params": [p for n, p in list(albert_pretrain.named_parameters())]}], lr=LEARNING_RATE)
131albert_pretrain.train()
132dataset = TFRecordDataset(pretrain_file, index_path = None, description=feat_map)
133loader = torch.utils.data.DataLoader(dataset, batch_size=BATCH_SIZE)
134
135tmp_loss = 0
136start_time = time.time()
137
138if os.path.isfile('pretrain_checkpoint'):
139    print(f"--- Load from checkpoint ---")
140    checkpoint = torch.load("pretrain_checkpoint")
141    albert_pretrain.load_state_dict(checkpoint['model_state_dict'])
142    optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
143    epoch = checkpoint['epoch']
144    loss = checkpoint['loss']
145    losses = checkpoint['losses']
146
147else:
148    epoch = -1
149    losses = []
150for e in range(epoch+1, EPOCH):
151    for batch in loader:
152        b_input_ids = batch['input_ids'].long() 
153        b_token_type_ids = batch['segment_ids'].long() 
154        b_seq_relationship_labels = batch['next_sentence_labels'].long()
155
156        # Convert the dataformat from loaded decoded format into format 
157        # loaded format is created by google's Albert create_pretrain.py script
158        # required by huggingfaces pytorch implementation of albert
159        mask_rows = np.nonzero(batch['masked_lm_positions'].numpy())[0]
160        mask_cols = batch['masked_lm_positions'].numpy()[batch['masked_lm_positions'].numpy()!=0]
161        b_attention_mask = np.zeros((BATCH_SIZE,64),dtype=np.int64)
162        b_attention_mask[mask_rows,mask_cols] = 1
163        b_masked_lm_labels = np.zeros((BATCH_SIZE,64),dtype=np.int64) - 100
164        b_masked_lm_labels[mask_rows,mask_cols] = batch['masked_lm_ids'].numpy()[batch['masked_lm_positions'].numpy()!=0]     
165        b_attention_mask=torch.tensor(b_attention_mask).long()
166        b_masked_lm_labels=torch.tensor(b_masked_lm_labels).long()
167
168
169        loss = albert_pretrain(input_ids = b_input_ids
170                              , attention_mask = b_attention_mask
171                              , token_type_ids = b_token_type_ids
172                              , masked_lm_labels = b_masked_lm_labels 
173                              , seq_relationship_labels = b_seq_relationship_labels)
174
175        # clears old gradients
176        optimizer.zero_grad()
177        # backward pass
178        loss.backward()
179        # gradient clipping
180        torch.nn.utils.clip_grad_norm_(parameters=albert_pretrain.parameters(), max_norm=MAX_GRAD_NORM)
181        # update parameters
182        optimizer.step()
183
184        tmp_loss += loss.detach().item()
185
186    # print metrics and save to checkpoint every epoch
187    print(f"Epoch: {e}")
188    print(f"Train loss: {(tmp_loss/20)}")
189    print(f"Train Time: {(time.time()-start_time)/60} mins")  
190    losses.append(tmp_loss/20)
191
192    tmp_loss = 0
193    start_time = time.time()
194
195    torch.save({'model_state_dict': albert_pretrain.state_dict(),'optimizer_state_dict': optimizer.state_dict(),
196               'epoch': e, 'loss': loss,'losses': losses}
197           , 'pretrain_checkpoint')
198from matplotlib import pyplot as plot
199plot.plot(losses)
200
201#Fine tuning ALBERT
202
203# At the time of writing, Hugging face didnt provide the class object for 
204# AlbertForTokenClassification, hence write your own defination below
205from transformers.modeling_albert import AlbertModel, AlbertPreTrainedModel
206from transformers.configuration_albert import AlbertConfig
207from transformers.tokenization_bert import BertTokenizer
208import torch.nn as nn
209from torch.nn import CrossEntropyLoss
210class AlbertForTokenClassification(AlbertPreTrainedModel):
211
212    def __init__(self, albert, config):
213        super().__init__(config)
214        self.num_labels = config.num_labels
215
216        self.albert = albert
217        self.dropout = nn.Dropout(config.hidden_dropout_prob)
218        self.classifier = nn.Linear(config.hidden_size, config.num_labels)
219
220    def forward(
221        self,
222        input_ids=None,
223        attention_mask=None,
224        token_type_ids=None,
225        position_ids=None,
226        head_mask=None,
227        inputs_embeds=None,
228        labels=None,
229    ):
230
231        outputs = self.albert(
232            input_ids,
233            attention_mask=attention_mask,
234            token_type_ids=token_type_ids,
235            position_ids=position_ids,
236            head_mask=head_mask,
237            inputs_embeds=inputs_embeds,
238        )
239
240        sequence_output = outputs[0]
241
242        sequence_output = self.dropout(sequence_output)
243        logits = self.classifier(sequence_output)
244
245        return logits
246
247import numpy as np
248def label_sent(name_tokens, sent_tokens):
249    label = []
250    i = 0
251    if len(name_tokens)>len(sent_tokens):
252        label = np.zeros(len(sent_tokens))
253    else:
254        while i=len(sent_tokens)):
260                        return label
261                    if name_tokens[j+1] != sent_tokens[i+j+1]:
262                        found_match = False
263                if found_match:
264                    label.extend(list(np.ones(len(name_tokens)).astype(int)))
265                    i = i + len(name_tokens)
266                else: 
267                    label.extend([0])
268                    i = i+ 1
269            else:
270                label.extend([0])
271                i=i+1
272    return label
273
274import pandas as pd
275import glob
276import os
277
278tokenizer = BertTokenizer(vocab_file="vocab.txt")
279
280df_data_train = pd.read_csv("dish_name_train.csv")
281df_data_train['name_tokens'] = df_data_train['dish_name'].apply(tokenizer.tokenize)
282df_data_train['review_tokens'] = df_data_train.review.apply(tokenizer.tokenize)
283df_data_train['review_label'] = df_data_train.apply(lambda row: label_sent(row['name_tokens'], row['review_tokens']), axis=1)
284
285df_data_val = pd.read_csv("dish_name_val.csv")
286df_data_val = df_data_val.dropna().reset_index()
287df_data_val['name_tokens'] = df_data_val['dish_name'].apply(tokenizer.tokenize)
288df_data_val['review_tokens'] = df_data_val.review.apply(tokenizer.tokenize)
289df_data_val['review_label'] = df_data_val.apply(lambda row: label_sent(row['name_tokens'], row['review_tokens']), axis=1)
290
291MAX_LEN = 64
292BATCH_SIZE = 1
293from keras.preprocessing.sequence import pad_sequences
294import torch
295from torch.utils.data import TensorDataset, DataLoader, RandomSampler, SequentialSampler
296
297tr_inputs = pad_sequences([tokenizer.convert_tokens_to_ids(txt) for txt in df_data_train['review_tokens']],maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")
298tr_tags = pad_sequences(df_data_train['review_label'],maxlen=MAX_LEN, padding="post",dtype="long", truncating="post")
299# create the mask to ignore the padded elements in the sequences.
300tr_masks = [[float(i>0) for i in ii] for ii in tr_inputs]
301tr_inputs = torch.tensor(tr_inputs)
302tr_tags = torch.tensor(tr_tags)
303tr_masks = torch.tensor(tr_masks)
304train_data = TensorDataset(tr_inputs, tr_masks, tr_tags)
305train_sampler = RandomSampler(train_data)
306train_dataloader = DataLoader(train_data, sampler=train_sampler, batch_size=BATCH_SIZE)
307
308
309val_inputs = pad_sequences([tokenizer.convert_tokens_to_ids(txt) for txt in df_data_val['review_tokens']],maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")
310val_tags = pad_sequences(df_data_val['review_label'],maxlen=MAX_LEN, padding="post",dtype="long", truncating="post")
311# create the mask to ignore the padded elements in the sequences.
312val_masks = [[float(i>0) for i in ii] for ii in val_inputs]
313val_inputs = torch.tensor(val_inputs)
314val_tags = torch.tensor(val_tags)
315val_masks = torch.tensor(val_masks)
316val_data = TensorDataset(val_inputs, val_masks, val_tags)
317val_sampler = RandomSampler(val_data)
318val_dataloader = DataLoader(val_data, sampler=val_sampler, batch_size=BATCH_SIZE)
319
320model_tokenclassification = AlbertForTokenClassification(albert_pretrain.albert, config)
321from torch.optim import Adam
322LEARNING_RATE = 0.0000003
323FULL_FINETUNING = True
324if FULL_FINETUNING:
325    param_optimizer = list(model_tokenclassification.named_parameters())
326    no_decay = ['bias', 'gamma', 'beta']
327    optimizer_grouped_parameters = [
328        {'params': [p for n, p in param_optimizer if not any(nd in n for nd in no_decay)],
329         'weight_decay_rate': 0.01},
330        {'params': [p for n, p in param_optimizer if any(nd in n for nd in no_decay)],
331         'weight_decay_rate': 0.0}
332    ]
333else:
334    param_optimizer = list(model_tokenclassification.classifier.named_parameters()) 
335    optimizer_grouped_parameters = [{"params": [p for n, p in param_optimizer]}]
336optimizer = Adam(optimizer_grouped_parameters, lr=LEARNING_RATE)

第四步：为自定义语料库训练模型

  1#Training the model
  2
  3# from torch.utils.tensorboard import SummaryWriter
  4import time
  5import os.path
  6import torch.nn as nn
  7import torch
  8EPOCH = 800
  9MAX_GRAD_NORM = 1.0
 10
 11start_time = time.time()
 12tr_loss, tr_acc, nb_tr_steps = 0, 0, 0
 13eval_loss, eval_acc, nb_eval_steps = 0, 0, 0
 14
 15if os.path.isfile('finetune_checkpoint'):
 16    print(f"--- Load from checkpoint ---")
 17    checkpoint = torch.load("finetune_checkpoint")
 18    model_tokenclassification.load_state_dict(checkpoint['model_state_dict'])
 19    optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
 20    epoch = checkpoint['epoch']
 21    train_losses = checkpoint['train_losses']
 22    train_accs = checkpoint['train_accs']
 23    eval_losses = checkpoint['eval_losses']
 24    eval_accs = checkpoint['eval_accs']
 25
 26else:
 27    epoch = -1
 28    train_losses,train_accs,eval_losses,eval_accs = [],[],[],[]
 29
 30print(f"--- Resume/Start training ---")    
 31for e in range(epoch+1, EPOCH): 
 32
 33    # TRAIN loop
 34    model_tokenclassification.train()
 35
 36    for batch in train_dataloader:
 37        # add batch to gpu
 38        batch = tuple(t for t in batch)
 39        b_input_ids, b_input_mask, b_labels = batch
 40        # forward pass
 41        b_outputs = model_tokenclassification(b_input_ids, token_type_ids=None, attention_mask=b_input_mask, labels=b_labels)
 42
 43        ce_loss_fct = CrossEntropyLoss()
 44        # Only keep active parts of the loss
 45        b_active_loss = b_input_mask.view(-1) == 1
 46        b_active_logits = b_outputs.view(-1, config.num_labels)[b_active_loss]
 47        b_active_labels = b_labels.view(-1)[b_active_loss]
 48
 49        loss = ce_loss_fct(b_active_logits, b_active_labels)
 50        acc = torch.mean((torch.max(b_active_logits.detach(),1)[1] == b_active_labels.detach()).float())
 51
 52        model_tokenclassification.zero_grad()
 53        # backward pass
 54        loss.backward()
 55        # track train loss
 56        tr_loss += loss.item()
 57        tr_acc += acc
 58        nb_tr_steps += 1
 59        # gradient clipping
 60        torch.nn.utils.clip_grad_norm_(parameters=model_tokenclassification.parameters(), max_norm=MAX_GRAD_NORM)
 61        # update parameters
 62        optimizer.step()
 63
 64
 65    # VALIDATION on validation set
 66    model_tokenclassification.eval()
 67    for batch in val_dataloader:
 68        batch = tuple(t for t in batch)
 69        b_input_ids, b_input_mask, b_labels = batch
 70
 71        with torch.no_grad():
 72
 73            b_outputs = model_tokenclassification(b_input_ids, token_type_ids=None,
 74                         attention_mask=b_input_mask, labels=b_labels)
 75
 76            loss_fct = CrossEntropyLoss()
 77            # Only keep active parts of the loss
 78            b_active_loss = b_input_mask.view(-1) == 1
 79            b_active_logits = b_outputs.view(-1, config.num_labels)[b_active_loss]
 80            b_active_labels = b_labels.view(-1)[b_active_loss]
 81            loss = loss_fct(b_active_logits, b_active_labels)
 82            acc = np.mean(np.argmax(b_active_logits.detach().cpu().numpy(), axis=1).flatten() == b_active_labels.detach().cpu().numpy().flatten())
 83
 84        eval_loss += loss.mean().item()
 85        eval_acc += acc
 86        nb_eval_steps += 1    
 87
 88    if e % 10 ==0:
 89
 90        print(f"Epoch: {e}")
 91        print(f"Train loss: {(tr_loss/nb_tr_steps)}")
 92        print(f"Train acc: {(tr_acc/nb_tr_steps)}")
 93        print(f"Train Time: {(time.time()-start_time)/60} mins")  
 94
 95        print(f"Validation loss: {eval_loss/nb_eval_steps}")
 96        print(f"Validation Accuracy: {(eval_acc/nb_eval_steps)}") 
 97
 98        train_losses.append(tr_loss/nb_tr_steps)
 99        train_accs.append(tr_acc/nb_tr_steps)
100        eval_losses.append(eval_loss/nb_eval_steps)
101        eval_accs.append(eval_acc/nb_eval_steps)
102
103
104        tr_loss, tr_acc, nb_tr_steps = 0, 0, 0 
105        eval_loss, eval_acc, nb_eval_steps = 0, 0, 0 
106        start_time = time.time() 
107
108        torch.save({'model_state_dict': model_tokenclassification.state_dict(),'optimizer_state_dict': optimizer.state_dict(),
109           'epoch': e, 'train_losses': train_losses,'train_accs': train_accs, 'eval_losses':eval_losses,'eval_accs':eval_accs}
110       , 'finetune_checkpoint')
111
112plot.plot(train_losses)
113plot.plot(train_accs)
114plot.plot(eval_losses)
115plot.plot(eval_accs)
116plot.legend(labels = ['train_loss','train_accuracy','validation_loss','validation_accuracy'])

第五步：预测

 1#Prediction
 2
 3def predict(texts):
 4    tokenized_texts = [tokenizer.tokenize(txt) for txt in texts]
 5    input_ids = pad_sequences([tokenizer.convert_tokens_to_ids(txt) for txt in tokenized_texts],
 6                              maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")
 7    attention_mask = [[float(i>0) for i in ii] for ii in input_ids]
 8
 9    input_ids = torch.tensor(input_ids)
10    attention_mask = torch.tensor(attention_mask)
11
12    dataset = TensorDataset(input_ids, attention_mask)
13    datasampler = SequentialSampler(dataset)
14    dataloader = DataLoader(dataset, sampler=datasampler, batch_size=BATCH_SIZE) 
15
16    predicted_labels = []
17
18    for batch in dataloader:
19        batch = tuple(t for t in batch)
20        b_input_ids, b_input_mask = batch
21
22        with torch.no_grad():
23            logits = model_tokenclassification(b_input_ids, token_type_ids=None,
24                           attention_mask=b_input_mask)
25
26            predicted_labels.append(np.multiply(np.argmax(logits.detach().cpu().numpy(),axis=2), b_input_mask.detach().cpu().numpy()))
27    # np.concatenate(predicted_labels), to flatten list of arrays of batch_size * max_len into list of arrays of max_len
28    return np.concatenate(predicted_labels).astype(int), tokenized_texts
29
30def get_dish_candidate_names(predicted_label, tokenized_text):
31    name_lists = []
32    if len(np.where(predicted_label>0)[0])>0:
33        name_idx_combined = np.where(predicted_label>0)[0]
34        name_idxs = np.split(name_idx_combined, np.where(np.diff(name_idx_combined) != 1)[0]+1)
35        name_lists.append([" ".join(np.take(tokenized_text,name_idx)) for name_idx in name_idxs])
36        # If there duplicate names in the name_lists
37        name_lists = np.unique(name_lists)
38        return name_lists
39    else:
40        return None
41
42texts = df_data_val.review.values
43predicted_labels, _ = predict(texts)
44df_data_val['predicted_review_label'] = list(predicted_labels)
45df_data_val['predicted_name']=df_data_val.apply(lambda row: get_dish_candidate_names(row.predicted_review_label, row.review_tokens)
46                                                , axis=1)
47
48texts = df_data_train.review.values
49predicted_labels, _ = predict(texts)
50df_data_train['predicted_review_label'] = list(predicted_labels)
51df_data_train['predicted_name']=df_data_train.apply(lambda row: get_dish_candidate_names(row.predicted_review_label, row.review_tokens)
52                                                , axis=1)
53
54(df_data_val)

实验结果

可以看到，模型成功地从用餐评论中，提取出了菜名。

模型比拼

从上面的实战应用中可以看到，ALBERT虽然很lite，结果也可以说相当不错。

那么，参数少、结果好，是否就可以替代BERT呢？

我们可以仔细看下二者实验性能的比较，这里的Speedup是指训练时间。

因为数据数据少了，分布式训练时吞吐上去了，所以ALBERT训练更快。但推理时间还是需要和BERT一样的transformer计算。

所以可以总结为：

在相同的训练时间下，ALBERT效果要比BERT好。
在相同的推理时间下，ALBERT base和large的效果都是没有BERT好。

此外，Naman Bansal认为，由于ALBERT的结构，实现ALBERT的计算代价比BERT要高一些。

所以，还是“鱼和熊掌不可兼得”的关系，要想让ALBERT完全超越、替代BERT，还需要做更进一步的研究和改良。

传送门

博客地址：
https://medium.com/@namanbansal9909/should-we-shift-from-bert-to-albert-e6fbb7779d3e

— 完 —

你可能感兴趣的:(人工智能)

电力知识图谱与大模型的结合：从构建到行业应用的深度解析 Cc不爱吃洋葱知识图谱人工智能自然语言处理大模型大语言模型 LLM 语言模型
随着大数据和人工智能技术的飞速发展，电力行业迎来了智能化转型的全新契机。电力知识图谱作为一种将数据转化为结构化知识的技术，正在赋能故障诊断、设备管理、运维优化等核心场景。而当知识图谱与大模型相结合，更能释放强大的知识推理和智能预测能力，为行业智慧化发展注入新动力。本文将从专业视角，深入探讨电力知识图谱的构建过程、大模型的融入方法，以及它们在实际应用中的落地场景。通过具体案例剖析与技术解读，帮助你了
亚远景-ISO/PAS 8800:2024《道路车辆—安全和人工智能》简介亚远景aspice 汽车人工智能大数据
ISO/PAS8800:2024《道路车辆—安全和人工智能》简介：ISO/PAS8800:2024《道路车辆—安全和人工智能》背景与意义随着汽车智能化发展，自动驾驶和智能座舱等技术快速进步，但人工智能在汽车领域应用面临安全性、数据质量与管理、技术标准规范缺失、公众认知和接受度等挑战。该标准旨在规范汽车领域人工智能技术应用，提高系统安全性、可靠性和兼容性，推动汽车智能化健康发展。ISO/PAS880
《2025-2030年全球及中国人工智能芯片（AI芯片）行业发展前景展望与投资战略规划分析报告》1 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型计算价值投资人工智能
下面呈现《2025-2030年全球及中国人工智能芯片（AI芯片）行业发展前景展望与投资战略规划分析报告》全文，全文内容超过20000字，报告内容全面、结构严谨，涵盖了全球及中国市场现状、技术趋势、竞争态势、政策环境、风险分析以及未来投资战略规划等多个方面，供相关决策部门和投资机构参考。《2025-2030年全球及中国人工智能芯片（AI芯片）行业发展前景展望与投资战略规划分析报告》目录摘要前言全球人
AI芯片：科技变革的核心驱动力乐得瑞_郑钊展13172458616 人工智能科技
近年来，人工智能（AI）的飞速发展对众多行业产生了深远影响，芯片领域也不例外。AI在芯片设计、制造及应用等方面带来了革新性的改变，成为推动芯片行业发展的关键力量。AI助力芯片设计效率飞升传统芯片设计极为复杂，涉及数十亿晶体管的布局与连接，需庞大工程师团队耗费数月至数年才能完成从架构到制造的全流程。不过，AI技术的出现正在扭转这一局面。AI能处理繁重重复任务，优化复杂芯片布局并设计专用芯片，大大提高
为一位经验丰富的程序员量身定制Python学习路线人工智能首选语言：python Python新技术小黄人软件 chatGPT python 学习人工智能
人工智能首选语言：python必学。解释型语言(无编译这个环节)，直接执行代码，面向对象，脚本语言没基础在这里学为一位经验丰富的程序员量身定制Python学习路线，主要应关注于深化已有的编程知识和技能，并探索Python特有的高级特性。以下是推荐的学习路线：基础复习：如果对Python基础不熟悉，先从Python的基础语法、数据类型、控制流程等开始复习。高级语言特性：深入理解装饰器、上下文管理器、
知识管理成功：关键指标和策略，研究信息的投资回报率清风徐徐de来其他
信息过载会影响生产力。没有人工智能的帮助，信息过载会影响生产力。大量的可用信息，知识工作者不仅仅是超负荷工作；他们感到不知所措，他们倾向于浪费时间（和脑细胞）来应付他们被大量的数据抛向他们，挣扎着试图筛选出重要的信息数据来自一堆不重要和重复的数据。这是一场失败的战斗。计算投资回报率（ROI）是一个公认的商业方法ROI是一种用于确定可行性的方法一项新事业或对既定流程的重大改变。从本质上讲，投资回报率
《Grok3：AI新纪元的璀璨之星》空云风语人工智能深度学习神经网络人工智能百度
《Grok3：AI新纪元的璀璨之星》Grok3：横空出世，震撼AI界在科技飞速发展的今天，人工智能领域的每一次重大突破都如同巨石投入平静湖面，激起千层浪。而Grok3的发布，无疑是一颗重磅炸弹，在AI界掀起了惊涛骇浪，引发了全球范围内的广泛关注和激烈讨论。北京时间2月18日午间，马斯克旗下人工智能初创公司xAI正式发布新一代聊天机器人Grok3，这场发布会吸引了超过200万人观看，其受关注度可见一
DeepSeek大模型的发展的十问十答科技互联人生人工智能 AIGC Deepseek
DeepSeek大模型是由杭州深度求索人工智能基础技术研究有限公司开发的一款基于Transformer架构的大型语言模型，具体介绍如下：1.架构基础Transformer架构：DeepSeek大模型基于Transformer架构，该架构由Google在2017年提出，以自注意力机制为核心，能够并行处理输入序列中的每个元素，从而大大提高模型的计算效率。DeepSeek在Transformer架构的基
360智算中心：万卡GPU集群落地实践 ZVAyIVqt0UFji
360智算中心是一个融合了人工智能、异构计算、大数据、高性能网络、AI平台等多种技术的综合计算设施，旨在为各类复杂的AI计算任务提供高效、智能化的算力支持。360智算中心不仅具备强大的计算和数据处理能力，还结合了AI开发平台，使得计算资源的使用更加高效和智能化。360内部对于智算中心的核心诉求是性能和稳定性，本文将深入探讨360智算中心在万卡GPU集群中的落地实践过程，包括算力基础设施搭建、集群优
什么是Scaling Laws（缩放定律）；DeepSeek的Scaling Laws ZhangJiQun&MXP 教学 2024大模型以及算力 2021 论文人工智能自然语言处理神经网络语言模型深度学习
什么是ScalingLaws（缩放定律）ScalingLaws（缩放定律）在人工智能尤其是深度学习领域具有重要意义，以下是相关介绍及示例：定义与内涵ScalingLaws主要描述了深度学习模型在规模（如模型参数数量、训练数据量、计算资源等）不断扩大时，模型性能与这些规模因素之间的定量关系。它表明，在一定条件下，模型的性能会随着模型规模的增加而以某种可预测的方式提升，通常表现为模型的损失函数值随模型
大模型工具大比拼：SGLang、Ollama、VLLM、LLaMA.cpp 如何选择？ X_taiyang18 人工智能
简介：在人工智能飞速发展的今天，大模型已经成为推动技术革新的核心力量。无论是智能客服、内容创作，还是科研辅助、代码生成，大模型的身影无处不在。然而，面对市场上琳琅满目的工具，如何挑选最适合自己的那一款？本文将深入对比SGLang、Ollama、VLLM和LLaMA.cpp四款热门大模型工具，帮助您找到最契合需求的解决方案！工具概览在开始之前，先简单了解一下这四款工具的特点：SGLang：性能卓越的
【生物AI】AI在生物医药研发中的应用：基于深度学习的疾病诊断标志物发现 Anitalin00 生物AI 人工智能深度学习
摘要生物医药研发一直是推动人类健康进步的关键领域，然而传统研发方式在疾病诊断标志物发现方面存在效率低、准确性不足等问题。人工智能（AI），特别是深度学习技术，凭借其强大的数据处理和特征挖掘能力，为疾病诊断标志物的发现带来了新的契机。本文深入探讨AI在这一领域的具体应用，涵盖详细的实现流程、代码示例、运行结果分析，以及实际使用场景和应用效果评估。一、引言疾病诊断标志物是能够反映疾病发生、发展过程的生
编程行业必备！12个热门AI工具帮你写代码~ 人工智能
到今年，AI编程工具的发展已经非常成熟了，它们可以极大地提高开发效率，帮助程序员解决复杂问题，并优化代码质量。拒绝废话，今天给大家推荐12款AI编程工具！1悬镜安全灵脉AI开发安全卫士灵脉AI开发安全卫士是基于多模智能引擎的新一代静态代码安全扫描产品，通过自动化审查流程来定位潜在缺陷、提升审计效率和代码质量，并显著减少手动审查所需的时间和精力。该平台利用人工智能技术，提供逐行的代码反馈，建议改进和
大模型应用层的创业挑战 AGI大模型与大数据研究院计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
大模型应用层的创业挑战关键词：大模型、应用层、创业、挑战、算法、架构、数据、资源、合作、盈利模型1.背景介绍随着计算能力和数据量的指数级增长，大模型（LargeModels）已经成为人工智能领域的关键驱动因素。大模型的应用从语言模型扩展到图像、视频和音频领域，为各行各业带来了颠覆性的创新。然而，构建和部署大模型的成本高昂，对计算资源和数据的需求也日益增加。本文将探讨大模型应用层面的创业挑战，并提供
商汤绝影端到端自动驾驶的迭代优化 AGI大模型与大数据研究院计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
自动驾驶,端到端,迭代优化,深度学习,感知,规划,控制,模型训练,数据增强,模型微调1.背景介绍随着人工智能和计算机视觉技术的飞速发展，自动驾驶汽车从科幻走进了现实。商汤科技推出的绝影端到端自动驾驶系统，就是其中的佼佼者。本文将深入剖析商汤绝影端到端自动驾驶系统的迭代优化过程，帮助读者理解其背后的技术原理和架构设计。2.核心概念与联系商汤绝影端到端自动驾驶系统的核心架构如下：graphLRA[感知
DeepSeek的无限可能：探索前沿AI技术在多领域的应用编码追梦人 AI人工智能人工智能
引言2023年，全球人工智能产业规模突破万亿美元大关，一场以深度学习为核心的技术革命正以前所未有的速度重构人类社会的运行逻辑。在这场变革的浪潮中，中国AI企业深度求索（DeepSeek）以其独特的“问题驱动型”技术路径，悄然构建起覆盖科研、医疗、金融、教育等领域的智能生态系统。第一章技术底座：重构AI核心范式1.1MoE架构的颠覆性创新传统Transformer模型面临参数爆炸与能耗困境，Deep
DeepSeek模型实战：从理论到应用的深度探索 CodeJourney. 人工智能算法数据库
一、引言在人工智能快速发展的当下，大型语言模型已成为自然语言处理领域的核心力量。DeepSeek模型作为其中的佼佼者，凭借其先进的架构和强大的性能，吸引了众多开发者和研究人员的关注。本文将深入探讨DeepSeek模型的技术原理，并通过实际案例展示其在不同场景下的应用，为读者提供从理论到实践的全面指导。二、DeepSeek模型技术剖析（一）架构基础DeepSeek模型基于Transformer架构构
字节跳动AI编程神器Trae深度解读与使用研究 LCG元大模型 AI编程
一、引言在软件开发领域，编程工具的效率和智能化程度对开发者的工作成效有着深远影响。随着人工智能技术的飞速发展，AI编程工具应运而生，为开发者带来了全新的编程体验和更高的效率提升潜力。字节跳动于2025年1月19日正式发布的AI编程工具Trae，凭借其独特的功能设计和对中文开发者需求的深入理解，在开发者社区中引起了广泛关注。本研究将对Trae进行全面解读，并详细介绍其使用方法，旨在帮助开发者深入了解
《2025：中国行业新方向与民营企业的使命》晚风る传媒
2025年，中国经济正站在新的历史节点上，科技创新、数字经济、绿色经济等成为发展的核心驱动力。在这样的背景下，2025年民营企业座谈会的召开，无疑为中国未来行业的发展指明了方向。本文将结合座谈会内容，探讨中国未来行业发展的新方向。一、数字经济：创新驱动的核心引擎数字经济已成为全球经济增长的重要引擎，而民营企业在其中扮演着关键角色。2025年，数字经济将继续深化，涵盖云计算、大数据、人工智能、物联网
网络安全：挑战、技术与未来发展一ge科研小菜鸡运维网络运维
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言在数字化时代，网络安全（Cybersecurity）已成为全球关注的焦点。随着云计算、大数据、人工智能（AI）、物联网（IoT）等技术的发展，企业和个人的敏感数据在互联网上的流通日益增加，黑客攻击、数据泄露、勒索软件等网络安全威胁也日趋严峻。本文将从网络安全的核心概念、常见攻击手段、防御技术、企业安全策略以及未来发展趋势等方面，深入探讨如
DeepSeek 的创新融合：多行业应用实践探索 ♡喜欢做梦人工智能 deepseek
引言在数字化转型的浪潮中，技术的融合与创新成为推动各行业发展的关键力量。蓝耘平台作为行业内备受瞩目的创新平台，以其强大的资源整合能力和灵活的架构，为企业提供了高效的服务支持。而DeepSeek凭借先进的人工智能技术，在自然语言处理、数据分析等领域展现出卓越的性能。当蓝耘平台与DeepSeek携手，二者的优势互补为多行业解决方案带来了全新的应用实践方向，为企业解决复杂业务问题、提升运营效率提供了强大
CSDN C知道接入DeepSeek-R1满血版，赋能开发者高效智能编程与问题解决 CSDN资讯人工智能
CSDN宣布旗下C知道产品将接入深度求索（DeepSeek）人工智能大模型，通过植入“深度思考模式”，全面升级用户的AI搜索体验，重新定义智能编程场景。“CSDN积极整合行业顶尖技术能力，现已引入以DeepSeek为代表的推理大模型，并与C知道AI搜索产品深度融合，致力于为开发者提供更高效、更智能的技术解决方案与学习辅助工具，助力开发者提升效率、解决技术难题。”CSDN技术负责人表示，持续升级的A
阅读论文“用于车联网安全车载通信的机器学习技术“的学习笔记饮长安千年月物联网安全安全机器学习学习
前言论文全称为MachineLearningTechnologiesforSecureVehicularCommunicationinInternetofVehicles:RecentAdvancescandApplications智能交通系统（ITS）和计算系统的快速发展为智能交通安全提供了新的科学研究，并提供了舒适和高效的解决方案。人工智能（AI）已被广泛用于优化不同研究领域的传统数据驱动方法
【AI引领潮流|未来智慧生活】国内机器聊天软件推荐（超全！）and人工智能&智能学习熔光人工智能 AI软件智能学习生活
1.AI聊天软件概述1.1AI聊天软件的关键技术1.2AI聊天软件的应用1.3AI聊天软件的挑战1.4总结2.智普清言3.文心一言4.讯飞星火5.知元AI6.白马AI7.ChatGPT8.一览AI应用链接9.人工智能10.机器学习↓个人主页：C_GUIQU↑1.AI聊天软件概述AI聊天软件是一种利用自然语言处理（NLP）、自然语言理解（NLU）和机器学习（ML）技术构建的软件，它能够理解用户的自然
DeepSeek行业应用实践报告100+份汇总解读|附PDF下载数据挖掘深度学习机器学习算法
原文链接：https://tecdat.cn/?p=40240在当下快速发展的科技浪潮中，人工智能（AI）已成为推动各行业变革的核心力量。AI大模型的出现，更是为众多领域带来了全新的发展机遇与挑战。本报告聚焦于AI大模型中的佼佼者——DeepSeek，通过深度剖析其技术特性、应用场景、市场表现以及未来趋势，为读者呈现一个全面且深入的AI行业发展图景。本报告汇总洞察基于文末157份DeepSeek行
【论文投稿-第五届人工智能与工业技术应用国际学术会议（AIITA 2025）】编程语言大比拼：C、C++、Python 和 Java 禁默话题探讨学术会议 c语言 c++python
第五届人工智能与工业技术应用国际学术会议（AIITA2025）将于2025年3月28-30日在中国西安举行。会议旨在为从事人工智能、智能制造、自动化等领域的专家学者、工程技术人员、研发人员提供一个共享科研成果和前沿技术，了解学术发展趋势，拓宽研究思路，加强学术研究和探讨，促进学术成果产业化合作的平台。编辑AIITA2025已上线至IEEE官方列表，详情请点击....大会时间：2025年3月28日-
从零开始学习代理AI：2025全面指南 zxzy_org 学习人工智能 ai
代理AI作为人工智能的一项重要技术，近年来得到了广泛关注。2025年，代理AI技术的不断进步让许多开发者和企业都迫切希望掌握这项技术。如果你是从零开始学习代理AI，本文将为你提供一份全面的学习指南，帮助你掌握代理AI的基础知识、关键技术和实战经验。首先，你需要理解代理AI的基本概念。代理AI是一种能够自主行动并根据环境反馈调整行为的智能系统。它能够通过学习和推理来完成复杂任务，如自动化客服、智能推
人工智能到底是什么？ yzx991013 开发语言人工智能 python django
人工智能（ArtificialIntelligence，简称AI）是一门研究和开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的学科。以下是关于人工智能的具体介绍：定义-从技术角度：人工智能是让计算机系统具备像人类一样的感知、学习、推理、决策等能力，通过算法和数据使计算机能处理和理解各种复杂信息，如语音识别系统能听懂人类语言并转化为文字。-从学科交叉角度：人工智能融合了计算机科学、控制
智能城市：科技驱动的未来城市给生活加糖！热门知识科技语音识别人工智能
随着科技的不断发展和城市化进程的加速，传统城市面临着诸多挑战，包括交通拥堵、环境污染、资源浪费和公共服务不足等问题。为了解决这些问题，智能城市（SmartCity）的概念应运而生。智能城市是利用现代信息技术、物联网、大数据、云计算、人工智能等手段，对城市的各个方面进行全面的智能化管理与优化，从而提高城市运行效率、改善居民生活质量，并实现可持续发展的城市目标。一、什么是智能城市？智能城市是指通过信息
聚焦云+AI产业前沿发展，国内首个智算云生态影响力矩阵即将发布科技云报道云计算 AI 人工智能云计算人工智能 ai
当前，全球人工智能技术迅猛发展，已经成为世界科技强国重点布局的关键赛道。云计算与人工智能的结合正引领着数字时代的未来，两者的融合也呈现出日益紧密的趋势。随着人工智能产业呈现井喷式发展，智能算力逐渐成为算力结构的主要组成，传统的通用云计算正加速与智算融合，升级成为可服务于人工智能技术和应用发展的智算云，成为堪比云计算的黄金赛道。作为“云+AI”协同发展的产物，智算云以其泛在互联、云化共享、高效计算和
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。