常鸿宇

NLP实践——基于SIFRank的中文关键短语抽取

0. 本文介绍
1. 运行环境
2. 项目目录
3. 代码实现
- 3.1 utils
- 3.2 初始化各类组件
- - 3.2.1 标点和停用词
  - 3.2.2 预训练词汇权重
  - 3.2.3 分词/词性标注模型
  - 3.2.4 候选短语抽取模型
  - 3.2.5 词形还原模型
  - 3.2.6 编码模型
- 3.3 建立关键短语抽取模型
- 3.4 抽取应用
4. 改进
- 4.1 增加候选关键短语
- 4.2 自监督训练

0. 本文介绍

本文在《SIFRank: A New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model》的基础上，借鉴原作者的思想，重写实现了一个好用的中文关键短语抽取工具。
首先声明一下，这篇论文我并没有看过，所有的理解全都是基于作者开源出来的代码，因而不保证所有的思想都与原作者保持一致。

这篇论文是一个抽取式的关键短语模型，相比近两年备受关注的生成式关键短语模型，其技术理念已经相对落后，但是在实际应用的生产环境中，尤其是对于无监督的垂直领域，我们更关心的是模型的可解释性以及抽取结果的可控性，因而抽取式的模型相比生成式，能够更加让我感到安心，这也是选择这篇论文作为参考的主要原因。在尝试这个思路之前，也对textrank，yake，autophrasex，UCphrase等关键短语抽取工具进行了尝试，但是效果都不太理想。

下面贴出原项目的地址：
https://github.com/yukuotc/SIFRank_zh

原项目的时间比较久，其中所应用到的elmo编码器的预训练模型的下载地址已经失效，并且词性标注模型也比较旧了，所以在此项目的基础上，我从中借鉴了一部分代码，并参考作者的思路，提出并实现了自己的解决方法，主要做出的修改如下：

将编码模型从elmo替换成了以Bert为代表的预训练模型，可更好地对候选短语进行表征
编码模型支持输入文档最大长度由512扩展为1024
将词性模型从thulac替换成了ltp4，用gpu运行，运行效率提高为原来的15倍左右
提供了自定义候选短语生成方法，根据特定场景定制以提高召回
对自监督的领域迁移方法进行了测试

熟悉我写作风格的同学们应该比较了解，我很少进行理论介绍，我的博客主要从易用的角度，关注一个具体功能的实现，接下来我将从运行环境开始讲起，介绍如何实现这一关键短语抽取模型。

1. 运行环境

首先介绍一下环境配置，我的运行环境如下：

torch 1.8.1
ltp 4.1.4
thulac 0.2.1
nltk 3.5
transformers 4.9.2
sentence-transformers 2.0.0

其中，

thulac是参考原作者的环境，如果完全按照我的方法去做，不考虑原作者的方法，可以不安装；
sentence-transformers是用于自监督训练，如果对领域迁移不感兴趣，可以不安装；
transformers高版本是sentence-transformers的要求，如果不安装后者，估计前者4.0以上即可；
ltp最好采用4.1或以上版本，其新版与旧版在效率和准确度上都有很大的差异；
torch满足相应版本的ltp和transformers即可；
nltk的版本相对随意，一般也不会与其他模块冲突。

2. 项目目录

然后介绍一下项目目录。建立一个项目根目录keyphrase_extractor，在此目录下建立一个jupyter笔记或py文件，建立一个utils.py（其中的内容后边会介绍），以及一个文件夹resources；

resources中，建立一个ner_usr_dict.txt，其中存放分词时的用户自定义实体表，每行写一个实体，例如：

南京市长
江大桥

这个文件的作用是，让分词模型在分词的时候，把“南京市长江大桥”分为[“南京市长”, “江大桥”]，而非[“南京市”, “长江大桥”]。

然后去原项目中，下载auxiliary_data下的dict.txt，放在我们的resources下，命名为pretrained_weight_dict.txt。

再去huggingface下载一个你觉得顺眼的模型，比如bert-base，我这里用的例子是electra，然后把整个模型的所有文件放在resources中的一个目录下。（注意：不要用基于Roberta的模型，Roberta的tokenizer比较特殊，我没有进行适配）

全部准备好之后，整个项目目录应该是这个样子：

keyphrase_extractor
|--keyphrase_extract.ipynb        # 下面所有的代码放进这个笔记
|--utils.py                  # 辅助函数
|--resources
    |--ner_usr_dict.txt         # 自定义实体表
    |--pretrained_weight_dict.txt  # 预训练词汇权重
    |--chinese-electra-180g-small-discriminator   # electra 预训练模型
        |--config.json
        |--tokenizer_config.json
        |--tokenizer.json
        |--added_tokens.json
        |--special_tokens_map.json
        |--vocab.txt
        |--pytorch_model.bin

3. 代码实现

终于来到了喜闻乐见的代码环节，在这一环节中的所有代码，除了3.1中，全部依次丢进keyphrase_extract.ipynb中运行即可。
代码的基本逻辑我随手花了一个图，同学们凑合着看。

3.1 utils

首先完善一下我们的辅助类函数，打开utils.py，加入以下三个函数：

get_word_weight：用于获取词权重
process_long_input：用于将bert支持的长度从512扩展为1024
rematch：用于token-level到char-level的匹配

这三个函数是到处借鉴来的，其中1是本项目中改写的，2是此论文所述项目中搬来的，3是从bert4keras中搬来的。

import numpy as np
import unicodedata, re
import torch
import torch.nn.functional as F


def get_word_weight(weightfile="", weightpara=2.7e-4):
    """
    Get the weight of words by word_fre/sum_fre_words
    :param weightfile
    :param weightpara
    :return: word2weight[word]=weight : a dict of word weight
    """
    if weightpara <= 0:  # when the parameter makes no sense, use unweighted
        weightpara = 1.0
    word2weight = {}
    word2fre = {}
    with open(weightfile, encoding='UTF-8') as f:
        lines = f.readlines()
    # sum_num_words = 0
    sum_fre_words = 0
    for line in lines:
        word_fre = line.split()
        # sum_num_words += 1
        if (len(word_fre) >= 2):
            word2fre[word_fre[0]] = float(word_fre[1])
            sum_fre_words += float(word_fre[1])
        else:
            print(line)
    for key, value in word2fre.items():
        word2weight[key] = weightpara / (weightpara + value / sum_fre_words)
        # word2weight[key] = 1.0 #method of RVA
    return word2weight


def process_long_input(model, input_ids, attention_mask, start_tokens, end_tokens):
    """

    Parameters
    ----------
    model: 编码模型
    input_ids: (b, l)
    attention_mask: (b, l)
    start_tokens: 对bert而言就是[101]
    end_tokens: [102]

    Returns
    -------

    """
    # Split the input to 2 overlapping chunks. Now BERT can encode inputs of which the length are up to 1024.
    n, c = input_ids.size()
    start_tokens = torch.tensor(start_tokens).to(input_ids)   # 转化为tensor放在指定卡上
    end_tokens = torch.tensor(end_tokens).to(input_ids)
    len_start = start_tokens.size(0)   # 1
    len_end = end_tokens.size(0)       # 1 if bert , 2 if roberta
    if c <= 512:
        output = model(
            input_ids=input_ids,
            attention_mask=attention_mask,
            output_attentions=True,
        )
        sequence_output = output[0]
        attention = output[-1][-1]
    else:
        new_input_ids, new_attention_mask, num_seg = [], [], []   # num_seg记录原来的样本被切成多少片，1 or 2
        seq_len = attention_mask.sum(1).cpu().numpy().astype(np.int32).tolist()  # 在len维度上求和，即每个样本的1的个数，即长度
        for i, l_i in enumerate(seq_len):
            # 对batch中的每一个样本循环
            if l_i <= 512:
                # 如果长度小于512，就直接添加
                new_input_ids.append(input_ids[i, :512])
                new_attention_mask.append(attention_mask[i, :512])
                num_seg.append(1)
            else:
                # 超过512的样本
                # 第一段取开始到511，加结束符
                input_ids1 = torch.cat([input_ids[i, :512 - len_end], end_tokens], dim=-1)
                # 第二段取开始符，加剩下的部分
                input_ids2 = torch.cat([start_tokens, input_ids[i, (l_i - 512 + len_start): l_i]], dim=-1)
                # attention_mask同理
                attention_mask1 = attention_mask[i, :512]
                attention_mask2 = attention_mask[i, (l_i - 512): l_i]
                new_input_ids.extend([input_ids1, input_ids2])
                new_attention_mask.extend([attention_mask1, attention_mask2])
                num_seg.append(2)
        # 在batch维度上拼接
        # 原本的input_ids 是(b, l)，经过上面的for循环new_input_ids每一项是(l,)
        # 然后在dim=0上stack，变回了(b, l)
        # 但是此时的b可能已经大于原来的batch_size
        input_ids = torch.stack(new_input_ids, dim=0)
        attention_mask = torch.stack(new_attention_mask, dim=0)
        output = model(
            input_ids=input_ids,
            attention_mask=attention_mask,
            output_attentions=True,
        )
        # 把新构建的输入进行建模，然后把建模结果拼回原来的
        sequence_output = output[0]   # (b, l, 768)
        attention = output[-1][-1]    # (b, ?, l, l)
        i = 0   # i是旧的batch号
        new_output, new_attention = [], []
        for (n_s, l_i) in zip(num_seg, seq_len):
            if n_s == 1:
                # 这个pad没看懂。n_s == 1的话，c - 512应该小于0
                output = F.pad(sequence_output[i], (0, 0, 0, c - 512))
                att = F.pad(attention[i], (0, c - 512, 0, c - 512))
                new_output.append(output)
                new_attention.append(att)
            elif n_s == 2:
                # 取第一个片段的建模结果
                output1 = sequence_output[i][:512 - len_end]
                mask1 = attention_mask[i][:512 - len_end]
                att1 = attention[i][:, :512 - len_end, :512 - len_end]  # 构建第一个样本的时候增加了结束符，所以要去掉它
                output1 = F.pad(output1, (0, 0, 0, c - 512 + len_end))
                mask1 = F.pad(mask1, (0, c - 512 + len_end))
                att1 = F.pad(att1, (0, c - 512 + len_end, 0, c - 512 + len_end))

                # 第二个片段的建模结果
                output2 = sequence_output[i + 1][len_start:]
                mask2 = attention_mask[i + 1][len_start:]
                att2 = attention[i + 1][:, len_start:, len_start:]   # 构建第二个样本的时候增加了开始符，所以要从1开始索引，去掉它
                output2 = F.pad(output2, (0, 0, l_i - 512 + len_start, c - l_i))
                mask2 = F.pad(mask2, (l_i - 512 + len_start, c - l_i))
                att2 = F.pad(att2, [l_i - 512 + len_start, c - l_i, l_i - 512 + len_start, c - l_i])

                # 把两个片段合并
                mask = mask1 + mask2 + 1e-10
                output = (output1 + output2) / mask.unsqueeze(-1)
                att = (att1 + att2)
                att = att / (att.sum(-1, keepdim=True) + 1e-10)
                new_output.append(output)
                new_attention.append(att)
            i += n_s
        sequence_output = torch.stack(new_output, dim=0)
        attention = torch.stack(new_attention, dim=0)

    return sequence_output, attention


def rematch(text, tokens, do_lower_case=True):
    if do_lower_case:
        text = text.lower()
        
    def is_control(ch):
        return unicodedata.category(ch) in ('Cc', 'Cf')
    
    def is_special(ch):
        return bool(ch) and (ch[0] == '[') and (ch[-1] == ']')
    
    def stem(token):
        if token[:2] == '##':
            return token[2:]
        else:
            return token
        
    normalized_text, char_mapping = '', []
    for i, ch in enumerate(text):
        if do_lower_case:
            ch = unicodedata.normalize('NFD', ch)
            ch = ''.join([c for c in ch if unicodedata.category(c) != 'mn'])
        ch = ''.join([c for c in ch if not (ord(c) == 0 or ord(c) == 0xfffd or is_control(c))])
        normalized_text += ch
        char_mapping.extend([i] * len(ch))
    text, token_mapping, offset = normalized_text, [], 0
    for token in tokens:
        if token.startswith('▁'):
            token = token[1:]
        if is_special(token):
            token_mapping.append([])
        else:
            token = stem(token)
            if do_lower_case:
                token = token.lower()
            try:
                start = text[offset:].index(token) + offset
            except Exception as e:
                print(e)
                print(token)
            end = start + len(token)
            token_mapping.append(char_mapping[start: end])
            offset = end
            
    return token_mapping

3.2 初始化各类组件

先import：

import time
import numpy as np
import thulac
import nltk
from nltk.corpus import stopwords
from ltp import LTP

import torch
import torch.nn.functional as F
from transformers import ElectraModel, ElectraTokenizerFast
from sentence_transformers.util import pytorch_cos_sim

from utils import get_word_weight, process_long_input, rematch

3.2.1 标点和停用词

english_punctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%']
chinese_punctuations = '！？｡。＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.'
punctuations = ''.join(i for i in english_punctuations) + chinese_punctuations


# 注意只对英文去停，中文停用词保留
stop_words = stopwords.words('english')

3.2.2 预训练词汇权重

weightfile_pretrain = './resources/pretrained_weight_dict.txt'
weightpara_pretrain = 2.7e-4
word2weight_pretrain = get_word_weight(weightfile_pretrain, weightpara_pretrain)

3.2.3 分词/词性标注模型

如果采用SIFRank原作者的策略，则实例化一个lac模型

lac_model = thulac.thulac()

我采用的是ltp模型，首先把自定义词表和模型路径加载一下。

ltp_model_path = '/ltp4_data/base/'  # 这个模型需要去ltp的git上下载
ltp_ner_usr_dict_path = './resources/ner_usr_dict.txt'

usr_dict = []
with open(ltp_ner_usr_dict_path) as f:
    for line in f.readlines():
        usr_dict.append(line.split('\n')[0])

然后构建一个类，用于做分词和词性分析。

class LTPForTokenizeAndPostag:
	"""
	用于分词和词性分析
	---------------
	ver: 2021-11-01
	by: changhongyu
	"""
	def __init__(self, ltp_model_path, ners=None, device='cpu'):
		"""
		:param ltp_model_path: str: ltp模型的路径
		:param ners: list: 用户输入的实体列表
		:param device: str: cpu还是cuda
		"""
		print('Initializing LTP model from {}.'.format(ltp_model_path))
		self.ltp_model = LTP(path=ltp_model_path, device=device)
		print('LTP model created.')
		if ners:
			self.ltp_model.add_words(words=ners, max_window=4)
		# 为了保持与thu-lac模型的词性标记形式一致，做了这个映射
		# 当然，也可以不映射，然后对3.2.4的抽取器进行适当修改
		self.ltp_to_lac_pos_map = {
								   'b': 'a',
								   'nd': 'f',
								   'nh': 'np',
								   'nl': 'ns',
								   'nt': 't',
								   'wp': 'w',
								   'ws': 'x',
							  	  }

	def _get_tokens(self, text):
		tokens, hidden = self.ltp_model.seg(self.ltp_model.sent_split([text]))
		self.hidden = hidden
		para_tokens = []
		for t in tokens:
			para_tokens += t
		
		return para_tokens
	def _get_pos(self, text):
		tags = self.ltp_model.pos(self.hiden)
		para_tags = []
		for t in tags:
			para_tags += t
		
		return para_tags
	
	# 因为lac模型的调用方法是cut，所以保持一致用cut命名
	def cut(self, text):
		"""
		:param text: str: 输入文本
		:return token_list: list: tokenized
		:return token_tag_list: list: token对应的词性
		"""
		token_list = self._get_tokens(text)
		token_tag_list = self._get_pos(text)
		assert len(token_list) == len(token_tag_list)
		token_tag_list_lac = []
		for tag in token_tag_list:
			if tag in self.ltp_to_lac_pos_map:
				token_tag_list_lac.append(self.ltp_to_lac_pos_map[tag])
			else:
				token_tag_list_lac.append(tag)
			
		return [[token, tag] for token, tag in zip(token_list, token_tag_list_lac)]

然后实例化这个模型，替换原来的lac模型：

ltp_pos_model = LTPForTokenizeAndPostag(ltp_model_path, ners=usr_dict, device='cuda:0')

3.2.4 候选短语抽取模型

这个模型的作用是以nltk的正则工具抽取候选关键短语。我在原项目的基础上做了一点点修改，原项目每次抽取都重新实例化抽取器，让我觉得很别扭。

class CandidateExtractor:
    """
    参考SIFRank项目的词性正则抽取候选短语
    """
    def __init__(self):
        grammar = """  NP:
                    {*|<->} # Adjective(s)(optional) + Noun(s)"""
        self.parser = nltk.RegexpParser(grammar)
    
    def extract_candidates(self, tokens_tagged):
        keyphrase_candidate = []
        np_pos_tag_tokens = self.parser.parse(tokens_tagged)
        count = 0
        for token in np_pos_tag_tokens:
            if (isinstance(token, nltk.tree.Tree) and token._label == "NP"):
                np = ''.join(word for word, tag in token.leaves())
                length = len(token.leaves())
                start_end = (count, count + length)
                count += length
                keyphrase_candidate.append((np, start_end))
            else:
                count += 1
        
        return keyphrase_candidate
        
candidate_extractor = CandidateExtractor()

3.2.5 词形还原模型

这个没什么好说的，就是一个简单的词形还原，对中文来说作用不大。

lemma_model = nltk.WordNetLemmatizer()

3.2.6 编码模型

这里可以采用多种编码模型，可以多实验几个预训练模型测试一下效果。注意，Roberta系列的模型和XMLRoberta系列的模型由于tokenizer比较特殊，我没有做相应的适配。

Electra模型：

electra_path = './resources/chinese-electra-180g-small-discriminator'
electra_tokenizer = ElectraTokenizerFast.from_pretrained(electra_path)
electra_model = ElectraModel.from_pretrained(electra_path)

Bert模型：

from transformers import BertTokenizerFast, BertModel
bert_path = './resources/bert-base-chinese/'
bert_model = BertModel.from_pretrained(bert_path)
bert_tokenizer = BertTokenizerFast.from_pretrained(bert_path)

Sentence-bert提供的一个语义相似度预训练bert：

from transformers import DistilBertTokenizerFast, DistilBertModel
# distil_bert_path = './resources/distiluse-base-multilingual-cased-v2/'  # 这个是原来的
distil_bert_path = './finetune_embedding_model/SimCSE/4500/'  # 这个是我用SimCSE训练之后的
distil_bert_model = DistilBertModel.from_pretrained(distil_bert_path)
distil_bert_tokenizer = DistilBertTokenizerFast.from_pretrained(distil_bert_path)

这些模型都可以在huggingface网站上找到，参考本文第2部分。

3.3 建立关键短语抽取模型

万事俱备，接下来就把这些组件放在一起，构建一个大类，用于抽取关键短语。这个大类包含一下几个方法：

构造方法：加载3.2中构建的各个组件；
添加新的停用词和标点词；
获取每个token的编码特征列表；
获取每个token的权重列表；
获取候选短语列表；
从候选短语抽取关键短语；
调用方法，给入文本，抽取关键短语；
静态方法：获取一个候选的加权表征；
静态方法：输入文本预处理。

以上方法将会依次呈现在下面的类中：

class SIFRank:
    """
    用于抽取关键短语的SIFRank模型
    [步骤]
    1. 对原句进行tokenize和词性标注
    2. 对原句进行编码，并根据1中tokenize的结果获取embedding_list
    3. 根据1中tokenize的结果获取weight_list
    4. 抽取原句中的候选关键短语
    5. 对候选关键短语进行评分，得到关键短语
    ---------------
    ver: 2021-11-02
    by: changhongyu
    """
    def __init__(self, tokenize_and_postag_model, candidate_extractor, lemma_model,
                 encoding_model, encoding_tokenizer, encoding_pooling, encoding_device, 
                 word2weight_pretrain, stop_words, punctuations):
        """
        :param tokenize_and_postag_model: 分词和词性标注模型
        :param candidate_extractor: 用于抽取候选短语的模型
        :param lemma_model: 用于词根还原的模型, 如果None，则忽略
        :param encoding_model: PretrainedModel: 编码预训练模型
        :param encoding_tokenizer: PretrainedTokenizer: 编码时的tokenizer
        :param encoding_pooling: str: 编码时的池化策略, 'mean'或'max'
        :param encoding_device: str: 编码时的设备, 'cpu'或'cuda'
        :param word2weight_pretrain: dict: 词汇对应权重的大list
        :param stop_words: list: 停用词表
        :param punctuations: list: 标点符号表
        """
        assert encoding_pooling in ['mean', 'max'], Exception("Pooling must be either mean or max.")
        assert encoding_device.startswith('cuda') or encoding_device == 'cpu'
        self.tokenize_and_postag_model = tokenize_and_postag_model
        self.extractor = candidate_extractor
        self.lemma_model = lemma_model
        self.encoding_model = encoding_model
        self.encoding_tokenizer = encoding_tokenizer
        self.encoding_pooling = encoding_pooling
        self.encoding_device = torch.device(encoding_device)
        self.word2weight_pretrain = word2weight_pretrain
        self.stop_words = stop_words
        self.punctuations = punctuations
        print(self)
    
    def __repr__(self):
        infos = ['------SIFRank for key-phrase extract------\n',
                 'SETTINGS: \n'
                 'tokenize_and_postag_model:  {}\n'.format(str(type(self.tokenize_and_postag_model)).replace("'>", "").split('.')[-1]),
                 'lemma_model:  {}\n'.format(str(type(self.lemma_model)).replace("'>", "").split('.')[-1]),
                 'encoding_model:  {}\n'.format(str(type(self.encoding_model)).replace("'>", "").split('.')[-1]),
                 'encoding_device:  {}\n'.format(self.encoding_device),
                 'encoding_pooling:  {}\n'.format(self.encoding_pooling),
                ]
        
        return ''.join(info for info in infos)
    
    def add_stopword(self, stop_word):
        """
        添加停用词，注意停用词是指英文停用词
        """
        self.stop_words.append(stop_word)
        
    def add_punctuation(self, punctuation):
        """
        添加标点符
        """
        self.punctuations.append(punctuation)
    
    def _get_embedding_list(self, text, target_tokens):
        """
        获取以token为划分的embedding的list
        TODO: 对原句进行清洗，过滤掉对encoding_tokenizer而言OOV的词(耗时太长)
        :param text: str: 原文
        :param target_tokens: list: tokenize_and_postag_model对当前输入的分词结果
        """
        embedding_list = []
        self.encoding_model.to(self.encoding_device)

        ## <1. 获取编码
        features = self.encoding_tokenizer(text.lower().replace(' ', '-'),
                                           max_length=1024,
                                           truncation=True,
                                           padding='longest',
                                           return_tensors='pt')
        input_ids = features['input_ids'].to(self.encoding_device)
        # token_type_ids = features['token_type_ids'].to(self.encoding_device)
        attention_mask = features['attention_mask'].to(self.encoding_device)

        with torch.no_grad():
            # enconding_out = self.encoding_model(input_ids, token_type_ids, attention_mask)
            # last_hidden_state = enconding_out['last_hidden_state'].squeeze(0).detach().cpu().numpy()
            enconding_out, _ = process_long_input(self.encoding_model, 
                                                  input_ids, 
                                                  attention_mask, 
                                                  [self.encoding_tokenizer.cls_token_id], 
                                                  [self.encoding_tokenizer.sep_token_id])
            # last_hidden_state: (len, hidden)
            last_hidden_state = enconding_out.squeeze(0).detach().cpu().numpy()

        ## 1>

        ## <2. token对齐
        t_mapping = rematch(text, target_tokens, do_lower_case=True)
        s_mapping = rematch(text, self.encoding_tokenizer.tokenize(text), do_lower_case=True)
        
        token_lens = []
        t_pointer = 0
        t = t_mapping[t_pointer]
        cur_len = 0
        cur_in_t = 0
        for s in s_mapping:
            # print(s, t[cur_in_t: cur_in_t + len(s)])
            if s == t[cur_in_t: cur_in_t + len(s)]:
                cur_len += 1
                cur_in_t += len(s)
                if cur_in_t == len(t):
                    # 判断当前target结束
                    token_lens.append(cur_len)
                    cur_len = 0
                    cur_in_t = 0
                    t_pointer += 1
                    if t_pointer >= len(t_mapping):
                        break
                    t = t_mapping[t_pointer]
        ## 2>
        assert len(token_lens) == len(target_tokens), \
                Exception("Token_lens and target_tokens shape unmatch: {} vs {}.".format(len(token_lens), len(target_tokens)))

        ## <3 根据token_len获取对应的embedding池化
        cur_pos = 0
        for token_len in token_lens:
            if token_len == 0:
                # 如果是空字符，则置为全零
                cur_emb = np.zeros(last_hidden_state.shape[1])
                embedding_list.append(cur_emb)
                continue
            if self.encoding_pooling == 'mean':
                cur_emb = np.mean(last_hidden_state[cur_pos: cur_pos + token_len][:], axis=0)
            elif self.encoding_pooling == 'max':
                cur_emb = np.max(last_hidden_state[cur_pos: cur_pos + token_len][:], axis=0)
            else:
                raise ValueError("Pooling Strategy must be either mean or max.")
            cur_pos += token_len
            embedding_list.append(cur_emb)
        ## 3>

        assert len(embedding_list) == len(target_tokens), \
                Exception("Result embedding list must have same length as target.")

        return embedding_list
    
    def _get_weight_list(self, target_tokens):
        """
        获取weight列表
        :param target_tokens: list: tokenize_and_postag_model对当前输入的分词结果
        :return weight_list: list of float: 每个token对应的预训练权重列表
        """
        weight_list = []
        _max = 0.
        for token in target_tokens:
            token = token.lower()
            if token in self.stop_words or token in self.punctuations:
                weight = 0.
            elif token in self.word2weight_pretrain:
                weight = word2weight_pretrain[token]
            else:
                # 如果OOV，返回截至当前句中最大的token
                weight = _max
            _max = max(weight, _max)
            weight_list.append(weight)
        
        return weight_list
    
    def _get_candidate_list(self, target_tokens, target_poses):
        """
        用词性正则抽取候选关键短语列表
        :param target_tokens: list: tokenize_and_postag_model对当前输入的分词结果
        :param target_poses: list: tokenize_and_postag_model对当前输入词性标注结果
        :return candidates: list of tuples like: ('自然语言', (5, 7))
            NOTE: tuple[1]是在target_tokens中的span，对target_tokens索引，得到tuple[0]
        """
        assert len(target_tokens) == len(target_poses)
        tokens_tagged = [(tok, pos) for tok, pos in zip(target_tokens, target_poses)]
        candidates = self.extractor.extract_candidates(tokens_tagged)
        
        return candidates
    
    def _extract_keyphrase(self, candidates, weight_list, embedding_list, max_keyphrase_num):
        """
        对候选的关键短语计算与原文编码的相似度，获取关键短语
        :param candidates: list of tuples: 候选关键短语list
        :param weight_list: list of float: 每个token的预训练权重列表
        :param embedding_list: list of array: 每个token的编码结果
        :param max_keyphrase_num: int: 最多保留的关键词个数
        :return key_phrases: list of tuple: [(k1, 0.9), ...]
        """
        assert len(weight_list) == len(embedding_list)
        # 获取每个候选短语的编码
        candidate_embeddings_list = []
        for cand in candidates:
            cand_emb = self.get_candidate_weight_avg(weight_list, embedding_list, cand[1])
            candidate_embeddings_list.append(cand_emb)
            
        # 计算候选短语与原文的相似度
        sent_embeddings = self.get_candidate_weight_avg(weight_list, embedding_list, (0, len(embedding_list)))
        sim_list = []
        for i, emb in enumerate(candidate_embeddings_list):
            sim = float(pytorch_cos_sim(sent_embeddings, candidate_embeddings_list[i]).squeeze().numpy())
            sim_list.append(sim)
            
        # 对候选短语归并，词根相同的短语放在一起
        dict_all = {}
        for i, cand in enumerate(candidates):
            if self.lemma_model:
                cand_lemma = self.lemma_model.lemmatize(cand[0].lower()).replace('▲', ' ')
            else:
                cand_lemma = cand[0].lower().replace('▲', ' ')
            if cand_lemma in dict_all:
                dict_all[cand_lemma].append(sim_list[i])
            else:
                dict_all[cand_lemma] = [sim_list[i]]
        
        # 对归并结果求平均
        final_dict = {}
        for cand, sim_list in dict_all.items():
            sum_sim = sum(sim_list)
            final_dict[cand] = sum_sim / len(sim_list)
            
        return sorted(final_dict.items(), key=lambda x: x[1], reverse=True)[: max_keyphrase_num]
    
    def __call__(self, text, max_keyphrase_num):
        """
        抽取关键词
        :param text: str: 待抽取原文
        :param max_keyphrase_num: int: 最多保留的关键词个数
        :return key_phrases: list of tuple: [(k1, 0.9), ...]
        """
        text = self.preprocess_input_text(text)
        t0 = time.time()
        
        ## <1. 对原句进行tokenize和词性标注
        token_and_pos = self.tokenize_and_postag_model.cut(text)
        target_tokens = [t_p[0] for t_p in token_and_pos]
        target_poses = [t_p[1] for t_p in token_and_pos]
        
        for i, token in enumerate(target_tokens):
            if token in self.stop_words:
                target_poses[i] = "u"
            if token == '-':
                target_poses[i] = "-"
            if token in ['"', "'"]:
                target_poses[i] = '"'
                
        t1 = time.time()
        print("耗时统计")
        print("<1. 对原句进行tokenize和词性标注: ", round(t1 - t0, 2), 's')
        ## 1>
        
        ## <2. 对原句进行编码，并根据1中tokenize的结果获取embedding_list
        embedding_list = self._get_embedding_list(text, target_tokens)
        t2 = time.time()
        print("<2. 对原句进行编码: ", round(t2 - t1, 2), 's')
        ## 2>
        
        ## <3. 根据1中tokenize的结果获取weight_list
        weight_list = self._get_weight_list(target_tokens)
        t3 = time.time()
        print("<3. 结果获取weight_list: ", round(t3 - t2, 2), 's')
        ## 3>
        
        ## <4. 抽取原句中的候选关键短语
        candidate_list = self._get_candidate_list(target_tokens, target_poses)
        t4 = time.time()
        print("<4. 抽取原句中的候选关键短语: ", round(t4 - t3, 2), 's')
        ## 4>
        
        ## <5. 对候选关键短语进行评分，得到关键短语
        key_phrases = self._extract_keyphrase(candidate_list, weight_list, 
                                              embedding_list, max_keyphrase_num)
        t5 = time.time()
        print("<5. 对候选关键短语进行评分: ", round(t5 - t4, 2), 's')
        ## 5>
        
        return key_phrases
        
    @staticmethod
    def get_candidate_weight_avg(weight_list, embedding_list, candidate_span):
        """
        获取一个候选词的加权表征
        :param weight_list: list of float: 每个token的预训练权重列表
        :param embedding_list: list of array: 每个token的编码结果
        :param candidate_span: tuple: 候选短语的start和end
        """
        assert len(weight_list) == len(embedding_list)
        start, end = candidate_span
        num_words = end - start
        embedding_size = embedding_list[0].shape[0]

        sum_ = np.zeros(embedding_size)
        for i in range(start, end):
            tmp = embedding_list[i] * weight_list[i]
            sum_ += tmp
        
        return sum_
    
    @staticmethod
    def preprocess_input_text(text):
        """
        对输入原文进行预处理，主要防止两个tokenizer对齐时出现问题
        """
        text = text.lower()
        # 全部判断过于耗时
        # text = ''.join(char for char in text if char in self.encoding_tokenizer.vocab)
        text = text.replace('“', '"').replace('”', '"')
        text = text.replace('‘', "'").replace('’', "'")
        text = text.replace('⁃', '-')
        text = text.replace('\u3000', ' ').replace('\n', ' ')
        text = text.replace(' ', '▲')
        # text = text.replace(' ', '¤')
        
        return text[: 1024]

注意，在上面的类中调用了sentence-transformer中的pytorch_cos_sim方法计算两个张量之间的余弦相似度，如果没有安装这个包，可以自己写个方法实现余弦相似度的计算，这个不难，可以直接百度到。

3.4 抽取应用

将上面的大类实例化：

keyphrase_extractor = SIFRank(tokenize_and_postag_model=ltp_pos_model,
                              candidate_extractor=candidate_extractor,
                              lemma_model=lemma_model,
                              encoding_model=electra_model,
                              encoding_tokenizer=electra_tokenizer,
                              encoding_pooling='mean',
                              encoding_device='cuda:1',
                              word2weight_pretrain=word2weight_pretrain,
                              stop_words=stop_words,
                              punctuations=punctuations)

然后对输入的text，调用：

keyphrase_extractor(text, max_keyphrase_num=10)

即可返回关键短语的降序排列，以及每个关键短语对应的得分。

4. 改进

4.1 增加候选关键短语

候选关键短语是通过正则的方式对词性进行匹配得到的，其关键代码在这一句：

grammar = """  NP:
                    {*|<->} # Adjective(s)(optional) + Noun(s)"""

通过修改正则语句，我们可以获得自己想要的候选短语。例如，我希望拿到*'"花岗岩"超声速反舰导弹*这样的短语作为关键短语，通过观察词性发现，这类短语的词性构成是：引号+名词+引号+若干名词，翻译成正则语句就是：

<"><">*

把它拼接到原来的语句上：

grammar = """  NP:
                    {*|<->|<"><">*}"""

~~然后看一下修改之后得效果：~~ （我用的例子说不过审，给我下架了，只能删掉了）

4.2 自监督训练

SimCSE等自监督训练可以参考我之前的这篇博客，我用SimCSE在6000条军事新闻数据上随便训练了一下，效果并不好。

（这里也删掉了，没办法）

关于mask language model的训练，可以参考huggingface官方的文档，我最近可能会整理一版比较方便的代码。如果整理了，可能会更新在博客上。

以上就是本期的全部内容了，总的来说SIFRank这个工具虽然没有那么“智能”，但可以充分做到可控，使用者对抽取结果可以从多方面进行干预和调整，是一个非常好用的关键词抽取工具。

如果这篇文章对你有所帮助，记得点个免费的赞，我们下期再见。

你可能感兴趣的:(自然语言处理,自然语言处理,人工智能,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，