PeasantWorker

基于Sentence-Bert的检索式问答系统

文章目录

前言
环境
构建数据集
训练SBERT模型
测试
粗排
精排
优化策略
结果
总结

前言

常见的问答任务有四种：

知识图谱问答：基于给定知识图谱生成问题对应的答案
表格问答：基于给定表格集合生成问题对应的答案
文本问答：基于给定文本生成问题对应的答案
社区问答：基于从问答社区网站抓取的问答对进行问答任务

在CSDN主站，有个问答频道，为了降低用户重复提问率，我们需要根据用户正在提的问题，从问答库中，匹配出最相似的已采纳的问题的答案，推荐给用户。因此，这里我们要做的是社区问答任务。

问答对：问答社区网站上提供的<问题，答案>对数据集合。

社区问答，具体来说，就是给定输入问题，社区问答从问答对中检索与输入问题语义最为匹配的已有问题，并采用该已有问题对应的答案作为当前问题的答案。由此可见，社区问答最关键的环节是计算问题和已有问题之间的语义相似度，以及计算问题和答案之间的语义相关度。

基本概念清楚后，进入正题：

环境

lightgbm==3.3.2
hnswlib==0.6.2
sentence_transformers==1.2.0

windows上应该装不上hnswlib

其他的缺啥装啥

构建数据集

在CSDN，有大量的无标注数据，但高质量的人工标注数据，少之又少。因此，我们这里也是使用无标注数据。但在构建数据的过程中，我们可以采取一些手段，将误差降到最小。

数据格式：

q_str为query文本
doc_str为target文本

同一行的数据，为相似数据。即我们可以将同一行的对作为正样本，不同行的对作为负样本。

接下来，我们需要对这些样本标注。这里我们使用Sentence-Bert的预训练模型来计算句向量，再计算皮尔逊系数，作为标签。

关于Sentence-Bert原理，可以直接查看原论文：Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

关于Sentence-Bert基本使用，可以查看官网 https://www.sbert.net/index.html

从官网可以看到，all-mpnet-base-v2是当前最好的模型，因此，我们在构建数据集时，可以选用效果最好的模型，all-MiniLM-L6-v2是当前较为均衡的模型，该模型占用内存小，推理速度快，且效果不差，因此，我们在部署到线上时，选用该模型作为基础模型来进行预训练。

构建SentenceTransformer训练数据：

def build_vector(index, data, model):
    data_res = []
    count = 0
    for idx, i in zip(
                data.index,
                data.loc[:, ["qid", "doc_id", "q_str", "doc_str"]].values,
            ):
        count+=1
        logger.info(f"当前-----------{count}/{len(index)}-----------")
        qid, doi, sa, sb = i

        sav = model.encode(sa)
        sbv = model.encode(sb)

        sco, _ = pearsonr(sav, sbv)
        l = min(max(0, (1 + sco) / 2), 1)
        d = InputExample(texts=[sa, sb], label=l)
        data_res.append(d)
        for n_idx in np.random.choice(index, 1):
            if n_idx != idx and isinstance(sa, str) and isinstance(sb, str):
                sb_n = data.loc[n_idx, "doc_str"]
                sbnv = model.encode(sb_n)
                sco, _ = pearsonr(sav, sbnv)
                l = min(max(0, (0.3 + sco) / 2), 1)
                dn = InputExample(texts=[sa, sb_n], label=l)
                data_res.append(dn)
    return data_res


def test_build_dataset(config, options):
    dir_path = "./data/datasets/answer/sts_dset"
    data_full_train, data_full_dev = load_dataset(dir_path=dir_path, dd_cache=False)
    data_full_train.to_csv("./test/answer/data/train.csv", index=False)
    data_full_dev.to_csv("./test/answer/data/dev.csv", index=False)
    data_full_train = data_full_train.dropna()
    data_full_dev = data_full_dev.dropna()

    data_full_train_idx = data_full_train.index
    data_full_dev_idx = data_full_dev.index

    model_name="sentence-transformers/all-mpnet-base-v2"
    train_data_save_dir = os.path.join(dir_path, model_name.split('/')[-1])
    if not os.path.exists(train_data_save_dir):
        os.makedirs(train_data_save_dir)
    word_embedding_model = models.Transformer(
        model_name
    )
    pooling_model = models.Pooling(
        word_embedding_model.get_word_embedding_dimension(),
        pooling_mode_mean_tokens=True,
        pooling_mode_cls_token=False,
        pooling_mode_max_tokens=False,
    )
    model = SentenceTransformer(modules=[word_embedding_model, pooling_model])
    data_train = build_vector(index=data_full_train_idx, data=data_full_train, model=model)
    data_dev = build_vector(index=data_full_dev_idx, data=data_full_dev, model=model)
    pd.to_pickle(data_train, f"{train_data_save_dir}/data_train_sts_float.pkl")
    pd.to_pickle(data_dev, f"{train_data_save_dir}/data_dev_sts_float.pkl")

皮尔逊相关系数用于度量两个变量(X和Y)之间的线性相关程度，其值介于-1与1之间。

在上述代码中，为了便于计算，我将皮尔逊相关系数的值从[-1,1]之间映射到了[0,1]之间，值越大，越相关，值越小，越不相关。

值得注意的是，我们这里的训练数据是对，更为正确的做法是使用对作为训练数据。奈何没有高质量的人工标注数据，只能先用训练出一版模型看看效果。

训练SBERT模型

说实话，这训练代码，是真的简单，不信看代码：

import os
import pandas as pd
from sentence_transformers import SentenceTransformer, SentencesDataset, models
from sentence_transformers import InputExample, evaluation, losses
from torch.utils.data import DataLoader
from common.path.model.sentence_model import get_sentence_model_dir

class TrainSentectTransformerModel():
    def __init__(self, config, options):
        self.model_name="sentence-transformers/multi-qa-MiniLM-L6-cos-v1"
        self.build_dataset_model_name = "all-mpnet-base-v2"
        self.data_dir_path = "./data/datasets/answer/sts_dset"

        self.data_dir_path = os.path.join(self.data_dir_path, self.build_dataset_model_name)

        self.train_path = os.path.join(self.data_dir_path, "data_train_sts_float.pkl")
        self.dev_path = os.path.join(self.data_dir_path, "data_dev_sts_float.pkl")
        self.model = None
        self.model_save_dir = get_sentence_model_dir()
        self.model_save_path = os.path.join(self.model_save_dir,  self.model_name.split("/")[-1])

    def load(self):
        word_embedding_model = models.Transformer(
            self.model_name
        )
        pooling_model = models.Pooling(
            word_embedding_model.get_word_embedding_dimension(),
            pooling_mode_mean_tokens=True,
            pooling_mode_cls_token=False,
            pooling_mode_max_tokens=False,
        )
        self.model = SentenceTransformer(modules=[word_embedding_model, pooling_model])
    

    def load_train_data(self):
        train_data = pd.read_pickle(self.train_path)
        train_data_list = []
        for item in train_data:
            sa, sb = item.texts
            label = float(item.label)
            dn = InputExample(texts=[sa, sb], label=label)
            train_data_list.append(dn)
        train_dataset = SentencesDataset(train_data_list, self.model)
        train_dataloader = DataLoader(train_dataset, shuffle=True, batch_size=32)
        return train_dataloader


    def load_dev_data(self):
        sentences1, sentences2, scores = [], [], []
        dev_data = pd.read_pickle(self.dev_path)
        for item in dev_data:
            sa, sb = item.texts
            label = item.label
            sentences1.append(sa)
            sentences2.append(sb)
            if label > 0.5:
                label = 1
            else:
                label = 0
            scores.append(label)
        return sentences1, sentences2, scores

    
    
    def train(self):
        self.load()
        train_dataloader = self.load_train_data()
        dev_sentences1, dev_sentences2, dev_scores = self.load_dev_data()

        train_loss = losses.CosineSimilarityLoss(self.model)
        evaluator = evaluation.BinaryClassificationEvaluator(dev_sentences1, dev_sentences2, dev_scores)
        self.model.fit(train_objectives=[(train_dataloader, train_loss)], epochs=50, warmup_steps=100,
          evaluator=evaluator, evaluation_steps=300, output_path= self.model_save_path)
        self.model.evaluate(evaluator)

    def __call__(self):
        self.train()

是吧，训练很简单，只有些数据处理的操作

测试

训练完成后，我们来试试效果：

def test_sentence_model(config, options):
    model_dir = "./data/models/sentence_model/multi-qa-MiniLM-L6-cos-v1"
    model = SentenceTransformer(model_dir)
    query_sentence = "hp服务器序列号"
    target_sentences = "xmind2021激活序列号"
    query_vector = model.encode([query_sentence])
    target_vectors = model.encode([target_sentences])
    score = cosine_similarity(query_vector, target_vectors)
    print(score[0][0])

输出：

0.46232918

再使用一条典型数据来测试下：

query_sentence = "引入Echart后无法引用echart.方法 先下载了Echarts包，然后在head里引入了echarts.js，定义div并赋予了大小"
target_sentences = "echarts隐藏柱体，但要在悬浮中显示数据 echarts需要隐藏某个柱状图的柱体，但是要在悬浮中有显示这个隐藏柱体的数据"

# score = 0.9297024

我们来分析下，这两条数据，有部分重叠的关键词，但整体语义，并不相关，语义相似度应该很低才对，但我们的模型，给出的分数竟然有0.92，出乎意料。

我们再来看下我们的训练数据：

q_str = "python 实现sql递归"
doc_str = "python实现递归的例子 用递归实现阶乘    def   func (n) :       if  n ==  1 :          return   1       else :          return  n * func(n- 1 )    用递归实现斐波那契数列      def   fibo (n) :       if  n ==  1   or  n ==  2 :          return   1       else :          return  fibo(n- 1 ) + fibo(n- 2 )     用递归实现二分查找      def   b_sort (l, aim, start= 0 , end=None) :       if  end ==  None : end = len(l)- 1       if  start <= end:         mid = (end-start) //  2  + start  #保证每次都是相应的数列位置           if  aim < l[mid]:              return  b_sort(l, aim, s"

我们的训练数据，q_str 与 doc_str之间也是存在部分关键词重叠，但二者语义是相关的。

因此，造成上面测试用例语义得分太高的原因显而易见了。训练时我们使用对，预测时我们使用对，训练与预测不一致，导致即使有部分关键词重叠，但整体语义相差较大，模型输出的得分较大。

那么，既然我们没有对格式的数据，我们做到这里，只能放弃了吗？

不！CSDN AI小组没有放弃！

首先，我们需要确定的是，这个模型，对于语义相关的数据，是有效的！（已经通过实验证实，确实是有效）

既然模型有效，那么，我们只需要过滤掉只有部分关键词重合，但整体语义不相关的数据就可以了。

怎么过滤呢？

答案是：我们再训练一个tfidf模型，计算query_a 与 query_b的tfidf得分，只有部分关键词重合的数据，其关键词得分应该是较低的。

那么，我们计算下之前使用过的两条query的tfidf得分：

query_a = "引入Echart后无法引用echart.方法 先下载了Echarts包，然后在head里引入了echarts.js，定义div并赋予了大小"
query_b = "echarts隐藏柱体，但要在悬浮中显示数据 echarts需要隐藏某个柱状图的柱体，但是要在悬浮中有显示这个隐藏柱体的数据"

tfidf_score = 0.1512441662635543

确实是较低！（当然，并不是通过这一条数据得出的结论）

加入tfidf限制后，query与query之间存在重叠关键词但语义不相关的问题得到了解决。

那么，语义匹配的问题，就解决了。接下来需要考虑的是，CSDN问答库中，有50w左右的已采纳数据，这么大的数据量，总不能用query去与所有数据一一计算相似度吧？显然，这是不现实的。

粗排

在大多数的问答系统中，一般分为三个模块：

意图识别
粗排
精排

在这里，我们暂时没有做意图识别模块，也许，后续数据量大了，会加入意图识别。加入意图识别，有以下好处：

缩小匹配范围
提升匹配效率
提升匹配准确率

如果你的数据量够大，至少每个类别下面有几十万的数据，你可以考虑加入意图识别模块来提升你问答系统整体的效果。

那么，我们要怎么构建自己的问答数据库呢？

由于我们的数据都是文本，要计算文本之间的语义相似度，首先我们需要将文本转换成向量，转成向量后，我们需要构建一个倒排索引表，将这些文本数据，存入倒排表中。类似Elasticsearch在建立索引的时候采用的倒排索引的机制（强烈建议去了解下）。

HNSW就是一种构建倒排索引以达到快速检索的算法，在这篇文章中，采用的便是这种算法。
有关HNSW的原理，推荐阅读：一文看懂HNSW算法理论的来龙去脉

好在python各种包多，不管啥算法，都有前人帮你实现了，你只要pip一下，就能用了。
hnsw的实现，有两个包，一个是Facebook研发的faiss，一个是hnswlib，这里我使用的是hnswlib，据说二者都是c++实现，使用起来没太大差别。

hnswlib使用手册：https://github.com/nmslib/hnswlib

class HNSW(object):
    def __init__(self, config, options):
        self.hnsw_config = {
            "M": 64,
            "ef": 2000
        }
        self.hnsw_model_path = get_sentence_hnsw_model_path()
        self.hnsw_vec_data_path = get_hnsw_vec_data_path()
        self.answer_pg_query = AnswerPgQuery(config, options)
        self.sentence_transform_model_path = get_sentence_transformers_model_path()
        self.method = "sentence_transformer"
        self.sentence_model = None
        self.hnsw = None

    def load(self):
        if os.path.exists(self.hnsw_model_path):
            logger.info("加载 hnsw ...")
            self.hnsw = self.load_hnsw()
        logger.info("加载 sentence transformer model ...")
        if torch.cuda.is_available():
            device = torch.device("cuda")
        else:
            device = torch.device("cpu")
        self.sentence_model = SentenceTransformer(
            self.sentence_transform_model_path, device=device)

    def load_data(self):
        data = []
        all_answer_data = self.answer_pg_query.fetch_all_answer_data()
        for item in tqdm(all_answer_data, desc=f"get vec {self.method}"):
            title = item[0]
            body = item[1]
            body = get_text_from_html(body)
            text_vec = self.sentence_model.encode([title + body])
            sentence_vec = text_vec[0]
            data.append(sentence_vec)
        joblib.dump(data, self.hnsw_vec_data_path)

        return data

    def train_hnsw(self):
        sentences_vec = self.load_data()
        cores = multiprocessing.cpu_count()
        num_elements = len(sentences_vec)
        logger.info("初始化 hnsw ...")

        # possible options are l2, cosine or ip
        import hnswlib
        p = hnswlib.Index(space='l2', dim=384)
        p.init_index(max_elements=num_elements,
                     ef_construction=self.hnsw_config['ef'], M=self.hnsw_config['M'])
        p.set_ef(10)
        p.set_num_threads(cores)
        logger.info("Adding first batch of %d elements" % (len(sentences_vec)))
        p.add_items(sentences_vec)
        labels, distances = p.knn_query(sentences_vec, k=1)
        print('labels: ', labels)
        print('distances: ', distances)
        print("Recall:{}".format(
            np.mean(labels.reshape(-1) == np.arange(len(sentences_vec)))))
        p.save_index(self.hnsw_model_path)
        del p

    def load_hnsw(self):
        import hnswlib
        hnsw = hnswlib.Index(space='l2', dim=384)
        hnsw.load_index(self.hnsw_model_path)
        return hnsw

    def add_elements(self, data_vec):
        import hnswlib
        hnsw = hnswlib.Index(space='l2', dim=384)
        hnsw.load_index(self.hnsw_model_path)

        current_elements_num = hnsw.element_count

        max_elements = current_elements_num + len(data_vec)

        hnsw_copy = copy.deepcopy(hnsw)
        del hnsw

        hnsw_copy.load_index(self.hnsw_model_path, max_elements)

        hnsw_copy.add_items(data_vec)

        hnsw_copy.save_index(self.hnsw_model_path)

    def search(self, text, k=5):
        text_vec = self.sentence_model.encode([text])
        q_labels, q_distances = self.hnsw.knn_query(text_vec, k=k)
        return q_labels, q_distances

    def get_search_result(self, text):
        q_labels, q_distances = self.search(text, k=10)
        indexs = q_labels[0]
        # 取得粗排结果

        res_str = ""
        for index in indexs:
            index = index + 1
            ret = self.answer_pg_query.query_answer_data_by_index([index])
            title = ret[0][1]
            body = ret[0][2]
            res_str += f"Query : {text} , Target : {title} \n"
        print(res_str)
        return

在构建句向量时，我使用的是前面训练好的SBERT模型。有些人可能会说，使用word2vec来构建句向量不行吗？
我的回答是：不行！
因为训练好的word2vec太大了，就拿这个例子来说，50w的数据，训练出来的word2vec的大小已经达到了GB级别，服务器上内存本来就紧张，你再加个GB级别的模型，服务器分分钟被你干崩溃，等着写事故报告吧！

由于开发时间问题，我这里只尝试了SBERT去构建句向量，其实，你还可以尝试使用AutoEncoder的方法去构建句向量。关于AutoEncoder原理，可以参考：深入理解AutoEncoder

在度量相似度时，hnswlib支持三种方式，如下图：

这里我选择了Squared L2，哪一种方式更准确，我并没有去做对比实验，如果你构建句向量的模型足够准确，理论上差距不大。

我们来看看效果：

Query : Python重量计算 重量计算 月球上的物体重量是地球上的16.5% , Target : Python重量计算 
Query : Python重量计算 重量计算 月球上的物体重量是地球上的16.5% , Target : 有关python制作七段数码管的问题 
Query : Python重量计算 重量计算 月球上的物体重量是地球上的16.5% , Target : python数字与字母分离 
Query : Python重量计算 重量计算 月球上的物体重量是地球上的16.5% , Target : python昆虫繁殖问题 
Query : Python重量计算 重量计算 月球上的物体重量是地球上的16.5% , Target : 各位朋友 如何用python语言表达 
Query : Python重量计算 重量计算 月球上的物体重量是地球上的16.5% , Target : python复利计算利息 
Query : Python重量计算 重量计算 月球上的物体重量是地球上的16.5% , Target : python如何用时间遍历很多个月 
Query : Python重量计算 重量计算 月球上的物体重量是地球上的16.5% , Target : 简单的Python题求解 
Query : Python重量计算 重量计算 月球上的物体重量是地球上的16.5% , Target : Python输入上课时间的总秒数，计算今天上课时间是多少小时多少分多少秒的方式表示出来 
Query : Python重量计算 重量计算 月球上的物体重量是地球上的16.5% , Target : Python上机实践，字符类型及其操作

确实可以找到目标答案，从这里也可以看出，使用对去训练SBERT，虽然会带来负面作用，但可以粗略表示句向量。

从上面的代码中，可以看出，hnswlib还支持增量数据插入，这样，就不需要每次全量更新倒排索引表了，只需要将新增的数据插入到索引表中就可以，大大减少了计算量。

注意： 我们拿到的召回结果，只是query文本的句向量对应的下标索引，因此，我们的原始数据，需要保存在数据库中，这样，才能通过召回结果，找到源数据。

精排

粗排的过程，一般也称之为召回，取得召回的结果后，我们需要对召回的结果，进行精排。

精排的过程，其实就是将query与召回的结果，一一计算相似度，取出得分最大的那一条数据，作为输出。我们这里，精排模型使用的是我们一开始训练的SBERT模型，将query和召回的结果，转换成句向量，用query与召回结果一一计算余弦相似度。

    def get_tfidf_score(self, query_text, target_text):
        str_a_list = self.segment.segment(query_text)
        str_b_list = self.segment.segment(target_text)
        text_a = ' '.join(str_a_list)
        text_b = ' '.join(str_b_list)
        vec_a = self.tfidf.transform([text_a])
        vec_b = self.tfidf.transform([text_b])
        sim = cosine_similarity(vec_a, vec_b)[0][0]
        return sim


    def get_result(self, query):
        logger.info("获取召回结果...")
        q_labels, q_distances = self.hnsw.search(query)
        indexs = q_labels[0]
        
        # 取得粗排结果
        recall_res = []
        for index in indexs:
            index = index + 1
            ret = self.answer_pg_query.query_answer_data_by_index([index])[0]
            question_id = ret[0]
            title = ret[1]
            body = ret[2]
            answer_id = ret[3]
            tag_ids = ret[4]
            item = (query, question_id, title, body, answer_id, tag_ids)
            recall_res.append(item)
        
        # 准备精排需要的相似度特征
        lightgbm_df = pd.DataFrame(columns=['query', 'target_question_id', 'target_title', 'target_body', 'answer_id', 'tag_ids', 'bert_cos'])

        for idx, item in enumerate(recall_res):
            query, question_id, title, body, answer_id, tag_ids = item
            target = title + body
            bert_cos = self.text_similarity_bert.bert_sim(query, target, sim='cos')

            lightgbm_df.loc[idx] = [query, question_id, title, body, answer_id, tag_ids, bert_cos]
        
        # 精排

        lightgbm_df.sort_values(by=["bert_cos"], inplace=True, ascending=False)

        result = []

        for idx, row in lightgbm_df.iterrows():
            query_ret = {}
            if row['bert_cos'] > 0.9:
                logger.info(f"语义相似度为: {row['bert_cos']}")
                query_text = row['query']
                target_body = row['target_body']
                target_question_id = row['target_question_id']
                target_title = row['target_title']
                tfidf_score = self.get_tfidf_score(str(query_text), str(target_title) + str(target_body))
                logger.info(f"tfidf得分为: {tfidf_score}")
                logger.info(f"[query_text]: {str(query_text)}")
                logger.info(f"[target_body]: {str(target_body)}")

                score = int(row['bert_cos'] * 100)
                url = "https://ask.csdn.net/questions/{}".format(target_question_id)
                recommend_id = uuid.uuid4().hex
                answer_id = row['answer_id']
                tag_ids = row['tag_ids']
                tag_ids = tag_ids.strip()
                tag_id_list = tag_ids.split(',')

                if tag_id_list == ['']:
                    tag_id = None
                else:
                    tag_id = int(tag_id_list[0])

                method = random.choice([0, 1])
                # method = 1 -- 加入tfidf限制
                # method = 0 -- 不加入tfidf限制
                query_ret['method'] = 0
                if tfidf_score>= 0.2 and method == 1:
                    query_ret['method'] = 1
                    logger.info("加入tfidf限制...")
                elif method == 0:
                    query_ret['method'] = 0
                    logger.info("未加入tfidf限制...")

                query_ret['question_id'] = target_question_id
                query_ret['answer_id'] = answer_id
                query_ret['title'] = target_title
                query_ret['tag_id'] = tag_id
                query_ret['score'] = score
                query_ret['url'] = url
                query_ret['recommend_id'] = recommend_id
            result.append(query_ret)
            break
        
        return result

在取得精排的结果后，取分值最大的那条数据，且相似度分数要超过0.9，这个0.9并不是头脑发热设置的，而是通过数据分析得出的结论，限制分数阈值后，还需要计算query与相似度得分最高的那条结果的tfidf相似度，同理，这里也设置了tfidf score阈值，这个阈值，也是通过数据分析得出来的结论，两项限制都满足后，才会给用户推荐，这样做，大大降低了误推率。

其实，如果你的训练数据是对的话，在精排时，除了语义相似度外，你可以再构造一些其他的人工处理好的特征，如编辑距离、皮尔逊相关系数、KL散度等。

class TextSimilarityML(object):
    def __init__(self) -> None:
        # self.train_w2v = TrainWord2Vec()
        self.tfidf = joblib.load(get_sentence_tfidf_model_path())
        # self.w2v_model = KeyedVectors.load(get_sentence_word2vec_model_path())
        self.sentence_transformer_model = SentenceTransformer(get_sentence_transformers_model_path())

    @classmethod
    def tokenize(self , str_a):
        wordsa = pseg.cut(str_a)
        cuta = ""
        seta = set()
        for key in wordsa:
            cuta += key.word + " "
            seta.add(key.word)
        return [cuta , seta]


    def JaccardSim(self , str_a , str_b):
        seta = self.tokenize(str_a)[1]
        setb = self.tokenize(str_b)[1]
        sa_sb = 1.0 * len(seta & setb) / len(seta | setb)
        return sa_sb

    @staticmethod
    def cos_sim(a ,b):
        a = np.array(a)
        b = np.array(b)
        return np.sum(a * b) / (np.sqrt(np.sum(a**2)) * np.sqrt(np.sum(b**2)))


    @staticmethod
    def kl_divergence(p,q):
        return scipy.stats.entropy(p, q)


    @staticmethod
    def js_divergence(P,Q):
        M=(P+Q)/2
        return 0.5*scipy.stats.entropy(P, M)+0.5*scipy.stats.entropy(Q, M)


    @staticmethod
    def eucl_sim(a ,b):
        a = np.array(a)
        b = np.array(b)
        return 1 / (1 + np.sqrt((np.sum(a - b)**2)))


    @staticmethod
    def pearson_sim(a , b):
        a = np.array(a)
        b = np.array(b)

        a = a - np.average(a)
        b = b - np.average(b)
        return np.sum(a * b) / (np.sqrt(np.sum(a**2)) * np.sqrt(np.sum(b**2)))


    def editDistance(self , str1 , str2):
        m = len(str1)
        n = len(str2) 
        lensum = float(m + n)
        d = [[0] * (n+1) for _ in range(m+1)]
        for i in range(m+1):
            d[i][0] = i
        for j in range(n+1):
            d[0][j] = j
        
        for j in range(1 , n+1):
            for i in range(1 , m+1):
                if str1[i -1] == str2[j -1]:
                    d[i][j] = d[i-1][j-1]
                else:
                    d[i][j] = min(d[i-1][j] , d[i][j-1] , d[i-1][j-1]) + 1
        dist = d[-1][-1]
        ratio = (lensum -dist) / lensum
        return ratio

    def lcs(self, str_a , str_b):
        lengths = [[0 for j in range(len(str_b) + 1 )]
                    for i in range(len(str_a) + 1)]
        for i,x in enumerate(str_a):
            for j,y in enumerate(str_b):
                if x==y:
                    lengths[i+1][j+1] = lengths[i][j] + 1
                else:
                    lengths[i+1][j+1] = max(lengths[i+1][j] , lengths[i][j+1])
        
        result = ""
        x,y = len(str_a) , len(str_b)
        while x !=0 and y !=0:
            if lengths[x][y] == lengths[x - 1][y]:
                x -= 1
            elif lengths[x][y] == lengths[x][y-1]:
                y -= 1
            else:
                assert str_a[x-1] == str_b[y-1]
                result = str_a[x-1] + result
                x -= 1
                y -= 1
        longestdist = lengths[len(str_a)][len(str_b)]
        ratio = longestdist / min(len(str_a) , len(str_b))
        return ratio


    def tokenSimilarity(self , str_a , str_b , method='tfidf' , sim='cos'):
        vec_a , vec_b , model  = None , None , None
        if method == 'tfidf':
            str_a = self.tokenize(str_a)[0]
            str_b = self.tokenize(str_b)[0]
            vec_a = self.tfidf.transform([str_a]).toarray()
            vec_b = self.tfidf.transform([str_b]).toarray()
        elif method == "bert":
            vec_a = self.sentence_transformer_model.encode([str_a])
            vec_b = self.sentence_transformer_model.encode([str_b])
        else:
            NotImplementedError
        result = None

        if (vec_a is not None) and (vec_b is not None):
            if sim == 'cos':
                result = self.cos_sim(vec_a[0], vec_b[0])
            elif sim == 'eucl':
                result = self.eucl_sim(vec_a[0], vec_b[0])
            elif sim == 'pearson':
                result = self.pearson_sim(vec_a[0], vec_b[0])
            elif sim == 'wmd' and model:
                result = model.wmdistance(str_a, str_b)
            elif sim == 'js':
                result = self.js_divergence(vec_a[0], vec_b[0])
            elif sim == 'kl':
                result = self.kl_divergence(vec_a[0], vec_b[0])
        return result
        
    def gen_simility(self, str1, str2):
        return {
            "lcs": self.lcs(str1, str2),
            "edit_dist": self.editDistance(str1, str2),
            "jaccard": self.JaccardSim(str1, str2),
            "tfidf_cos": self.tokenSimilarity(str1, str2, method='tfidf', sim='cos'),
            "tfidf_eucl": self.tokenSimilarity(str1, str2, method='tfidf', sim='eucl'),
            "tfidf_pearson": self.tokenSimilarity(str1, str2, method='tfidf', sim='pearson'),
            "tfidf_kl": self.tokenSimilarity(str1, str2, method='tfidf', sim='kl'),
            "tfidf_js": self.tokenSimilarity(str1, str2, method='tfidf', sim='js'),
            "bert_cos": self.tokenSimilarity(str1, str2, method='bert', sim='cos'),
            "bert_eucl": self.tokenSimilarity(str1, str2, method='bert', sim='eucl'),
            "bert_pearson": self.tokenSimilarity(str1, str2, method='bert', sim='pearson'),
        }

构造好这些人工特征后，可以利用决策树的思想，训练各个特征的权重，所幸，在lightgbm中，就有这么一个方法，可以拿来即用：


import os
import logging
import joblib
import lightgbm as lgb
import numpy as np
from common.path.dataset.answer import get_lightgbm_train_data_path
from common.path.dataset.answer import get_lightgbm_dev_data_path
from common.path.model.sentence_model import get_sentence_lightgbm_ranker_model_path


logger = logging.getLogger(__name__)

class LihtgbmRankerTrain(object):
    def __init__(self) -> None:
        self.train_path = get_lightgbm_train_data_path()
        self.dev_path = get_lightgbm_dev_data_path()
        self.model_path = get_sentence_lightgbm_ranker_model_path()

        self.params = {
            'boosting_type': 'gbdt',
            'max_depth': 5,
            'objective': 'binary',
            # 'nthread': 3,  
            'num_leaves': 64,
            'learning_rate': 0.05,
            'max_bin': 512,
            'subsample_for_bin': 200,
            'subsample': 0.5,
            'subsample_freq': 5,
            'colsample_bytree': 0.8,
            'reg_alpha': 5,
            'reg_lambda': 10,
            'min_split_gain': 0.5,
            'min_child_weight': 1,
            'min_child_samples': 5,
            'scale_pos_weight': 1,
            # 'max_position': 20,
            'group': 'name:groupId',
            'metric': 'auc'
        }
        if not os.path.exists(self.model_path):
            self.model = None
            logger.warning("模型不存在，请先训练...")
        else:
            logger.info(f"加载模型: {self.model_path}")
            self.model = joblib.load(self.model_path)


    def load_data(self):
        train_data = joblib.load(self.train_path)
        dev_data = joblib.load(self.dev_path)
        train_x = []
        train_y = []
        for item in train_data:
            item = list(item)
            x = item[:-1]
            y = item[-1]
            train_x.append(x)
            train_y.append(y)
        dev_x = []
        dev_y = []
        for item in dev_data:
            item = list(item)
            x = item[:-1]
            y = item[-1]
            dev_x.append(x)
            dev_y.append(y)
        
        return train_x, train_y, dev_x, dev_y

    
    def train(self):
        train_x, train_y, dev_x, dev_y = self.load_data()
        train_x = np.array(train_x)
        train_y = np.array(train_y)
        dev_x = np.array(dev_x)
        dev_y = np.array(dev_y)

        query_train = [train_x.shape[0]]
        query_val = [dev_x.shape[0]]

        self.gbm = lgb.LGBMRanker(**self.params)
        self.gbm.fit(train_x , train_y , group=query_train , eval_set=[(dev_x , dev_y)] , eval_group=[query_val] , eval_at=[5 , 10 , 20] , early_stopping_rounds=50)
        joblib.dump(self.gbm, self.model_path)
    

    def predict(self, recall_data):
        result = self.model.predict(recall_data)
        return result

注意： 如果你是对的数据，你可以这样来精排，如果你和我一样，是对的数据，你这样精排的意义就不大。因为最后训练出来的权重，除了语义相似度特征的权重较大，其他特征的权重都接近0。（建议亲自动手试试，实践出真知！）

优化策略

在做完精排后，你以为事情就结束了？

其实远没有，用对的数据集，只能解决一部分问题，要想带来质的提升，一方面是你的问答库要非常全，这个需要长时间积累，另一方面，你需要标注对的数据，但这种数据非常难标注，往往需要专业的IT从业人员标注，才能获取到一个较为准确的结果。
但是，我们CSDN上的用户，都是专业的IT从业人员，在问答的前端页面上，我们可以增加几个按钮，让用户帮我们来标注，这样不但成本低，且标注效果好，所以，我在精排后返回的数据中，增加了一个recommend_id字段，用来标记推荐的结果，用户点击按钮后，会更新这条推荐结果的状态，如下图：

结果

目标是5%，虽然达到了目标，但离真正地提升用户体验，还有很长一段路要走。

继续加油！

总结

1、作为一名合格的NLPer，不仅要考虑模型本身的效果，更要考虑如何构建高质量的数据集。模型与模型之间的差距并不会特别大，与其花大量时间在模型上，不如花一部分时间在数据上，也许，带来的收益会更大。

2、一个好的NLP项目，往往需要形成一个闭环，模型运行起来后，并不是再也不更新，我们需要持续收集用户反馈，持续跟进，持续分析badcase，持续迭代优化

最后，有对代码感兴趣的同学，可以看我之前写的一篇文章：FAQ式问答系统

你可能感兴趣的:(NLP成长之路,bert,自然语言处理,人工智能)

我与《写作》的故事开心果子
要想提高写作能力，就要磨练写故事的能力，昨天读了叶老师与阅读的故事，今天又再写作的故事里相逢，跟叶老师隔着书本进行了一场对话，我就是那大部分小伙伴中的一员，在微信读书《认知觉醒》的书评里认识了叶老师，通过叶老师的写作，来到这里与大家相聚。我也来讲讲，我与写作的故事。2022年8月7日，我读到了《逆熵增成长之路》的写作篇，开始注册写下第一篇文章《日更百天挑战》，到今天24天，写了28篇小短文，2.2
DeepSeek部署指南：从入门到精通 wujj_whut 热门应用 c++DeepSeek 嵌入式实时数据库
DeepSeek部署指南：从入门到精通引言在人工智能和深度学习领域，模型的部署是一个至关重要的环节。DeepSeek作为一款强大的深度学习框架，其部署过程不仅关系到模型的性能表现，还直接影响到实际应用的效果。本文将详细介绍DeepSeek的部署流程，涵盖从环境配置到实际应用的各个方面，旨在帮助读者全面掌握DeepSeek的部署技巧。一、DeepSeek简介DeepSeek是一款开源的深度学习框架，
【人工智能之深度学习】1. 深度学习基石：神经元模型与感知机的数学本质（附代码实现与收敛性证明） AI_DL_CODE 人工智能之深度学习人工智能深度学习神经元模型感知机赫布法则深度学习基础线性可分
摘要：作为深度学习的基础单元，神经元模型与感知机承载着从生物智能到人工神经网络的桥梁作用。本文从生物神经元的工作机制出发，系统剖析数学建模过程：详解赫布法则的权重更新原理（Δwi=η·xi·y），推导McCulloch-Pitts神经元模型的数学表达（y=Θ(∑wixi−b)），重点证明感知机在linear可分情况下的收敛性——通过Novikoff定理严格推导迭代次数上界，揭示间隔γ对收敛速度的影
女性职业新趋势：揭秘未来高薪热门行业氧惠爱高省
女生在职业选择上拥有广阔的空间，尤其是在当前快速发展的社会背景下，一些行业不仅成为了高薪热门，还提供了多样化的职业路径。以下是一些可能成为女生高薪热门选择的行业：➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。科技与互联网行业人工智能与大数据：随着人工智能和大数据技术的广泛应用，相
利用 Python 爬取小红书热门笔记并进行标签关键词分析程序员威哥最新爬虫实战项目 python 笔记开发语言
一、背景与目标小红书（RED）作为中国最活跃的内容社区之一，拥有大量关于美妆、穿搭、美食、旅游等领域的用户生成内容（UGC）。对于产品、品牌方或研究人员来说，提取热门笔记的标签关键词，可以有效捕捉用户关注点、消费趋势及内容热词。本项目目标：使用Python爬取小红书某个话题下的热门笔记；分析每篇笔记中的标题、正文、标签等字段；利用NLP技术提取高频关键词；对关键词进行可视化与聚类分析。二、技术难点
交错并联Buck+LLC变换器的建模与控制优化研究
交错并联Buck+LLC变换器的建模与控制优化研究前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。摘要本文针对宽输入电压范围(200-450V)、多电压输出(12-48V)的高效DC-DC变换系统，提出了一种基于交错并联Buck预调节器和LLC谐振变换器的两级式拓扑结构。中间母线电压设定为200V，系统输出功率为1500W，要求电压和
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现神经网络15044 算法 python 分类矩阵人工智能数据挖掘深度学习
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言1.1研究背景实例分割是计算机视觉领域的重要任务，它要求模型不仅要检测图像中的对象，还要精确地分割出每个对象的像素级掩码。近年来，基于Transformer的模型在实例分割任务上取得
OpenCV引擎：驱动实时应用开发的科技狂飙芯作者 DD：计算机科学领域 opencv 计算机视觉
在人工智能与计算机视觉技术迅猛发展的今天，实时图像处理已成为工业自动化、自动驾驶、医疗诊断、增强现实等领域的核心技术需求。而**OpenCV（OpenSourceComputerVisionLibrary）**作为全球最活跃的开源计算机视觉库，正以其强大的算法生态、跨平台兼容性以及持续进化的架构设计，成为驱动实时应用开发的“数字引擎”。本文将深入剖析OpenCV如何通过技术创新突破实时处理的性能极
全球软件技术峰会 2025：聚焦大模型开发、智能运维与架构创新，共赴技术实战盛宴向日葵也有悲伤运维架构推荐算法数据结构大数据数据库架构
全球软件技术峰会2025：聚焦大模型开发、智能运维与架构创新，共赴技术实战盛宴在软件定义未来的时代，人工智能与数字化技术正以颠覆性力量重塑全球产业格局。2025年8月15-16日，以"全球专家、卓越智慧"为宗旨的全球软件技术峰会将盛大启幕，特邀全球近50位来自微软、谷歌、亚马逊、字节跳动等企业的技术领袖及一线实战专家，围绕大模型智能应用开发、AI与ML智能运维、软件开发智能化、架构设计与演进四大核
AI产品经理面试宝典第42天：学习方法与产品流程解析 TGITCIC AI产品经理一线大厂面试题产品经理 AI面试大模型面试 AI产品经理面试大模型产品经理面试 AI产品大模型产品
具体问答：学习产品及AI知识的方法问：请谈谈您是如何学习产品及AI知识的，以及您认为哪些资源对您帮助最大答：我的学习体系包含三个维度：分层知识架构、实践验证闭环、资源筛选机制。在知识获取阶段，采用「理论-案例-工具」三级学习法：通过《人工智能：一种现代的方法》构建AI基础框架，用TensorFlow官方文档掌握工程实现，结合《启示录》《俞军产品方法论》理解产品逻辑。实践环节采用「项目反哺」模式，例
重磅！LM Studio AI编程全面免费
从今天起，LMStudio在家和工作中均可免费使用。查看更新后的条款了解详情。我们的隐私政策保持不变，您可以在此处阅读。在家免费使用，现在也可在工作场所使用LMStudio一直以来都免费供个人使用。这源于我们秉持的根本信念：人工智能应该让人们在自己的机器上轻松访问，无需依赖任何外部资源，并且完全保护隐私。此前，LMStudio应用条款规定，公司或组织若要使用LMStudio，必须联系我们并获得单独
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
Self-Consistency：跨学科一致性的理论与AI推理的可靠性基石大千AI助手人工智能 Python #Prompt 人工智能机器学习神经网络算法大模型幻觉 LLM
本文综合其在逻辑学、心理学及人工智能领域的核心定义、技术实现与前沿进展来对Self-Consistency（自洽性）进行系统性解析。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与跨学科内涵基础概念逻辑学定义：指理论或系统内部逻辑自洽，无矛盾或悖论。例如物理理论中，狭义相对论的速度变换
人工智能学习指南：从菜鸟到大神的进击之路橡晟人工智能深度学习计算机视觉算法学习 python
人工智能学习指南：从菜鸟到大神的进击之路前言：别慌，AI没那么可怕嘿！想学人工智能？恭喜你，你已经比90%的人更有眼光了！很多人一听到"人工智能"就开始头疼，仿佛这是什么高深莫测的巫术。其实不然，AI就像学做饭一样——刚开始可能会糊锅，但掌握了方法，你也能做出一桌好菜！目录第一章：认清现实，别被忽悠第二章：建立知识地图第三章：实战为王第四章：自检清单——你真的学会了吗？第五章：进阶之路结语：成为A
敏捷开发中的自然语言处理集成项目管理实战手册项目管理最佳实践敏捷流程自然语言处理 easyui ai
敏捷开发中的自然语言处理集成：让代码与需求“说人话”关键词：敏捷开发、自然语言处理（NLP）、用户故事分析、需求自动化、持续集成优化摘要：在敏捷开发中，“快速响应变化”的核心目标常被繁琐的文本处理拖慢——需求文档像“天书”、用户故事靠“脑补”、缺陷报告整理耗时……自然语言处理（NLP）就像一位“智能翻译官”，能让开发团队与需求文档“流畅对话”。本文将用“搭积木”“翻译机”等生活化比喻，带您理解如何
阴谋爆仓！社科院课堂朱民ST-balance节能风电被骗揭秘！受害者亲述不能出金真相！正义青天
随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁。因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局若你也不幸被骗遇到此类平台一定不要打草惊蛇，早期不
对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
飞算科技：以原创技术为翼，赋能产业数字化转型
在数字经济浪潮席卷全球的当下，一批专注于技术创新的中国企业正加速崛起，飞算数智科技（深圳）有限公司（简称“飞算科技”）便是其中的佼佼者。作为一家国家级高新技术企业，飞算科技以自主创新为核心驱动力，凭借互联网科技、大数据、人工智能等前沿技术，为各行业客户插上数字化转型的翅膀。飞算科技的定位清晰而坚定——自主创新型数字科技公司。这一定位不仅体现在其技术研发的方向上，更融入到为客户服务的每一个环节。无论
警惕!北恒私募高级班周一丰，马建军不正规。不让出金,不能提现,大家远离骗局! 昌龙律法
随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁。因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，若你也不幸被骗遇到此类平
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
计算机发展史：人工智能时代的智能变革与无限可能 jdlxx_dongfangxing 计算机发展史计算机发展史
在计算机发展的漫长进程中，人工智能时代的到来无疑是最具革命性的篇章之一。它使计算机从单纯的数据处理工具，进化为能够模拟、延伸和拓展人类智能的强大系统，对科学研究、经济发展、社会生活乃至人类文明的走向，都产生了深远且不可逆转的影响。从早期对智能机器的设想，到如今人工智能技术在全球范围内的广泛应用，这一领域经历了无数次理论突破、技术迭代与实践探索，正以前所未有的速度重塑着我们的世界。人工智能的起源与早
使用Python调用Hugging Face Question Answering (问答)模型墨如夜色 python easyui 开发语言 Python
使用Python调用HuggingFaceQuestionAnswering(问答)模型在自然语言处理领域，问答系统是一种能够回答用户提出的问题的智能系统。HuggingFace是一个知名的开源软件库，提供了许多强大的自然语言处理工具和模型。其中，HuggingFace的QuestionAnswering模型可以帮助我们构建问答系统，使得我们能够从给定的文本中提取答案。本文将介绍如何使用Pytho
在美国，现在有超过10万台atm机允许你用借记卡购买比特币麦田财经
在美国，通过普通自动取款机购买比特币已经成为现实。这一进展预示着Genmega和LibertyX之间最近的合作关系。通过这种合作，人们可以用借记卡从多台atm机上购买比特币。通过ATM机使用借记卡购买比特币“金融时报”2018年10月15日(星期一)发布的一份新闻稿显示，该国所有的Genmega自动取款机现在基本上都是比特币自动取款机。在合作的基础上，Genmega自动取款机现在将提供Freety
走进区块城市，开启你的元宇宙之旅！口碑信息传播者
随着科技的飞速发展，虚拟现实、区块链、人工智能等前沿技术逐渐融入我们的生活。在这个大背景下，元宇宙概念应运而生，成为全球关注的焦点。本文将带领读者走进区块城市，一探元宇宙的究竟，感受这个未来世界的魅力。探索未来，触碰无限可能！国内区块链元宇宙正引领一场前所未有的科技革命，现在正是您加入这场盛宴的最佳时机！在这里，您将亲身体验到一个全新的虚拟世界，感受与现实世界无缝对接的震撼体验。加入国内区块链元宇
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
大学专业科普 | 人工智能、物联网和云计算技术鸭鸭鸭进京赶烤人工智能物联网云计算 5G 信号处理信息与通信网络
一、专业概述人工智能专业是一门融合计算机科学、数学、信息学等多学科知识的交叉学科。它旨在培养学生掌握人工智能领域的基本理论、方法和技能，以应对人工智能在各个领域的应用需求和发展挑战。二、主要课程基础课程：包括高等数学、线性代数、概率论与数理统计、离散数学等数学基础课程，为人工智能算法提供理论支撑；以及数据结构、算法设计与分析、计算机组成原理、操作系统、计算机网络等计算机科学基础课程，帮助学生理解人
2023-07-17 岁月静好_9afd
（转）第一讲：前言：心理咨询师的专业成长之路1.更好的发展，建立在专业成长好的基础之上。2.方向比努力更重要。3.心理学没有速成。4.如果学好心理学？坚持。坚持坚持再坚持，把同一批的人都熬丢了，就成功了。5.一味的抓课或者追星，盲目崇拜，都是不合适的。6.修己达人（修己度人）：修己：一修自己这个人，助人的时候，我们就像一个容器，容得下、接得住，容器越大就越能帮助更多的来访者。二修自己的专业能力。达
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全苏柒 web安全计算机网络网络安全运维转业程序员编程
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo