西南叶孤城

Bert超长文本分类、文本摘要

Bert大规模超长文本分类

长文本分类
- 文本摘要算法Textrank介绍
- 句子相似度计算
- 训练全部代码
- 分类结果
- 总结

长文本分类

文本分类是把文本打上对应的类别标签，在互联网中的应用场景很多，如评论、弹幕等。作为比较强大的预训练模型Bert，用来做文本分类有很好的效果。本文介绍pytorch版本的Bert长文本分类,但由于Bert的输入长度有现在，最长只能输入512个字符，但长文本通常有几千或者几万个字，所以本文采用了两种策略来进行长文本分类，一是取文本开头的512字符输入到Bert，二是对文本先采用文本摘要算法，得到重要的部分再取前面512字符输入到Bert。

文本摘要算法Textrank介绍

Textrank算法的思想来自于PageRank，PageRank是谷歌用来进行网页排序的算法，其思想是赋予每个网页一个权值，然后计算每个网页指向其他网页的权值，之后根据计算的权值求和来进行权值更新，一般，最后按权值来进行排名。
在文本中，就将每一个句子看成一个个体，句子与句子间的链接权值就用句子间的相似度来代替，只需要进行句子间相似度的计算就可以更新权值了，假设向量B是句子的rank权值，每一个元素代表一个句子的排名权值，矩阵A是一个二维矩阵，它的维度数是句子的数量，用矩阵A*向量B来进行迭代，当向量B收敛之后就完成了，向量B中元素的值就代表对应句子的排名权值。

句子相似度计算

句子相似度的计算，一般用两个句子的向量来进行运算，比如计算余弦相似度。然而怎么取句子向量比较重要，句子向量要能充分表示句子的特征，这样计算的相似度才准确。现在一般取句子向量的话，会用到词向量，或者Bert。用词向量的话，是查表找到每一个词的向量，在计算平均，得到句子的向量。而Bert则是输入一个句子，用输出的CLS代表整个句子的向量，当然也可以用Bert获取每个字的向量再求平均获得句子向量。
1、使用glove词向量来获取句子向量并进行Textrank

# -*- coding:utf-8 -*-
# 导入所需的库,没有的话用pip install 库名字安装
import numpy as np
import pandas as pd
import nltk
# networkx库内置了常用的图与复杂网络分析算法，可以方便的进行复杂网络数据分析、仿真建模等工作。
import networkx as nx
# 下载一次就行了，第一次下载完再注释掉
#nltk.download('punkt')

# 下载停用词，下载一次就行，同上
#nltk.download('stopwords')
# 加载进来
from nltk.corpus import stopwords
import re
# 将用余弦相似度计算两个句子之间的相似度
from sklearn.metrics.pairwise import cosine_similarity
from bs4 import BeautifulSoup

def get_sentences_list(raw_text: str):
    #BeautifulSoup对象，参数 文档字符串，html解析器，文档编码
    return [s for s in BeautifulSoup(raw_text, 'html.parser')._all_strings()]



# 这里使用glove中文维基的词向量生成一个word_embeddings查找列表
word_embeddings = {}
f = open('glove.txt', encoding='utf-8')
# 按行读取
for line in f:
    # 按照空格进行分割
    values = line.split()
    # values 数组的第一个位置是当前的英语单词
    word = values[0]
    coefs = np.asarray(values[1:], dtype='float32')
    word_embeddings[word] = coefs
f.close()

# print("词表：",len(word_embeddings['我']))
# 停用词表
def stopwordslist():
    stopwords = [line.strip() for line in open('chineseStopWords.txt',encoding = "utf-8").readlines()]
    return stopwords

def text_import(text):
    text_extract = ''
    sentence_list = []
    text = get_sentences_list(text)
    for node in text[0].split('。'):
        if len(node) != 0:
            sentence_list.append(node)



    sentence_num = len(sentence_list)
    sentences_vectors = []
    print(len(sentence_list))
    # print(sentence_list[0])
    #去除非中文的字符
    pre_sentences = pd.Series(sentence_list).str.replace('[^\u4e00-\u9fa5]', ' ')
    stop_words = stopwordslist()
    # print(stop_words)
    # 定义移除停用词函数
    def remove_stopwords(str):
        # 遍历数组中的每个元素，如果这个元素不在停用词列表，则加入事先准备的字符串中
        sen = ' '.join([i for i in str if i not in stop_words])
        return sen

    # 去除停用词
    pre_sentences = [remove_stopwords(r.split()) for r in pre_sentences]

    print(pre_sentences)
    # 获取句子特征向量，用来计算后面的相似度，这里取每个句子中词向量合并的平均值来作为该句子的特征向量

    # 所有句子的词向量表示
    sentences_vectors = []
    for sen in pre_sentences:
        # 如果句子长度不为0
        if len(sen) != 0:
            v = sum([word_embeddings.get(w, np.zeros((300,))) for w in sen.split()]) / (len(sen.split()) + 1e-2)
        else:
            v = np.zeros((300,))
        sentences_vectors.append(v)

    # 用上面获取到的句子的向量计算一个相似度矩阵
    # 这里使用余弦相似度来计算每个句子的相似性
    # 首先定义一个n乘n的零矩阵，然后用句子间的余弦相似度填充矩阵，这里n是句子的总数。
    similarity_matrix = np.zeros((len(pre_sentences), len(pre_sentences)))
    print(len(pre_sentences))
    for i in range(len(pre_sentences)):
        for j in range(len(pre_sentences)):
            # 这里的if用于排序自己与自己计算相似度
            if i != j:
                similarity_matrix[i][j] = cosine_similarity(
                    sentences_vectors[i].reshape(1, -1), sentences_vectors[j].reshape(1, -1)
                )
    # 输出相似度矩阵
    print(similarity_matrix)

    # 将上面获得的相似性矩阵sim_mat转换为图结构。这个图的节点为句子，边用句子之间的相似性分数表示。
    # 在这个图上，使用networkx库提供的PageRank算法来得到句子排名，句子排名越高，说明其越重要，就是摘要
    nx_graph = nx.from_numpy_array(similarity_matrix)
    scores = nx.pagerank(nx_graph)
    print(scores)
    # 根据排名来选取句子作为摘要
    # 遍历sentences数组，i是当前的位置角标，s是当前的句子
    # scores[i]：从scores中取出第i个位置的分数与当前句子组成一对
    # 将所有的分数，句子信息组成的list赋值给ranked_sentences
    # sorted：并排序，reverse=True降序
    ranked_sentences = sorted(
        ((scores[i], s) for i, s in enumerate(sentence_list)), reverse=True
    )
    # 排序
    # for i in range(1):
    #     print(ranked_sentences[i][1])
    # # 打印得分最高的前面几个句子，即为摘要,这里修改句子的数量就可以修改摘要

    for i in range(sentence_num):
        if len(text_extract) < 512:
            # 获取文本的摘要
            text_extract += ranked_sentences[i][1] + '。'
        else:
            break

    return text_extract[:512]


text="徐峥，回不到过去徐峥，回不到过去喜剧演员徐峥、爆米花商业片导演徐峥，同时也是文青的徐峥。毒眸《我和我的家乡》的五个单元故事里，若票选最令人印象深刻的角色，《最后一课》单元的中范伟饰演的“范老师”可能是人气最高的。豆瓣高赞短评写道：“范伟把我的泪点掐住了”、“教科书级别的演技”；微博上，范伟雨中奔跑的花絮冲上热搜第一，评论说：“范伟真的厉害，从他跑出教室我就开始哭，一直到单元结束”。也有观众能够指出，范伟动人的表演不止是范伟自己的功劳。作为这个单元的导演，恰好在徐峥的导演方法论里，表演也是重要的话题。“导演对表演，必须达到一种切身的理解，要完全能够站在演员的立场上，为演员的表演提供有帮助的指示。”10月12日，徐峥在丝绸之路国际电影节的大师班上，传递了这样一种观点。对表演的理解深度，或许是徐峥作品里容易诞生“高光演技”的原因之一：从《我和我的祖国》里惊艳的小演员“冬冬”韩昊霖，到《我和我的家乡》里“掐住观众泪点”的范伟，都凭借演技引发了话题。另一方面，叙事功力也是《最后一课》受到好评的另一个原因。豆瓣一则热评写道：“（最后一课）展现出徐峥某个程度的细腻，他很擅长从小的切角去展开一个宏大叙题。”《最后一课》中，村民为帮助身患阿尔兹海默症的范老师，设下“重返1992年”的骗局，最终骗局的败露，也揭示了家乡的发展变化遮掩不住。徐峥在大师班上这般解释如此构思的原因：“因为观众是非常害怕说教的”，所以要通过一个“过去无法重塑”的故事，去展现变化。而毒眸通过徐峥在大师班上的讲述，也感知到《最后一课》与徐峥个人轨迹的某种暗合：从演实验话剧的先锋文艺青年，到家喻户晓的影视演员、商业片导演，近年来的徐峥正在试图回归到更接近个人表达的状态。但过去无法重塑，徐峥要做的不是变回90年代那个文艺青年，而是带着对过去自我的同理心和多年积累的经验，介入到当下青年导演的创作中去——成为青年导演的电影监制。徐峥提到，大部分导演正如当年的自己一样，是因为热爱艺术而投身电影创作的文艺青年，而现在的徐峥和他所成立的真乐道文化，正在通过“监制”这一角色，去服务青年导演，帮助“曾经的徐峥”们缓解创作之外、全产业流程上的压力。某种程度上，范伟饰演的乡村教师，也带着几分徐峥的自我投射：一个人仅凭自己的力量是无法改变“家乡”或者“环境”的，但是把经验分享出来，帮助更多有能力改变的人，环境就会向好的方向变化。文青徐峥“程耳找我拍《犯罪分子》的时候，是在1998年，那时候我也是个文艺青年。”大师班上与青年导演对谈的徐峥，回溯了他的青年时代，但很快又调转话锋：“现在如果让他（程耳）看我的电影，他肯定看不上我，觉得我已经不是一个艺术青年了。”二十年前，徐峥在大众的认知里是《春光灿烂猪八戒》里的猪八戒、《李卫当官》中的李卫。但其实在古装喜剧之外，他还是个演先锋话剧的艺术青年，这一度会让许多观众感到惊诧。但近年来，1999年问世的《犯罪分子》的重新流行，再度将文青时代的徐峥带回观众的视野。这部31分钟的小成本犯罪片拍摄时，导演程耳还在北京电影学院毕业读大四。作品有“北电史上最牛学生作业”之称，豆瓣评分7.4，一条2014年发布的热门短评无不惋惜地评价男主角徐峥：“大脑袋有大智慧，演技真实准确，可惜了现在的被定位。”《 犯罪分子》剧照但彼时观众跨越时空的“惋惜”对徐峥来说，未免来得迟了一些——文青时代的徐峥是不为观众所青睐的。《十三邀》中，徐峥和许知远走进了上海话剧艺术中心——1994年从上海戏剧学院毕业后，徐峥的第一个工作单位。艺术中心进门处的墙上挂满了剧照，徐峥很快从中发现了自己的身影：《拥挤》《艺术》《股票的颜色》......而后者令徐峥在1998年摘得白玉兰戏剧奖最佳男主角。根据徐峥的描述，从戏剧学院毕业后没有人找自己拍戏，所以他一直在演话剧。那时，话剧演员徐峥一度“小有名气”，徐峥还和朋友组建了剧社，并自己担任导演排了两部先锋的实验作品《拥挤》和《母语》。“当时就受到很多质疑，别人说你排的戏看不懂，这那的，当时我就很激动，还会跟人争辩。”徐峥在《十三邀》里说道。但他很快转变了思路，开始反思过于先锋的内容是否有意义，他认为自己应该对作品的传播效果负责任。愿意主动做出这样的改变，是因为徐峥虽然接受过高屋建瓴的戏剧教育、具备做出先锋性表达的能力，但他并不是那类厌弃成功的、忧郁的、纯度很高的文艺青年。徐峥在艺术性和商业化两个方向里同样具有可能性。世纪之交，徐峥开始涉足影视圈，同时也仍然在排话剧，前者所带来的曝光一度让徐峥的话剧事业“沾光”。2000年1月《春光灿烂猪八戒》在各大卫视反复播出，据索福瑞收视数据，该剧在湖南卫视、黑龙江卫视、山东和江西卫视播出的平均收视率均超过20%，最高平均收视达到31%。次年徐峥主演的喜剧话剧《艺术》在宣传不多的情况下，于上海连演15场。尽管徐峥自嘲现在的程耳一定看不上自己，但事实上，2007年程耳和徐峥又再度合作了悬疑惊悚剧《第三个人》。2009年，徐峥主演两部公路片，一部是指向喜剧和商业成功的《人在囧途》，一部是暗黑的《无人区》，后者入围了柏林国际电影节主竞赛单元。《无人区》海报文艺青年的人格从未离开徐峥的躯壳，只是一度被喜剧演员的光环盖住了——面向大众的商业喜剧片、古装电视剧能够辐射的受众，远比话剧和严肃电影来得多。但近年来，随着主演作品《我不是药神》的上映和徐峥个人导演作品中愈发明显的人文表达，他的“前文艺青年”身份不再显得太过违和。《我不是药神》在豆瓣被150万用户打出9.0分，位列豆瓣电影top250第47名——达到了近20年来华语电影鲜少能触碰到的金线。《最后一课》在《家乡》的五个单元之中，口碑亦属于上乘。徐峥延续了执导《我和我的祖国》单元《夺冠》的经验，从小人物的动机和情感出发，反而真实恳切；在叙事上，他在过去与现在的故事线反复切换，用重塑过去来反衬现在；细节也值得咂摸，比如颜料打翻在水里化成了彩虹的颜色、范老师一路走进教室那个调度复杂、明星云集的长镜头。"
# text=" "
print(len(text))
print(text_import(text))

2、使用在语料上预训练过的Bert来获取句子向量

# 导入所需的库,没有的话用pip install 库名字安装
import numpy as np
import pandas as pd
import nltk
import pickle
import json
# networkx库内置了常用的图与复杂网络分析算法，可以方便的进行复杂网络数据分析、仿真建模等工作。
import networkx as nx
# 下载一次就行了，第一次下载完再注释掉
#nltk.download('punkt')

# 下载停用词，下载一次就行，同上
#nltk.download('stopwords')20
# 加载进来
from nltk.corpus import stopwords
import re
# 将用余弦相似度计算两个句子之间的相似度
from sklearn.metrics.pairwise import cosine_similarity
import torch
import tqdm
import bs4
from torch import nn
from tqdm import tqdm
from bs4 import BeautifulSoup
import transformers as tfs

BERT_TOKENZIER_PATH ='./chinese_wwm_ext_L-12_H-768_A-12/'
FINETUNED_BERT_ENCODER_PATH ='./预训练模型/finetuned_bert.bin'

def get_sentences_list(raw_text: str):
    #BeautifulSoup对象，参数 文档字符串，html解析器，文档编码
    return [s for s in BeautifulSoup(raw_text, 'html.parser')._all_strings()]


#这里用微调的bert来获取文本的句子向量，再用向量来计算相似度
class MyBertEncoder(nn.Module):
    """自定义的Bert编码器"""
    def __init__(self, tokenizer_path, finetuned_bert_path):
        super(MyBertEncoder, self).__init__()
        model_class, tokenizer_class = tfs.BertModel, tfs.BertTokenizer
        self.tokenizer = tokenizer_class.from_pretrained(tokenizer_path)
        self.bert = torch.load(finetuned_bert_path)

    def forward(self, batch_sentences):
        batch_tokenized = self.tokenizer.batch_encode_plus(batch_sentences, add_special_tokens=True,
                                                           max_length=512, pad_to_max_length=True)

        input_ids = torch.tensor(batch_tokenized['input_ids']).cuda()
        token_type_ids = torch.tensor(batch_tokenized['token_type_ids']).cuda()
        attention_mask = torch.tensor(batch_tokenized['attention_mask']).cuda()

        bert_output = self.bert(input_ids=input_ids, token_type_ids=token_type_ids, attention_mask=attention_mask)
        bert_cls_hidden_state=bert_output[1]
        # bert_cls_hidden_state = bert_output[0][:, 0, :]
        return bert_cls_hidden_state

encoder = MyBertEncoder(BERT_TOKENZIER_PATH, FINETUNED_BERT_ENCODER_PATH)


def text_import(text):
    #以下操作不影响梯度
        with torch.no_grad():
            encoder.eval()
            print("我是一个小天使！")
            text_test = "我是一个小天使！"
            text_emb = np.array(encoder(text_test).cpu().detach().numpy())
            print(text_emb[0])

            text_extract=''
            sentence_list=[]
            text=get_sentences_list(text)
            for node in text[0].split('。'):
                if len(node)!=0:
                    sentence_list.append(node)

            sentence_num=len(sentence_list)
            sentences_vectors = []
            print(sentence_list)
            print(sentence_list[0])
            for sen in sentence_list:
                # emb=padding_E2E_bert(np.array(encoder(sen).cpu()))
                emb = np.array(encoder(sen).cpu())
                # 取cls的向量作为句子向量
                sentences_vectors.append(emb[0])
                del emb

            # 用上面获取到的句子的向量计算一个相似度矩阵
            # 这里使用余弦相似度来计算每个句子的相似性
            # 首先定义一个n乘n的零矩阵，然后用句子间的余弦相似度填充矩阵，这里n是句子的总数。
            similarity_matrix = np.zeros((len(sentence_list), len(sentence_list)))

            for i in range(len(sentence_list)):
                for j in range(len(sentence_list)):
                    # 这里的if用于排序自己与自己计算相似度
                    if i != j:
                        similarity_matrix[i][j] = cosine_similarity(
                            sentences_vectors[i].reshape(1, -1), sentences_vectors[j].reshape(1, -1)
                        )
            # 输出相似度矩阵
            print(similarity_matrix)

            # 将上面获得的相似性矩阵sim_mat转换为图结构。这个图的节点为句子，边用句子之间的相似性分数表示。
            # 在这个图上，使用networkx库提供的PageRank算法来得到句子排名，句子排名越高，说明其越重要，就是摘要
            nx_graph = nx.from_numpy_array(similarity_matrix)
            scores = nx.pagerank(nx_graph)

            # 根据排名来选取句子作为摘要
            # 遍历sentences数组，i是当前的位置角标，s是当前的句子
            # scores[i]：从scores中取出第i个位置的分数与当前句子组成一对
            # 将所有的分数，句子信息组成的list赋值给ranked_sentences
            # sorted：并排序，reverse=True降序
            ranked_sentences = sorted(
                ((scores[i], s) for i, s in enumerate(sentence_list)), reverse=True
            )
            # 排序
            for i in range(1):
                print(ranked_sentences[i][1])
            # 打印得分最高的前面几个句子，即为摘要,这里修改句子的数量就可以修改摘要

            for i in range(sentence_num):
                if len(text_extract)<512:
                    #获取文本的摘要
                    text_extract+=ranked_sentences[i][1]+'。'
                else:
                    break

            return text_extract[:512]


text="这4种家电，有人相见恨晚，有人感觉鸡肋，主要是价格不一样同样一个产品，口碑却两极分化。感觉好用的人，天天喊着“后悔买晚了”；还有一些人，买完就感慨“果然是鸡肋”。在家电里也有一些这样的产品，比如我们今天要说的下面这四种。而且这四种家电有一个共同点——说好用的人，买得都挺贵的。没错，造成这四类家电口碑两极分化的原因，就是价格。如果你想买，请直接买贵的。"
print(text_import(text))

训练全部代码

这里给出的是使用glove词向量生成摘要输入到Bert进行分类的代码，使用Bert的话cuda的容量比较大报错，可能也跟我写的代码有关，没有分批处理，也可能因为文章比较长，很难全部过bert的话占用容量很大。这里使用的是华为文本分类比赛用到的数据。具体流程是数据处理，生成摘要，输入Bert，再接一个Lstm。

# -*- coding:utf-8 -*-
import torch
torch.cuda.is_available()
import os
#分配cuda
os.environ["CUDA_VISIBLE_DEVICES"] = '2'
# torch.cuda.set_device(2)
import numpy as np
import pandas as pd
import torch
import torch.nn as nn
from torch.nn import CrossEntropyLoss, MSELoss
import torch.nn.functional as F
import torch.optim as optim
import torchtext
from torchtext.data import  BucketIterator
from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
from torch.utils.data.distributed import DistributedSampler
from tqdm import tqdm, trange

from transformers import (
    WEIGHTS_NAME,
    AdamW,
    get_linear_schedule_with_warmup,
    BertConfig,
    BertModel,
    BertPreTrainedModel,
    BertTokenizer,)

from transformers import glue_convert_examples_to_features as convert_examples_to_features
from transformers import glue_output_modes as output_modes
from transformers import glue_processors as processors
from transformers.data.processors.utils import InputExample, DataProcessor

import logging
logger=logging.getLogger(__name__)

# from google.colab import drive
# drive.mount('/content/drive')

MODEL_CLASSES={
    "bert":(BertConfig,BertTokenizer),
}



#利用微调的bert来进行文本摘要，这里引入bert的encodder
# 导入所需的库,没有的话用pip install 库名字安装
import numpy as np
import pandas as pd
import nltk
import pickle
import json
# networkx库内置了常用的图与复杂网络分析算法，可以方便的进行复杂网络数据分析、仿真建模等工作。
import networkx as nx
# 下载一次就行了，第一次下载完再注释掉
#nltk.download('punkt')

# 下载停用词，下载一次就行，同上
#nltk.download('stopwords')20
# 加载进来
from nltk.corpus import stopwords
import re
# 将用余弦相似度计算两个句子之间的相似度
from sklearn.metrics.pairwise import cosine_similarity
import torch
import tqdm
import bs4
from torch import nn
from tqdm import tqdm
from bs4 import BeautifulSoup
import transformers as tfs



def get_sentences_list(raw_text: str):
    #BeautifulSoup对象，参数 文档字符串，html解析器，文档编码
    return [s for s in BeautifulSoup(raw_text, 'html.parser')._all_strings()]

# 这里使用glove中文维基的词向量生成一个word_embeddings查找列表
word_embeddings = {}
f = open('glove.txt', encoding='utf-8')
# 按行读取
for line in f:
    # 按照空格进行分割
    values = line.split()
    # values 数组的第一个位置是当前的英语单词
    word = values[0]
    coefs = np.asarray(values[1:], dtype='float32')
    word_embeddings[word] = coefs
f.close()
# 停用词表
def stopwordslist():
    stopwords = [line.strip() for line in open('chineseStopWords.txt').readlines()]
    return stopwords

def text_import(text):
    text_extract = ''
    sentence_list = []
    text = get_sentences_list(text)
    for node in text[0].split('。'):
        if len(node) != 0:
            sentence_list.append(node)



    # sentence_num = len(sentence_list)
    # if sentence_num>5:
    #    sentence_list=sentence_list[:5]
    sentences_vectors = []
    # print(len(sentence_list))
    # print(sentence_list[0])
    #去除非中文的字符
    pre_sentences = pd.Series(sentence_list).str.replace('[^\u4e00-\u9fa5]', ' ')
    stop_words = stopwordslist()
    # print(stop_words)
    # 定义移除停用词函数
    def remove_stopwords(str):
        # 遍历数组中的每个元素，如果这个元素不在停用词列表，则加入事先准备的字符串中
        sen = ' '.join([i for i in str if i not in stop_words])
        return sen

    # 去除停用词
    pre_sentences = [remove_stopwords(r.split()) for r in pre_sentences]

    # print(pre_sentences)
    # 获取句子特征向量，用来计算后面的相似度，这里取每个句子中词向量合并的平均值来作为该句子的特征向量

    # 所有句子的词向量表示
    sentences_vectors = []
    for sen in pre_sentences:
        # 如果句子长度不为0
        if len(sen) != 0:
            v = sum([word_embeddings.get(w, np.zeros((300,))) for w in sen.split()]) / (len(sen.split()) + 1e-2)
        else:
            v = np.zeros((300,))
        sentences_vectors.append(v)

    # 用上面获取到的句子的向量计算一个相似度矩阵
    # 这里使用余弦相似度来计算每个句子的相似性
    # 首先定义一个n乘n的零矩阵，然后用句子间的余弦相似度填充矩阵，这里n是句子的总数。
    similarity_matrix = np.zeros((len(pre_sentences), len(pre_sentences)))

    for i in range(len(pre_sentences)):
        for j in range(len(pre_sentences)):
            # 这里的if用于排序自己与自己计算相似度
            if i != j:
                similarity_matrix[i][j] = cosine_similarity(
                    sentences_vectors[i].reshape(1, -1), sentences_vectors[j].reshape(1, -1)
                )
    # 输出相似度矩阵
    # print(similarity_matrix)

    # 将上面获得的相似性矩阵sim_mat转换为图结构。这个图的节点为句子，边用句子之间的相似性分数表示。
    # 在这个图上，使用networkx库提供的PageRank算法来得到句子排名，句子排名越高，说明其越重要，就是摘要
    nx_graph = nx.from_numpy_array(similarity_matrix)
    scores = nx.pagerank(nx_graph)
    # print(scores)
    # 根据排名来选取句子作为摘要
    # 遍历sentences数组，i是当前的位置角标，s是当前的句子
    # scores[i]：从scores中取出第i个位置的分数与当前句子组成一对
    # 将所有的分数，句子信息组成的list赋值给ranked_sentences
    # sorted：并排序，reverse=True降序
    ranked_sentences = sorted(
        ((scores[i], s) for i, s in enumerate(sentence_list)), reverse=True
    )
    # 排序
    # for i in range(1):
    #     print(ranked_sentences[i][1])
    # # 打印得分最高的前面几个句子，即为摘要,这里修改句子的数量就可以修改摘要

    for i in range(len(sentence_list)):
        if len(text_extract) < 512:
            # 获取文本的摘要
            text_extract += ranked_sentences[i][1] + '。'
        else:
            break

    return text_extract[:512]





#定义十分类的标签以及最大句子长度
my_label_list=[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
MAX_SEQ_LENGTH=200

#读入文本数据,这里是标签 文本的csv格式
train_raw = pd.read_csv('./new_train_set.csv')
train_raw.head()
# print(train_raw['text'])
# print(train_raw['label'])

#对文本里的标签进行编码
from sklearn.preprocessing import LabelEncoder
LE = LabelEncoder()
train_raw['label'] = LE.fit_transform(train_raw['label'])
# print(train_raw.head())

train = train_raw.copy()
train = train.reindex(np.random.permutation(train.index))
train.head()

#这里处理文本里的内容,对文本的内容处理可以加在这里
import re
def clean_txt(text):

  text = re.sub("'", "",text)
  # text=re.sub("(\\W)+"," ",text)
  text=text.replace(' ','')
  text.strip()
  return text

train['text']  = train.text.apply(clean_txt)
# train['text']  = train.text.apply(text_import)
# print(train.head())
#划分训练集，验证集
from sklearn.model_selection import train_test_split
train, val = train_test_split(train, test_size=0.4, random_state=35)
#数据清洗时，会去掉空行的，导致索引不连续
train.reset_index(drop=True, inplace=True)
# print(train.head(2))
val.reset_index(drop=True, inplace=True)
val.head(2)
print(train.shape,val.shape)
# print(train)
train_l = []  # 分割好的文本
label_l = []  # 每段文本的label
index_l= []
# text = text_import(text)
for idx,row in train.iterrows():
        try:
             row['text']=text_import(row['text'])
        #因为textrank算法有时候计算不收敛，也会导致异常，如果出现异常这里就取原文512
        except:
             row['text']=row['text'][:512]

        train_l.append(row['text'])
        label_l.append(row['label'])
        index_l.append(idx)

print(len(train_l), len(label_l))
val_l = []
val_label_l = []
val_index_l= []
for idx,row in val.iterrows():
    try:
         row['text'] = text_import(row['text'])
    except:
         row['text'] = row['text'][:512]

    val_l.append(row['text'])
    val_label_l.append(row['label'])
    val_index_l.append(idx)
print( len(val_l), len(val_label_l))
train_df = pd.DataFrame({'text':train_l, 'label':label_l})
print(train_df.head())
val_df = pd.DataFrame({'text':val_l, 'label':val_label_l})
print(val_df.head())
train_InputExamples = train_df.apply(lambda x: InputExample(guid=None,
                                                                   text_a = x['text'],
                                                                   text_b = None,
                                                                   label = x['label']), axis = 1)

val_InputExamples = val_df.apply(lambda x: InputExample(guid=None,
                                                                   text_a = x['text'],
                                                                   text_b = None,
                                                                   label = x['label']), axis = 1)
#定义模型
class BertForClassification(BertPreTrainedModel):
    def __init__(self, config):
        super().__init__(config)
        self.num_labels = 10

        self.bert = BertModel(config)
        self.dropout = nn.Dropout(config.hidden_dropout_prob)
        self.classifier = nn.Linear(config.hidden_size, self.num_labels)

        self.init_weights()

    def forward(
            self,
            input_ids=None,  # 输入的id,模型会帮你把id转成embedding
            attention_mask=None,  # attention里的mask
            token_type_ids=None,  # [CLS]A[SEP]B[SEP] 就这个A还是B, 有的话就全1, 没有就0
            position_ids=None,  # 位置id
            head_mask=None,  # 哪个head需要被mask掉
            inputs_embeds=None,  # 可以选择不输入id,直接输入embedding
            labels=None,  # 做分类时需要的label
    ):

        outputs = self.bert(
            input_ids,
            attention_mask=attention_mask,
            token_type_ids=token_type_ids,
            position_ids=position_ids,
            head_mask=head_mask,
            inputs_embeds=inputs_embeds,
        )

        sequence_output, pooled_output = outputs[:2]

        pooled_output = self.dropout(pooled_output)
        logits = self.classifier(pooled_output)

        outputs = (logits, pooled_output, sequence_output,)

        if labels is not None:

            if self.num_labels == 1:
                #  We are doing regression
                loss_fct = MSELoss()
                loss = loss_fct(logits.view(-1), labels.view(-1))
            else:
                loss_fct = CrossEntropyLoss()
                loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1))
            outputs = (loss,) + outputs

        return outputs  # loss, logits, pooled_output, sequence_output
#载入预训练模型
args={"model_name_or_path": "./chinese_wwm_ext_L-12_H-768_A-12/",
    "config_name": "./chinese_wwm_ext_L-12_H-768_A-12/",
    "tokenizer_name": "./chinese_wwm_ext_L-12_H-768_A-12/",
      }

config_class, tokenizer_class = MODEL_CLASSES["bert"]
model_class=BertForClassification


config = config_class.from_pretrained(
    args["config_name"],
    finetuning_task="",
    cache_dir=None,
)
tokenizer = tokenizer_class.from_pretrained(
    args["tokenizer_name"],
    do_lower_case=True,
    cache_dir=None,
)
model = model_class.from_pretrained(
    args["model_name_or_path"],
    from_tf=bool(".ckpt" in args["model_name_or_path"]),
    config=config,
    cache_dir=None,
)


model.to("cuda")

#准备训练数据，把example转为feature
train_features = convert_examples_to_features(train_InputExamples,
                                              tokenizer,
                                              label_list=my_label_list,
                                              output_mode="classification",
                                              max_length=MAX_SEQ_LENGTH )

input_ids = torch.tensor([f.input_ids for f in train_features], dtype=torch.long)
attention_mask = torch.tensor([f.attention_mask for f in train_features], dtype=torch.long)
token_type_ids = torch.tensor([f.token_type_ids for f in train_features], dtype=torch.long)
the_labels = torch.tensor([f.label for f in train_features], dtype=torch.long)

#再把feature转为tensordataset
dataset = TensorDataset(input_ids, attention_mask, token_type_ids, the_labels)

#定义训练函数
def train_bert(train_dataset, model, tokenizer):
    no_decay = ["bias", "LayerNorm.weight"]
    optimizer_grouped_parameters = [
        {
            "params": [p for n, p in model.named_parameters() if not any(nd in n for nd in no_decay)],
            "weight_decay": 0.0,

        },
        {
            "params": [p for n, p in model.named_parameters() if any(nd in n for nd in no_decay)],
            "weight_decay": 0.0
        },
    ]

    t_total = len(train_dataset)//5
    optimizer = AdamW(optimizer_grouped_parameters, lr=2e-5, eps=1e-8)
    # bert里的小技巧, bert里的learning rate是不断变化的,先往上升,再往下降,这个scheduler就是用来设置这个
    scheduler = get_linear_schedule_with_warmup(
        optimizer, num_warmup_steps=0, num_training_steps=t_total
    )

    # *********************
    logger.info("*****Running training*****")
    logger.info("  Num examples = %d", len(train_dataset))
    # logger.info("  Num Epochs = %d", 5)
    logger.info("  Num Epochs = %d",5)

    epochs_trained = 0
    global_step = 0
    steps_trained_in_current_epoch = 0

    tr_loss, logging_loss = 0.0, 0.0
    model.zero_grad()
    # train_iterator = trange(epochs_trained, 5, desc="Epoch", disable=False)
    train_iterator = trange(epochs_trained, 5, desc="Epoch", disable=False)
    for k in train_iterator:  # 共5个epoch

        # 随机打包
        train_sampler = RandomSampler(train_dataset)
        train_dataloader = DataLoader(train_dataset, sampler=train_sampler, batch_size=16)
        epoch_iterator = tqdm(train_dataloader, desc="Iteration", disable=False)

        for step, batch in enumerate(epoch_iterator):
            if steps_trained_in_current_epoch > 0:
                steps_traned_in_current_epoch -= 1
                continue

            model.train()
            batch = tuple(t.to("cuda") for t in batch)

            # 每个batch里是 input_ids, attention_mask, token_type_ids, the_labels
            # 所以传入模型时,每个参数位置对应好放进去.
            inputs = {"input_ids": batch[0], "attention_mask": batch[1], "token_type_ids": batch[2], "labels": batch[3]}

            outputs = model(**inputs)
            loss = outputs[0]

            loss.backward()

            tr_loss += loss.item()
            if (step + 1) % 1 == 0:
                torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)

                optimizer.step()
                scheduler.step()
                model.zero_grad()
                global_step += 1

        logger.info("average loss:" + str(tr_loss / global_step))

    return global_step, tr_loss / global_step

# 4.训练
train_bert(dataset,model,tokenizer)


# 5.保存训练好的模型参数
import os
model.save_pretrained("./model/")
tokenizer.save_pretrained("./model/")
torch.save(args,os.path.join("./model/","training_args.bin"))



#开始评估
# 1. 载入训练好的模型
args_eval={"model_name_or_path": "./model/",
    "config_name": "./model/",
    "tokenizer_name": "./model/",
      }

config_class, tokenizer_class = MODEL_CLASSES["bert"]
model_class=BertForClassification


config = config_class.from_pretrained(
    args_eval["config_name"],
    finetuning_task="",
    cache_dir=None,
)
tokenizer = tokenizer_class.from_pretrained(
    args_eval["tokenizer_name"],
    do_lower_case=True,
    cache_dir=None,
)
model = model_class.from_pretrained(
    args_eval["model_name_or_path"],
    from_tf=bool(".ckpt" in args_eval["model_name_or_path"]),
    config=config,
    cache_dir=None,
)


model.to("cuda")


# 2.定义评估函数函数
from sklearn.metrics import f1_score

def simple_accuracy(preds, labels):
    return (preds == labels).mean()
def acc_and_f1(preds, labels):
    acc = simple_accuracy(preds, labels)
    f1 = f1_score(y_true=labels, y_pred=preds)
    return {
        "acc": acc,
        "f1": f1,
        "acc_and_f1": (acc + f1) / 2,
    }

def evaluate(model, tokenizer, eval_dataset):


    logger.info("***** Running evaluation  *****")
    logger.info("  Num examples = %d", len(eval_dataset))
    logger.info("  Batch size = %d", 16)
    eval_loss = 0.0
    nb_eval_steps = 0
    preds = None
    out_label_ids = None

    eval_sampler =RandomSampler(eval_dataset)
    eval_dataloader = DataLoader(eval_dataset, sampler=eval_sampler, batch_size=16)

    for batch in tqdm(eval_dataloader, desc="Evaluating"):
        model.eval()
        batch = tuple(t.to("cuda") for t in batch)

        with torch.no_grad():
            inputs = {"input_ids": batch[0], "attention_mask": batch[1], "labels": batch[3]}
            outputs = model(**inputs)
            tmp_eval_loss, logits = outputs[:2]

            eval_loss += tmp_eval_loss.mean().item()
        nb_eval_steps += 1
        if preds is None:
            preds = logits.detach().cpu().numpy()
            out_label_ids = inputs["labels"].detach().cpu().numpy()
        else:
            preds = np.append(preds, logits.detach().cpu().numpy(), axis=0)
            out_label_ids = np.append(out_label_ids, inputs["labels"].detach().cpu().numpy(), axis=0)

    eval_loss = eval_loss / nb_eval_steps

    preds = np.argmax(preds, axis=1)

    results = simple_accuracy(preds, out_label_ids)

    return results,eval_loss


# 3.生成评估数据
val_features = convert_examples_to_features(val_InputExamples,
                                            tokenizer,
                                            label_list=my_label_list,
                                            output_mode="classification",
                                            max_length=MAX_SEQ_LENGTH )


val_input_ids = torch.tensor([f.input_ids for f in val_features], dtype=torch.long)
val_attention_mask = torch.tensor([f.attention_mask for f in val_features], dtype=torch.long)
val_token_type_ids = torch.tensor([f.token_type_ids for f in val_features], dtype=torch.long)
val_the_labels = torch.tensor([f.label for f in val_features], dtype=torch.long)


eval_dataset = TensorDataset(val_input_ids, val_attention_mask, val_token_type_ids, val_the_labels)
# 4. 评估结果
results,eval_loss = evaluate(model, tokenizer, eval_dataset)
print()
print("Accuracy: ",results, "Loss: ",eval_loss)

args_eval={"model_name_or_path": "./model/",
    "config_name": "./model/",
    "tokenizer_name": "./model/",
      }

config_class, tokenizer_class = MODEL_CLASSES["bert"]
model_class=BertForClassification


config = config_class.from_pretrained(
    args_eval["config_name"],
    finetuning_task="",
    cache_dir=None,
)
tokenizer = tokenizer_class.from_pretrained(
    args_eval["tokenizer_name"],
    do_lower_case=True,
    cache_dir=None,
)
model = model_class.from_pretrained(
    args_eval["model_name_or_path"],
    from_tf=bool(".ckpt" in args_eval["model_name_or_path"]),
    config=config,
    cache_dir=None,
)


model.to("cuda")

train_features = convert_examples_to_features(train_InputExamples,
                                              tokenizer,
                                              label_list=my_label_list,
                                              output_mode="classification",
                                              max_length=MAX_SEQ_LENGTH )

val_features = convert_examples_to_features(val_InputExamples,
                                            tokenizer,
                                            label_list=my_label_list,
                                            output_mode="classification",
                                            max_length=MAX_SEQ_LENGTH )

train_input_ids = torch.tensor([f.input_ids for f in train_features], dtype=torch.long)
train_attention_mask = torch.tensor([f.attention_mask for f in train_features], dtype=torch.long)
train_token_type_ids = torch.tensor([f.token_type_ids for f in train_features], dtype=torch.long)
train_the_labels = torch.tensor([f.label for f in train_features], dtype=torch.long)

# 这里一步每个东西都是要传到BERT模型的forward里面的, 要传哪些自己准备好
train_dataset = TensorDataset(train_input_ids, train_attention_mask, train_token_type_ids, train_the_labels)

val_input_ids = torch.tensor([f.input_ids for f in val_features], dtype=torch.long)
val_attention_mask = torch.tensor([f.attention_mask for f in val_features], dtype=torch.long)
val_token_type_ids = torch.tensor([f.token_type_ids for f in val_features], dtype=torch.long)
val_the_labels = torch.tensor([f.label for f in val_features], dtype=torch.long)

# 这里一步每个东西都是要传到BERT模型的forward里面的, 要传哪些自己准备好
val_dataset = TensorDataset(val_input_ids, val_attention_mask, val_token_type_ids, val_the_labels)

#获得编码
def get_prediction(model, tokenizer, dataset):

    logger.info("***** Running prediction  *****")
    logger.info("  Num examples = %d", len(dataset))
    logger.info("  Batch size = %d", 16)

    pooled_outputs = None

    sampler =SequentialSampler(dataset)
    dataloader = DataLoader(dataset, sampler=sampler, batch_size=32)

    for batch in tqdm(dataloader, desc="Evaluating"):
        model.eval()
        batch = tuple(t.to("cuda") for t in batch)

        with torch.no_grad():
            inputs = {"input_ids": batch[0], "attention_mask": batch[1], "labels": batch[3]}
            outputs = model(**inputs)
            pooled_output = outputs[2]

            if pooled_outputs is None:
                pooled_outputs = pooled_output.detach().cpu().numpy()
            else:
                pooled_outputs = np.append(pooled_outputs, pooled_output.detach().cpu().numpy(), axis=0)

    return pooled_outputs

#取句子的表示cls
train_pooled_outputs = get_prediction(model, tokenizer, train_dataset)
print(train_pooled_outputs.shape)

val_pooled_outputs = get_prediction(model, tokenizer, val_dataset)
print(val_pooled_outputs.shape)

#这里取出每一句的emb
train_x={}
for l,emb in zip(index_l,train_pooled_outputs):
    train_x[l]=[emb]
print('训练集的emb数',len(train_x.keys()))
train_l_final = []
label_l_final = []
for k in train_x.keys():
    train_l_final.append(train_x[k])
    label_l_final.append(train.loc[k]['label'])
df_train = pd.DataFrame({'emb': train_l_final, 'label': label_l_final, })
print("训练集的emb和label")
print(df_train.head())

val_x = {}
for l, emb in zip(val_index_l, val_pooled_outputs):
    val_x[l] = [emb]

val_l_final = []
vlabel_l_final = []
for k in val_x.keys():
    val_l_final.append(val_x[k])
    vlabel_l_final.append(val.loc[k]['label'])
df_val = pd.DataFrame({'emb': val_l_final, 'label': vlabel_l_final})
print("验证集的emb和label")
print(df_val.head())

# df_val, df_test = train_test_split(df_val, test_size=0.4, random_state=35)
# print(df_train.shape, df_val.shape, df_test.shape)
print(df_train.shape,df_val.shape)
#前面准备好enbeeding后输入lstm，下面搭建lstm
class MyLSTM(nn.Module):
    def  __init__(self):
        super(MyLSTM, self).__init__()
        self.lstm = nn.LSTM(768, 100, batch_first=True)
        self.fc1 = nn.Linear(100,30)
        self.fc2 = nn.Linear(30,10)

    def forward(self, inputs):
        output, (hidden,cell) = self.lstm(inputs)   # 1 * batch_size * 768
        hidden = hidden.squeeze(0)  # batch_size * 768
        hidden = F.relu(self.fc1(hidden))  # batch_size * 30
        hidden = F.softmax(self.fc2(hidden),dim = 1)  # batch_size * 10
        return hidden

def cal_accuracy(preds, labels): #计算准确率
    preds = preds.detach().cpu().numpy()
    labels = labels.detach().cpu().numpy()
    preds = np.argmax(preds, axis=1)
    return (preds == labels).mean()



def get_text_and_label_index_iterator(data):
    for idx, row in data.iterrows():
        text=row['emb']
        label=row['label']

        yield text,label

def get_iterator_batch(data,batch_size):
    data_iter = get_text_and_label_index_iterator(data)
    continue_iterator = True
    while continue_iterator:
        data_list = []
        for _ in range(batch_size):
            try:
                #next是获取下一个迭代器对象的方法，直到异常的时候结束
                data = next(data_iter)
                data_list.append(data)
            except StopIteration:
                continue_iterator = False


        text_list = []
        label_list = []

        for data in data_list:
            text, label = data
            text_list.append(text)
            label_list.append(label)

        yield torch.tensor(text_list), torch.tensor(label_list)

    return False





def train_model(model, data, optimizer, loss_fn):  # 训练函数
    epoch_loss = 0
    epoch_acc = 0
    total_len = 0
    model.train()
    batch_size=16

    dataset_iterator = get_iterator_batch(data, batch_size)
    # for embedding, label in tqdm(iterator, desc="Training",disable=False):
    for emb,iteration in dataset_iterator:
        # print(emb)
        # print(iteration)
        optimizer.zero_grad()
        embedding=emb
        labels=iteration

        predictions = model(embedding.float())

        loss = loss_fn(predictions, labels.view(-1))
        acc = cal_accuracy(predictions, labels)

        loss.backward()
        optimizer.step()

        epoch_loss += loss.item() * len(labels)
        epoch_acc += acc.item() * len(labels)
        total_len += len(labels)

    return epoch_loss / total_len, epoch_acc / total_len


def evaluate_model(model, data, loss_fn):  # 评估函数
    epoch_loss = 0
    epoch_acc = 0
    total_len = 0
    batch_size = 16

    model.eval()

    with torch.no_grad():
        dataset_iterator = get_iterator_batch(data, batch_size)
        for  emb,iteration in dataset_iterator:
            embedding=emb
            label = iteration
            predictions = model(embedding.float())
            loss = loss_fn(predictions, label.view(-1))
            acc = cal_accuracy(predictions, label)

            epoch_loss += loss.item() * len(label)
            epoch_acc += acc.item() * len(label)
            total_len += len(label)
    model.train()  # 调回训练模式

    return epoch_loss / total_len, epoch_acc / total_len

from torchtext.data import Iterator, BucketIterator
# train_iter = Iterator(df_train, batch_size=8, device="cuda", sort_key=lambda x: len(x), sort_within_batch=False, repeat=False)
# val_iter=Iterator(df_val, batch_size=8, device="cuda", sort_key=lambda x: len(x), sort_within_batch=False, repeat=False)
lstm_model = MyLSTM()
optimizer = optim.Adam(lstm_model.parameters())
loss_fn = CrossEntropyLoss()

N_EPOCHS = 5
best_valid_loss = float('inf')
for epoch in range(N_EPOCHS):

    train_loss, train_acc = train_model(lstm_model, df_train, optimizer, loss_fn)

    valid_loss, valid_acc = evaluate_model(lstm_model, df_val, loss_fn)


    if valid_loss < best_valid_loss:  # 保存DEV(验证集)上效果最好的模型
        best_valid_loss = valid_loss
        # torch.save(model_1.state_dict(), 'wordavg-model.pt')

    print('Epoch-' + str(epoch + 1) + ' :')
    print(f'\tTrain Loss: {train_loss:.3f} | Train Acc: {train_acc * 100:.2f}%')
    print(f'\t Val. Loss: {valid_loss:.3f} |  Val. Acc: {valid_acc * 100:.2f}%')
    # print(f'\t Test. Loss: {valid_loss:.3f} |  Test. Acc: {valid_acc * 100:.2f}%')

分类结果

总结

使用 Bert在很多自然语言处理任务上取得了不错效果，主要是Bert获取的文本向量可以充分表示文本的特征，让我们后面提取特征和分类有不错的效果，tensorflow和pytorch版本的bert，都只需要按照要求将文本数据转为为bert的那几个输入即可。文本分类任务的扩展是泛化能力和大规模迁移学习，如果遇到很多没有标签的文本怎么处理，互联网每天都会更新大量文本，模型要对这些新的文本有泛化性。数学和逻辑是计算机中的精髓所在，要能抽象问题，用这数学和逻辑的思维和方式来解决问题。需要完整项目的可以邮箱联系我[email protected]，喜欢C++的nlp方向在读硕士欢迎大家一起讨论

你可能感兴趣的:(nlp深度学习,自然语言处理,机器学习,深度学习)

过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
从API到Agent：万字洞悉LangChain工程化设计 bpluo42657 langchain
——构建下一代AI应用的核心范式迁移一、传统API范式的局限性：为什么需要Agent？接口式AI的痛点python#传统NLPAPI调用示例response=openai.Completion.create(model="text-davinci-003",prompt="请翻译：Helloworld",max_tokens=50)单次请求/响应模式缺乏状态管理与上下文延续硬编码逻辑难以应对复杂场
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
「日拱一码」035 机器学习——调参过程可视化胖达不服输「日拱一码」机器学习人工智能调参过程可视化神经网络 python 模型可解释性
目录超参数搜索的3D曲面可视化交互式3D可视化神经网络学习率的3D可视化SVM超参数的3D决策边界可视化超参数优化的3D动画超参数搜索的3D曲面可视化##超参数搜索的3D曲面可视化importnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解以山河作礼。 #机器学习算法机器学习算法回归
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解一·摘要二·个人简介三·前言四·原理讲解五·算法流程六·代码实现6.1坐标下降法6.2最小角回归法七·第三方库实现7.1scikit-learn实现（坐标下降法）：7.2scikit-learn实现（最小角回归法）：一·摘要拉索回归（LassoRegression）是一种线性回归的正则化形式，它通过引入L1范数惩罚项来实现模型的稀疏性，从
机器学习算法之回归算法福葫芦机器学习回归算法
一、回归算法思维导图二、算法概念、原理、应用场景和实例代码1、线性回归1.1、概念‌‌线性回归算法是一种统计分析方法，用于确定两种或两种以上变量之间的定量关系。‌线性回归算法通过建立线性方程来预测因变量（y）和一个或多个自变量（x）之间的关系。其基本形式为y=wx+e，其中w是权重，x是自变量，e是误差项。1.2、算法原理线性回归算法的核心在于找到最佳的拟合直线，使得预测值与实际值之间的误差最小。
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
ai绘画生成软件哪个好？几款好用的AI绘画软件分享! 呼酱小宝箱
随着人工智能技术的不断发展，越来越多的AI绘画生成软件被开发出来。这些软件利用深度学习技术，可以将普通照片或图像转化成具备艺术效果的画作。那么，ai绘画生成软件哪个好？首先，让我们来看一下几个常见的AI绘画生成软件，它们分别是：1、DeepDreamDeepDream是由Google开发的一款AI绘画生成软件。它通过卷积神经网络对输入的图片进行处理，从而生成出具有艺术风格的画作。DeepDream
支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
DeepSeek部署指南：从入门到精通 wujj_whut 热门应用 c++DeepSeek 嵌入式实时数据库
DeepSeek部署指南：从入门到精通引言在人工智能和深度学习领域，模型的部署是一个至关重要的环节。DeepSeek作为一款强大的深度学习框架，其部署过程不仅关系到模型的性能表现，还直接影响到实际应用的效果。本文将详细介绍DeepSeek的部署流程，涵盖从环境配置到实际应用的各个方面，旨在帮助读者全面掌握DeepSeek的部署技巧。一、DeepSeek简介DeepSeek是一款开源的深度学习框架，
【人工智能之深度学习】1. 深度学习基石：神经元模型与感知机的数学本质（附代码实现与收敛性证明） AI_DL_CODE 人工智能之深度学习人工智能深度学习神经元模型感知机赫布法则深度学习基础线性可分
摘要：作为深度学习的基础单元，神经元模型与感知机承载着从生物智能到人工神经网络的桥梁作用。本文从生物神经元的工作机制出发，系统剖析数学建模过程：详解赫布法则的权重更新原理（Δwi=η·xi·y），推导McCulloch-Pitts神经元模型的数学表达（y=Θ(∑wixi−b)），重点证明感知机在linear可分情况下的收敛性——通过Novikoff定理严格推导迭代次数上界，揭示间隔γ对收敛速度的影
深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
高斯混合模型（GMM）中的协方差矩阵类型与聚类形状关系详解码字的字节机器学习机器学习人工智能高斯混合模型 GMM
高斯混合模型（GMM）简介高斯混合模型（GaussianMixtureModel,GMM）是概率统计与机器学习交叉领域的重要模型，其核心思想是通过多个高斯分布的线性组合来描述复杂数据分布。与单一高斯分布不同，GMM能够捕捉数据中的多模态特性，这使得它在处理真实世界非均匀分布数据时展现出独特优势。从数学形式上看，一个包含K个分量的GMM可表示为：其中(\pi_k)是第k个高斯分量的混合系数（满足(\
利用 Python 爬取小红书热门笔记并进行标签关键词分析程序员威哥最新爬虫实战项目 python 笔记开发语言
一、背景与目标小红书（RED）作为中国最活跃的内容社区之一，拥有大量关于美妆、穿搭、美食、旅游等领域的用户生成内容（UGC）。对于产品、品牌方或研究人员来说，提取热门笔记的标签关键词，可以有效捕捉用户关注点、消费趋势及内容热词。本项目目标：使用Python爬取小红书某个话题下的热门笔记；分析每篇笔记中的标题、正文、标签等字段；利用NLP技术提取高频关键词；对关键词进行可视化与聚类分析。二、技术难点
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
2023年第10期(NeuroImage)：DomainATM：多中心医学图像数据标准化工具箱影浮科技ImageFlow
基本信息1.标题：DomainATM:Domainadaptationtoolboxformedicaldataanalysis.2.期刊：NeuroImage3.IF/JCR/分区：7.4/Q1/中科院一区4.DOI：10.1016/j.neuroimage.2023.119863目录1、导读2、背景动机3、研究目的4、工具箱介绍5、测试试验6、局限不足1导读域适应（DA）是基于机器学习的现代医
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe