Dongxue_NLP

文本摘要——综述报告

主要内容：
1)文本摘要简介（是什么？）
2)文本摘要现状（怎么样？）
3)文本摘要分类（有哪些？）
4)文本摘要主要技术
5)附页

一、文本摘要简介（是什么？）
文本摘要是指通过各种技术，对文本或者是文本的集合，抽取、总结或是精炼其中的要点信息，用以概括和展示原始文本的主要内容或大意。随着互联网产生的文本数据越来越多，文本信息过载问题日益严重，对各类文本进行一个“降维”处理显得非常必要，文本摘要便是其中一个重要的手段。作为文本生成任务的主要方向之一，从本质上而言，这是一种信息压缩技术。文本摘要的目的就是为了让用户在当今世界海量的互联网数据中找到有效的信息。

二、文本摘要现状（怎么样？）
1、研究热点

随着互联网上的信息呈爆炸式增长，如何从海量信息中提取有用信息成了一个关键的技术问题。文本摘要技术能够从大数据中压缩提炼出精炼简洁的文档信息，有效降低用户的信息过载问题，成为研究热点。

2、研究难点

因为文本摘要技术，尤其是生成式文本摘要，涉及到很深层次的自然语言处理（自然语言理解、自然语言生成等）的能力，所以一直以来它都是自然语言技术的一个研究难点。

3、国际现状

国际上对文本摘要技术已经进行了多年的研究，相关研究成果主要发表在自然语言处理相关学术会议与期刊上，例如ACL、EMNLP、NAACL、COLING、AAAI、IJCAI、SIGIR、INLG等，有很多关于文本摘要技术的研究成果都发表在上面。我已将上面各个学术会议与期刊的简介与网址放在附页一中。

国际上几个主要的研究单位包括密歇根大学、南加州大学、哥伦比亚大学、北德克萨斯大学、爱丁堡大学等。有很多优秀的算法，理论都产自这几所大学。

4、国内现状

相比机器翻译、自动问答、知识图谱、情感分析等热门领域，文本摘要在国内并没有受到足够的重视，主要也是由于有着很多难以突破的难点（很深层次的自然语言处理、自然语言理解、自然语言生成等的能力），在文本摘要方面从事过研究的国内单位包括北京大学计算机科学技术研究所、北京大学计算语言所、哈工大信息检索实验室、清华大学智能技术与系统国家重点实验室等。

其中，北京大学计算机科学技术研究所在文本摘要方面进行了长期深入的研究，提出了多种基于图排序的自动摘要方法与压缩式摘要方法，并且探索了跨语言摘要、比较式摘要、演化式摘要等多种新颖的摘要任务。在学术文献摘要方面，则分别提出基于有监督学习和整数线性规划模型的演示幻灯片的自动生成方法与学术论文相关工作章节的自动生成方法。

国内早期的基础资源与评测举办过单文档摘要的评测任务，但测试集规模比较小，而且没有提供自动化评价工具。2015年CCF中文信息技术专委会组织了NLPCC评测，其中包括了面向微博的新闻摘要任务，提供了规模相对较大的样例数据和测试数据，并采用自动评价方法，吸引了多支队伍参加评测，目前这些数据可以公开获得。但上述中文摘要评测任务均针对单文档摘要任务，目前还没有业界认可的中文多文档摘要数据，这在事实上阻碍了中文自动摘要技术的发展。

5、现状总结

总的来说，国际上对自然语言处理的文本摘要方向已有多年的研究，研究成果也较为丰厚，但是国内由于中文涉及到很多难以突破的难点（很深层次的自然语言处理、自然语言理解、自然语言生成等的能力）得原因，研究成果相比英语的文本摘要相对较少，而且国内相比机器翻译、自动问答、知识图谱、情感分析等热门领域，文本摘要在国内并没有受到足够的重视。

三、文本摘要分类（有哪些？）
1、按摘要方法分

文本摘要按照摘要方法可以分为抽取式文本摘要、生成式文本摘要和生成-抽取式文本摘要三种。

（1）抽取式文本摘要

抽取式文本摘要，顾名思义，就是从文档或者文档集中抽取其中的一句或者几句话，构成摘要。通过对文档中句子的得分进行计算，得分代表重要性程度，得分越高代表句子越重要，然后通过依次选取得分高的若干个句子组成摘要，摘要的长度取决于压缩率。这种方案的好处在于简单实用，不会完全脱离于文档本身。换言之，域值比较好判断，不容易产生完全偏离文章主旨的点。

（2）生成式文本摘要

抽取式文本摘要尽管有其优点，但也可能有着生成摘要不连贯、字数不好控制、目标句主旨不明确等缺点，甚至可以说，其摘要好坏决定于原文。而生成式文本摘要就没有这样的问题，生成式摘要方法不是单纯地利用原文档中的单词或短语组成摘要，而是从原文档中获取主要思想后以不同的表达方式将其表达出来。生成式摘要方法为了传达原文档的主要观点，可以重复使用原文档中的短语和语句，但总体上来说，摘要需要用作者自己的话来概括表达。生成式摘要方法需要利用自然语言理解技术对原文档进行语法语义的分析，然后对信息进行融合，通过自然语言生成的技术生成新的文本摘要。这也是前面所说的文本摘要技术现阶段的研究难点，因为生成式文本摘要是一个端到端的过程，这种技术方案，趋同于翻译任务和对话任务，从而可以吸收、借鉴翻译任务和对话任务的成功经验。

（3）生成-抽取式文本摘要

凡事都还还想着两全齐美呢，集合抽取式文本摘要和生成式文本摘要的理想技术。

2、按文档数量分

文本摘要按照文档数量可以分为单文档摘要和多文档摘要两种。

（1）单文档摘要

单文档摘要是指针对单个文档，对其内容进行抽取总结生成摘要。

（2）多文档摘要

多文档摘要是指从包含多份文档的文档集合中生成一份能够概括这些文档中心内容的摘要。

3、按学习方法分

文本摘要按照学习方法可以分为有监督摘要和无监督摘要两种。

（1）有监督摘要

有监督摘要即需要从文件中选取主要内容作为训练数据，大量的注释和标签数据是学习所需要的。这些文本摘要的系统在句子层面被理解为一个二分类问题，其中，属于摘要的句子称为正样本，不属于摘要的句子称为负样本。机器学习中的支持向量机和神经网络也会用到这样分类的方法。

（2）无监督摘要

无监督的文本摘要系统不需要任何训练数据，它们仅通过对文档进行检索即可生成摘要。

四、文本摘要主要技术
1、基于统计学的文本摘要方法

早期的文本摘要方式主要是抽取式文本摘要，基于统计学的文本摘要方法就主要用于抽取式文本摘要。基于统计学的文本摘要方法是基于统计特征，如词频、句子位置、句子与标题的相似性、句子的相对长度等统计特征来生成摘要的。

（1）基于“词频”的文本摘要方法

基于“词频”的文本摘要是指使用“词频” 这一简单的文本特征对文档的重要句子和词组进行抽取生成摘要。

方法介绍：

在基于“词频”的文本摘要方法中，除去停用词以外，文中出现频率越高的单词，其重要性也就越高。根据单词的词频高低分别设置相应的词权重，词频越高，对应的权重也就越高；句子的权重是组成句子单词的权重之和。然后从文档中抽取权重高的单词和句子组成摘要，这就是简单的基于词频的文本摘要方法。

实例演示：
文本：

《乘风破浪的姐姐》现在已经播出到了第2期节目，在初舞台之后，现在大家都对姐姐们的实力是有所了解的了。在看完初舞台之后，很多观众就都清楚了哪些姐姐的实力是不错的，哪些姐姐是比较弱的了。不过呢只看了初舞台就认定姐姐们的实力是片面的了，因为小编发现在这么多“姐姐”中其实有一些姐姐是黑马选手呀。
像是在最新一期节目中，小编就发现了一位“黑马”姐姐，而这个人是谁呢？就是王智了，在最新播出的这一期节目中，王智可是成功逆袭了，她这回成功让观众们看到了她，让导师认可了自己的实力。《浪姐》出现“黑马”姐姐，初舞台最后一名，这一期却连连被夸！说到王智，在初舞台的时候小编对她的印象是不深的。
而在这一期节目中呢当小组在排练的时候，王智会反复跟老师强调自己是“最后一名”，这下小编采知道她原来在初舞台的时候是最后一名。王智在初舞台得到了最后一名，这打击对她来说还是挺大的，在排练的时候大家也可以看出了她的不自信。然而这回她很幸运地遇到了伊能静，在伊能静的教学下，最后她可是受到了老师的连连夸赞。
《浪姐》出现“黑马”姐姐，初舞台最后一名，这一期却连连被夸！此次节目中姐姐们进行了一段时间的练习，就去进行评测了，而在王智这一组表演完后，最终导师们也给出了评价，在她们三个人这一组中，王智就是被夸得最多的那一个。当在看了王智这次的表演后，最后赵兆老师竟然跟她道歉了。
赵兆老师说昨天很抱歉给她打了最低分，但是今天呢她真的让他觉得“傻”了，因为他将这首歌演唱得太好了，他觉得王智非常适合这首歌呢！一向比较严格的赵兆老师这回对王智很是赞扬，看来是被她的表演给惊喜到了。能够得到了专业的赵兆老师的赞扬，可见王智的实力那是很棒的呀。
而在赵兆说完后，黄晓明也补充说道“真的是，你一张嘴我们都惊了，真的。”这次可以从导师们的话中了解到王智的进步真的是很大了，她这次选择了一首合适自己的歌曲，并且有认真努力地去唱好它，就将它很好地诠释了出来了！这个姐姐其实并不是没有实力，只是实力没有一开始就表现出来。她真的是一匹“黑马”了，当看了这一期节目后，现在观众们都在期待着她后面带来的惊喜了！

思路：

1)将文本分词，统计一段文本的词频（去除停用词之后的词频），得到{词：词频}；
2)对文本进行分句；
3)对句子进行打分，统计这个句子中出现的每个词的词频，句子得分=句子中每个词的词频之和；
4)找到得分最高的几个句子作为摘要。

代码：

#读取文件
f=open('乘风破浪的姐姐.txt',encoding='utf-8')
data = f.readlines()  # 直接将文件中按行读到list里，读取后的文件格式为数组
f.close()  # 关

#将文件转换成字符串
text=""
for line in data:
    text += line
print(text)

#清洗数据
import re #导入库
import jieba
text = re.sub(r'[[0-9]*]',' ',text)#去除类似[1]，[2]
text = re.sub(r'\s+',' ',text)#用单个空格替换了所有额外的空格
sentences = re.split('(。|！|\!|\.|？|\?)',text)#分句：re.split(’(。|！|!|.|？|?)’,text) 加括号则保留分句符号如。！,不加则不保留分句符号
print(sentences)

#加载停用词
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='UTF-8').readlines()]
    return stopwords
stopwords = stopwordslist("停用词1.txt")

#统计文本词频
word2count = {} #创建一个空字典
for word in jieba.cut(text): #对整个文本分词，对每个单词循环

    if word not in stopwords: #检查单词是否在stopwords停用词中，然后再次检查单词是否在word2count词频key中，不在则把word2count [word]置为1，否则word2count [word] 加1。
        if word not in word2count.keys():
            word2count[word] = 1
        else:
            word2count[word] += 1

for key in word2count.keys(): #最后对词频归一化
    word2count[key] = word2count[key] / max(word2count.values())
print(word2count)

#计算句子得分
sent2score = {} #创建一个空字典
for sentence in sentences: #对sentences中每个sentence进行循环
    for word in jieba.cut(sentence): #将sentence分词，对每个word循环
        if word in word2count.keys(): #使用if检查word2count.keys()中是否存在该单词
            if len(sentence)<200: #这里我指定计算句子长度小于200的那部分，可以根据需要更改
                if sentence not in sent2score.keys(): #再次使用if-else条件，判断如果句子不存在于sentence2keys()中，则执行 sent2score [sentence] = word2count [word]，否则执行 sent2score [sentence] + = word2count [word]
                    sent2score[sentence] = word2count[word]
                else:
                    sent2score[sentence] += word2count[word]
print(sent2score)

#字典排序
def dic_order_value_and_get_key(dicts, count): #定义函数
    # by hellojesson
    # 字典根据value排序，并且获取value排名前几的key
    final_result = []
    # 先对字典排序
    sorted_dic = sorted([(k, v) for k, v in dicts.items()], reverse=True)
    tmp_set = set()  # 定义集合 会去重元素
    for item in sorted_dic:
        tmp_set.add(item[1])
    for list_item in sorted(tmp_set, reverse=True)[:count]:
        for dic_item in sorted_dic:
            if dic_item[1] == list_item:
                final_result.append(dic_item[0])
    return final_result

#选取句子得分最高的5句话作为摘要选取句子得分最高的5句话作为摘要
final_resul=dic_order_value_and_get_key(sent2score,5)
print(final_resul)

（2）TF-IDF（词频−逆向文件频率）方法

TF-IDF也是一种著名的基于统计学的文本摘要方法，这种方法通过词频和逆向文件频率共同评估一个词在一个文件集或语料库中的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。然后将句子按照重要性得分排序，依据文本摘要的大小依次选取重要性得分从高到低的若干个句子组成摘要。

TF-IDF是Term Frequency -
Inverse Document Frequency的缩写，即“词频-逆文本频率”。它由TF和IDF两部分组成，TF就是前面说到的词频，关键是后面的这个IDF，即“逆文本频率”如何理解？IDF就是来反映这个词的重要性的，进而修正仅仅用词频表示的词特征值。概括来讲， IDF反映一个词在所有文本中出现的频率，如果一个词在很多的文本中出现，那么它的IDF值应该低；而反过来如果一个词在比较少的文本中出现，那么它的IDF值应该高；极端情况是一个词在所有的文本中都出现，那么它的IDF值应该为0。

上面从定性上说明了IDF的作用，那么如何对一个词的IDF进行定量分析计算呢？这里直接给出一个词x的IDF的基本公式如下：

其中，N代表语料库中文本的总数，N(x)代表语料库中包含词x的文本总数。

但是在一些特殊情况下上面的公式会有一些小问题，比如某一个生僻词在语料库中没有，则分母为0，那么IDF就没有意义了。所以我们经常需要对IDF做一些平滑，使语料库中没有出现的词也可以得到一个合适的IDF值。平滑的方法有很多种，最常见的IDF平滑后的公式之一如下：

进而可以计算某一个词的TF-IDF值：

计算方法：

TF=(该词在文件中的出现次数）/（在文件中所有字词的出现次数之和）
IDF=（语料库中的文件总数）/（包含该词语的文件数目）
最后计算TF*IDF

# -*-coding:utf-8 -*-
# 在词袋模型中,文档的特征就是其包含的word,corpus的每一个元素对应一篇文档
texts = [['human', 'interface', 'computer'],
         ['survey', 'user', 'computer', 'system', 'response', 'time'],
         ['eps', 'use', 'interface', 'system'],
         ['system', 'human', 'system', 'eps'],
         ['user', 'response', 'time'],
         ['trees'],
         ['graph', 'trees'],
         ['graph', 'minors', 'trees'],
         ['graph', 'minors', 'survey']]

# 训练语料的预处理,将原始文本特征表达转换成词袋模型对应的系数向量
from gensim import corpora
# from gensim.models.word2vec import Word2Vec
dictionary = corpora.Dictionary(texts)  # texts就是若干个被拆成单词集合的文档的集合，而dictionary就是把所有单词取一个set(),并对set中每个单词分配一个Id号的map
print(dictionary)

# 是把文档 doc变成一个稀疏向量，[(0, 1), (1, 1)]，表明id为0,1的词汇出现了1次，至于其他词汇，没有出现,在这里可以看出set()中computer的id是0,human的id是1...
corpus = [dictionary.doc2bow(text) for text in texts]
print(corpus)  # 输出为[(0, 1), (1, 1), (2, 1)],就表示id为0,1,2,即单词computer,human,interface,在第一个维度中都出现了一次

# tf-idf的计算
from gensim import models
tfidf = models.TfidfModel(corpus)
print(tfidf)
doc_bow = [(0, 1), (1, 1)]
print(tfidf[doc_bow])
print(tfidf.idfs)
~

基于统计学的文本摘要方法主要适用于格式相对比较规范的文档摘要。此类方法比较经典，首次在自动文本摘要方面取得了重大突破，但由于此类方法只是基于句子和单词本身的表层特征进行统计，未能充分利用词义关系、词间关系等特征，所以还有很大的局限性，因此针对这些问题，一些改进的方法随后被接连提出。

2、基于图排序的方法

互联网网页上的文档具有较松散且涉及主题较多的结构特点，在此基础上，研究出了一些专门针对生成网页文档摘要的自动摘要技术，就是基于图排序的文本摘要的方法。

基于图排序的文本摘要的主要方法是通过把文章分成若干个段落或句子的集合，每个集合对应一个图的顶点，集合之间的关系对应边，后通过图排序的算法（如 PageRank、HITS等）计算各个顶点后的得分，然后依据得分高低生成文本摘要。

（1） PageRank算法

算法来源：

这个要从搜索引擎的发展讲起。最早的搜索引擎采用的是分类目录的方法，即通过人工进行网页分类并整理出高质量的网站。那时Yahoo 和国内的hao123 就是使用的这种方法。

后来网页越来越多，人工分类已经不现实了。搜索引擎进入了文本检索的时代，即计算用户查询关键词与网页内容的相关程度来返回搜索结果。这种方法突破了数量的限制，但是搜索结果不是很好。因为总有某些网页来回地倒腾某些关键词使自己的搜索排名靠前。

后来，谷歌的两位创始人，当时还是美国斯坦福大学
(Stanford University) 研究生的佩奇 (Larry Page) 和布林 (Sergey Brin) 开始了对网页排序问题的研究。他们借鉴了学术界评判学术论文重要性的通用方法，那就是看论文的引用次数。由此想到网页的重要性也可以根据这种方法来评价。于是就诞生了PageRank的核心思想：

1、如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是PageRank值会相对较高
2、如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页的PageRank值会相应地因此而提高
相应的代码：

# -*- coding: utf-8 -*-

from pygraph.classes.digraph import digraph

class PRIterator:
    __doc__ = '''计算一张图中的PR值'''

    def __init__(self, dg):
        self.damping_factor = 0.85  # 阻尼系数,即α
        self.max_iterations = 100  # 最大迭代次数
        self.min_delta = 0.00001  # 确定迭代是否结束的参数,即ϵ
        self.graph = dg

    def page_rank(self):
        #  先将图中没有出链的节点改为对所有节点都有出链
        for node in self.graph.nodes():
            if len(self.graph.neighbors(node)) == 0:
                for node2 in self.graph.nodes():
                    digraph.add_edge(self.graph, (node, node2))

        nodes = self.graph.nodes()
        graph_size = len(nodes)

        if graph_size == 0:
            return {}
        page_rank = dict.fromkeys(nodes, 1.0 / graph_size)  # 给每个节点赋予初始的PR值
        damping_value = (1.0 - self.damping_factor) / graph_size  # 公式中的(1−α)/N部分

        flag = False
        for i in range(self.max_iterations):
            change = 0
            for node in nodes:
                rank = 0
                for incident_page in self.graph.incidents(node):  # 遍历所有“入射”的页面
                    rank += self.damping_factor * (page_rank[incident_page] / len(self.graph.neighbors(incident_page)))
                rank += damping_value
                change += abs(page_rank[node] - rank)  # 绝对值
                page_rank[node] = rank

            print("This is NO.%s iteration" % (i + 1))
            print(page_rank)

            if change < self.min_delta:
                flag = True
                break
        if flag:
            print("finished in %s iterations!" % node)
        else:
            print("finished out of 100 iterations!")
        return page_rank


if __name__ == '__main__':
    dg = digraph()
    dg.add_nodes(["A", "B", "C", "D", "E"])
    dg.add_edge(("A", "B"))
    dg.add_edge(("A", "C"))
    dg.add_edge(("A", "D"))
    dg.add_edge(("B", "D"))
    dg.add_edge(("C", "E"))
    dg.add_edge(("D", "E"))
    dg.add_edge(("B", "E"))
    dg.add_edge(("E", "A"))

    pr = PRIterator(dg)
    page_ranks = pr.page_rank()

    print("The final page rank is\n", page_ranks)

~

PageRank算法的缺点：

1、没有区分站内导航链接。很多网站的首页都有很多对站内其他页面的链接，称为站内导航链接。这些链接与不同网站之间的链接相比，肯定是后者更能体现PageRank值的传递关系。

2、没有过滤广告链接和功能链接（例如常见的“分享到微博”）。这些链接通常没有什么实际价值，前者链接到广告页面，后者常常链接到某个社交网站首页。

3、对新网页不友好。一个新网页的一般入链相对较少，即使它的内容的质量很高，要成为一个高PR值的页面仍需要很长时间的推广。

3、基于机器学习的方法

有监督的机器学习方法今年来在自然语言处理领域也得到了极其广泛的利用。全监督、半监督的机器学习方法通过对数据集的语料进行人工标注，人为地判定划分得到句子的文本特征以及句子重要性的关系模型，在此模型的基础上，对未被标注的语料进行训练，预测未被标注语料中句子的重要性排序，然后依据句子重要性排序，依次选取若干句子生成后所需要的文本摘要。

要将自然语言处理的问题转化成为一个机器学习的问题，首先需要让机器能够理解自然语言，所以第一步就是将自然语言转化为机器可以理解的语言，于是想到将它进行符号数学化，为了能表示多维特征，增强其泛化能力，想到用向量对其进行表示，因此也就引出了对词向量、句向量的研究。但是词向量和句向量的生成仍然具有一定的难度，将文本中不同单词、句子用词向量或句向量进行唯一的表示，这样可以方便其在自然语言处理过程中进行各种操作变换和计算。

虽然现在看来将文本中的词、句转化成唯一对应的词、句向量还具有相当大的难度，但由于其在自然语言理解中是关键的一步，因此这将是今后研究中仍待解决的问题和重点研究的方向之一。

4、基于深度学习的方法

深度学习是利用多层感知器结构对非线性信息进行处理的一种学习方法。

目前深度学习方法在对自然语言处理方面的基本方向是通过对文档上下文进行学习训练，对于中文文档，还需要先进行中文分词处理，然后将文档中的词语、句子分别用连续实值向量进行表示，形成的向量称为嵌入向量，这样做是为了方便处理文本语义特征，将词语、句子用向量表示，在处理文本语义特征时，对词向量、句向量直接进行向量上的计算即可表征它们之间的文本语义关系。

将文本中的词、句转化成唯一对应的词、句向量还具有相当大的难度，但由于其在自然语言理解中是关键的一步，因此这将是今后研究中仍待解决的问题和重点研究的方向之一。

Sequence-to-Sequence模型广泛应用于机器翻译、语音识别、视频图片处理、文本摘要等多个领域。现在新的一些基于深度学习研究文本摘要生成方法的也都是基于这个模型进行的。

基于Seqence-to-Sequence模型的文本摘要需要解决的问题是从原文本到摘要文本的映射问题。先是基于递归神经网络（RNN ）的 Seqence-to-Sequence 模型用于文本摘要起到了一定的效果，之后考虑到RNN具有长程依赖性，为了减小长程依赖性，提出了基于长短时记忆网络（LSTM）的Seqence-to-Sequence模型用于文本摘要的生成。考虑到句子中的某些特定词或特定词性的词更具有影响句子中心意思的作用，引入了广泛应用于机器翻译中的注意力机制（attentionmechanism）对句子的不同部分赋予不同的偏重，即权重。

Sequence-to-Sequence Models：

在NLP领域，sequence to sequence模型有很多应用，比如机器翻译、自动应答机器人等。在看了一些相关的论文后，很多都感觉非常晦涩难懂，

在NLP中最为常见的模型是language model，它的研究对象是单一序列，而sequence to sequence模型同时研究两个序列。经典的sequence-to-sequence模型由两个RNN网络构成，一个被称为“encoder”，另一个则称为“decoder”，前者负责把variable-length序列编码成fixed-length向量表示，后者负责把fixed_length向量表示解码成variable-length序列输出，它的基本网络结构如下：

其中每一个小圆圈代表一个cell，比如GRUcell、LSTMcell、multi-layer-GRUcell、multi-layer-GRUcell等。这里比较直观的解释就是，encoder的最终隐状态c包含了输入序列的所有信息，因此可以使用c进行解码输出。尽管“encoder”或者“decoder”内部存在权值共享，但encoder和decoder之间一般具有不同的一套参数。在训练sequence-to-sequence模型时，类似于有监督学习模型，最大化目标函数。

Github源代码解析

整个工程主要使用了四个源文件，seq2seq.py文件是一个用于创建sequence-to-sequence模型的库，data_utils.py中包含了对原始数据进行预处理的一些操作，seq2seq_model.py用于定义machine
translation模型，translate.py用于训练和测试所定义的翻译模型。

由于找到的论文和博客对我来说难度过大，晦涩难懂，时间原因，暂时没有理解透彻具体的源代码实现，就不在这里说明。

5、各方法优缺点分析

原文链接：

https://blog.csdn.net/qq_45154565/article/details/109173981

你可能感兴趣的:(自然语言处理NLP,深度学习,pytorch,神经网络,语言模型)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
腾讯发表多模态综述，一文详解多模态大模型存内计算开发者社区多模态大模型人工智能 chatgpt AIGC 量子计算 AI-native gpt agi
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。腾讯AILab发表了一篇关于多模态大模型的最新综述《MM-LLMs:RecentA
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str