Python中文社区

万字长文！用文本挖掘深度剖析54万首诗歌

楔子

许多年之后，面对书桌上的两句残词，贬居黄州的东坡居士将会回想起，他在故乡眉山见到朱姓老尼的那个遥远的下午。彼时的东坡还不是东坡，还只是一个七岁孩童。有一天，他在家附近偶遇一位年约九十的朱姓老尼。老尼看到苏轼天资聪颖，就跟他聊起自己年轻时的经历，曾跟随师父进入后蜀主孟昶的宫中。一日，天酷热，孟昶和他的妃子花蕊夫人深夜纳凉于摩诃池上。面对此情此景，蜀主即兴赋词一首...老尼将她印象中仅存的打头两句告诉了苏轼。

四十年后，苏轼贬居于黄州，想起这段往事，遗憾于孟昶的词只余两句，突发奇想要将这两句词续写完整。他先猜测出这首词的词牌名---“洞仙歌令”，但要还原整首词作，必须深刻结合写词人当时之心情以及伴随而来的意境。苏轼因而循着仅存的两句词，根据老尼给他的描述，竭力在脑海中还原蜀主当时的创作场景和心境，最终将词续完，成就名作《洞仙歌》：

冰肌玉骨，自清凉无汗。水殿风来暗香满。绣帘开，一点明月窥人，人未寝，倚枕钗横鬓乱。

起来携素手，庭户无声，时见疏星渡河汉。试问夜如何，夜已三更，金波淡，玉绳低转。但屈指西风几时来，又不道流年暗中偷换。

以上就是文学史上有名的“东坡续词”，虽说是文学史上的一段佳话，但笔者从中隐约看到了数理思维的影子：

诗词的创作过程有如在求解一个“最优化问题”：

在一定的约束条件下，如诗词要遵守的平仄、押韵、对仗/对偶、五七变式、词谱、情境等，诗词创作者用文字将自己内心的真实感动用语言文字表达出来，在“戴着镣铐在跳舞”的情况下，竭力达到音韵美、精炼美、言辞美、朦胧美、情感美、绘画美和形式美的至臻境界...

此时，诗词之精美和数理之严密是可以完美结合的。

既然诗歌的创作是有规律的，那么，通过一定的数据挖掘手段，我们是能够从中发现一些insight的。

在本文中，笔者循着这个思路，将运用若干文本挖掘方法对手头的诗歌语料库（该诗歌原始语料库地址为https://github.com/Werneror/Poetry）进行深入挖掘和分析，该诗歌语料库的基本统计数据如下：

从上表可以看到，该诗歌语料库中共计近85万余首诗歌，诗歌作者数量达29377位之多；其中，字段包括“题目”、“朝代”、“作者”和“内容（诗歌）”。

为了方便后续的分析，笔者仅取其中的律诗和绝句，且仅取其中的五言和七言，排律（如《春江花月夜》、《长恨歌》等）、杂言（如李白的将进酒）等就不在本文的分析范围之内。

经过数据清洗后，最终得诗504,443，占到原数据库的59.1%。以下分别是清洗后的诗歌数据统计结果和部分样例：

针对上述数据，笔者在本文中主要有两个大目标：

构建一个包含热门题材标签的诗歌语料库，用于后续的诗歌题材分类和诗歌生成任务；
基于上述诗歌语料库的各类文本挖掘和语义分析，以期得到有趣味的发现。

针对上述目标，本文的实现路线图，同时也是本文的行文脉络，如下所示（点击图片可放大查看）：

值得注意的是，上述实现路径中，涉及到自然语言处理的两大组成部分，即自然语言理解（分词、语义建模、语义相似度、聚类和分类等）和自然语言生成（诗歌生成和诗歌翻译），看完也会对自然语言处理有一定的了解。信息量大，请耐心享用~

1 诗歌分词和热词发现

给定一首诗歌文本，在其中随机取一个片段，如何判断这个片段是否是一个有意义的词汇呢？

如果这个片段左右的搭配变化较多、很丰富，同时片段内部的成分搭配很固定，那么，我们可以认为这个片段是一个词汇，比如下图中所示的“摩诘”就是符合这个定义，那么它就是一个词汇。

在具体实施的算法中，衡量片段外部左右搭配的丰富程度的指标叫“自由度”，可以用（左右）信息熵来度量；而片段内部搭配的固定程度叫“凝固度”，可以用子序列的互信息来度量。

在这里，笔者利用Jiayan（甲言）对这54余万首诗歌进行自动分词，在结果中按照词汇出现频率从高到低进行排序，最终从语料库中抽取若干有意义的高频词。其中，词汇的长度从1到4。

抽取结果如下（点击图片可放大查看）：

笔者观察其中部分结果，发现一字词、二字词才能算得上一般意义上的词汇，如“不”、“烁”、“岁寒”、“留滞”等；三字词和四字词一般是多类词性词汇的组合，严格上讲，应该算作短语或者固定表达，如“随流水”、”云深处”、“人间万事”、“江湖万里”等。但本文为了表述方便，笔者将它们统一称之为词。

下面，笔者分别展示词长从1到4的TOP100的高频词词云（点击图片可放大查看）。

一字高频词中，除去“不”、“无”、“有”这类“虚词”，单看“人山风日天云春花年月水”这11个高频字，暗合了中国天人合一哲学传统，作诗如作画，作诗者是把人放到自然环境、天地岁月这个时空大画卷中，七情六欲、天人感应，诗情画意就由感而生，诗意盎然了！

“诗画本一律”，古人诚不我欺！

二字高频词中，较为显眼的是“万里”、“千里”，它们描绘出巨大的空间感，在诗歌中经常跟“宏景”“贬谪”、“思乡”、“闺怨”等主题捆绑在一起。

此外，“明月”、“故人”、“白云”、“功名”、“人间”、“平生”和“相逢”等词汇也是横亘古今的热门用语。

三字高频词中，数字的使用很是常见，如“二三子”、“二十四”、“一樽酒”、“二千石”等。其中，最值得一提的是诗人们用数词对时空的描绘：表达时间跨度的，如“二十年”、“四十年”、“五百年”、“十年前”、“千载后”等；表达空间距离的，如“千里外”、“三百里”、“百尺楼”...古人总是喜欢把自己置身于浩瀚渺茫的时空之中，去思考自己匆匆的人生。正如东坡在《赤壁赋》的感慨：“寄蜉蝣于天地，渺沧海之一粟。哀吾生之须臾，羡长江之无穷！”

在四字高频词中，空间方位的词汇较多，如“南北东西”、“江南江北”、“东西南北”等词。因四字词词长较长，像“人间万事”、“千岩万壑”、“明月清风”、“白云深处”、“相逢一笑”等词就拥有较高的信息量，能够还原大部分的诗歌意境了。

2 训练含纳诗歌词汇语义关联性的词嵌入模型

词嵌入模型可以从海量的诗歌文本中自动学习到字词之间的关联关系，据此可实现字词关联度分析、字词相似度分析、聚类分析等任务。

然而，计算机程序不能直接处理字符串形式的文本数据，所以笔者首当其冲的一个步骤就是将诗歌文本数据分词，之后再“翻译”为计算机可以处理的数据形式，这由一个名为“文本向量化”的操作来实现。

先谈分词，它跟前面的高频词挖掘有联系，是后续所有分析任务的起始点。

结合前面积累的词库，再基于有向无环词图、句子最大概率路径和动态规划算法对这54万首诗歌进行分词操作。现试举一例：

分词前：

“万物生芸芸，与我本同气。氤氲随所感，形体偶然异。丘岳孰为高，尘粒孰为细。忘物亦忘我，优游何所觊。”

分词后：

['万物', '生', '芸芸', '，', '与', '我', '本', '同', '气', '。','氤氲', '随', '所', '感', '，',
'形体', '偶然', '异', '。', '丘岳', '孰', '为', '高', '，', '尘', '粒', '孰', '为', '细', '。',
                '忘', '物', '亦', '忘我', '，', '优游', '何', '所', '觊', '。']

分词之后再做适当处理就可以“喂给”词嵌入模型（这里是Word2vec）进行训练了。

基于Word2vec词嵌入模型能从大量未标注的文本数据中“学习”到字/词向量，而且这些字/词向量包含了字词之间的语义关联关系（可以是语义相关或句法相关），正如现实世界中的“物以类聚，类以群分”一样，字词可以由它们身边的字（上下文语境）来定义，而Word2vec词嵌入模型恰恰能学习到这种词汇和语境之间的关联性。

其基本原理如下图所示（点击图片可放大查看）：

训练完该模型后，将其训练结果投射到三维空间，则是如下景象（点击图片可放大查看）：

在训练Word2vec的过程中，模型会从大量的诗歌文本数据中学习到词汇之间的2类关联关系，即聚合关系和组合关系。

聚合关系：如果词汇A和词汇B可以互相替换，则它们具有聚合关系。换言之，如果词汇A和词汇B含有聚合关系，在相同的语义或者句法类别中可以利用其中一个来替换另一个，但不影响对整个句子的理解。例如，“萧萧”、“潇潇”都是象声词，多用于描述雨声，具有聚合关系，那么“山下兰芽短浸溪，松间沙路净无泥，萧萧暮雨子规啼”中的“萧萧”可以换做“潇潇”。

组合关系：如果词汇A和词汇B可以在句法关系上相互结合，那么它们具有组合关系。例如，“雨打梨花深闭门，忘了青春，误了青春。赏心乐事共谁论？”中的“忘了”和“误了”都和“青春”存在组合关系，都是“动词+名词”的动宾结构。

现在来寻找与“兵燓”存在语义关联性的若干词汇：

结果大都是跟“战争”&“创伤”相关的词汇，语义关联关系捕获能力较强，后续的热门诗歌体裁挖掘任务也会用到词嵌入模型的这个特性。

3 度量诗歌词汇之间的语义关联关系

3.1 利用余弦相似性度量诗歌词汇关联度

度量词汇之间的相似度或者关联度，我们一般会使用两个词汇的词向量之间的余弦值，词向量之间的夹角越小，则余弦值越大，越接近1，则语义相关度越高；反之，相关度越低。如下图所示，展示了“甲兵”、“兵戈”和“烽火”之间的余弦相似度的可视化示意图（点击图片可放大查看）：

通过上述词嵌入模型，similarity(“甲兵”,“兵戈”) = 0.75，similarity(“甲兵”,“烽火”) = 0.37，similarity(“兵戈”,“烽火”) = 0.48。则在这三个词汇中，“甲兵”和“兵戈”之间的语义相关度最高，其次是“兵戈”和“烽火”，最次的“甲兵”和“烽火”。

这种给一个数值来识别词汇相关不相关的方法优点在于表达简洁、计算高效，比如接下来将要进行的热门诗歌题材发现/聚类。但是，这种词汇相关度的计算没有把词汇之间的相关度的“因果路径”直观的反映出来。

那么，有没有一种直观的方法来展示词汇之间的语义相关性，并且能看到为什么它们是存在这样的关联关系（也就是找到词汇关联路径或者语义演变路径）？

答案是---当然有。

我们需要把这个找寻词汇语义演变路径的任务转换成一个TSP问题（旅行商问题）。

3.2 利用A*算法找寻词汇之间的语义演变路径

TSP问题（Traveling Salesman Problem）又译为旅行推销员问题，是数学领域中著名问题之一。假设有一个旅行商人要拜访n个城市，他必须选择所要走的路径，路径的限制是每个城市只能拜访一次，而且最后要回到原来出发的城市。路径的选择目标是要求得的路径路程为所有路径之中的最小值。

回到词汇相关度度量的问题上来，如果我们能在上述训练得到的词嵌入空间中找到两个词汇之间的最短“语义演变”线路，我们就能直观的呈现出这2个词汇之间产生语义关联的“前因后果”。

要实现这个目的，有一个很棒的算法可以实现 --- A*算法（A* search algorithm）。

A*算法，也叫A*（A-Star)算法，是一种静态路网中求解最短路径最有效的直接搜索方法，也是解决许多搜索问题的有效算法。算法中的距离估算值与实际值越接近，最终搜索速度越快。下图中（点击图片可放大查看），网状结果即是之前构建的word2vec词嵌入空间，节点是其中分布的词汇，边由字词之间的余弦相关度构成。

笔者基于上面的词嵌入模型，结合A*算法来计算两个词汇之间的最短语义路径，部分结果如下所示（点击图片可放大查看）：

在上图的5个词汇对中，“渔樵”和“躬耕”之间的语义距离最短，也就是语义相关度最高，它们之间的语义演变路径也就越短，中间只隔了2个词汇；“燕市”和“宝婺”的语义距离最大，语义相关度最小，二者的语义演变路径隔了12个词汇。

可以看到，语义关联性越弱（distance值越大）的两个词汇之间的最短语义演变路径就越长，反之越短，所以语义距离与语义演变路径长度呈正相关关系，语义关联度与语义演变路径呈负相关关系。

有了前面的词嵌入模型和语义相关度做“铺垫”，后续的热门诗歌题材发现就水到渠成了~

4 用文本聚类进行热门诗歌题材发现

先开宗明义，在本文中，关于“诗歌题材”中的“题材”二字的定义，笔者认为是：

作为诗歌创作材料的社会生活的某些方面，亦特指诗人用以表现作品主题思想的素材，通常是指那些经过集中、取舍、提炼而进入作品的生活事件或生活现象。一言以蔽之，写景、摹物、抒情、记事、明理皆是“题材”。

因为事先不知道这54万余首诗歌中到底会存在多少个题材，所以笔者选取的聚类算法没有预设聚类数这个参数，且兼顾运行效率和节省计算资源，能利用前面训练好的word2vec词嵌入模型和语义关联度计算。

此时，有个很好的选择 --- 社区发现算法中的Infomap。

4.1 基于社区发现的热门诗歌题材发现

字词是承载诗歌题材的最小语义单元，如“五云山上五云飞，远接群峰近拂堤。若问杭州何处好，此中听得野莺啼”，看到其中的“五云山”和“群峰”，则可以给该诗打上一个“山川巍峨”的题材标签。由此，笔者接下来会基于社区发现算法，结合“词汇簇群--->词汇簇群语义特征--->题材标签”的思路来发现热门诗歌题材。

先说说基于社区发现的大致原理。

我们知道，在社交网络中，每个用户相当于每一个点，用户之间通过互相的关注关系构成了整个线上人际网络。

在这样的网络中，有的用户之间的连接较为紧密，有的用户之间的连接关系较为稀疏。其中连接较为紧密的部分可以被看成一个社区，其内部的节点之间有较为紧密的连接，而在两个社区间则相对连接较为稀疏。

如何去划分上述的社区便称为社区发现的问题。

基于社区发现算法的话题聚类/发现，在于挖掘词汇语义网络中居于头部的大型“圈子”。

将词汇拟人化，词汇之间存在的相似度/关联度可以视为词汇之间的亲密程度，那么，诗歌题材发现任务可以看做是找到不同成员组成的“圈子”，圈子的特性可以根据其中的成员特征来确定，换言之，题材的名称可以根据其中聚合的词汇的内涵来拟定，比如某个词汇簇群中包含“卫霍”、“甲兵”、“征战”等词汇，那么这个题材可以命名为“战争”。示意图如下所示（点击图片可放大查看）：

运行社区发现算法后，居于头部的热门题材词汇簇群的可视化呈现如下（点击图片可放大查看）：

其中，不同颜色表征不同的题材，字体大小代表其出现频次，词汇之间的距离远近表征其相关程度大小。

经聚类得到634个题材，根据热度（题材下辖词汇数量）的降序排列呈现最终结果，如下所示（点击图片可放大查看）：

4.2 甄别热门诗歌题材

在这一环节中，笔者的在于根据一些诗歌领域知识，找到上述运行结果中热门题材及其下辖的题材专属性词汇。其中，“题材专属性词汇”的内涵主要有以下两点：

词汇不能再做进一步切割，否则词义会发生变化，比如，“丈夫”在古汉语中的意义是“男子汉”，在一个独立的词汇，若将其切割为“丈”和 “夫”，则原意丧失殆尽；
词汇仅在一个题材中出现，具有排他性，如“杖藜”只出现在“云游四方”这个题材中，不会出现在“金戈铁马”、“对酒当歌”、“悼亡故人”等其他诗歌题材中。

根据笔者在前文中的定义，写景、摹物、抒情、记事、明理皆是“题材”，这里的热门题材甄别采取“抓大放小”的原则。

此外，虽然聚类出的结果较为理想，但还是存在些许噪音，比如，出现少许跟题材相关性不强的词汇、题材区分度较低的词汇、词汇簇群中的词汇过少（如低于10个）等，这些都是需要被刨除掉的情况。

经过笔者的仔细甄别，共甄别出23个热门诗歌题材，分别是山川巍峨、田园躬耕、羁旅思乡、金戈铁马、咏史怀古、咏物抒怀、赠友送别、爱情闺怨、悼亡故人、楼船画舫、花开荼蘼、对酒当歌、骐骥骏马、得道修仙、世事变迁、静悟禅机、壮怀激烈、云游四方、黯然神伤、星宿璀璨、报效君恩、嘤嘤鸟语、蓑笠纶竿等，当然这些并不是全部的题材，限于笔者学识，仍然有大量题材没有发掘出来。枚举部分结果如下（点击图片可放大查看）：

在这一环节，笔者根据对诗歌背景知识的了解，筛选出部分热门诗歌题材，并形成题材对应的关键词规则体系，后续可用于对这54万余首诗歌进行基于关键词的诗歌题材分类。

值得注意的是，由于这一环节挑选关键词过于苛刻，导致数量较少，规则体系不甚健全。所以，在对诗歌语料库进行正式的诗歌题材分类前，笔者需要使用一些“小手段”，对上述热门题材的关键词规则进行扩充。

5 根据线性分类器特征延伸关键词

在这里，笔者先利用已得到的热门题材分类体系及其关键词规则给这54万余首诗歌打上题材标签，允许出现同一首诗歌命中多个标签的情形。除去其中未命中题材标签的数据，共计443,589行，其中多数诗歌打上了2个及以上的题材标签。

部分结果如下所示（点击图片可放大查看）：

有了带标签的数据以后，笔者将多标签问题转换为单标签问题，再将上述诗歌文本及其对应的标签“喂进”线性分类器，根据线性分类器的权重来找到每个类别下最具代表性的词汇，也就是题材专有性词汇。这里选择线性分类器而不是时下流行的深度学习分类器的原因就在于它的可解释性，能让我们清楚的知道是哪些显著的特征（此处是词汇）让诗歌分到这个题材类别下的。其大致原理如下图所示（点击图片可放大查看）：

在笔者测试的众多线性分类器中，即RandomForestClassifier、Perceptron、PassiveAggressiveClassifier、MultinomialNB、RidgeClassifier、SGDClassifier，RidgeClassifier的区分效果最好，其F1_score为0.519，鉴于是词袋模型，语义表示较为简单，且原本是多标签分类任务，这个结果尚可接受。基于RidgeClassifier的特征词汇权重的降序排列结果，可得到上述23个热门诗歌题材分类中的若干题材专有性词汇，部分结果展示如下（点击图片可放大查看）：

这样，各个类别各取TOP500词汇，经过笔者的甄别和梳理后，各个题材关键词规则得到了不同程度的扩充，使得该分类标签体系可以较好的辅助完成诗歌题材多标签分类任务，且后续可以结合分类结果做不断的扩充。

基于这个更加完善的诗歌题材分类体系，笔者运行完之后得到58W+行数据，在之前的基础上增加了14W+行数据，数据规模提升明显！

至此，笔者第一个目标，即热门诗歌题材标签语料库构建完毕，后续的文本挖掘任务可以在此基础上进行。

由分类标签及其分类模型反向推导其中最具代表性的特征词汇，这是一个“数据--->规律”的归纳过程，很好的体现了数据驱动思维；而模型将学习归纳得到的“经验”推广到新样本的标签预测任务中，则体现了“规则--->数据”的演绎过程。

6 基于分类标签的各类统计分析

针对上述58W+行数据构成的诗歌题材语料库，将其中的题材分类标签和各类meta data（如风格、朝代、作者等）做交叉分析，得到很多有意思的分析结果。

6.1 诗歌题材&风格分析

将诗歌数据集的风格标签和题材标签进行交叉列表的成分占比分析，得到的结果如下（点击图片可放大查看）：

其中，可以发现一些明显的统计描述性特征：

“赠友送别”和“嘤嘤鸟语”这两个题材在所有诗歌风格中的占比都较高，是两个较为“热门”的题材；
“悼亡故人”和“壮怀激烈”这两个题材在所有诗歌风格中的占比都较低，是两个较为“冷门”的题材。

6.2 题材标签共现分析

前面的诗歌题材分类是多标签分类，也就是可能会出现同一首诗歌对应多个题材标签的情况。在这种情况下，我们可以进行题材标签的共现分析，也就是多次同时出现的题材标签，它们之间会存在一定的关联性。

现对标签共现的情况进行建模，得到的结果可视化呈现如下所示（点击图片可放大查看）：

上图中，线条的粗细表示共现的频次多寡，越粗表示共现频次越高，反之越低。其中，有几对标签对的共现频率较高：

世事变迁 - 黯然神伤

羁旅思乡 - 世事变迁

咏史怀古 - 蓑笠纶竿

世事变迁 - 金戈铁马

对酒当歌 - 世事变迁

悼亡故人 - 世事变迁

其中，“黯然神伤”和“世事变迁”的相关性最高，这个很好理解，毕竟“物是人事事休，欲语泪先流”，类似因感叹逝事而伤感的诗句还有“人世几回伤往事，山形依旧枕寒流”、“一生事业总成空，半世功名在梦中”；“羁旅思乡”和“世事变迁”之间的相关性第二高，此类的诗句有“少小离家老大回，乡音无改鬓毛衰”、“去日儿童皆长大，昔年亲友半凋零”等。

此外，我们也可以发现，在出现2个及两个以上题材标签的诗歌中，“世事变迁”和其他题材同时出现的概率很大：世事变迁可能导致诗人黯然神伤；也可能是战争导致兵连祸结，产生出“兴，百姓苦，亡，百姓苦”的感慨；抑或是“桃李春风一杯酒，江湖夜雨十年灯”的对酒当歌。

6.3 诗歌题材趋势分析

笔者将诗歌数据集中的朝代按照时间顺序由远及近进行排列，并合并其中年代接近的朝代，将其与23个热门诗歌题材做（占比）交叉分析，得到下图（点击图片可放大查看）：

在上图中，可以分别从横向维度（朝代）和纵向（诗歌题材）维度来看。

从横向维度上看，有两个题材经久不衰，即“赠友送别”和“嘤嘤鸟语”。

古时候由于交通不便，通信极不发达，亲人朋友之间往往一别数载难以相见，所以古人特别看重离别。离别之际，人们往往设酒饯别，折柳相送，有时还要吟诗话别，因此“赠友送别”就成为古代文人吟咏的一个永恒的题材。在这浓浓的感伤之外，往往还有其他寄寓：或用以激励劝勉，如“莫愁前路无知己，天下谁人不识君”；或用以抒发友情，如“桃花潭水深千尺，不及汪伦送我情”；或用于寄托诗人自己的理想抱负，如“洛阳亲友如相问，一片冰心在玉壶”；甚至洋溢着积极向上的青春气息，充满希望和梦想，如“海内存知己，天涯若比邻”。

“嘤嘤鸟语”题材的诗歌一般用“比兴”的手法来寄寓自己的情感，笔者所了解的有两类：一是通过写鸟语描摹诗人淡薄、回归山野自然的平静心境，这方面的诗王摩诘写的最多，如“月出惊山鸟，时鸣春涧中”、“漠漠水田飞白鹭，阴阴夏木啭黄鹂”、“雉雊麦苗秀，蚕眠桑叶稀”等；二是通过子规（杜鹃）、鸿雁等意象来表达诗人淡淡的忧伤，如“杨花落尽子规啼，闻道龙标过五溪”的依依惜别之情、“两边山木合，终日子规啼”的思乡归家之情、“雁尽书难寄，愁多梦不成”的思君心切...

从纵向维度上看，隋末唐初时期除了上述提及的两大热门题材外，关于“报效君恩”题材的诗歌占比较高。彼时适逢华夏第三次大一统，“贞观之治”、“开元之治”这两大盛世荣耀大唐在“朕即国家”的时代，广大热血青年渴望驰骋疆场，建功立业，报效国家。

此外，笔者也注意到，从金代到到当代，“花开荼蘼”、“羁旅思乡”、“金戈铁马”和“静悟禅机”等题材就一直葆有较高的热度，结合前面提及的2大经久不衰的诗歌题材，这表明这段时期的诗歌创作方向具有一定的延续性。

从上表中，我们能有一些发现，但如果想更获取一些更深层次、潜藏在表层数据中的信息，我们还需要用高阶的数据挖掘方法将其转换一下。在这里，笔者使用多元对应分析的方法将其高维表示（也就是上面的21*23维的图表）映射为二维表示（分解为2个二维矩阵，题材为23*2，朝代为21*2），从而更直观的揭示出诗歌题材之间、诗歌题材与朝代之间的关联关系，如下图所示（点击图片可放大查看）：

在上图中，有两类坐标---外围有半径圆圈的红色点是朝代的，“x”的诗歌题材的坐标。

汉代的坐标“孤悬海外”是因为数据量过小，统计特征不甚明显，故笔者在这里不做分析。

在图的左上角，魏晋、南北朝、隋末唐初、隋这几个朝代的圆圈重合度较高，说明它们的诗歌题材数量分布较为相似，联想到这几个朝代前后相继，这又一次体现了诗歌创作具有时代延续性的特征。

同样，唐代及其以后的圆圈呈“扎堆状”，标明它们的诗歌写作题材的数量分布较为相似，反映出唐以降的朝代在诗歌创作题材方面的差异度较小，题材创作方向的创新性不高。究其原因，在于诗歌在唐代已经进化到“究极状态”：

唐诗的题材和意境也几乎无所不包,修辞手段的运用已达到炉火纯青的程度。它不仅继承了汉魏民歌、乐府传统，并且大大发展了歌行体的样式；不仅继承了前代的五、七言古诗，并且发展为叙事言情的长篇巨制；不仅扩展了五言、七言形式的运用，还创造了风格特别优美整齐的近体诗。近体诗是当时的新体诗，它的创造和成熟，是唐代诗歌发展史上的一件大事。它把我国古曲诗歌的音节和谐、文字精炼的艺术特色，推到前所未有的高度，为古代抒情诗找到一个最典型的形式，至今还特别为人民所喜闻乐见。

唐诗代表了中华诗歌的最高成就，无疑是中华以及世界文坛上浓墨重彩的笔触！这对于想要另辟新境的宋代诗人来说无疑是巨大的压力。正如王安石和鲁迅所言：

“世间好语言，已被老杜道尽；世间俗语言，已被乐天道尽”，

“我以为一切好诗，到唐朝已被做完，此后倘非翻出如来掌心之‘齐天大圣’，大可不必再动手了”。

7 通过GPT-2生成表达流畅的诗歌

从某种程度上讲，诗歌生成是从另一维度对诗歌进行深度分析。

生成什么诗歌，跟诗歌生成模型“吃下去”什么是息息相关的。诗歌生成模型的“生成”不是“无源之水”、“无本之木”，它是在充分学习和吸收前人的若干诗作后，习得了一定的“创作手法”，因而能生成效果尚可的诗歌。

同时，我们也能从生成的结果中发现诗歌创作的一些规律，做一些深入探究。

7.1 诗歌生成示例分析

在这一部分，笔者用于训练诗歌生成模型的语料库是基于热门题材标签体系得到的带有题材标签（目前是23个）的律诗（七言和五言）和绝句（七言和五言），它们都满足诗歌的结构性、音调性和语义性的要求。

这里笔者采用的是GPT2（Generative Pre-Training 2nd），它是一个无监督语言模型，能够生成具有连贯性的文本段落，在许多语言建模任务基准中取得了领先级表现（数据量级和参数量级摆在那里，当然跟它的后浪GPT3不能比...）。而且该模型在没有任务特定训练的情况下，能够做到初步的阅读理解、机器翻译、问答和自动摘要。其核心思想可以总结为“给定越多参数以及越多样、越大量的文本，无监督训练一个语言模型或许就可让该模型具备更强的自然语言理解能力，并在没有任何监督的情况下开始学会解决不同类型的 NLP 任务”。

在文本的诗歌生成任务中，笔者从零到一训练一个诗歌生成的GPT2模型，力求让该模型学习到诗歌数据集中的各类显性特征（题材与诗歌的关系、诗歌与风格的关系、藏头字和诗歌的关系等）和隐性特征（主要是诗歌的韵律），其大致原理如下图所示：

相比3年前笔者写《用文本挖掘剖析近5万首<全唐诗>》时用的LSTM诗歌生成模型，GPT2模型进步巨大：

生成的诗歌更加通顺，每一联的出句和入句的衔接也显得更为自然
能成全局（即整首诗）着眼，记忆能力好，考虑上下文语境，前后生成的诗句紧密关联，不会出现“跳题材”的情况
能学习到诗歌数据中较为隐性的特征，如押韵、平仄、对仗、疑问语气等
因拥有上述3个优势，生成的诗歌“废品率”大大降低

下面，笔者将“花式”呈现GPT2的诗歌生成能力：

1）生成的诗歌可能会和前人写的诗句有一定的相关性，但是GPT2模型可以进行“魔改”，很难看出直接的“抄袭对象”，例如以下由GPT2模型生成的七言律诗，每一联都能在语料库中找到语义最为接近的一句：

战鼙传响彻神州，万里中原一白头。
兵后英雄谁不死，眼前豪杰已无忧。
乾坤纳纳归天地，岁月悠悠老斗牛。
安得扁舟成独往，五湖烟浪是东流。

2）很多生成的诗歌能较好的学习到韵律，比如符合《平水韵》的用韵规则：

上一个示例就是《平水韵》中七律平起（首句入韵）的一个样例：

平平仄仄仄平平（韵）

仄仄平平仄仄平（韵）

仄仄平平平仄仄

平平仄仄仄平平（韵）

平平仄仄平平仄

仄仄平平仄仄平（韵）

仄仄平平平仄仄

平平仄仄仄平平（韵）

战鼙传响彻神州【州：十一尤】押韵

万里中原一白头【头：十一尤】押韵

兵后英雄谁不死

眼前豪杰已无忧【忧：十一尤】押韵

乾坤纳纳归天地

岁月悠悠老斗牛【牛：十一尤】押韵

安得扁舟成独往

五湖烟浪是东流【流：十一尤】押韵

另外再看两个case：

即使一些诗歌不是严格的用韵（即一首诗只能押一个韵），也会自动采用邻韵的方式来缓解韵律失和的问题。

3）对人张若虚的乐府旧题《春江花月夜》（因为是乐府诗，字数较多，未参与诗歌生成模型的训练）中的若干诗句，采用对对子的方法生成下联，毫无违和感：

【上联】春江潮水连海平，海上明月共潮生【下联】古塔风云绕山青，峰顶彩霞共霭晖

【上联】滟滟随波千万里，何处春江无月明【下联】幽幽如幻五十年，此间尘世有风流

【上联】江流宛转绕芳甸，月照花林皆似霰【下联】山势氤氲浮翠霭，风梳杨柳欲飞烟

【上联】斜月沉沉藏海雾，碣石潇湘无限路【下联】春江漫卷漾烟雨，长河日夜有缘人

【上联】不知江月待何人，但见长江送流水【下联】只向渔家寻旧迹，试问何处答耕桑

【上联】白云一片去悠悠，青枫浦上不胜愁【下联】碧水千层横漠漠，赤雁南来正飞歌

【上联】鸿雁长飞光不度，鱼龙潜跃水成文【下联】渔家小住月相随，鸥鹭往来船载歌

【上联】此时相望不相闻，愿逐月华流照君【下联】何处觅人犹有约？欲邀仙子去还家

【上联】江畔何人初见月？江月何年初照人【下联】天下有地可藏龙，海风哪处可观心

【上联】江天一色无纤尘，皎皎空中孤月轮【下联】杨柳千丝犹有梦，蒙蒙江上满船灯

4）嵌入笔者所在的公司名称---“达观数据”作为藏头字，分别以“山川巍峨”、“得道修仙”、“田园躬耕”为题材，生成三首七言律诗：

《其一》

达摩七十二峰高，天下英雄气郁陶。

观海三山云缥缈，登楼千仞势岧峣。

数茎白发身长健，百尺丹梯路不遥。

据险未能穷胜览，凭栏徙倚思飘飖。

《其二》

达者由来本自然，人间何处不神仙。

观空已悟三千界，阅世方知二十年。

数点青山随杖屦，一行白鸟下云烟。

据鞍更欲凌风去，回首孤城落照边。

《其三》

达摩万象付评量，造化从来自一方。

观物有时开口笑，看人无处着心忙。

数间茅屋临流水，几个渔舟傍夕阳。

据得此中真面目，乾坤何地不沧桑。

5）在训练和生成式引入更多的诗歌标签信息，如风格、题材和藏头字，引导GPT2朝期望的方向的生成诗歌。训练好模型后，笔者输入诗歌风格（七言绝句、七言律诗）、藏头字（沧海月明）和题材（金戈忒吗、世事变迁、静悟禅机等），生成如下诗歌：

七言绝句戢戈为武金戈铁马戢兵十万羽林郎，戈壁纵横百战场。为报将军能破敌，武功原是好封疆。

七言律诗沧海月明金戈铁马沧海干戈一战场，西风吹泪洒衣裳。海门万里烽烟息，天地千秋雨露凉。月下楼船喧鼓角，夜深笳鼓动旌旗。明年此夕登临处，独倚阑干对夕阳。

七言律诗沧海月明金戈铁马沧波渺渺接长河，极目苍茫感慨多。海上楼船三百里，云间楼阁五千过。月明古渡渔歌起，秋入荒城鼓角和。明日相逢又相别，不堪回首泪滂沱。

七言律诗沧海月明金戈铁马沧波渺渺白鸥群，极目苍茫万里云。海上楼船三万里，天边烽火一孤坟。月明古渡渔歌起，霜落空山雁影分。明日相逢又相别，故乡回首泪纷纷。

七言律诗沧海月明世事变迁沧桑劫火几兴亡，回首沧桑感慨伤。海上楼台空劫火，人间禾黍自悲凉。月明古渡渔歌起，风静寒潮雁影长。明日相逢又相别，故乡回首一凄凉。

七言律诗沧海月明静悟禅机沧浪万顷白鸥群，此地曾经此地分。海上楼台今夜月，山中楼阁几秋云。月明古寺僧初定，潮落空江雁正闻。明日相逢又相别，不知何处是离群。

上述生成结果，平仄符合，押韵亦可，诗意也不错。不敢说很完美，但至少很多人写不出如此观感的诗歌。

此外，上述按题材生成的结果，笔者进行了大量的题材诗歌生成测试，结果表明诗歌题材和生成诗歌之间的关联性较高，这也从侧面验证了笔者上述构建的诗歌题材语料库具有一定的合理性。

此外，笔者还通过生成的诗句发现了古今诗歌表达方面的一些差异，例如，笔者以“金戈铁马”作为生成题材，分别用毛主席《人民解放军占领南京》和陈老总的《梅岭三章》中的首联打头，各生成9首诗歌，结果如下（点击可查看大图）：

上面两张图中占据中间C位的是原诗歌，其余的诗歌由毛主席和陈老总诗歌的首联“引导”而成，基本含有“金戈铁马”相关的意象，题材贴合度较高，大都跟征战、戌边、杀敌保国有关，比如：

闻道汉家多战伐，将军今日重南邦。

旌旗影动三军肃，刁斗声传五夜长。

中原战血三千里，南国英魂一断肠。

西风鼓角寒吹雁，南国旌旗夜渡河。

...

然而，可能跟学习了大量封建时代的诗歌有关，这些生成的诗歌到末尾大都是一个悲情的基调，略显消极，如以下几句：

从此边城多战伐，不须笳鼓更悲凉。

一路寒声送归雁，秋深不见客愁窗。

我欲从君寻旧隐，扁舟重访草堂堂。

独有英灵知此意，不堪回首泪沾裳。

回首故园归未得，西风萧瑟动悲歌。

回首不堪惆怅事，夕阳芳草满汀波。

...

上述生成的诗句缺乏革命主义的乐观豪情，这是封建时代的诗歌不具备的特质，但这恰好毛主席和陈老总这两首诗歌的与众不同之处。且看这两句：

天若有情天亦老，人间正道是沧桑。

投身革命即为家，血雨腥风应有涯。

“文章合为时而著，歌诗合为事而作”，上述的结果也恰恰从侧面体现了诗歌创作具有时代感和现实感，尽管是写同一题材，但由于诗人的人生轨迹和面临的时代背景不一样，胸中所内含的气象也大不相同。

上述由GPT2生成的诗歌看起来都还不错，很多到了以假乱真的地步，这种情况下，我们该如何甄别出其中哪些是人写的，哪些是机器写的？

机器写作诗歌归根到底还是一个统计学问题，“解铃还须系铃人”，甄别“真伪”的事情还得统计学来解决。

7.2 人机诗歌创作的差异比较

诗歌生成建模大致的原理是：通过大量诗歌语料，诗歌生成模型能学习到任一诗句中相邻的字词之间的依赖关系，比如出现一个“漠”，GPT2按照学习到的经验，会猜测接下来会出现哪个字，这些字都会以概率的形式“存放”在GPT2模型的“记忆”之中，如：

“漠”：0.1205，

“北”：0.0914

“然”：0.0121，

“视”：0.00124，

...

一般情况下，机器“作诗”时会选择过往出现几率最高的字，以此类推，直到碰到“终止符”才结束，逐渐生成整首诗歌。

这是最简单的情形，生成的效果也就非常一般，很多时候是文理不通。

为了保证生成效果，一般会（同时）用到一些复杂的生成策略，如Beam Search、Top-k sampling、Top-p sampling（NUCLEUS SAMPLING，核采样）、Repetition_penalty（对重复性进行惩罚）、Length_penalty（对生成过长的诗句进行惩罚）等，这样会兼顾诗歌生成的一些其他因素，如流畅度、丰富度、一致性等，诗歌生成的效果也能得到较大的提升。

笔者基于哈佛大学的GLTR（ Statistical Detection and Visualization of Generated Text）来探究下机器和人作诗时的一些差异，该工具输入的是诗歌，输出的是机器和人作的诗歌的字出现概率分布统计，我们从中可以发现诗歌“炼字”的一些奥秘。笔者试举一例：

在上图中，色块的颜色代表的是字所在的概率区间，红色代表出现概率TOP10的字，黄色的是TOP100，绿色的是TOP1000，紫色的是TOP10000。

从结果中，我们可以看到机器作诗时，红色和黄色的字概率分布区间占比较大，逐字生成时一般是从头部的字概率分布中来取，从而导致会诗句生成较为常见的表达；人创作诗歌时，各颜色代表的字概率分布区间占比较为接近，至少是差异不大，最终导致诗歌的表达千变万化，不落俗套。

古时诗人作诗，重在“炼字”。炼字，指锤炼词语，指诗人经过反复琢磨，从词汇宝库中挑选出最贴切、最精确、最形象生动的词语来描摹事物或表情达意。从这个角度来看，具有统计学意义的“选字”策略基本不可取 --- 不是词不达意就是容易落“俗套”。

比如，陶渊明的那句“采菊东篱下，悠然见南山”中“见”换成“望”就不好。虽然按从诗歌数据集学到的概率来讲，“望”在过往出现的概率远大于“见”，但“见”通“”现，有“无意中看见”的含义，标明作者是不经意间抬起头来看见南山，表达了整个诗句中那种悠然自得的感触，好像在不经意间看到了山中美景，符合“山气日夕佳，飞鸟相与还”这种非常自然的、非常率真的意境，而“望”则显得有些生硬。

8 将诗歌翻译成通俗易懂的白话文

诗歌翻译，也就是将文言文色彩浓重、一般人不易看懂的诗歌翻译成现代人容易理解的白话文。

笔者此处用到的模型是两个BERT构成的Encoder-Decoder，目标是输入一句或者一首诗歌，生成相应的白话文翻译。考虑到古现代汉语存在大量词汇方面的语义延续性，不像中英互译这样，源语句和目标语句之间的语义和语法结构差异极大，它们会有很多共享词汇，所以训练的语料数量可以适当少些。诗歌翻译模型会从大量的翻译语句对中学习到它们之间的语义对应关系，而且是以较为流畅（较理想的情况下）的形式进行输出。

以下是简要原理图：

笔者编写爬虫采集了某诗歌分享网站上的若干诗歌及其翻译数据，经清洗后，得到3万条训练语句。

部分训练数据如下表所示：

训练模型后，笔者选取部分未出现在训练集中的语句作为文本翻译的示例，部分示例如下：

【词】问君何事轻离别，一年能几团圆月。杨柳乍如丝，故园春尽时。（菩萨蛮·问君何事轻离别，清，纳兰性德）

【翻译1】你在什么时候才能够回家？只有那美丽的桃花已经过去了。

【翻译2】请你问我为什么这样的轻易消失呢？一年里正是三次月下的清明之夜。杨柳刚像丝丝般柔软，就好似在家乡春天已经快要过去了。

【词】山抹微云，天粘衰草，画角声断谯门。水流明月，风送残花，诗心韵动江楼。（《满庭芳·山抹微云》，前一句作者是宋，秦观，后一句作者是GPT2）
【翻译】远处的山峰上是一片轻薄的薄云，在天空中飘散着；乌鸦点缀在枯草丛里，号角声响彻四周。明月照耀下清辉的银河映射向西边，传来阵阵寒梅花的音乐，这时节让人肝肠寸断。

【对联】帝道真如，如今都成过去事。民心所向，自古都是往来人。（杨度自挽联，上联作者是民国，杨度，下一联作者是GPT2）
【翻译】京城大道实在了解我的知识，就像当年地方一样经历过了。百姓心里依旧保护着百姓生活世界，自古以来都是从前人们来往的人间吧！

【诗句】万户千门入建章，金绳界路柳丝黄。和风偏度乐声细，晴日自随宫泉长。（《宫词·万户千门入建章》，宋，王仲修）
【翻译】皇上的宅院已经关闭了建立功名利禄，皇家大道路两旁的杨柳依旧是那样的嫩芽。春天来到这里，宫殿高耸入云霄，宫殿中传出一阵清脆婉转的流水。

【诗句】沅湘两水清且浅，林花夹岸滩声激。洞庭浩渺通长江，春来水涨连天碧。（《少年湖南歌》，民国，杨度）
【翻译1】沅江两岸的流淌在这里是多么高远呢？树丛生的野草和小洲环绕着江面，河畔的波涛好像是那样宽阔无际；春天来了时节，水面上涨起伏着一片青色。
【翻译2】沅江两岸的流淌着一片清澈的江水清澈，茂密的树林环绕在河岸上。洞庭湖广阔无际，春水滔滔不断地流向远方。
【翻译3】潇湘两岸的流淌着一片清澈的水，树林间的花瓣随风飘荡。洞庭湖广阔无际，波涛汹涌，波光粼粼，好像是天空相接。
【翻译4】沅水湘江清澈见底，水波荡漾，岸边树木繁茂如浅的流动。洞庭湖浩淼远望去，水天相接处连成一片。

从结果上来看，3万来句的效果还马马虎虎，很多翻译不是直译过来的，更倾向于“意译”，机器翻译的时候会“脑补”一些场景，如对“山抹微云，...，诗心韵动江楼”的翻译，机器能够“揣摩”出“这时节让人肝肠寸断”，开始“有内味”了。

如果采用一些手段扩充下语料，如将整首诗歌和对应翻译逐句拆分、对白话文部分进行文本增强（同义词替换、随机插入、随机交换等）和将意译改为直译等，训练处的模型可能会更强大些，翻译效果能提升不少。

结语

通过上述诗歌语料库分析流程，笔者想说一下对于（文本）数据挖掘的一些看法：

所谓挖掘，通常带有“发现、寻找、归纳、提炼”等内涵，既然需要去发现和提炼，那么，所要找寻的内容往往都不是显而易见的，而是“隐蔽”和“藏匿”于文本之中，或者是人无法直接在大范围内发现和归纳出来的。如果要抽丝剥茧，需要结合领域知识（如文中的诗歌常识），运用多种分析手段（如文中的各类NLU和NLG方法），有时甚至需要逆向思维（如文中的诗歌生成），且各类分析最好是一个前后相继、互为补充有机整体，这样才能以最高的效率来完成文本数据的探索任务。

参考资料：

《数学与文学的共鸣》，丘成桐
《迦陵说诗.嘉莹说诗讲稿》，叶嘉莹
《文本数据管理与分析》，翟成祥
《文本数据挖掘》，宗成庆
《古代汉语基础》，吴鸿清
《诗词格律》，王力
《语言的科学》，诺姆.乔姆斯基
《现代汉语词汇学教程》，周荐
《语言的认知研究和计算分析》，袁疏林
《自然语言处理的认知方法》，Bernadette Sharp
《自然语言处理入门》，何晗
https://github.com/Werneror/Poetry
https://github.com/kpu/kenlm
https://github.com/jiaeyan/Jiayan
《Catching a Unicorn with GLTR: A tool to detect automatically generated text》，http://gltr.io
《Better Language Models and Their Implications》，https://openai.com/blog/better-language-models/
《自由度+凝固度+统计的新词发现》，https://blog.csdn.net/qq_39006282/article/details/91357603

长按扫码添加“Python小助手” 进入 P Y 交 流 群

▼点击成为社区会员   喜欢就点个在看吧

你可能感兴趣的:(自然语言处理,webgl,机器学习,gwt,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

万字长文！用文本挖掘深度剖析54万首诗歌

《Catching a Unicorn with GLTR: A tool to detect automatically generated text》，http://gltr.io

《Better Language Models and Their Implications》，https://openai.com/blog/better-language-models/

你可能感兴趣的:(自然语言处理,webgl,机器学习,gwt,人工智能)