big maom~~

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)...

七月，酷暑难耐，认识的几位同学参加知乎看山杯，均取得不错的排名。当时天池AI医疗大赛初赛结束，官方正在为复赛进行平台调试，复赛时间一拖再拖。看着几位同学在比赛中排名都还很不错，于是决定抽空试一试。结果一发不可收拾，又找了两个同学一起组队(队伍init)以至于整个暑假都投入到这个比赛之中，并最终以一定的优势夺得第一名。

1. 比赛介绍

这是一个文本多分类的问题：目标是“参赛者根据知乎给出的问题及话题标签的绑定关系的训练数据，训练出对未标注数据自动标注的模型”。通俗点讲就是：当用户在知乎上提问题时，程序要能够根据问题的内容自动为其添加话题标签。一个问题可能对应着多个话题标签，如下图所示。

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)..._第1张图片

这是一个文本多分类，多label的分类问题(一个样本可能属于多个类别)。总共有300万条问题-话题对，超过2亿词，4亿字，共1999个类别。

1.1 数据介绍

参考 biendata.com/competitio

https://biendata.com/competition/zhihu/rules/?next_url=%2Fcompetition%2Fzhihu%2Fdata%2F

总的来说就是：

数据经过脱敏处理，看到的不是“如何评价2017知乎看山杯机器学习比赛”，而是“w2w34w234w54w909w2343w1"这种经过映射的词的形式，或者是”c13c44c4c5642c782c934c02c2309c42c13c234c97c8425c98c4c340"这种经过映射的字的形式。
因为词和字经过脱敏处理，所以无法使用第三方的词向量，官方特地提供了预训练好的词向量，即char_embedding.txt和word_embedding.txt ，都是256 维。
主办方提供了1999个类别的描述和类别之间的父子关系(比如机器学习的父话题是人工智能，统计学和计算机科学)，但这个知识没有用上。
训练集包含300万条问题的标题(title)，问题的描述(description)和问题的话题(topic)
测试集包含21万条问题的标题(title),问题的描述(description)，需要给出最有可能的5个话题(topic)

1.2 数据处理

数据处理主要包括两部分：

char_embedding.txt 和 word_embedding.txt 转为numpy格式，这个很简单，直接使用word2vec的python工具即可
对于不同长度的问题文本，pad和截断成一样长度的(利用pad_sequence 函数，也可以自己写代码pad)。太短的就补空格，太长的就截断。操作图示如下：

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)..._第2张图片

1.3 数据增强

文本中数据增强不太常见，这里我们使用了shuffle和drop两种数据增强，前者打乱词顺序，后者随机的删除掉某些词。效果举例如图：

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)..._第3张图片

1.4 评价指标

每个预测样本，提供最有可能的五个话题标签，计算加权后的准确率和召回率，再计算F1值。注意准确率是加权累加的，意味着越靠前的正确预测对分数贡献越大，同时也意味着准确率可能高于1，但是F1值计算的时候分子没有乘以2，所以0.5是很难达到的。

2 模型介绍

建议大家先阅读这篇文章，了解文本多分类问题几个常用模型：用深度学习(CNN RNN Attention)解决大规模文本分类问题

https://zhuanlan.zhihu.com/p/25928551

2.1 通用模型结构

文本分类的模型很多，这次比赛中用到的模型基本上都遵循以下的架构：

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)..._第4张图片

基本思路就是，词(或者字)经过embedding层之后，利用CNN/RNN等结构，提取局部信息、全局信息或上下文信息，利用分类器进行分类，分类器的是由两层全连接层组成的。

在开始介绍每个模型之前，这里先下几个结论：

如果你的模型分数不够高，试着把模型变得更深更宽更复杂
当模型复杂到一定程度的时候，不同模型的分数差距很小
当模型复杂达到一定程度，继续变复杂难以继续提升模型的分数

2.2 TextCNN

这是最经典的文本分类模型，这里就不细说了，模型架构如下图：

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)..._第5张图片

和原始的论文的区别就在于：

使用两层卷积
使用更多的卷积核，更多尺度的卷积核
使用了BatchNorm
分类的时候使用了两层的全连接

总之就是更深，更复杂。不过卷积核的尺寸设计的不够合理，导致感受野差距过大。

2.3 TextRNN

没找到论文，我就凭感觉实现了一下：

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)..._第6张图片

相比于其他人的做法，这里的不同点在于：

使用了两层的双向LSTM。
分类的时候不是只使用最后一个隐藏元的输出，而是把所有隐藏元的输出做K-MaxPooling再分类。

2.4 TextRCNN

参考原论文的实现，和RNN类似，也是两层双向LSTM，但是需要和Embedding层的输出Concat(类似于resnet的shortcut直连)。

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)..._第7张图片

2.5 TextInception

这个是我自己提出来的，参照TextCNN的思想(多尺度卷积核)，模仿Inception的结构设计出来的，一层的Inception结构如下图所示，比赛中用了两层的Inception结构，最深有4层卷积，比TextCNN更深。

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)..._第8张图片

2.6 训练方法

要点：

基于词和基于字的模型要分开训，然后融合，一起训的效果不好
使用官方给的word-embedding.txt和char-embedding.txt初始化Embedding层的权重
刚开始训练的时候Embedding层的学习率为0，其它层的学习率为1e-3，采用Adam优化器(一开始的时候卷积层都是随机初始化的，反向传播得到的Embedding层的梯度受到卷积层的影响，相当于噪声)
训练1-2个epoch之后，Embedding层的学习率设为2e-4
每个epoch或者半个epoch统计一次在验证集的分数
如果分数上升，保存模型，并记下保存路径
如果分数下降，加载上一个模型的保存路径，并降低学习率为一半(重新初始化优化器，清空动量信息，而不是只修改学习率----使用PyTorch的话新建一个新优化器即可)

2.7 各个模型分数计算

训练的时候，每个模型要么只训练基于词(word)的模型，要么只训练基于字(char)的模型。各个模型的分数都差不多，这里不再单独列出来了，只区分训练的模型的类型和数据增强与否。

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)..._第9张图片

可以看出来

基于词的模型效果远远好于基于字的(说明中文分词很有必要)。
数据增强对基于词(word)的模型有一定的提升，但是对于基于字(char)的模型主要是起到副作用。
各个模型之间的分数差距不大。

2.8 模型融合

像这种模型比较简单，数据量相对比较小的比赛，模型融合是比赛获胜的关键。

在这里，我只使用到了最简单的模型融合方法-----概率等权重融合。对于每个样本，单模型会给出一个1999维的向量，代表着这个模型属于1999个话题的概率。融合的方式就是把每一个模型输出的向量直接相加，然后选择概率最大的5个话题提交。结构如图所示：

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)..._第10张图片

下面我们再来看看两个模型融合的分数：

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)..._第11张图片

第一列的对比模型采用的是RNN(不采用数据增强，使用word作为训练数据)，第二列是四个不同的模型(不同的结构，或者是不同的数据)。

我们可以得出以下几个结论：

从第一行和第二行的对比之中我们可以看出，模型差异越大提升越多(RNN和RCNN比较相似，因为他们底层都采用了双向LSTM提取特征)，虽然RCNN的分数比Inception要高，Inception对模型融合的提升更大。
从第一行和第四行的对比之中我们可以看出，数据的差异越大，融合的提升越多，虽然基于字(char)训练的模型分数比较低，但是和基于词训练的模型进行融合，还是能有极大的提升。
采用数据增强，有助于提升数据的差异性，对模型融合的提升帮助也很大。

总结：差异性越大，模型融合效果越好。没有差异性，创造条件也要制造差异性。

另外模型融合还有个规律：越往上越难提升,有些模型在你分数较低的时候，对融合提升很明显，当你分数较高的时候就没什么帮助，甚至会有干扰

2.9 MultiModel

其实模型融合的方式，我们换一种角度考虑，其实就是一个很大的模型，每一个分支就像多通道的TextCNN一样。那么我们能不能训练一个超级大的模型？答案是可以的，但是效果往往很差。因为模型过于复杂，太难以训练。这里我尝试了两种改进的方法。

第一种方法，利用预训练好的单模型初始化复杂模型的某一部分参数，模型架构如图所示：

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)..._第12张图片

但是这种做法会带来一个问题：模型过拟合很严重，难以学习到新的东西。因为单模型在训练集上的分数都接近0.5，已经逼近理论上的极限分数，这时候很难接着学习到新的内容。这里采取的应对策略是采用较高的初始学习率，强行把模型从过拟合点拉出来，使得模型在训练集上的分数迅速降低到0.4左右，然后再降低学习率，缓慢学习，提升模型的分数。

第二种做法是修改预训练模型的embedding矩阵为官方给的embedding权重。这样共享embedding的做法，能够一定程度上抑制模型过拟合，减少参数量。虽然CNN/RNN等模型的参数过拟合，但是由于相对应的embedding没有过拟合，所以模型一开始分数就会下降许多，然后再缓慢提升。这种做法更优。在最后提交模型复现成绩的时候，我只提交了七个这种模型，里面包含着不同子模型的组合，一般包含3-4个子模型。这种方式生成的权重文件也比较小(600M-700M左右)，上传到网盘相对来说更方便。

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)..._第13张图片

2.10 失败的模型或没什么用的方法

MultiMode只是我诸多尝试的方法中比较成功的一个，其它方法大多以失败告终(或者效果不明显)

数据多折训练：因为过拟合严重，想着先拿一半数据训，允许它充分过拟合，然后再拿另外一半数据训。效果不如之前的模型。
Attention Stack，参考了这篇文章，其实本质上相当于调权重，但是效果有限，还麻烦，所以最后直接用等权重融合(权重全设为1)。
Stack，太费时费力，浪费了不少时间，也有可能是实现有误，提升有限，没有继续研究下去。
Boost，和第二名Koala的方法很像，先训一个模型，然后再训第二个模型和第一个模型的输出相加，但是固定第一个模型的参数。相当于不停的修正上一个模型误判的(可以尝试计算一下梯度，你会发现第一个模型已经判对的样本，即使第二个模型判别错了，第二个模型的梯度也不会很大，即第二个模型不会花费太多时间学习这个样本)。但是效果不好，原因：过拟合很严重，第一个模型在训练集上的分数直接就逼近0.5，导致第二个模型什么都没学到。Koala队伍最终就是凭借着这个Boost模型拿到了第二名，我过早放弃，没能在这个方法上有所突破十分遗憾。
TTA(测试时数据增强)，相当于在测试的时候人为的制造差异性，对单模型的效果一般，对融合几乎没有帮助。
Hyperopt进行超参数查询，主要用来查询模型融合的权重，效果一般，最后就也没有使用了，就手动稍微调了一下。
label设权重，对于正样本给予更高的权重，训练模型，然后和正常权重的模型进行融合，在单模型上能够提升2-3个千分点(十分巨大)，但是在最后的模型融合是效果很有限(0.0002)，而且需要调整权重比较麻烦，遂舍弃。
用分类得到的词向量作为下一个模型的embedding的初始值，因为官方给的word embedding是用无监督的word2vec训练的，和有监督的分类问题还是有一定偏差的。没有深入研究下去，对单模型应该是有提升，但是对融合可能没什么帮助。

3 结束语

我之前虽然学过CS224D的课程，也做了前两次的作业，但是除此之外几乎从来没写过自然语言处理相关的代码，能拿第一离不开队友的支持，和同学们不断的激励。

这次比赛入门对我帮助最大的两篇文章是用深度学习(CNN RNN Attention)解决大规模文本分类问题

https://zhuanlan.zhihu.com/p/25928551

和deep-learning-nlp-best-practices

http://ruder.io/deep-learning-nlp-best-practices/index.html

第一篇是北邮某学长(但我并不认识~)写的，介绍了许多文本分类的模型(CNN/RNN/RCNN)，对我入门帮助很大。

第二篇是国外某博士写的，当时我已经把分数刷到前三，在家看到了这篇文章，叹为观止，解释了我很多的疑惑，提到的很多经验总结和我的情况也确实相符。https://zhuanlan.zhihu.com/p/28923961

2019考研 | 西交大软件工程笔者阿蓉
本科背景：某北京211学校电子信息工程互联网开发工作两年录取结果：全日制软件工程学院分数：初试350+复试笔试80+面试85+总排名：100+从五月份开始脱产学习，我主要说一下专业课和复试还有我对非全的一些看法。【数学100+】张宇，张宇，张宇。跟着张宇学习，入门视频刷一遍，真题刷两遍，错题刷三遍。书刷N多遍。从视频开始学习，是最快的学习方法。5-7月份把主要是数学学好，8-9月份开始给自己每个周
高中抓住这两招，帮你实现从学渣到学霸的逆袭以读攻独
富兰克林曾说：“宝贝放错了地方便是废物。”一句话戳中了“位置”的重要性。大多数人，最初对位置的明显感受，似乎就来源于上高中时的座位：成绩好的，坐前排，那里安静，学习氛围浓，受关注度高；成绩差的坐后面，嘈杂，充斥着汗味、食品味、香水味，也经常被点名。所以，位置不仅代表了分数，也给你打上了“学渣”或“学霸”的标签。在《逆袭》这本书中，就真实地讲述一个参加了2014年高考的高中生，用三年的奋斗史，从班级
3.1 损失函数和优化：损失函数做只小考拉
用一个函数把W当做输入，然后看一下得分，定量地估计W的好坏，这个函数被称为“损失函数”。损失函数用于度量W的好坏。有了损失函数的概念后，就可以定量的衡量W到底是好还是坏，要找到一种有效的方法来从W的可行域里，找到W取何值时情况最不坏，，这个过程将会是一个优化过程。损失函数L_i定义：通过函数f给出预测的分数和真实的目标（或者说是标签y），可以定量的描述训练样本预测的好不好，最终的损失函数是在整个数
女儿讲笑话系列 | 得想点办法梁之川
期末考试小明又考砸了。爸爸接过试卷看了许久，语重心长地说：小明，分数这么低，你得想点办法啊！小明回答：我也想啊！这分数是用黑色水笔写的，我也没办法改啊……
Python中判断两个字符串的内容是否相同 songyuc 《Python学习笔记》Python
1前言今天在划分数据集的时候，需要判断两个字符串的内容是否相同，这个之前查过，不过好像忘记了，所以想着再记录一下～2Python中判断两个字符串的内容是否相同使用“==”符号进行判断，这个判断是根据字符串中字符的ASCII进行判断的；在判断字符串内容是否相同时，不能使用“is”进行判断，因为is是判断变量的内存ID（即使用函数id(a)获得变量的内存ID）是否相同；
《疯狂的外星人》：生活本就如此荒诞，杀不死你的，终将成就你职心眼儿
文/董小琳了解电影较好的方法是知道它是如何说故事的。——法国评论家安德烈·巴顿早就听闻豆瓣评分6.4的《疯狂的外星人》，口碑两极分化——爱的人，喜欢它的搞笑，符合贺岁档合家欢的观影需求；骂的人，认为剧情牵强，漏洞百出，笑点牵强得像被人瘙痒。结果近54万观众的评分，一半以上的人只给到了及格，甚至还往下的分数。所以，《疯狂的外星人》就铁定是一部烂片了吗？今年过年，在家看了这部作品后，我想，如果电影自己
如何在Excel中使用COLUMN函数 Excel客旅
一、COLUMN函数介绍1.COLUMN函数是用来得到指定单元格的列号。比如“=COLUMN(B1)”，得到的就是B1的列号为“2”。2.如果括号里面为空，什么都不引用，则默认引用公式所在单元格的列号。3.COLUMN函数还可以引用区域。首先我们选中B1至F1的单元格区域，然后输入公式“=COLUMN(B:F)”或者“=COLUMN(B1:F1)”，然后按Ctrl+Shift+Enter键。二、用
致良知之寄诸用明书 BonSun
众所周知，当今社会，父母和社会、学校对学生的期望往往是唯分数论，包括每个人对成功的理解也往往是功名利禄，忽视了最基本的学问。文中提到，花之千叶者无实，为其华美太发露耳。人只有沉下心来，韬光养晦，才能拥有真正的学问和本领。
高考见真章胡珊珊乐平九小
虽然这几天孩子都在发烧，内心很是焦虑。但依然比不上一些家长的焦虑程度，因为今天是一个特别的日子——高考分数查询。几家欢喜几家愁。中午打了电话给小姨，没人接。于是又分别发了微信给小姨和小姨夫，问询表弟高考成绩。425分，比预估的低了几十分。当然他的估分我是不太信的，估分不记答案出来总会高估。想当年我们是先填报志愿再出分数的，我们会在垫板上把答案抄出来估分，这样的估分才比较准确。当年我估分与实际分数一
黄酒存储是否也是越陈越好? 转角遇见酒
黄酒自酿成之日起，便开始了它的生命期，直至被消费为止。在黄酒的生命期内，其品质在不断地发生变化，但是杀菌灌坛后的成品酒，酒中15％～18％（体积分数）左右的酒精含量、丰富的有机酸以及较低的pH值（黄酒pH在3.8～4.6之间），可以有效保持酒的无菌状态，从而使黄酒成为一种对人身体有良好保健作用的饮料。实践证明，好的黄酒如质量上乘的酒可以贮藏10年、20年、50年甚至更长时间，且随着时间的推移，酒质
平潭 Royment
我出生在平潭，工作在成都。今年是我来到成都的第十二个年头，得知我是福建人后，许多成都伙伴都不解，为何会跨越大半个中国来到内陆，福建不是挺好的吗？我立即解释高考分数太低，只能上四川的学校。事实的确如此，但屡屡被问到，就促使自己去思考这背后的深层原因。我们经常说“一方水土养育一方人”；成都自古被称“天府之国”，有着肥沃的土地，温和的气候。农耕文明滋养出的人民性格温和，包容友善。耕作需要心力和时间，因此
生命中的守恒定律小懶同學
时隔近一年，因为英宁哥来，我又见到了慧姐。乍看慧姐没什么变化，走近一看，她头发少了许多，头顶秃了一块。她说这一年压力大。慧姐孩子比我丫头小三天，初中也是上名校，初中孩子的妈妈，特别是名校初中孩子的妈妈，个中之累我懂。我头疼丫头的数学，慧姐头疼儿子的语文。她说请了两个语文老师一对一辅导儿子，指望这个没用，那个有用，双管齐下，多少该管点用吧。然并卵。为了提点分数，老母亲真是操碎了心。慧姐的压力还来自事
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
亮亮随笔20 | 我们擦肩而过的人，也许就是别人日思夜想，却见不到的人岸在脚下亮亮
前两天看到一句话。那些我们擦肩而过的人，也许就是别人日思夜想，却见不到的人。高考结束以后。要给自己估分，然后填报大学的志愿。那天。米粒和老板约我，说是去一个奶茶店，一起商量一下这个志愿要怎么填。当时学校给我们每个人都发了一本厚厚的志愿参考书，上面有每一所大学的编号，以及一些介绍，书本的前几页，自然就是清华、北大了。我本来想写的第一志愿就是清华大学。他们说，你的分数差了1、2百分，若是把清华大学放在
《评量问句是寻找例外的工具》卓丽，坚持第1788天原创分享（2019.10.31星期四）: 半夏五月天
《评量问句是寻找例外的工具》卓丽，坚持第1788天原创分享（2019.10.31星期四）:寻找例外的方法很多，评量问句也是其中的一个重要的工具。例如，在1分到10分的量尺上，10分的位置表示奇迹已经发生的状态，1分表示相对的位置，请当事人去评量现状，1分与现状间分数的差异，将引发对例外经验的觉察。也可以借助重要他人的观点，确认当事人例外的存在、成功要素及影响。例如:“1分到10分，10分表示你觉得
2021-03-08 水青柠
【日精进打卡第1412天】姓名：陈权公司：青柠养车【知~学习】《流利说》打卡第359天《羊皮卷》1、诵读次数：4542、实践分数：8443、实际得分：1298【行~实践】一、修身二、努力1、全力以赴销售2、春季促销三、谦虚1、三人行必有我师2、趴在地上看对手和世界、站在山上看挫折和困难四、反省1、机制/技术/设备创新是2、拼命工作是3、人格魅力〉1）早会否2）勿轻诺是3）绝是非是4）谦虚是5）利他
中原焦点团队张俊功初24、中24、33持续分享第810天，约练15咨32观总计129 次（2023.5.6） 5d4750373a7c
少一些包办，多一些能量的赋予：和孩子建立日常惯例，而不是事无巨细的管孩子。要让你的孩子知道，她比分数更重要。如果孩子成绩下降，要像一个朋友一样寻找潜在原因。不要把让孩子退出他们擅长的事情作为“惩罚”，或者你认为的激励。一旦你给自己十几岁孩子提供了学习技能的机会，并让他们知道你无条件的爱他们，你就会对自己并不了解十几岁孩子的所有事情感到欣慰，就像你的父母当年也并不了解你所做的每一件事情一样。
30天亲子共同成长记第20天简单的我燕凤
一自我肯定1我是一个有担当的人。2我是一个节约不浪费的人。3我是一个善良有爱心的人。4我是一个懂得自负的人。5我是一个会照顾全家大小的人。6我是一个懂得控制自己不盲目消费的人。二我希望大宝是个爱考试，不为分数纠结，愿意看见不足努力学习的人。三今天大宝在家里做英语练习试卷，我告诉她要计时跟在学校考试一样认真对待。刚开始一页她很认真做完了，后面一页有道题她犹豫了一下对错去改了，使得没听下一题的题目结果
AtCoder Beginner Contest 363 菜比乌斯反演 AtCoder 算法 c++开发语言
A-PilingUp题意不同的分数段有不同的^数量，Takahashi想要使得他的^数量增加，问他所需要的最少分数增幅。思路我们只需要找到下一阶段的下限。a/100是本阶段+1变成下一阶段，再*100变成下限，再与原来的相减即可。代码inlinevoidsolve(){inta;cin>>a;cout>n>>t>>p;vectora(n+1);for(inti=1;i>a[i];nth_eleme
2024年03月中国电子学会青少年软件编程（Python）等级考试试卷（一级）答案 + 解析伶俐角少儿编程 python 少儿编程中国电子学会青少年编程等级考试
青少年软件编程（Python）等级考试试卷（一级）分数：100题数：37一、单选题(共25题，共50分)1.下列哪个命令，可以将2024转换成'2024'呢？（）A.str(2024)B.int(2024)C.float(2024)D.bool(2024)正确答案：A
2021-09-13 馫南
作为一名小学数学教师的我，时常发现大部分数学老师在课堂中赞扬学生的语言非常简单、匮乏。殊不知这种激励性的语言不仅能激发学生的学习兴趣，也是促进学生思维和有效教学的前提。最近我摘录了有关小学数学课堂的一些激励性的语言。1、老师最欣赏你努力钻研的精神！2、你的自学能力让我感到惊讶，你太厉害了！3、你的想法很有创新，我和我的小伙伴都惊呆了！4、你的语言组织能力真棒！发言很有条理，也很有见解！5、猜一猜，
python卡方检验计算pvalue值_Python数据科学：卡方检验 CodeWhiz
之前已经介绍的变量分析：①相关分析：一个连续变量与一个连续变量间的关系。②双样本t检验：一个二分分类变量与一个连续变量间的关系。③方差分析：一个多分类分类变量与一个连续变量间的关系。本次介绍：卡方检验：一个二分分类变量或多分类分类变量与一个二分分类变量间的关系。如果其中一个变量的分布随着另一个变量的水平不同而发生变化时，那么两个分类变量就有关系。卡方检验并不能展现出两个分类变量相关性的强弱，只能展
我从来没想过我会怎么死去潇潇暮雨子规啼_70d8
我从来没想过我会怎么死去，留下一封愤世骇俗的“遗书”，然后去跳楼、割腕、或者上吊，就这样在我还没给世界留下任何痕迹的时候，也在世界没给我留下痕迹的时候，“潇洒”地一死了之，哦不，你是属于世界的一部分的，那么如此说来上面一条条件就被推翻了。在夜深人静的时候我常常思考，十八年了我到底为了什么活着，为了家人、朋友、亲戚、同学亦或者爱人，为了家人我是个听话的孩子，一个分数机器，为了朋友我是个忠实的伙伴，一
人教版六年级数学上册教材分析尚未秃头的老师
教学内容：修订后的六年制第十一册教科书的主要内容有：位置，分数乘法，分数除法，圆，百分数，统计，数学广角和数学实践活动等。分数乘法和除法，圆，百分数等是本册教材的重点教学内容。教材分析：在数与代数方面，教材安排了分数乘法、分数除法、百分数三个单元。分数乘法和除法的教学是在前面学习整数、小数有关计算的基础上，培养学生分数四则运算能力以及解决有关分数的实际问题的能力。会解决简单的有关百分数的实际问题，
99分普普通通的中学生
最近，我们班进行了好几次考试，其中，光是数学就进行了两次。两张试卷都非常的简单，可是，我却两张试卷都得了九十九分，这究竟是为什么呢？别着急，听我慢慢跟你道来：前几天，第二单元的试卷刚考完，我就特别担心——这么简单的一张试卷，要是分数考低了，那可就不好了。等啊等，试卷总算发下来了。可是，当我把试卷打开的那一瞬间，我惊呆了——为什么得了九十九分呢?我当时特别认真的检查过了，哪儿错了呢?我仔细地看了看试
高考分数出来了，学霸各种表情包柑橘萌
各区的高考分数都可以查询了，考生们那叫激动，手都要抖起来，心扑通扑通地跳，既紧张后期待自己的分数。查询高考分数，有人悲有人喜，有人激动有人淡定，毕竟，这一分数是人生的第一个转折点。能考上自己的目标，那就皆大欢喜；考不上自己的目标，只能背地里哭泣。就如广西一学霸，查分那叫一个淡定，慢悠悠地打开网址，再慢悠悠地输入自己的准考证，再看到成绩那一刻，只说了一句“比较满意”，旁边的人都比他激动。广西一学霸还
MySQL——视图（三）应用实例——视图的应用 Code repairman MySQL mysql 数据库
本节将通过一个应用案例让读者熟练掌握在实际开发中创建并使用视图的完整过程。1.案例的目的掌握视图的创建、查询、更新和删除操作。假如有来自河北和山东的三个理科学生报考北京大学（PekingUniversity）和清华大学（TsinghuaUniversity），现在需要对其考试的结果进行查询和管理，清华大学的录取分数线为725，北京大学的录取分数线为720。需要创建三个表对学生的信息进行管理，这三个
22级数据结构与算法实验2——链表 “世有神明” 链表算法数据结构
7-1两个有序链表序列的合并分数20全屏浏览题目切换布局作者DS课程组单位浙江大学已知两个非降序链表序列S1与S2，设计函数构造出S1与S2合并后的新的非降序链表S3。输入格式:输入分两行，分别在每行给出由若干个正整数构成的非降序序列，用−1表示序列的结尾（−1不属于这个序列）。数字用空格间隔。输出格式:在一行中输出合并后新的非降序链表，数字间用空格分开，结尾不能有多余空格；若新链表为空，输出NU
亲子心理探索：看看别人家的孩子，你凭什么做不到？沐雪轩潇
“你看看别人家的孩子”“你为啥学不会？为啥分数这么低？你为啥总贪玩？你为啥不听话？”从小时候，我们经常听到父母和我们这样说，经常被拿去和别的孩子比较，上学时，比成绩；毕业时，比证书；工作时，比收入；一路被比着长大，而那个“别人家的孩子”就成了一生的宿敌。而长大后，身为父母，竟然发现自己也会不经意的出现这种习惯，去比较，去夸奖“别人家的孩子”，去拿这种对比性话语说给自己的孩子听。前些时日，领姑娘去了
其实花父母钱的时候，我也会内疚朴雨夏树
如果这世界上有一个「内疚」排行榜，伸手向父母要钱，应该能被列在榜单上。5年前，我高考结束，想趁着分数出来之前，和朋友去旅行。我们几个私下敲定好了旅行的全部细节，挡在面前的唯一问题，就只剩下钱了。可那时候还没来得及做兼职赚钱，平时积积攒攒的压岁钱还不够买一张车票。总不能贷款吧，所以想来想去，也只能张口向家里要钱。我记得特别清楚，那段时间，由于我高考分数没出，家里陷入到一种既期盼，又担心的古怪气氛中。
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

多分类f1分数_NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)...

你可能感兴趣的:(多分类f1分数)