神洛华

天池-新闻文本分类-task2 fasttext

FastText：快速的文本分类器

文章目录

- 一、word2vec
- - 1.1 word2vec为什么不用现成的DNN模型
  - 1.2 word2vec两种模型：CBOW和Skip-gram
  - 1.2 word2vec两种优化解法：霍夫曼树和负采样
  - - 1.2.2 基于Hierarchical Softmax的CBOW模型算法流程：
    - 1.2.3 负采样方法
  - 1.3 总结：
- 二、fasttext
- - 2.1、简介
  - 2.2 FastText原理
  - - 2.2.1 模型架构
    - 2.2.2 层次SoftMax
    - 2.2.3 N-gram特征
    - 2.2.4 subword
    - 2.2.5 fasttext文本分类总结
- 三、fastText和word2vec对比总结
- - 3.1 fastText和word2vec的区别
  - 3.2 小结
  - - 3.2.1 fasttext适用范围
    - 3.2.2 fasttext应用场景
    - 3.2.3 fastText优点
- 四、用gensim学习word2vec
- - 4.1 使用技巧
  - 4.2 推荐系统中的Word2vec
- 五、基于fastText实现文本分类
- - 5.1 fasttext参数：
  - 5.2 基本使用
  - 5.3 bin格式词向量转换为vec格式
- 六、新闻文本分类——fasttext
- - 6.1 正常fasttext分类
  - 6.2 小数据集：word2vec+fasttext+首尾截断
  - 6.3 全数据集：word2vec+fasttext+首尾截断

一、word2vec

参考文档《word2vec原理和gensim实现》、《深入浅出Word2Vec原理解析》

1.1 word2vec为什么不用现成的DNN模型

最主要的问题是DNN模型的这个处理过程非常耗时。我们的词汇表一般在百万级别以上，从隐藏层到输出的softmax层的计算量很大，因为要计算所有词的softmax概率，再去找概率最大的值。解决办法有两个：霍夫曼树和负采样。
对于从输入层到隐藏层的映射，没有采取神经网络的线性变换加激活函数的方法，而是采用简单的对所有输入词向量求和并取平均的方法。输入从多个词向量变成了一个词向量
在word2vec中，由于使用的是随机梯度上升法，所以并没有把所有样本的似然乘起来得到真正的训练集最大似然，仅仅每次只用一个样本更新梯度，这样做的目的是减少梯度计算量

1.2 word2vec两种模型：CBOW和Skip-gram

Word2Vec是轻量级的神经网络，其模型仅仅包括输入层、隐藏层和输出层，模型框架根据输入输出的不同，主要包括CBOW和Skip-gram模型。

CBOW的方式是在知道词 $w_{t}$ 的上下文 $w_{t-2}$ 、 $w_{t-1}$ 和 $w_{t+1}$ 、 $w_{t+2}$ 的情况下预测当前词 $w_{t}$ 。
Skip-gram是在知道了词 $w_{t}$ 的情况下,对词的上下文进行预测，如下图所示：

1.2 word2vec两种优化解法：霍夫曼树和负采样

霍夫曼树解法：
- 采用霍夫曼树来代替隐藏层和输出层的神经元，霍夫曼树的叶子节点起到输出层神经元的作用，叶子节点的个数即为词汇表的小大。而内部节点则起到隐藏层神经元的作用。
- 把之前计算所有词的softmax概率变成了查找二叉霍夫曼树。那么我们的softmax概率计算只需要沿着树形结构进行，从根节点一直走到我们的叶子节点的词。将每个节点向左或向右走的概率连乘就是最终预测的概率。训练时只更新对应通路的w，与全连接W相比大大减少。
- 因为涉及连乘，每次乘的概率都是小于1，所以越到深层概率越低。所以其实存在一个词与词之间概率不对等的问题。
- 霍夫曼编码：由于权重高的叶子节点越靠近根节点，编码值较短。而权重低的叶子节点会远离根节点，编码值较长。这保证的树的带权路径最短，也符合我们的信息论，即我们希望越常用的词拥有更短的编码，查找就更快。如何编码呢？参见上面提的文档
负采样：
- 使用霍夫曼树可以提高模型训练的效率。但是如果我们的训练样本里的中心词是一个很生僻的词，那么就得在霍夫曼树中辛苦的向下走很久了。
- Negative Sampling：word2vec用神经网络解法时，输出是计算V类的概率，其中1类是中心词，概率往大的方向走，剩下一类是V-1个其它词，概率往小的方向走。真正计算复杂的就是负类别。负采样法就是从V-1个负样本中随机挑几个词做负样本。每个词被选为负样本的概率和其词频正相关00
- Negative Sampling由于没有采用霍夫曼树，每次只是通过采样neg个不同的中心词做负例，利用这一个正例和neg个负例，我们进行二元逻辑回归，就可以训练模型，因此整个过程要比Hierarchical Softmax简单。二元逻辑回归算法见文档。
- 负采样中每个词有两套向量，分别作为输入和预测时使用。
两种解法进行一定优化，牺牲了一定的分类的准确度。比如负采样的负样本是随机选取的，所以相对已经没那么准了。

1.2.2 基于Hierarchical Softmax的CBOW模型算法流程：

输入：根据词向量的维度大小M，以及CBOW的上下文大小2c，步长 $\eta$ ，得到训练样本。
建立霍夫曼树，整体语料的各个词频决定 huffman树。
随机初始化所有的模型参数 $\theta$ ，所有的词向量w。这些训练样本所用的huffman树是一棵
随机梯度上升法，对于训练集中的每一个样本 $(c o n t e x t (w), w)$ 中的每一个词向量 $x_i$ (共2c个)进行迭代更新。
如果梯度收敛，则结束梯度迭代，否则回到上一步继续迭代
$h=\sum_{i=1}^{2c} embedding_{i}$
$y=softmax(d)=softmax(Wh)=\frac{1}{\sum_{i=1}^{V}e^{d_{i}}}\begin{bmatrix} e^{d_{1}}\\ e^{d_{2}}\\ ...\\ e^{d_{V}}\end{bmatrix}$
W为全连接层参数，将词向量维度映射为V维（词表大小），表示预测词的概率。

1.2.3 负采样方法

如果词汇表的大小为 $V$ ,那么我们就将一段长度为1的线段分成 $V$ 份，每份对应词汇表中的一个词。高频词对应的线段长，低频词对应的线段短(高频词数量多，分子count就大)。每个词 $w$ 的线段长度由下式决定： $\frac{count(w)}{\sum\limits_{u \in vocab} count(u)}$

在word2vec中，分子和分母都取了3/4次幂（经验参数，提高低频词被选取的概率）如下： $\frac{count(w)^{3/4}}{\sum\limits_{u \in vocab} count(u)^{3/4}}$

在采样前，我们将这段长度为1的线段划分成 $M$ 等份，这里 $M > > V$ ，这样可以保证每个词对应的线段都会划分成对应的小块。而M份中的每一份都会落在某一个词对应的线段上。在采样的时候，我们只需要从 $M$ 个位置中采样出 $n e g$ 个位置就行，此时采样到的每一个位置对应到的线段所属的词就是我们的负例词

在word2vec中， $M$ 取值默认为 $10^8$ 。

1.3 总结：

one-hot：词表大大时内存不够。且所有词相似度都是一样的没有区别
word embedding：考虑使用使用神经网络语言模型，通过训练，将每个词都映射到一个较短的词向量上来
神经网络语言模型的输入输出，有连续词袋模型CBOW(Continuous Bag-of-Words）和Skip-Gram两种模型。
- CBOW模型的训练输入是某个中心词的上下文词向量，输出是词表所有词的softmax概率，训练的目标是期望中心词对应的softmax概率最大。
- Skip-Gram模型和CBOW的思路是反着来的，即输入中心词词向量，而输出是中心词对应的上下文词向量。比如窗口大小为4，就是输出softmax概率排前8的8个词。
word2vec有两种解法，霍夫曼树和负采样。负采样用得较多，因为构建霍夫曼树比较麻烦。
一般来说， Skip-Gram模型比CBOW模型更好，因为：
- Skip-Gram模型有更多的训练样本。Skip-Gram是一个词预测n个词，而CBOW是n个词预测一个词。
- 误差反向更新中，CBOW是中心词误差更新n个周边词，这n个周边词被更新的力度是一样的。而Skip-Gram中，每个周边词都可以根据误差更新中心词，所以Skip-Gram是更细粒度的学习方法。
- Skip-Gram效果更好（默认Skip-Gram模型）但是缺点就是训练次数更多，时间更长。

二、fasttext

2.1、简介

fasttext是facebook开源的一个词向量与文本分类工具，在2016年开源，典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法，性能比肩深度学习而且速度更快。

fastText的核心思想：将整篇文档的词及n-gram向量叠加平均得到文档向量，然后使用文档向量做softmax多分类。这中间涉及到两个技巧：字符级n-gram特征的引入以及分层Softmax分类。叠加词向量背后的思想就是传统的词袋法，即将文档看成一个由词构成的集合。

这些不同概念被用于两个不同任务：
• 有效文本分类：有监督学习（短文本）
• 学习词向量表征：无监督学习

2.2 FastText原理

fastText方法包含三部分，模型架构，层次SoftMax和N-gram特征。用词向量的叠加代表文档向量，全连接之后softmax分类。

2.2.1 模型架构

fastText的架构和word2vec中的CBOW的架构类似，因为它们的作者都是Facebook的科学家Tomas Mikolov，而且确实fastText（2016）也算是words2vec（2014）所衍生出来的。
Continuous Bog-Of-Words：

隐藏层就是叠加后的句子（文档）向量
参考《理解文本分类利器fastText》

序列中的词和词组组成特征向量，特征向量通过线性变换映射到中间层，中间层再映射到标签。
fastText 模型架构和 Word2Vec 中的 CBOW 模型很类似。不同之处在于，fastText 预测标签，而 CBOW 模型预测中间词。
所以fastText只有CBOW模型，对应fastText.train_supervised 没有model参数。 Word2Vec有两种模型，所以fastText.train_unsupervised可以选择model={cbow, skipgram} ，默认skipgram。

2.2.2 层次SoftMax

层次softmax的基本思想是根据类别的频率构造霍夫曼树来代替扁平化的标准softmax。通过层次softmax，获得概率分布的时间复杂度可以从O(N)降至O(logN)。(多分类转成一系列二分类）

下图为层次softmax的一个具体示例：

（见速通一书162页）

2.2.3 N-gram特征

n-gram解决词袋模型没有词序的问题，Hash解决n-gram膨胀问题。最大问题是有Hash冲突，但是实际中问题不大。

fastText 本身是词袋模型，为了分类的准确性，所以加入了 N-gram 特征提取词序信息。“我爱她”如果加入 2-Ngram，第一句话的特征还有 “我-爱” 和 “爱-她”，这两句话 “我爱她” 和 “她爱我” 就能区别开来了。当然啦，为了提高效率，我们需要过滤掉低频的 N-gram。
n-gram的问题是词表会急剧扩大，变为 $V|^n$ ，没有机器扛得住。所以使用散列法（Hash）对n-gram特征进行压缩。
Hash：使用Hash函数将字符串映射到某个整数。这样不管n-gram词表有多大，最后整数范围都是函数输出范围（比如4000亿词表。hash函数是对10526取余，最后输出就10526个数值，数值再转成向量）

2.2.4 subword

word2vec中每个词都是一个基本信息单元，不可再切分。忽略了词内部特征。fasttext采样子词模型表示词，可以从词的构造上学习词义，解决未登录词的问题。
fasttext中子词的n-gram长度在minn和maxn之间。如果模型输入是ID之类的特征，子词没有任何意义，应取消子词。即minn=maxn=0。
中文中子词是两个相邻的字，英文中是词根和词缀。

2.2.5 fasttext文本分类总结

一个句子进行分词，每个词进行embedding转换成一个词向量，默认100维。
每个词按位相加成一个新的100维向量。再过一个全连接矩阵，100行(词向量维度)22列（分类数）
经过softmax得到每一类的类别概率。

三、fastText和word2vec对比总结

3.1 fastText和word2vec的区别

相似处：
1.图模型结构很像，都是采用embedding向量的形式，得到word的隐向量表达。
2.都采用很多相似的优化方法，比如使用Hierarchical softmax优化训练和预测中的打分速度。

不同处：
word2vec用词预测词，而且是词袋模型，没有n-gram。fasttext用文章/句子词向量预测类别，加入了n-gram信息。所以有：

模型的输入层：word2vec的输入层，是 context window 内的词；而fasttext 对应的整个sentence的内容，包括word、n-gram、subword。
模型的输出层：word2vec的输出层，计算某个词的softmax概率最大；而fasttext的输出层对应的是分类的label；
两者本质的不同，体现在 h-softmax的使用：
- word2vec用的负采样或者霍夫曼树解法（计算所有词概率，类别过大）。
- fasttext用的softmsx全连接分类（类别少）
word2vec主要目的的得到词向量，该词向量最终是在输入层得到（不关注预测的结果准不准，因为霍夫曼树和负采样解法虽然优化了训练速度，但是分类结果没那么准了）。fasttext主要是做分类，虽然也会生成一系列的向量，但最终都被抛弃，不会使用。
word2vec有两种模型cbow和 skipgram，fasttext只有cbow模型。
word2vec属于监督模型，但是不需要标注样本。fasttext也属于监督模型，但是需要标注样本。

3.2 小结

3.2.1 fasttext适用范围

总的来说，fastText的学习速度比较快，效果还不错。

fastText适用与分类类别比较大而且数据集足够多的情况，当分类类别比较小或者数据集比较少的话，很容易过拟合。
适用于短文本。因为第一步是多个向量相加，文本越长，高频词越多，最后相加结果越趋于相同。（比如关键词只有那么几个，如果长文本词向量相加，关键词就被淹没了）如果非要用于长文本分类，就先去停用词或者干脆提取关键词（这个软件没有分开计算词的权重）

3.2.2 fasttext应用场景

可以完成无监督的词向量的学习，可以学习出来词向量，来保持住词和词之间，相关词之间是一个距离比较近的情况；
也可以用于有监督学习的文本分类任务，（新闻文本分类，垃圾邮件分类、情感分析中文本情感分析，电商中用户评论的褒贬分析）
封装的特别好，用了很多加速模块包括多线程实现。非常简单。Keras可以做模型，定制化，很灵活，但是需要自己搭。Fasttext任务单一，用起来方便。

3.2.3 fastText优点

fastText是一个快速文本分类算法，与基于神经网络的分类算法相比有两大优点：

fastText在保持高精度的情况下加快了训练速度和测试速度
fastText不需要预训练好的词向量，fastText会自己训练词向量
fastText两个重要的优化：Hierarchical Softmax、N-gram
训练代码中，如果电脑一开始训练就卡了，可以设置线程thread=2。（卡住只能kill进程ps - aux│grep python,kill – 9 1531(进程数）

fasttext已经嵌入word2vec，可以用它做有监督和无监督（就是word2vec）。涉及到离散特征都可以用fasttext。比如招聘网站预测求职者和职位的匹配度。（求职者和职位分别提取关键词特征，然后用fasttext训练，输出录用和不录用的概率。但是求职者简历写本科就是本科学位，职位要求的本科是指本科及以上。二者还是有些不一样。需要把求职者关键字/标签加P，职位标签加J予以区分。即当数据来源不同纬度时，语义可能不同，前面加一个field予以区分）

四、用gensim学习word2vec

参考文档《word2vec原理和gensim实现》

4.1 使用技巧

用哪种方法看需求：
1.使用时需要将多个向量相加（文本向量化）用cbow
2.使用时都是单个词向量使用（找近义词）用skip-gram
大原则：使用的过程和训练的过程越一致，效果一般越好
如果实在不知道怎么选，一般来说skip-gram+ns负采样效果好一点点。
同一批词分别进行两次训练，embedding也不在同一语义空间，不同语义空间的向量没有可比性。word2vec不能进行增量更新，有新词只能全量训练，因为语料库变了one-hot也变了，V也变了。
孤岛效应：有一堆词，明明不相关，训练出来确是显示相似的。
- 某部分词总是一起出现，另一堆词也是一起出现，但是这两堆词互相没有任何交集，虽然在一起训练是一个向量空间，但实际上是两个向量空间。这两堆词互相比较是没有意义的。
- 孤岛效应本质是由一些不相关语料或者弱相关语料组成。Word2vec本身不能解决这个问题，这个只能在样本选取上下功夫，让训练样本尽可能相关。所以各领域自己训练自己的，不要把一堆不相关的东西放到一起训练。几个行业几套词向量。

4.2 推荐系统中的Word2vec

word2vec可以计算向量之间的相似度，所以可以在其它领域广泛使用。比如视频分类
nlp和推荐系统中最大区别是nlp的词向量比较固定，而推荐系统中用户不断推陈出新，用户向量变化很快。
可以使用Hash技术，将用户ID(如手机设备号）进行hash作为类别。
将视频ID作为词，用户的点击序列作为句子（一连串视频），用word2vec对点击序列进行训练。最后每个视频ID对应一个embedding，用来计算不同视频的相似度，或者作为视频向量输入后续模型。

五、基于fastText实现文本分类

直接pip安装报错：“Microsoft Visual C++ 14.0 or greater is required”。在此页面下载fasttext文件，然后安装：pip install C:\Users\LS\Downloads\fasttext-0.9.2-cp38-cp38-win_amd64.whl

FastText可以快速的在CPU上进行训练，最好的实践方法就是github教程，以及官网教程。

5.1 fasttext参数：

参考官方文档《Python模块》、《FastText代码详解》

FUNCTIONS
load_model(path)：加载给定文件路径的模型并返回模型对象。
read_args(arg_list, arg_dict, arg_names, default_values)
tokenize(text)：给定一串文本，对其进行标记并返回一个标记列表
train_supervised(*kargs, **kwargs)：监督训练，样本包含标签，即fasttext。
train_unsupervised(*kargs, **kwargs)：无监督训练，样本没有标签，即word2vec。
fasttext.train_unsupervised函数：调用此函数学习词向量，即word2vec模型。
- 维度 ( dim ) ：向量维度的大小，defult=100 ，也可以选100-300 。
- 子词是包含在最小大小 ( minn ) 和最大大小 ( maxn )之间的单词中的所有子字符串。默认minn=3， maxn=6。
- minn和maxn分别代表subwords的最小长度和最大长度
- bucket表示可容纳的subwords和wordNgrams的数量，可以理解成是它们存放的表，与word存放的表是分开的。
- t表示过滤高频词的阈值，像"the"，"a"这种高频但语义很少的词应该过滤掉。

input             # training file path (required)
model             # unsupervised fasttext model {cbow, skipgram} [skipgram]
lr                # 学习率 [0.05]
dim               # 词向量维度 [100]
ws                # 上下文窗口大小 [5]
epoch             # 训练轮数 [5]
minCount          # 最少单词词频，过滤过少的单词 [5]
minn              # min length of char ngram [3]
maxn              # max length of char ngram [6]
neg               # 负采样个数 [5]
wordNgrams        # 词ngram最大长度 [1]
loss              # loss function {ns, hs, softmax, ova}[ns]
                  #（负采样、霍夫曼树、softmax和多分类采用多个二分类计算，即loss one-vs-all） 
bucket            # number of buckets，放的是subwords [2000000]
thread            # cpu线程 [number of cpus]
lrUpdateRate      # change the rate of updates for the learning rate，实现阶梯动态学习率 [100]
t                 # sampling threshold，过滤高频词，越大被保留的概率越大 [0.0001]
verbose           # verbose [2]

train_supervised 参数：

input             # training file path (required)
lr                # 学习率 [0.05]
dim               # 词向量维度 [100]
ws                # 上下文窗口大小 [5]
epoch             # 训练轮数 [5]
minCount          # 最小词频 [1]
minCountLabel     # minimal number of label occurences [1]
minn              # min length of char ngram [0]
maxn              # max length of char ngram [0]
neg               # 负采样个数 [5]
wordNgrams        # n-gram [1]
loss              # loss function {ns, hs, softmax, ova} [softmax]
bucket            # number of buckets [2000000]
thread            # cpu线程数 [number of cpus]
lrUpdateRate      # change the rate of updates for the learning rate [100]
t                 # sampling threshold [0.0001]
label             # 标签前缀 ['__label__']
verbose           # verbose [2]
pretrainedVectors # 从 (.vec file)加载预训练的词向量，用于监督训练 []

model属性

get_dimension           # 获取向量（隐藏层）的维度（大小）.这等价于 `dim` 属性           
get_input_vector        # 给定一个索引，得到输入矩阵对应的向量 
get_input_matrix        # 获取模型的完整输入矩阵的副本
get_labels              # 获取字典的整个标签列表，这相当于 `labels` 属性。
get_line                # 将一行文本拆分为单词和标签
get_output_matrix       # 获取模型的完整输出矩阵的副本。
get_sentence_vector     # 给定一个字符串，获得向量表示。这个函数
                        # assumes to be given a single line of text. We split words on
                        # whitespace (space, newline, tab, vertical tab) and the control
                        # characters carriage return, formfeed and the null character.
get_subword_id          # 给定一个subword，获取字典中的词 id hashes to.
get_subwords            # 给定一个词，获取子词及其索引。
get_word_id             # 给定一个词，获取字典中的词 id
get_word_vector         # 获取训练好的词向量。
get_words               # 获取字典的整个单词列表，这相当于 `words` 属性。
is_quantized            # 模型是否已经量化过
predict                 # 给定一个字符串，得到一个标签列表和一个对应概率列表
quantize                # 量化模型，减少模型的大小和内存占用
save_model              # 保存模型
test                    # Evaluate supervised model using file given by path
test_label              # 返回每个标签的准确率和召回率。

5.2 基本使用

当 fastText 运行时，进度和预计完成时间会显示在您的屏幕上。训练完成后，model变量包含有关训练模型的信息，可用于查询：

import fasttext
model = fasttext.train_unsupervised('data/fil9')#维基百科文件
model.words

[u'the', u'of', u'one', u'zero', u'and', u'in', u'two', u'a', u'nine', u'to', u'is', ...

获得词向量：（它返回词汇表中的所有单词，按频率递减排序。）

model.get_word_vector("the")
array([-0.03087516,  0.09221972,  0.17660329,  0.17308897,  0.12863874,
        0.13912526, -0.09851588,  0.00739991,  0.37038437, -0.00845221,
        ...
       -0.21184735, -0.05048715, -0.34571868,  0.23765688,  0.23726143],
      dtype=float32)

保存模型（二进制），后续加载

 model.save_model("result/fil9.bin")
 model = fasttext.load_model("result/fil9.bin")

cobw和skipgram：

import fasttext
model = fasttext.train_unsupervised('data/fil9', "cbow")

预测结果

#读取测试集，预测模型输出
test_df=pd.read_csv('./train_set.csv',sep='\t',nrows=10000)
results=[model.predict(x)  for x in test_df['text']]
results

[(('__label__2',), array([0.99827653])),
 (('__label__11',), array([0.84706676])),
 (('__label__3',), array([0.99988556])),
 (('__label__2',), array([0.99980879])),

...
(('__label__2',), array([0.9998678])),
 (('__label__1',), array([0.87650901])),
 (('__label__3',), array([1.00001013])),
 ...]

所以输出结果是带前缀的标签和分类概率。想只得到类别，可以这样写：

result=[model.predict(x)[0][0].split('__')[-1] for x in test_df['text']]
result
['2',
 '11',
 '3',
 '2',
 '3',
 '9',
 '3',
 '10',
 '12',
 '3',
 '0',
...]

5.3 bin格式词向量转换为vec格式

参考《fasttext训练的bin格式词向量转换为vec格式词向量》

#加载的fasttext预训练词向量都是vec格式的，但fasttext无监督训练后却是bin格式，因此需要进行转换
# 以下代码为fasttext官方推荐：
# 请将以下代码保存在bin_to_vec.py文件中
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function
from __future__ import unicode_literals
from __future__ import division, absolute_import, print_function

from fasttext import load_model
import argparse
import errno

if __name__ == "__main__":
    # 整个代码逻辑非常简单
    # 以bin格式的模型为输入参数
    # 按照vec格式进行文本写入
    # 可通过head -5 xxx.vec进行文件查看
    parser = argparse.ArgumentParser(
        description=("Print fasttext .vec file to stdout from .bin file")
    )
    parser.add_argument(
        "model",
        help="Model to use",
    )
    args = parser.parse_args()

    f = load_model(args.model)
    words = f.get_words()
    print(str(len(words)) + " " + str(f.get_dimension()))
    for w in words:
        v = f.get_word_vector(w)
        vstr = ""
        for vi in v:
            vstr += " " + str(vi)
        try:
            print(w + vstr)
        except IOError as e:
            if e.errno == errno.EPIPE:
                pass

# 打开cmd，在bin_to_vec.py路径下执行该命令，生成unsupervised_data.vec
python bin_to_vec.py word15000.bin > word15000.vec

在实践中，我们观察到 skipgram 模型在处理子词信息方面比 cbow 更好

六、新闻文本分类——fasttext

比赛官方链接为：《零基础入门NLP - 新闻文本分类》。讨论区有《数据读取与分析》
讨论区还有大佬张帆、惊鹊和张贤等人的代码，值得大家仔细阅读。

6.1 正常fasttext分类

单纯的fasttext分类，参数用讨论区默认参数，没有调整。分数0.9151。
fasttext训练很快，大概十来分钟吧。

import pandas as pd
train_df=pd.read_csv('./train_set.csv',sep='\t')
train_df['label_ft']='__label__'+train_df['label'].astype(str)
train_df[['text','label_ft']].to_csv('./train.csv',index=None,header=None,sep='\t')

import fasttext
model=fasttext.train_supervised('./train.csv',lr=1.0,wordNgrams=2, 
verbose=2,minCount=1,epoch=25,loss="hs")

test_df=pd.read_csv('./test_a.csv',sep='\t')
result=[model.predict(x)[0][0].split('__')[-1] for x in test_df['text']]
result[:100]

pd.DataFrame({'label':result}).to_csv('fasttext.csv',index=None)

最终上传，得分0.9151。
调整部分参数后，最终得分0.9358。

model=fasttext.train_supervised('./train.csv',lr=0.8,wordNgrams=3, 
verbose=2,minCount=1,epoch=25,loss="softmax")

6.2 小数据集：word2vec+fasttext+首尾截断

首先拿15000条数据进行试验，前10000条fasttext训练，后5000条测试，代码见讨论区：《Task4 基于深度学习的文本分类1-fastText》（其实就是上面代码改了点数据集）：

试验正常fasttext效果，f1 score=0.8272

import pandas as pd
from sklearn.metrics import f1_score

# 转换为FastText需要的格式
train_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=15000)
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')

import fasttext
model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2, 
                                  verbose=2, minCount=1, epoch=25, loss="hs")

val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str), val_pred, average='macro'))

试验word2vec+fasttext效果，f1 score=0.8426

#先进行word2vec训练，含全部15000条数据
train_df[['text','label_ft']].to_csv('train15000.csv', index=None, header=None, sep='\t')
model1 = fasttext.train_unsupervised('train15000.csv', lr=0.1, wordNgrams=2, 
                                  verbose=2, minCount=1, epoch=8, loss="hs")
#保存模型转为词向量
model1.save_model("word15000.bin")
#cmd命令行执行python bin_to_vec.py result1000.bin < result1000.vec，转换为vec词向量

#fasttext进行训练，词向量为前一步训练好的词向量，训练数据为10000条
model2 = fasttext.train_supervised('train.csv',pretrainedVectors='word15000.vec',lr=1.0, wordNgrams=2, 
#                                  verbose=2, minCount=1, epoch=16, loss="hs")
#预测结果
val_pred = [model2.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str), val_pred, average='macro'))

试验首尾截断效果，f1 score=0.8222(首尾各50词），0.8304（首尾各100词）

#首尾截断实验效果
#准备将text文本首尾截断，各取100tokens
def slipt2(x):
  ls=x.split(' ')
  le=len(ls)
  if le<201:
    return x
  else:
    return ' '.join(ls[:100]+ls[-100:])
    
trains_df['summary']=trains_df['text'].apply(lambda x:slipt2(x))
train_df[['summary','label_ft']].iloc[:-5000].to_csv('trains_summary10000.csv', index=None, header=None, sep='\t')

model3 = fasttext.train_supervised('trains_summary10000.csv',pretrainedVectors='word15000.vec',lr=1.0, wordNgrams=2, 
                                  verbose=2, minCount=1, epoch=16, loss="hs")
#预测结果
val_pred = [model3.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str), val_pred, average='macro'))

6.3 全数据集：word2vec+fasttext+首尾截断

数据处理

#读取训练测试集数据
import pandas as pd
from sklearn.metrics import f1_score

# 转换为FastText需要的格式
train_df = pd.read_csv('./train_set.csv', sep='\t')
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df[['text','label_ft']].to_csv('train_20w.csv', index=None, header=None, sep='\t')

test_df = pd.read_csv('./test_a.csv', sep='\t')
df=pd.concat([train_df,test_df])
df[['text']].to_csv('train_25w.csv', index=None, header=None, sep='\t')

用word2vec进行train+test数据的词向量训练，这一步花了2个小时。

import fasttext

model1 = fasttext.train_unsupervised('train_25w.csv', lr=0.1, wordNgrams=2, 
                                  verbose=2, minCount=1, epoch=8, loss="hs")

model1.save_model("word_25w.bin")
#cmd下运行python bin_to_vec.py word_25w.bin > word_25w.vec

fasttext进行有监督训练，相当于分类微调。最终上传，得分0.9162，吐血。

model2=fasttext.train_supervised('train_20w.csv',pretrainedVectors='word_25w.vec',lr=0.8, wordNgrams=2, verbose=2, minCount=1, epoch=18, loss="hs")

import pandas as pd
test_df = pd.read_csv('./test_a.csv', sep='\t')
test_pred = [model2.predict(x)[0][0].split('__')[-1] for x in test_df['text']]

pd.DataFrame({'label':test_pred}).to_csv('word_fast.csv',index=None)

接下来进行首尾截断测试：

#首尾截断进行训练
train_df = pd.read_csv('./train_set.csv', sep='\t')
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df['summary']=train_df['text'].apply(lambda x:slipt2(x))
train_df[['summary','label_ft']].to_csv('train_summary_20w.csv', index=None, header=None, sep='\t')

model3 = fasttext.train_supervised('train_summary_20w.csv',pretrainedVectors='word_25w.vec',lr=0.8, wordNgrams=2, 
                                  verbose=2, minCount=1, epoch=18, loss="hs")
#预测结果
test_df['summary']=test_df['text'].apply(lambda x:slipt2(x))
test_pred = [model3.predict(x)[0][0].split('__')[-1] for x in test_df['summary']]
pd.DataFrame({'label':test_pred}).to_csv('word_fast_cut.csv',index=None)

最终得分0.9203，至少证明了长文本分类，数据集够多的时候，进行部分截断比较好。

数据量	fasttext	word2vec+fasttext	word2vec+fasttext+首尾截断
10000+5000	0.8272	0.8426	0.8304
20w+5w	0.9151（没调参）	0.9162（没调参）	0.9203（没调参）
20w+5w	0.9358（已调参）		0.9421（已调参）
截断比不截断高0.4-0.6个点。

下面是部分调参记录
继续首尾截断试验，训练集前19w为悬链数据，最后1w为测试数据。

首尾截断	f1	loss	n-gram
各30，同时epoch=18，lr=0.8，下同	0.9190	hs	2
各30	0.9352	softmax	2
各30	0.9388	softmax	3
各30	0.9382	softmax	4
各30		softmax	5
各30，同时epoch=18，lr=0.5		softmax	4
各30，同时epoch=27，lr=0.5		softmax	4
-----	-----	-----	-----
各50	0.9192	hs	2
各80	0.9170	hs	2
各100	0.9200/0.9184	hs	2
各150	0.9226	hs	2
各150	0.9371	softmax	2
各150	0.9436	softmax	3
各150	0.9417	softmax	4
各200	0.9212	hs	2
不截断	0.9158	hs	2
不截断，加和平均的词向量太多，无用信息冲淡了关键信息。
fasttext分类的loss必须选择softmex，不需要hs和ng，因为类别少。
n-gram中，n增大可以表示一部分词序，有利于文本表征。但是太大的话，词向量和n-gram向量太多，分类效果也不好（参数过多学不好或者是无用信息过多）。

初步选择以下参数：

#首尾截断各150个词
model3=fasttext.train_supervised('train_summary_20w.csv',pretrainedVectors='word_25w.vec',
lr=0.8,wordNgrams=3,verbose=2,minCount=1,epoch=18,loss="softmax")

最终分数f1=0.9421。

你可能感兴趣的:(赛事,1024程序员节)

周二竞足：塞维利亚力争小胜巴萨，亚特兰大击败热那亚如探囊取物阿东侃球
昨日赛事回顾：富勒姆对阵谢菲尔德联这场很简单，整体方向是正确的，但是谢菲联在开局3分钟进了1个球后，富勒姆竟然没能追平，全场就只有这1个进球，有点可惜。莱万特和巴伦西亚这一场比赛简直就是折磨人，上半场莱万特2-1领先，下半场却被反攻最终3-4结束，硬生生的打出了胜负的战果，着实惊到了我。周二003意甲：热那亚VS亚特兰大比赛时间：2021-12-2203:45基本面分析：热那亚联赛1胜7平10负积
当姨妈遇见马拉松赛事，该怎么破语非年
图片发自App凌晨4:30分匆匆洗漱出门，到5:10分集合点与团长、许总车自驾前往参赛地（漳州市华安县），车上听说参赛点大雨倾盆，本来就有心无意参赛的（没雨就跑，有雨弃赛），果不其然在进入华安县的时候就遇瓢泼大雨，于是与如风大神们说笑着，若到起跑点还是这般大雨就弃赛。因都身体抱恙。所幸，天工不负有心人，到达目的地存包直到开跑，雨奇迹般的停了。临近比赛的前三天正好生理期，在纠结去还是不去的时候，内心
又一国足克星要来中超！曾两度攻破国足大门，在日本联赛证明自己枫桥落夜
众所周知，中国足球这些年下滑得十分严重，各级国足都出现了成绩危机，国青国少从此前的能够经常进入世青赛，到现在连亚青赛的正赛都无缘。国奥队输给越南，国家队更是赢不了印度、巴勒斯坦，菲律宾，甚至主场还被泰国队战胜。所以每次到了亚洲分组赛事，一看我们的小组十有八九就是死亡之组，而且哪个队里似乎都有中国队的克星，都攻破过中国队的大门，甚至绝杀过中国队。可以说中国队的克星从以前的韩国名宿、日本名宿、伊朗名宿
成都大运会创作者1777号
成都大运会是中国举办的一项重大国际体育赛事，也是世界大学生运动会的分站赛。作为四川省省会，成都历史悠久、文化繁荣，拥有得天独厚的地理优势和丰富的旅游资源。举办大运会不仅可以展示成都的魅力，也可促进体育事业发展，提升城市形象。大运会是一个集竞技、友谊、文化于一体的体育盛会。参赛国家和地区的大学生运动员将聚集在成都，通过多项比赛展示他们的才华与实力。不仅如此，大运会还有各种文化交流活动，如开幕式、闭幕
网络安全的相关比赛有哪些？需要掌握哪些必备技能？网安学习 web安全安全网络安全的相关比赛有哪
01、CTF（夺旗赛）这是一种最常见的网络安全竞技形式，要求参赛者在限定时间内解决一系列涉及密码学、逆向工程、漏洞利用、取证分析等领域的挑战，获取标志（flag）并提交得分。通过举办CTF来培养网络安全人才，已经发展成为了国际网络安全圈的共识。CTF赛事可以分为线上赛和线下赛，线上赛通常是解题模式（Jeopardy），线下赛通常是攻防模式（Attack-Defense）。CTF赛事的代表性线下赛事
要成才，学习许三多；要身材，忍得住吃喝；要从容，就直面生活。回眸秋波风尘
最近有三类新闻占据着各种评点的主界面，那就是奥运赛事、明星生活、中美外交。无论是大众媒体的新闻头条还是茶余饭后的谈资消遣。热度很像是目前霸占荧屏的影视剧《扫黑风暴》：动人心弦、万众瞩目。比如体操，男子52公斤级的中国选手胡建关在八分之一决赛中被主办方日本拳击手田中亮明的胳膊肘和后脑勺击打，脸和头皮开了四个洞，因流血过多，被医务监督停止。比如明星，最热的就是霍尊。这个当红歌星，业内人士这样评价“仙风
大众跑者跑马的经历【02】：三月的马拉松平阳县体育总会春哥
马拉松赛事的井喷，原因是多方面的，一与经济发展水平相关；二与城市营销的热潮相关，马拉松赛事自带流量，已成为不少城市推广城市品牌的重要抓手；三与人们追求健康的生活方式相关。全民健身成为国家战略，跑步是门槛较低的运动项目。而互联网、运动APP等平台的出现则使群众健身变得具有了社交属性，跑者们除了享受运动快乐之外，还可以通过朋友圈分享、加入跑群等，让跑步更有趣。马拉松还能够增强人体的意志力，一般来说，没
Android Graphics 显示系统 - VirtualDisplay的初印象 - 简单示例向晚流年 android
“开始准备这篇文章时巴黎奥运会赛场上激战正酣，写完时奥运已落下帷幕，期间也看了许多精彩的赛事直播，拼搏与汗水书写的传奇无不激励着平凡岗位上的我们。每一枚奖牌的背后，都凝聚着运动员数不尽的汗水付出与坚持不懈，学习AndroidGraphics显示系统的知识，也需要我们长久的坚持、不断地探索实践。一点一滴地积累，一万小时天才定律，相信你终将赢得属于自己的金牌。”前言在许多场景中都会用到Android虚
A类竞赛-保研-打比赛-机器人及人工智能大赛土豆打工仔机器人人工智能考研
大赛简介中国机器人及人工智能大赛属于全国高校学科竞赛A类赛事，由中国人工智能学会、教育部高等学校计算机课程教学指导委员会联合主办，旨在引导和激励广大青年学生弘扬创新精神，搭建良好的科技创新赛事平台，助力人工智能、机器人产业发展，推动“人工智能+”“机器人+”新经济产业体系建设，积极推动广大学生参与机器人、人工智能科技创新实践，通过竞赛培养出一批爱创新、会动手、能协作、勇于拼搏的科技精英人才。大赛内
牛客周赛 Round 58 Pown_ShanYu 算法 c++开发语言
D好好好数题目大意：定义k-好数为：可以表示为若干个不同的k的整次幂之和的数字例如30=3^3+3^1,30是一个3-好数给定一个数n，n最少可以表示成几个k-好数的和赛事错误思路：将n转化为k进制，然后将数位上的数字求和，当时想的是求n转换为n个k的整次幂的数正解：k进制数位上的最大值即为解，因为一个k-好数可以表示为多个k的整次幂的和，比如三进制下1010，可用（1000+10）两个k的整次幂
快32岁的苏炳添闪耀奥运菲姐的简书
我是伪奥运迷，最近打开电视基本上都是五台今天晚上就观看了苏炳添100米的那场赛事，挺感慨的首先，苏炳添这个月32岁了，这个年龄，算大的了，当然，这届奥运会还蛮多年龄偏大的运动员，他不是唯一其次，苏炳添跑出了黄色人种在这个项目的最好成绩，他应该是没有遗憾的最后，我看到了观众的理性，不再像当初对待刘翔的态度，能客观看待比赛和我们的优劣势了，毕竟，这确实不是我们的长项，虽然没有金牌，但是我们的成绩我们自
160班——我们的第九十六天凝涵
今日诸事作结:1、发放《趣读识写一条龙》上册，叮嘱写好姓名，感兴趣的可以先翻一翻。2、复习视频《笔画歌》五次。（听录音，齐读，拍节奏读，书空读。师生一起读）3、练坐姿，复习课堂口令，握笔姿势，课堂规矩。4、开展主题班会课《开学第一课:越努力，越幸运》，结合时事，了解冬奥会，观看女足赛事、学习青少年偶像谷爱凌……课堂上孩子们眼神放光，立志要学习运动员们的团结一心、积极拼搏。5、下课捕捉到孩子们在教室
《驴友的朝圣》046 冰河速滑马拉松赛，开创户外全民上冰雪篇章经典老表
协会在积极地为开拓本地户外运动市场而不懈努力，以实现“每年至少做1到2件大事件”的目标。但什么样的事件才算是大事件，什么样的事件才有利于户外运动呢？这年，王一夫认识到户外运动要转型并升级，他提出一个大胆的承办“冰河速滑马拉松赛”策划案，提交协会理事会讨论。如果说东北的冰天雪地时间占一年的一半时间的话，那么，我们就更应该在这冰雪世界上做文章。我们总能看到跑步的马拉松赛事，也看到汽车拉力赛、环法自行车
2023-09-09 恋空_4aed
威廉希尔：利物浦该签下巴雷拉，能和阿诺德很好联动，比其他目标更值得期待在经历了一个令人失望的赛季后，利物浦迫切希望在下赛季恢复他们在英超和欧洲赛事中的统治地位。本赛季，红军未能在他们辉煌的历史上再添新的奖杯，甚至有可能无缘欧冠，因为积分的主动权完全不在自己的手中，这样的情况让人感到遗憾。事实上，克洛普已经表达了他的强烈意愿，希望在这个夏天引进新的球员，他们可以提高和提高球场的关键区域的质量，中场人
活着，就该留下点什么 zcc5220
翻看朋友圈，无意中看到，崂山100越野赛总监莫言的朋友圈发的一信息图片发自App这是一个关于越野赛事的故事，相信在这一天，对于所有越野的人来说都是一个震惊，也相信，这是一条足以刷爆所有越野人的朋友圈的消息，特别是参加过TNF的跑者，更能够有感触。图片发自App我是越野爱好者，但并不代表我就认识“申神”，相对于这些闻名中外的赛事，因“出道”较晚，自然很多赛事未能去一一领略和感受赛事总监的用心赛道。而
【Python】爬虫实战03：自动化抢票脚本【某麦网】 Ustinian_310 python 自动化开发语言 selenium
1.脚本介绍1.1背景介绍在这个数字化时代，演唱会、体育赛事和各种活动的门票销售往往在线上进行。由于热门活动的高需求和门票的有限供应，抢票成为了一场激烈的竞争。许多粉丝和爱好者经常因为手速不够快或网络延迟而错失购票机会。为了提高抢票的成功率，自动化抢票脚本应运而生。以下这个脚本是一个用Python编写的自动化抢票程序，利用Selenium库来模拟用户在网页上的操作。下面是脚本的详细功能和结构介绍：
除了史诗级的音乐，为什么一定要看《波西米亚狂想曲》傅踢踢
不是每个人都知道皇后乐队，但你一定听过他们的歌。Wearethechampions和Wewillrockyou出现在各种晚会和赛事上，抒发着人类的雄心壮志和干云豪气。正在热映的电影《波西米亚狂想曲》是对皇后乐队尤其主唱佛莱迪·摩克瑞的“神还原”，这一点无需再多强调。全场高潮LiveAid，连饮料的摆放都和历史上几乎一样，可见电影想把致敬做到“像素级”。我之前看了一遍，影院上映后又看了一遍。有一说一
【2024国赛C题】【农作物的种植策略】2024 年全国大学生数学建模比赛思路、代码更新中..... Ps.729 数学建模
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️竞赛事件及参赛1找程序网站推荐2公式编辑器、流程图、论文排版324年国赛C题及资源下载4思路、代码分享......⛳️竞赛事件及参赛根据乡村的实际情况，充分利用有限的耕地资源，因地制宜，发展有机种植产业，对乡村经济的可持续发展具有重要的现实意义。选择适宜的农作物，
谈恋爱的时候要说些什么话题比较好追女孩子的方法视频赫拉特省哦
会聊双方的兴趣爱好，如果只是朋友，可能你们会只是聊彼此共同的兴趣爱好，可是情侣之间是会愿意关注对方的兴趣并努力去了解。比如说，男生一般喜欢足球，即使女生不喜欢，但也会有意无意地关注男生喜欢的球队或者球星，也会开始关注重要的足球赛事，甚至可能会为了和对方有共同的话题而去看自己原本不喜欢的球赛。同理，男生也会关注女生的爱好，如果女生特别喜欢时尚，那么男生肯定也会渐渐开始懂得时尚，因为无论是送礼哄女朋友
英超前瞻：狼队迎圣诞，客战阿森纳，整装再出发 MBXsports
英超狼队足球俱乐部官方合作伙伴，2021/2022赛季意甲联赛亚洲官方赞助商，同时拥有意甲10支球队主场广告投放权，为您带来最新狼队赛事报道。英超狼队在北京时间12月26日，英超第19轮，对阵沃特福德的赛事由于客队沃特福德队内新冠阳性人数持续上升，没有足够的一线队球员参加比赛，因此向英超提出了比赛延期的申请并得到了批准。这也意味着上周末与切尔西的比赛，是我狼2021年最后一场主场比赛，让我们202
2021-01-26 杨晓玲乐平市第十一小学
与时俱进紧跟时代，提升教师信息素养视导小组努力践行视导职责，积极视导各项工作，不仅努力做到常规工作常抓不懈，而且也注重引导教师与时俱进，紧跟时代，做一名新时代的合格教师。在2020年8月至12月期间，视导小组指导本校教师组团参加了新世纪小学数学全国第十五届基地教学设计与课堂展示“混合式学习”主题大赛。本次大赛是一个国家级赛事，由教育部北京师范大学基础教育课程研究中心主办。在整个大赛活动中，团队在视
腾讯视频会员vip在哪里买最便宜（附2024五种低价开通渠道）桃朵十三
打开应用，点击首页下方的“我的”按钮。腾讯视频会员免费领取是腾讯视频会员免费领取腾讯视频会员或微信公众号【奥特快外卖】请注意，只有在下载腾讯视频会员免费领取后CY5K不Q76D的10天内关注写腾讯视频会员才有奖励，超过期限则无法关注写。微信公众号【奥特快外卖】欢迎大家关注写。平台还能让用户轻松查看到各类亚运赛事的转播。它就类似于百度平台推出的百度腾讯视频会员免费领取后CY5K不Q76Dapp。有什
2020你会错过什么？网球的四大满贯 4831dfc51def
正文►对于喜欢一项运动的人来说，观看精彩赛事带来的愉悦感不亚于过春节。–鲁迅今天的主题只有十个字==“法网延期了。温网取消了。”image法网延期北京时间3月18日消息，法网官方发布消息，由于新型冠状病毒引起的肺炎疫情，2020年法网公开赛延期。法国网球联合会宣布，原定于5月18日至6月7日（含资格赛）举办的2020年法国网球公开赛将延期至9月20日至10月4日。这是首个受新型冠状病毒影响的大满贯
气膜体育馆：学校体育设施的全新选择—轻空间 Qspace丨轻空间人工智能物联网大数据科技
随着现代教育的发展，学校对体育设施的需求日益增加。一个良好的体育馆不仅能够为学生提供健康运动的场所，还能为学校举办各类体育赛事、活动提供便利。然而，传统体育馆的建设成本高昂、周期长，并且对场地要求较高。气膜体育馆作为一种新型的体育设施建设方案，凭借其独特的优势，成为学校体育场馆建设的理想选择。建设成本低，工期短气膜体育馆采用气膜结构设计，相比于传统的钢筋混凝土建筑，建设成本显著降低。由于气膜结构轻
Datawhale AI夏令营第五期CV Task01 m0_60530253 人工智能
一、报名参加2024大运河杯数据开发大赛1.登录赛事平台2.修改昵称，实名认证3.打开比赛链接报名参赛4.修改队伍名称二、领取厚德云支持的GPU在线算力！(点击即可跳转)三、体验baseline1.下载baseline相关文件aptinstallgit-lfsgitlfsinstallgitclonehttps://www.modelscope.cn/datasets/Datawhale/AI_C
萨拉赫掩面哭泣！点球大战无缘出场，马内率塞内加尔夺2021非洲杯世说球语
2021非洲杯决赛，塞内加尔通过点球大战4比2击败埃及，历史上首次夺得非洲杯冠军。马内开场7分钟罚丢点球，但他在最后的点球决胜压轴登场罚进，完成自我救赎。赛后，马内被评为本届非洲杯的赛事最佳球员。本场比赛是埃及第10次打入非洲杯决赛，此前7次夺冠。塞内加尔此前2次参加决赛均落败，事不过三，此次终于首夺非洲杯。埃及队在前3场淘汰赛消耗太多，他们连续踢了3场加时赛和2场点球大战，还要比塞内加尔少休息1
4岁孩子不会认字就能编程？少儿编程Scratch到底有何魔力？小码王在线
一条不新不旧的新闻引出我们今日的话题——教育机器人比赛成“热门赛事”编程教育正逐步低龄化，4岁孩子还没认字就学“编程”。在上海大学举行的一场面向孩童的教育机器人比赛上，千余名小选手同台竞技，其中学龄前儿童达100人，最小的选手只有4岁。教育机器人比赛已成为当下“热门赛事”，而学龄前儿童的“编程”培训已经热门，编程教育正呈现出低龄化的现象。人们很震惊！一直以为编程是个高大上的玩意儿，怎么孩子也能做？
角球大小球分析思路及公式计算足球数据分析 python mongodb
角球大小球的玩法主要基于比赛中角球的数量来进行投注。具体规则可能因不同的赛事和平台而有所差异，但一般而言，你可以根据以下步骤进行：了解规则：首先，你需要明确角球大小球的定义。一般来说，“大”角球意味着比赛中角球的数量超过预设的阈值，而“小”角球则意味着角球数量未达到该阈值。这个阈值会根据不同的比赛和投注平台而有所不同。分析比赛：在投注前，你需要对比赛进行分析。考虑双方球队的实力、战术风格、球员状态
重要通知！！关于第十届中国研究生未来飞行器创新大赛报名截止时间变更神经网络与智能优化算法探索网络
第十届中国研究生未来飞行器创新大赛赛事简介“中国研究生未来飞行器创新大赛”（以下简称“大赛”）是“中国研究生创新实践系列大赛”主题赛事之一，是由教育部学位管理与研究生教育司指导，中国学位与研究生教育学会和中国科协青少年科技中心主办，中国宇航学会、中国航空学会联合主办。大赛以“创新改变未来”为理念，围绕飞行器技术创新，旨在通过竞赛和激励的方式，提高广大研究生在航空航天领域科研创新能力、工程实践能力，
[Datawhale#1] cv task1 - Datawhale AI夏令营 cinboxer cv python numpy pandas matplotlib
参加cv方面的培训，记录自己的一些感悟吧。报名赛事2024“大运河杯”数据开发应用创新大赛——城市治理厚德云远程算力租赁https://portal.houdeyun.cn/register?from=Datawhale可以用3090，速度很快！baselineaptinstallgit-lfsgitlfsinstallgitclonehttps://www.modelscope.cn/datas
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/