oldmao_2001

深度之眼Paper带读笔记NLP.11：FASTTEXT.Baseline.06

文章目录

前言

论文总览

第一课论文导读

文本分类简介
相关技术

词表征
词袋模型
词频与逆词频指数Term Frequency-Inverse Document frequency
基于特征的表征Feature based Representations
单词到向量Word 2 Vector
用于文本分类的卷积神经网络
文本分类的再思考

Fasttext历史意义
前期知识储备

第二课论文精读

论文整体框架
经典算法模型

卷积神经网络
动机：输入序列的编码
用于文本的CNN
用于文本的卷积：堆卷积stack convolution
延迟CNN
用于文本的通道
整体流程

小结
论文提出的模型

n-gram表征
线性模型
回顾：skipgram模型
损失函数的近似：霍夫曼树
CBoW 模型
FastText模型

Fasttext模型和CBOW模型的区别和联系
n-gram feature
Hashing Trick

实验和结果

实验Experiments
情感分析-性能
情感分析-运行时间
标签预测

讨论和总结

讨论
创新点
参考文献

Sub Word

原因
解决方案
Sub Word模型的训练
实验

复现

数据集
数据加载
模型构建
训练和测试

作业

前言

本课程来自深度之眼deepshare.net，部分截图来自课程视频。
文章标题：Bag of Tricks for Efficient Text Classification
原标题翻译：高效率文本分类的技巧包
or.Fasttext：对于高效率文本分类的一揽子技巧
划重点：Efficient 快~~！模型的名字也体现了这一点，比上一个baseline快了好几个数量级。
作者：Armand Joulin; Edouard Grave; Piotr Bojanowski; Tomas Mikolov
最后一个作者是word2vec的作者
单位：Facebook AI Research
发表会议及时间：EACL2017
这个东东已经开源了：
https://fasttext.cc/
FastText is an open-source, free, lightweight library that allows users to learn text representations and text classifiers. It works on standard, generic hardware. Models can later be reduced in size to even fit on mobile devices.

另外，还涉及到另外一篇文章：
Enriching Word Vectors with Subword Information
作者也是这几个人，不过顺序换了
Piotr Bojanowski∗
and Edouard Grave∗
and Armand Joulin
and Tomas Mikolov
关于Subword的讲解放在后面。

在线LaTeX公式编辑器

论文总览

第一课论文导读

a、文本分类
文本分类是根据文本内容为文本分配标签或类别的过程。它是自然语言处理中的基本任务之一，具有广泛的应用，如情感分析，主题标记，垃圾邮件检测和意图检测。
b、词频与逆词频指数
词频与逆词频指数是文本分类中非常重要的特征，具有非常强的实战价值与意义，在许多的工程项目中以及自然语言处理的比赛中都有非常强的应用，要求熟练掌握。
c、词表征
如果说自然语言处理问题中，几乎所有的问题都是序列问题，那么最细粒度的表征就是词表征，因为这些序列都是有词构成的（当然还char embedding），词表征是自然语言处理必要的基本功，解决任何有关的问题都必须要了解的知识点。
d、卷积神经网络
在将文本转换为具体的词表征后，再利用卷积神经网络从这样的表征中抽取特征完成文本的分类，这是文本分类中最经典有效的神经网络方法，许多其他的state-of-art都建立在这样的baseline中，要求完成复现。

文本分类简介

·Input:
·A document $d$
·A fxed set of classes $C={c_1,c_2…,c_n}$
·The input document can be considered as a sequence
·Output:
·A prediction class $c\in C$

Fasttext历史意义

·提出了一种新的文本分类方法——Fasttext，能够进行快速的文本分类，并且效果很好。
·提出了一种新的使用子词的词向量训练方法——Fasttext，能够一定程度上解决OOV问题。
·将Fasttext开源，使得工业界和学术界能够快速使用Fasttext。

前期知识储备

CNN：了解卷积神经网络（CNN）的文本分类，句子建模上的基本应用
文本分类：了解文本分类的意义与应用
word2vec：了解word2vec的动机，具体算法，实现细节（大厂面试几乎必问）
TF-IDF：掌握文本分类中非常重要的非深度学习的特征

第二课论文精读

论文整体框架

■Abstract

本文为文本分类任务提出了一种简单并且高效的基准模型——Fasttext。
This paper explores a simple and efficient baseline for text classification.
Fasttext模型在精度上和基于深度学习的分类器平分秋色，但是在训练和测试速度上Fasttext快上几个数量级。
Our experiments show that our fast text classifier fastText is often on par with deep learning classifiers in terms of accuracy, and many orders of magnitude faster for training and evaluation.
我们使用标准的多核CPU在10亿词的数据集上训练Fasttext，用时少于10分钟，并且在一分钟内分类好具有312K类别的50万个句子。
We can train fastText on more than one billion words in less than ten minutes using a standard multicore CPU, and classify half a million sentences among 312K classes in less than a minute.

■1.Introduction

文本分类是自然语言处理的重要任务，可以用于信息检索、网页搜索、文档分类等。
Text classification is an important task in Natural Language Processing with many applications, such
as web search, information retrieval, ranking and document classification (Deerwester et al., 1990;
Pang and Lee, 2008).
基于深度学习的方法可以达到非常好的效果，但是速度很慢，限制了文本分类的应用。
Recently, models based on neural networks have become increasingly popular (Kim, 2014; Zhang and LeCun, 2015; Conneau et al., 2016). While these models achieve very good performance in practice, they tend to be relatively slow both at train and test time, limiting their use on very large datasets.
基于机器学习的线性分类器效果也很好，有用于大规模分类任务的潜力。
Meanwhile, linear classifiers are often considered as strong baselines for text classification problems (Joachims, 1998; McCallum and Nigam, 1998; Fan et al., 2008). Despite their simplicity, they often obtain stateof-the-art performances if the right features are used (Wang and Manning, 2012). They also
have the potential to scale to very large corpus (Agarwal et al., 2014).
从现在词向量学习中得到的灵感，我们提出了一种新的文本分类方法Fasttext，这种方法能够快速的训练和测试并且达到和最优结果相似的效果。
In this work, we explore ways to scale these baselines to very large corpus with a large output space, in the context of text classification. Inspired by the recent work in efficient word representation learning (Mikolov et al., 2013; Levy et al., 2015), we show that linear models with a rank constraint and a fast loss approximation can train on a billion words within ten minutes, while achieving performance on par with the state-of-the-art. We evaluate the quality of our approach fastText on two different tasks, namely tag prediction and sentiment
analysis.

■2.Model architecture
·2.1Hierarchical softmax
·2.2N-gram features
■3.Experiments
·3.1Sentiment analysis
·3.2 Tag prediction
■Discussion and Conclusion

经典算法模型

卷积神经网络

Input Space
-Sequences
-can be of varying length
-comes with a natural order which defines a context around a token

动机：输入序列的编码

A natural way of encqding is capturing the temporality Temporal order（时序） are typically captured by RNNs
Let’s see how encoding is done in computer vision-We use CNNs
Filters learn in a convolution process has correspondence to actual filters we use for different image conversions(blur filter, edge filter, Gabor filter)
But interpretation of internal representations are not direct in RNNs.
We only know each hidden unit encodes the previous contexts
Can we achieve somewhat similar with textual inputs too?
1.N-grams:A collection of bag of tokens
N-grams are heavily used in various feature engineering stages in traditional NLP
2. Given a token, we typically collect the combinations of n-other tokens We expect that this individual bag of tokens is efficient to encode context around a token
3. CNN is a natural way of creating such bag of features
The filters capture a window of input (a bag) and perform linear and non-linear operations back-to-back
4. The work by Yoon Kim was one of the successful early applications of CNN to encode texts
模型结构及原理在之前的第八篇带读有，不贴了。。

用于文本的CNN

· The idea mainly came from Collobert et al.(NLP from scratch)
·1-d convolution is equivalent of time delay neural network
· Two major paradigms:
Context window modelling (embedding the surrounding context)（这个主要用于标签tagging）
Sentence modelling (extract n-grams,pool to combine over whole sentence)（这个主要用于文本分类）
What are different ways can you think of to use CNN(Kim,2014) as an encoding block to capture the linguistic constituents of a sentence?
(hint: character, phrases. dependency trees)

用于文本的卷积：堆卷积stack convolution

来自：Goldberg Book

延迟CNN

来自：Kalchbrenner et al.2016

延时体现在对第一个词i进行卷积后，先不进行下一个卷积而是等第二个词卷积结果出来再进行卷积操作。

用于文本的通道

·We know RGB channel in images
·What does a channel mean for text?
·Multi-channel CNN
·Variety of word representations are used
·Static(frozen,do not get updated)
·Dynamic(fine-tuned,task specific)

整体流程

Input Space is formed by pre-trained word vectors.
Encoding is done by CNN.
A softmax classifier for m-class classification.

小结

优点
·achieve very good performance in practice
缺点
·relatively slow both at train and test time
·limiting their use on very large datasets
咋整：
So what about the linear classifiers?
·simple(bag of words BoW representation +linear classifiers)
·obtain state-of-the-art performances if the right features are used
·have the potential to scale to very large corpus
Several drawbacks:
·No sentence representations：Taking the average pre-trained word vector is popular But does not work very well.
·Not exploiting morphology：Words with same radicals don’t share parameters 例如：类似这样的词对disastrous/disaster mangera/mangerai无法学到的。

论文提出的模型

fastText=text representation +linear model
·text representation
·n-gram
·look-up table over the words
·CBoW
·linear model
·with rank constraint（这里可以参数共享）
·hierarchical softmax

模型的损失函数原文是这样写的：
$L=-\cfrac{1}{N}\sum_{n=1}^Ny_n\text{log}(f(BAx_n))$
其中 $x_n$ 是词袋模型得到的特征表示
$y_n$ 是标签
$f$ 是softmax函数
N是有N个文档
例如：我们有4个分类，用过softmax分类得到四个结果 $[0.1, 0.2, 0.6, 0.1]$
对应的标签是：[0,0,1,0]
根据损失函数公式：计算求和部分：
0×log0.1+0×log0.2+1×log0.6+0×log0.1=1×log0.6
可以看到实际上损失函数只用计算标签对应的项即可。

n-gram表征

1-gram

2-gram

·Possible to add higher-order features

·Avoid building n-gram dictionary
就是1-gram的时候得到的词典长度为n，2-gram词典长度为n-1，以此类推，n-gram的长度为1。所有可能性就是 $\frac{(1+n)n}{2}$ ，然后这里的词典复杂度就朝着 $n^2$ 发展，这里一段没怎么理解。
因此把词典弄成hash模式。

线性模型

Minimizing the Negative Log-Likelihood：
$-\frac{1}{|D|}\sum_{i=1}^{|D|}y_ilog(\tilde y_i)$
其中 $y_i$ 是由softmax函数得来的：
$-\frac{1}{|D|}\sum_{i=1}^{|D|}y_ilog(softmax(W*x_i))$
其中： $∣ D ∣$ ：Number of Documents
$y_i$ ：Label
$W$ ： Hidden Layer Weights
$x_i$ ：Vector Representation
然后根据softmax的结构得到：
$-\frac{1}{|D|}\sum_{i=1}^{|D|}y_ilog(\frac{e^W*x_i}{\sum_{j=1}^{|D|}e^{W*x_j}})$

回顾：skipgram模型

·Replace the multiclass loss by a set of binary logistic losses
·Negative sampling

·Hierarchical softmax
class $c$ represented by set of codes $y_{ck}$
Huffman tree to generate codes
frequent classes:short codes

$\sum_{k\in K_c}log(1+e^{y_{ck}x^T_{w_t}v_n})$

损失函数的近似：霍夫曼树

Many Classes
Hierarchical Softmax
Huffman Coding Tree

This is an example of a huffman tree.

CBoW 模型

FastText模型

·Model probability of a label given a paragraph
$p(l|P)=\frac{e^{h^T_pv_l}}{\sum_{k=1}^Ke^{h^T_pv_k}}$
·Paragraph feature段落特征
$h_P=\sum_{w\in P}x_w$
·Word vectors are latent and not useful per se
·If scarce supervised data,use pre-trained word vectors

Fasttext模型和CBOW模型的区别和联系

联系：
1.都是Log-linear模型，模型非常简单。
2.都是对输入的词向量做平均，然后进行预测。Fasttext预测的是标签，CBOW预测的是中心词
3.模型结构完全一样。
区别：
1.Fasttext提取的是句子特征，CBOW提取的是上下文特征。
2.Fasttext需要标注语料，是监督学习，CBOW不需要标注语料，是无监督学习。
目前的Fasttext存在的问题：
1.当类别非常多的时候，最后的softmax速度依旧非常慢。（本文用了312K，相当于31万个类别）
2.使用的是词袋模型，没有词序信息。
解决方法：
1.类似于word2vec，使用层次softmax（原文2.1节）。
2.使用n-gram特征（原文2.2节）。
层次softmax在word2vec里面有详解，这里不赘述，看下n-gram特征

n-gram feature

这个在原文的2.2节，用这个东西的原因很简单，词袋模型是不讲究词序的，也就是基本忽略上下文信息，所以这里要引入n-gram，n-gram原来就是CBOW中用上下文预测中心词的方法。这里用了上下文的词，所以词表示可以包含词序特征。
Bag of words is invariant to word order but taking explicitly this order into account is often computationally very expensive. Instead, we use a bag of n-grams as additional features to capture some partial information about the local word order. This is very efficient in practice while achieving comparable results to methods that explicitly use the order (Wang and Manning, 2012).

Hashing Trick

由于在训练过程中用了多种gram，例如1-gram，2-gram，3-gram。
例如我们的词库有3万个词：
1-gram后还是3万
2-gram后就变成10万（估计的，因为2-gram是两个词进行可能的组合）
3-gram后就变成了40万
3个类型合起来就变成了53万，对于词库而言，太大了，解决这个的方法就是Hashing Trick
这个和数据结构里面hash查找有关。
具体做法如下：
先定一个小目标，我们的gram词库大小为10万；
其中1-gram肯定要存，因为单个词使用概率挺高的，10-3=7，还剩7w个位置；
剩下7万的位置，还有50万的萝卜怎么办，用求模的方式把这50万个萝卜都塞到7万个坑中，就是1-7w的萝卜对应1-7w的位置，7万零1到14万的萝卜又对应到1-7w的坑，以此类推。
有点像数据结构的拉链法：

We maintain a fast and memory efficient mapping of the n-grams by using the hashing trick (Weinberger et al., 2009) with the same hashing function as in Mikolov et al. (2011) and 10M bins if we only used bigrams, and 100M otherwise.
实际上：

实验和结果

实验Experiments

Tag Prediction
·YFCC 100M Dataset：
100M images with captions，titles and tags
Sentiment Analysis
·Uses the same 8 datasets as Zhang et al.（2015）

情感分析-性能

看第一行8个数据集和上篇baseline一样
AG’s news corpus：新闻数据集，分4类，主题相关，每个类别3w记录。
Sogou news corpus：新闻数据集，分5类，主题相关，每个类别9w记录。这个是中文数据，作者用pypinyin package combined with jieba Chinese segmentation system to produce Pinyin得到拼音。
DBPedia ontology dataset：来自维基百科，主题相关。
Yelp reviews：餐馆评论数据集，2分类：1 and 2 negative, and 3 and 4 positive.
5分类：5星评论各为一类。语义相关。
Yahoo! Answers dataset：10分类，主题相关
Amazon reviews：和Yelp 一样有两种分类方法。语义相关。
————————————————

词向量大小为10
最后一行词向量大小为10，且使用了2-gram

情感分析-运行时间

快了不止一个量级，在small char-CNN中跑一个epoch要一个小时，我自己跑过，用CPU是40多分钟，用本文模型1s搞定。

标签预测

·Using Flickr Data
·Given an image caption
·Predict the most likely tag
·Sample outputs：（YFCC100M数据集实验效果及时间对比）

讨论和总结

关键点
·基于深度学习的文本分类方法效果好，但是速度比较慢
·基于线性分类器的机器学习方法效果还行，速度也比较快，但是需要做烦琐的特征工程
·Fasttext模型
创新点
·提出了一种新的文本分类模型–Fasttext模型
·提出了一些加快文本分类和使得文本分类效果更好的技巧——层次softmax和n-gram特征。
·在文本分类和tag预测两个任务上得到了又快又好的结果。
启发点
·虽然这些深度学习模型能够取得非常好的效果，但是他们在训练和测试的时候到非常慢，这限制了他们在大数据集上的应用。
While these models achieve very good performance in practice，they tend to be relatively slow both at train and test time，limiting their use on very large datasets（Introduction P1）
·然而，线性分类器不同特征和类别之间不共享参数，这可能限制了一些只有少量样本类别的泛化能力。
However，linear classifiers do not share parameters among features and classes.This possibly limits their generalization in the context of large output space where some classes have very few examples.（2 Model architecture P1）

讨论

问题
如何减少训练时间：用线性模型
线性模型不能实现参数共享？对线性模型的参数进行一个rank constraint
如何提升训练的时间以及准确率：n-grams +hierarchical softmax

创新点

A改进了之前的线性模型处理文本分类
B在标签分类和情感分类问题效果很好
C训练速度非常快，具有非常强的工程意义

参考文献

[1]http://www.phontron.com/class/nn4nlp2019/assets/slides/nn4nlp-03-wordemb.pdf
[2]http://phontron.com/class/nn4nlp2019/assets/slides/nn4nlp-04-cnn.pdf
[3]https://nlpparis.files.wordpress.com/2016/11/fasttext-nlpmeetup-23112016.pptx
[4]https://github.com/kperi/pydata2018/blob/master/embeddings.pdf

Sub Word

和skip-gram模型比较相似，就从中心词预测周围词的思想。

原因

由于词表示有缺点，尤其是对于只关注词本身，例如某一个单词：representation，已经训练好了词向量，如果由于拼写错误，写成了reprisentation，那么词表示模型就会认为这个词是另外一个词，不是representation，而且这个词由于拼写错误，没有出现在词表中，变成了一个OOV词，这种情况在一些博客或者评论语料中会经常出现，亦或者是representations，多了一个s，变成复数形式后，模型也认为这个是一个新的词。
也就是说词表示忽略了词本身的表征信息。
Continuous word representations, trained on large unlabeled corpora are useful for many natural language processing tasks. Popular models that learn such representations ignore the morphology of words, by assigning a distinct vector to each word.
这个缺陷在一些词库较大，且生僻字较多的语言中更为明显，解决这个问题就是从字符来进行向量的表示（每个字符映射为一个向量，然后组合为词，C2W模型也是想解决这个问题）。
但是有一个问题，如果用字符来做这个事情太细，速度很慢。

解决方案

In this paper, we propose a new approach based on the skipgram model, where each word is represented as a bag of character n-grams. A vector representation is associated to each character n-gram; words being represented as the sum of these representations.
将单词进行分解，分解为n-gram的形式，然后分别进行表征，最后求和（当然也可以求平均，但是原文用求和，估计平均效果不好）
具体做法（以原文的例子看）：
取n=3，即3-gram；
每个单词前后都加上尖括号<>，而且这两个符号还参与到单词的计算中（加这个可以区分前缀还是后缀）；
以单词【where】为例，拆分为3-gram的表示后：
$< w h, w h e, h e r, e r e, r e >, < w h e r e >$
注意这里加上了整个单词本身的表示，这里subword中的her和单词 $< h e r >$ 是区分开的。
然后学习每个subword的向量表示，然后把所有subword向量求和得到单词【where】的表示。
原文中把3-gram，4-gram，5-gram，6-gram，都整出来了，因为要考虑不同长度的前后缀（由于用的子词很多，所以这里也用了hashing trick）。6已经够长的，没有什么前后缀超过6。当然，所有subword的特征都是可以共享的。
然后计算scoring function:
$s(w,c)=\sum_{g\in g_w}z_g^\top v_c$
其中 $z_g$ 是n-gram的subword的向量
$v_c$ 是中心词向量表示
用上面的例子，也就是用词【where】取预测 $< w h, w h e, h e r, e r e, r e >, < w h e r e >$ 的向量表示。
根据原文理解：给定一个n-gram的sub word字典，字典大小为 $G$ ，对于某个单词 $w$ ，可以拆分为 $g_w$ 的sub word集合。我们将字典每个n-gram的sub word $g$ 用向量 $z_g$ 表示。然后可以计算scoring function，目标是分数越高越好。

Sub Word模型的训练

以单词【where】为例，拆分为3-gram的表示后：
$< w h, w h e, h e r, e r e, r e >, < w h e r e >$
然后将上面的Sub Word向量由字符向量来表示，求平均得到中心词 $v_c$ ，然后用 $v_c$ 来预测 $< w h, w h e, h e r, e r e, r e >, < w h e r e >$ 的向量表示

实验

Subword词向量的词相似度实验。
其中sisg-是对于OOV没有处理，sisg将OOV词也输出了对于的向量表示。

复现

代码结构

数据集

AG News:https://s3.amazonaws.com/fast-ai-nlp/ag_news_csv.tgz
DBPedia:https://s3.amazonaws.com/fast-ai-nlp/dbpedia _csv.tgz
Sogou news:https://s3.amazonaws.com/fast-ai-nlp/sogou_news_csv.tgz
Yelp Review Polarity:https://s3.amazonaws.com/fast-ai-nlp/yelp_review_polarity_csv.tgz
Yelp Review Full:https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz YahoolAnswers:https://s3.amazonaws.com/fast-ai-nlp/yahoo_answers_csv.tgz
Amazon Review Full:https://s3.amazonaws.com/fast-ai-nlp/amazon_review_full_csv.tgz
Amazon Review Polarity:https://s3.amazonaws.com/fast-ai-nlp/amazon_review polarity _csv.tgz

数据加载

·数据集加型
·读取标签和数据
·创建word2id
·将数据转化成id
如果使用了2-gram：

list中就是这个样子，红线画出来的就是2-gram，当我们在模型中额外加入n-gram信息后，需要对句子的长度进行加长设置，加大句子length。

# coding:utf-8
from torch.utils import data
import os
import csv
import nltk
import numpy as np

# 继承自torch.utils.data.DataLoader
class AG_Data(data.DataLoader):
    def __init__(self, data_path, min_count, max_length, n_gram=1, word2id=None, uniwords_num=0):
        self.path = os.path.abspath(".")
        if "data" not in self.path:
            self.path += "/data"
        self.n_gram = n_gram
        self.load(data_path)
        if word2id == None:
            self.get_word2id(self.data, min_count)
        else:
            self.word2id = word2id
            self.uniwords_num = uniwords_num
        self.data = self.convert_data2id(self.data, max_length)
        self.data = np.array(self.data)  # sample_num*length
        self.y = np.array(self.y)  # sample_num*1

    # 读取标签和数据
    def load(self, data_path, lowercase=True):
        self.label = []
        self.data = []
        with open(self.path + data_path, "r") as f:
            # 读取文件，指定分隔符以及指定引号内的东西就是数据
            datas = list(csv.reader(f, delimiter=',', quotechar='"'))
            for row in datas:
                # 第一列是标签，由于标签要从0开始，所以这里要减一。然后把label放到list里面
                self.label.append(int(row[0]) - 1)
                txt = " ".join(row[1:])
                if lowercase:
                    txt = txt.lower()
                txt = nltk.word_tokenize(txt)  # 将句子转化为词
                new_txt = []
                for i in range(0, len(txt)):
                    for j in range(self.n_gram):  # 添加n-gram词
                        if j <= i:
                            new_txt.append(" ".join(txt[i - j:i + 1]))
                self.data.append(new_txt)
        self.y = self.label

    # 获得word2id
    def get_word2id(self, datas, min_count=3):
        word_freq = {}
        for data in datas:
            for word in data:  # 首先统计词频，后续通过词频过滤低频词
                if word_freq.get(word) != None:
                    word_freq[word] += 1
                else:
                    word_freq[word] = 1
        word2id = {"": 0, "": 1}
        for word in word_freq:
            # 先构建uni-gram，因为hashing trick中uni-gram先处理，不进行hash，那么其他的2-gram以上是由多个词组成，里面有空格。
            # 所以，单词中不包含空格的就是uni-gram（这里的条件是忽略包含空格的词）
            if word_freq[word] < min_count or " " in word:
                continue
            word2id[word] = len(word2id)
        self.uniwords_num = len(word2id)

        # 构建2-gram以上的词，需要用hash
        for word in word_freq:
            if word_freq[word] < min_count or " " not in word:
                continue
            word2id[word] = len(word2id)
        self.word2id = word2id

    def convert_data2id(self, datas, max_length):
        for i, data in enumerate(datas):
            for j, word in enumerate(data):
                if " " not in word:
                    datas[i][j] = self.word2id.get(word, 1)
                else:
                    # hashing trick
                    datas[i][j] = self.word2id.get(word, 1) % 100000 + self.uniwords_num
                    # datas[i][j] = self.word2id.get(word, 1)
            datas[i] = datas[i][0:max_length] + [0] * (max_length - len(datas[i]))
        return datas

    def __getitem__(self, idx):
        X = self.data[idx]
        y = self.y[idx]
        return X, y

    def __len__(self):
        return len(self.label)


if __name__ == "__main__":
    ag_data = AG_Data("/AG/train.csv", 3, 100)
    print(ag_data.data.shape)
    print(ag_data.data[-20:])
    print(ag_data.y.shape)
    print(len(ag_data.word2id))

模型构建

# -*- coding: utf-8 -*-
import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np


# 非常简单的模型，一共包含三层
class Fasttext(nn.Module):
    def __init__(self, vocab_size, embedding_size, max_length, label_num):
        super(Fasttext, self).__init__()
        # 嵌入层
        self.embedding = nn.Embedding(vocab_size, embedding_size)
        # 平均pool
        self.avg_pool = nn.AvgPool1d(kernel_size=max_length, stride=1)
        # FC层
        self.fc = nn.Linear(embedding_size, label_num)

    def forward(self, x):
        x = x.long()
        # shape:batch_size*length*embedding_size
        out = self.embedding(x)
        # shape:batch_size*embedding_size*length
        out = out.transpose(1, 2).contiguous()
        # shape:batch_size*embedding_size
        out = self.avg_pool(out).squeeze()
        # shape:batch_size*label_num，label_num是分类数量
        out = self.fc(out)
        return out


if __name__ == "__main__":
    fasttext = Fasttext(100, 200, 100, 4)
    x = torch.Tensor(np.zeros([64, 100])).long()  # 这里注意类型要是long型
    out = fasttext(x)
    print(out.size())

训练和测试

代码略

这里的速度和论文中描述的有些差别，因为原文用的C++，这里用的python，所以一个epoch大概1分多。

作业

寻找网络资源，写出霍夫曼二叉树的算法推导。
写出，n-gram的hash算法步骤。
为什么hierarchy softmax的算法复杂度需要分训练以及测试两个环节讨论？
Fastext为何能取得这么好的结果，试分析原因？
完善代码，划分验证集，加入early stopping，在其他7个数据集中选取一个进行测试。
总结Fasttext模型以及Fasttext楼型的代码实现。

你可能感兴趣的:(Paper带读)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
读《人世间》有感一0一
这个寒假，就如同朋友圈中的一段话：一闭眼，一睁眼假期还有5天，在一闭眼一睁眼假期还有12天；再一闭眼一睁眼假期还有20天；不敢睡，不敢睡啊……受疫情影响，这个假期变得漫长又煎熬，我也无时无刻不关注着疫情的变化。当然这样的一个假期，我还真得要感谢周翔，因为他有个爱看书的习惯，所以家里有不少他看过的书，可以让我随意挑选，因此也让我的假期不至于那么无所事事。这次我选了一本梁晓声的《人世间》，作为一名语文
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
被带偏的家人，可气又感动艾孤璟
当我还是个严肃且内敛的孩子时，爷爷也是个严谨且和蔼的人，虽然不苟言笑，但没有距离感。当我接触的人越来越多，知道怎么调动气氛，家人们就被我带偏了。家里人本来没有外号的，后来都被我给取了各种各样的名字，“骂人”时就相对应的有了暗号。村里的小孩，本来不知道怎么使用假动作“打人”，怎么给人取合适的外号，后来也被我带偏了。老人常说我，古灵精怪，好的不学非得学坏的，带着不良风气。而我对他的话总是想生气又觉得搞
自我意识徐立华
----读帕克.帕尔默《教学勇气》（P18----19）5.铸造我们的学科帕克.帕尔默说学科知识对我们的自身认同和外部世界有启发意义。学科会铸造我们。“在我们与学科的命题概念和学科的生活框架相遇之前，自我意识知识处于潜伏状态，通过回想学科是怎样唤醒自我意识，我们就可以找回教学心灵。”《教学勇气》（P18）我们的自我意识像冰山表面下无限延伸的冰层，常常处于潜伏状态。但是在我们对所教授的学科进行深入思
直返APP是什么?直返APP是干嘛的氧惠帮朋友一起省
直返是一种电商购物模式，其核心特点是用户购买商品后可以获得直接返利。具体来说，用户在直返电商平台购买商品时，不仅可以获得商品本身的优惠，还可以获得一定的现金返利或者积分奖励。返利的金额可以提现到用户的账户余额，或者用于下次购物时抵扣。氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万
直返的东西正品吗?直返APP安全吗?直返是正规平台吗? 氧惠购物达人
亲们，你们是不是经常在直返APP上买东西呀？但是，你们有没有想过，里面的东西到底是不是正品呢？这个APP安全吗？它是不是一个正规的平台呀？别着急，今天我就来给大家揭秘一下！氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大
读《人间鲁迅》有感琳语读书
上周读完《闻一多传》后，我对中国近代知识分子产生了兴趣，这周继续读了《人间鲁迅》。厚厚的两本书，记录了一个人的一生，苦痛，彷徨和挣扎，虽然只读了一小部分，却也心潮澎湃。闻一多和鲁迅是完全不同的。鲁迅是沉郁的，现实的，寂寞的，抗争的。除了天生性格的不同外，环境的塑造也是非常之大。鲁迅少年经历了家庭的变故，看尽了人间冷暖，世态炎凉。这种经历促使他很早就观察思考人生，立志用文学来改变中国国民的劣根。闻一
第一四三章：天降奇兵逸川
“是她！”为了护住公孙枝，季姜（姜姓吕氏女，名子芸）舍身朝着刺来的长戟迎了过去。待公孙枝反应过来，长戟的尖刃已经抵到了季姜的胸前，让他只感手足无措。然就在这千钧一发之际，有一支羽箭突然从山巅飞来直插入狄兵脖颈，将其连人带戟射倒在地。顺着羽箭飞来的方向望去，却见到一名头戴白色纱笠的女子，正站在山脊上左右开弓。每有羽箭射出，便立时有狄兵应声而倒，端是飒爽无比：“竟不知她技艺如此娴熟！”“她是谁？”听到
希望和悲伤都是照亮我们人生的一缕光山月映雪
我开始并不想读《云边有个小卖部》，但看到好几个学生就都在读这本书，为了了解学生的阅读实际，我就拿起这本书翻看起来。读了十几页，发现小说的语言中不时有一些粗俗的字眼，感觉自己读不下去了。小说一开始把云边镇风景写的特别的美好，我错判为脱离现实的鸳鸯蝴蝶派小说，对于人为制造的童话世界的人与物，我真的不太感兴趣，所以就没有再读了。有天在教室闲转，顺手又拿起了这本书看了起来，这次我才真的看进去了。这部小说除
一颗小桃树李蓉乐平市湾头中小学
当“凹”同“洼”的时侯，才读(wa，平声)，他不叫贾平洼(贾，原名贾平娃)，非要写作贾平凹。为了表示对他的尊重，对文学的尊重，对文化人的尊重。如果不是帮闺蜜的儿子修改作文，我也不会发现贾平凹叫贾平娃。以下是摘选他的文章《一棵小桃树》：可我的小桃树儿，一颗“仙桃”的种子，却开得太白了，太淡了，那瓣片儿单薄得似纸做的，没有肉的感觉，没有粉的感觉，像患了重病的少女，苍白白的脸，又偏苦涩涩地笑着。雨还在下
C语言判断回文数 Y雨何时停T c语言学习
一，回文数概念“回文”是指正读反读都能读通的句子，它是古今中外都有的一种修辞方式和文字游戏，如“我为人人，人人为我”等。在数学中也有这样一类数字有这样的特征，成为回文数。设n是一任意自然数。若将n的各位数字反向排列所得自然数n1与n相等，则称n为一回文数。例如，若n=1234321，则称n为一回文数；但若n=1234567，则n不是回文数。二，判断回文数实现思路一：数组与字符串将数字每一位按顺序放
如何培养兴趣绽蕊向阳
今天读李笑来的书《与时间做朋友》，读到有关兴趣部分，深有感触。书中提到，好多人说对某事没有兴趣，实际上是没有能力把这件事做好，做这件事时的感受很不好，有挫败感，每个人对自己不擅长做不好的事情，都本能的容易逃避，所以就以为自己对这件事不感兴趣，他们真正感兴趣的是其他事情。可事实上，出现这种感觉应该仅仅是因为还没有开始做那件事情，也还没有在那件事情上遭受挫折而已。其实，很多人真的放弃原来做的事情，转去
《吹牛大王历险记》读书随笔赵炳森
这本书的作者是埃·拉斯伯戈·毕尔格。（没查到相关内容，好像他只写过《吹牛大王历险记》。）最让人百思不得其解的是他居然能自己拉自己的辫子出泥潭？！我觉得自己拉自己的辫子只会把自己的辫子拉断，而不会飞出泥潭。（问:图片中底下的屁股为什么插了一根钢针？）屁股底下居然有根钢针？在泥潭应该是滑滑的吧，可是他怎么能夹紧马肚呢？马肚子应该是在马的下方。还有如果能从泥潭里把连人带马都给拽出来的话，他力气肯定很大，
京券东券优惠券领取网站-点击进入高省爱氧惠
嘿，小伙伴们，你们知道吗？京东商城可是有好多超值优惠券等着我们领取哦！不论是京券还是东券，都有好多好多的优惠等着我们呢！氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做到百万团队。想要领取这些优惠券，
《靡色知音》这个人叫安安
图片发自App他俯下身来的时候乔伊不是没有心猿意马，但是只一瞬，她又巧妙的偏了一下头。她转身欲走，他倒好，一把扯着她的手，顺势往他怀里一带。乔伊没防备的由惯性硬生生撞进他怀里，贴上一块不可撼动的肉墙。她还没有吃疼的喊出声音来，他就把她翻过身去，像警察一样把她反扣在墙壁。她被他扣的死死地，对方一脸玩味和挑衅。乔伊冷冷的说：“放开。”那人也没应声，扬了扬眉毛，把她往墙壁那里一推，加重了力道。乔伊最好和
❤学习《家庭教育指导师》第三天分享❤ 温暖富足女神
时光飞逝，转眼来到了第3天的学习，今天上午的领导讲话与故事分享时间虽然有点长，但却带给大家很大的启发：亲人的离世，让我们更加珍惜身边的眼前人;导师们的心历路程让我们感动、敬佩与深受启发！每个人的生命都是独一无二的，每个人的生命都那么的珍贵与精彩！每个人的生命又那么的不容易与耐抗挫折！每个人来到这个人世间，都会有它的使命感，当强大的内心力量被唤醒时，他将无所不能！慧萍老师带我们体验的“一分钟击掌”与
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
微信母婴闲置群如何盈利赚钱母婴优惠券群主怎么做古楼
宝妈闲置群群主怎么赚钱微信母婴闲置群如何盈利赚钱怎么做母婴优惠券群作为宝妈闲置群群主，你可以通过以下几种方式赚取收益：1.分享优惠券和佣金实现带货赚钱：宝妈闲置群群主带货赚钱最常见的方式就是直接做母婴优惠群群分享商品赚钱。母婴闲置群群主通过对接高省优惠券返利app这类第三方平台分享优惠券获得推广购物返利佣金赚钱。高省，含有自动云发单功能，开通云发单，宝妈闲置群群主就可以解放双手，自动分享商品优惠券
“元宇宙”带不动Meta？基本业务已“后院起火”！小扎举步维艰！链科天下
由于宏观经济疲软、市场动荡，“放缓”已经成为美国科技股的主线逻辑，曾风光无限的科技巨头Meta也开始一路下行、举步维艰。据彭博社报道，Meta已宣布计划裁员并重组团队以削减预算，这是该公司2004年成立以来首次大幅削减预算。此次裁员或受到业绩低迷的影响，Q2财报显示Meta业绩远不及预期，上市以来营收同比出现首次下滑，净利连续三季度下降。扎克伯格表示，“希望经济能够稳定下来，但从目前的情况来看并非
读《房思琪的初恋乐园》——林奕含芥末绿zq
小说的描写就像一座文字殿堂一样，将每个细节都堆砌得如此繁复精美，我读不懂，我只拣了其中粗暴恶俗、直扎人心的现实。强暴、诱奸、家暴、冷漠、助纣为虐……，故事里全是罪恶的词，不管用什么贬义的词都无法形容。文中无限重复的文学素养，譬喻就像作者无声的哀嚎，撞进我的心头。脑子里无限重复着“温良恭俭让”。就像她在采访里说的，她最痛苦的一点就是，一个真正相信文学的人，他怎么可以背叛这个浩浩汤汤已经超过五千年的语
终于可以出去玩了开心外婆
今天终于可以带宝宝下去玩了，吃过早饭就准备出门。首先把口罩带好，虽然现在疫情差不多结束了吧，但防护措施还是要做好，宝宝两个多月没出门，好久没带口罩刚带上有点不舒服，总是用手去拿，然后告诉他一定要带好口罩，要不然就不能出去，可能宝宝很想出去，后来就没有摘口罩了。出去也不敢乱走，就在小区广场上玩他的踏板车，玩了两圈就有一个大白经过广场并告诉我马上旁边楼栋要做核酸，要我们先回家去，就这样结束了上午的活动
买书与美好同行
今天真是痛快，连收三个快递，十本书。周三时，薛老师讲课说让准备大字注音版的《左传》，因为《史记》的读书纵轴上开始串上《左传》这一横轴了。《史记》已经读到了《秦本纪》，里面有关晋文公部分，老师说结合《左传》里面的相关具体内容读更精彩更明白，于是大家纷纷移步淘宝或者拼多多，寻找大字注音版《左传》。两个网上都有，且都在搞活动，于是找好了果断下单。去年在群里和大家一块儿买《史记》时，已经同时买了中华书局三
日记 2019年10月15日杨义博 c487bb976552
今天是我穿校服的第一天，我很激动，我觉得我正式成为了一名一年级的小学生。中午回家时，我们看向操场发现有些高年级的大哥哥们在一个一个摆这一个有很多种颜色的龙，我们觉得很酷。下午上体育课，体育老师带我们上操场上去跑了一圈，我们看见了高年级哥哥姐姐们在操场上打鼓，还有一个大哥哥从前面拿着一个戴着星星的拐杖，指挥着全队的行动，最后面还有拿着花圈的，还有拿着国旗的。
日更第120天-顺其自然，为所当为飞翔001
在教培业务萎缩之后，新东方前不久宣布转型带货，初期人气寥寥，直播间也就几千人观看，近日，新东方的“东方甄选”因英语老师双语直播带货爆火，直播间人数过万，6月10日，新东方在线股价暴涨近40%，单日成交额突破1000万元，累计近400万人观看了直播。当晚俞敏洪来到直播间，和老师们一起直播带货。俞敏洪称，这是新东方老师们非常关键的转型，他们老师转型做带货主播，受到了大家的关注和部分的肯定，感谢各位网友
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交