nkwshuyi

如何用 Python 和深度迁移学习做文本分类？

本文为你展示，如何用10几行 Python 语句，把 Yelp 评论数据情感分类效果做到一流水平。

疑问

在《如何用 Python 和 fast.ai 做图像深度迁移学习？》一文中，我为你详细介绍了迁移学习给图像分类带来的优势，包括：

用时少
成本低
需要的数据量小
不容易过拟合

有的同学，立刻就把迁移学习的这种优势，联系到了自己正在做的研究中，问我：

老师，迁移学习能不能用在文本分类中呢？正在为数据量太小发愁呢！

好问题！

答案是可以。

回顾《如何用机器学习处理二元分类任务？》一文，我们介绍过文本分类的一些常见方法。

首先，要把握语义信息。方法是使用词嵌入预训练模型。代表词语的向量，不再只是一个独特序号，而能够在一定程度上，刻画词语的意义（具体内容，请参见《如何用Python处理自然语言？（Spacy与Word Embedding）》和《如何用 Python 和 gensim 调用中文词嵌入预训练模型？》）。

其次，上述方法只能表征单个词语含义，因此需要通过神经网络来刻画词语的顺序信息。

例如可以使用一维卷积神经网络（One Dimensional Convolutional Neural Network, 1DCNN）：

或者使用循环神经网络（Recurrent Neural Network, RNN）：

还有的研究者，觉得为了表征句子里词语顺序，用上 CNN 或者 LSTM 这样的复杂结构，有些浪费。

于是 Google 干脆提出了 Universal Sentence Encoder ，直接接受你输入的整句，然后把它统一转换成向量形式。这样可以大幅度降低用户建模和训练的工作量。

困难

这些方法有用吗？当然有。但是 Jeremy Howard 指出，这种基于词（句）嵌入预训练的模型，都会有显著缺陷，即领域上下文问题。

这里为了简化，咱们只讨论英文这一种语言内的问题。

假设别人是在英文 Wikipedia 上面训练的词嵌入向量，你想拿过来对 IMDB 或 Yelp 上的文本做分类。这就有问题了。因为许多词语，在不同的上下文里面，含义是有区别的。直接拿来用的时候，你实际上，是在无视这种区别。

那怎么办？直觉的想法，自然是退回去，我不再用别人的预训练结果了。使用目前任务领域的文本，从头来训练词嵌入向量。

可是这样一来，你训练工作量陡增。目前主流的 Word2vec , Glove 和 fasttext 这几个词嵌入预训练模型，都出自名门。其中 word2vec 来自于 Google，Glove 来自于斯坦福，fasttext 是 facebook 做的。因为这种海量文本的训练，不仅需要掌握技术，还要有大量的计算资源。

同时，你还很可能遭遇数据不足的问题。这会导致你自行训练的词嵌入模型，表现上比之前拿来别人的，结果更差。维基百科之所以经常被使用来做训练，就是因为文本丰富。而一些评论数据里面，往往不具备如此丰富的词汇。

怎么办呢？

迁移

Jeremy Howard 提出了一种方法，叫做“用于文本分类的通用语言模型微调（ULMFiT）”。论文在这里：Howard, J., & Ruder, S. (2018). Universal language model fine-tuning for text classification. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Vol. 1, pp. 328-339).

在这篇文章里，他提出了一个构想。

有人（例如早期研究者，或者大机构）在海量数据集（例如Wikipedia）上训练语言模型。之后发布这个模型，而不只是词嵌入向量的表达结果；
普通用户拿到这个模型后，把它在自己的训练文本（例如 Yelp 或者 IMDB 评论）上微调，这样一来，就有了符合自己任务问题领域上下文的语言模型；
之后，把这个语言模型的头部，加上一个分类器，在训练数据上学习，这就有了一个针对当前任务的完整分类模型；
如果效果还不够好，可以把整个儿分类模型再进行微调。

文中用了下图，表达了上述步骤。

注意在这个语言模型中，实际上也是使用了 AWD-LSTM 作为组块的（否则无法处理词语的顺序信息）。但是你根本就不必了解 AWD-LSTM 的构造，因为它已经完全模块化包裹起来了，对用户透明。

再把我们那几个比方拿出来说说，给你打打气：

你不需要了解显像管的构造和无线信号传输，就可以看电视和用遥控器换台；

你不需要了解机械构造和内燃机原理，就可以开汽车。

用 Python 和 fast.ai 来做迁移学习，你需要的，只是看懂说明书而已。

下面，我们就来实际做一个文本分类任务，体会一下“通用语言模型微调”和深度迁移学习的威力。

数据

我们使用的文本数据，是 Yelp reviews Polarity ，它是一个标准化的数据集。许多文本分类的论文，都会采用它进行效果对比。

我们使用的版本，来自于 fast.ai 开放数据集，存储在 AWS 上。它和 Yelp reviews Polarity 的原始版本在数据内容上没有任何区别，只不过是提供的 csv ，从结构上符合 fast.ai 读取的标准化需求（也就是每一行，都把标记放在文本前面）。

点击这个链接，你就能看到 fast.ai 全部开放数据内容。

其中很多其他数据类别，对于你的研究可能会有帮助。

我们进入“自然语言处理”（NLP）板块，查找到 Yelp reviews - Polarity 。

这个数据集有几百兆。不算小，但是也算不上大数据。你可以把它下载到电脑中，解压后查看。

注意在压缩包里面，有2个 csv 文件，分别叫做 train.csv（训练集）和 test.csv（测试集）。

我们打开 readme.txt 看看，其中数据集的作者提到：

The Yelp reviews polarity dataset is constructed by considering stars 1 and 2 negative, and 3 and 4 positive. For each polarity 280,000 training samples and 19,000 testing samples are take randomly. In total there are 560,000 trainig samples and 38,000 testing samples. Negative polarity is class 1, and positive class 2.

之所以叫做极性（Polarity）数据，是因为作者根据评论对应的打分，分成了正向和负向情感两类。因此我们的分类任务，是二元的。训练集里面，正负情感数据各 280,000 条，而测试集里面，正负情感数据各有 19,000 条。

网页上面，有数据集作者的论文链接。该论文发表于 2015 年。这里有论文的提要，包括了不同方法在相同数据集上的性能对比。

如图所示，性能是用错误率来展示的。 Yelp reviews - Polarity 这一列里面，最低的错误率已经用蓝色标出，为 4.36，那么准确率（accuracy）便是 95.64%。

注意，写学术论文的时候，一定要注意引用要求。如果你在自己的研究中，使用该数据集，那么需要在参考文献中，添加引用：

Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015).

环境

为了运行深度学习代码，你需要一个 GPU 。但是你不需要去买一个，租就好了。最方便的租用方法，就是云平台。

在《如何用 Python 和 fast.ai 做图像深度迁移学习？》一文中，我们提到了，建议使用 Google Compute Platform 。每小时只需要 0.38 美元，而且如果你是新用户， Google 会先送给你300美金，1年内有效。

我为你写了个步骤详细的设置教程，请使用这个链接访问。

当你的终端里面出现这样的提示的时候，就证明一切准备工作都就绪了。

我把教程的代码，已经放到了 github 上面，请使用以下语句，下载下来。

git clone https://github.com/wshuyi/demo-nlp-classification-fastai.git

之后，就可以呼叫 jupyter 出场了。

jupyter lab

注意因为你是在 Google Compute Platform 云端执行 jupyter ，因此浏览器不会自动弹出。

你需要打开 Firefox 或者 Chrome，在其中输入这个链接（http://localhost:8080/lab?）。

打开左侧边栏里面的 demo.ipynb。

本教程全部的代码都在这里了。当然，你如果比较心急，可以选择执行Run->Run All Cells，查看全部运行结果。

但是，跟之前一样，我还是建议你跟着教程的说明，一步步执行它们。以便更加深刻体会每一条语句的含义。

载入

在 Jupyter Lab 中，我们可以使用 !+命令名称 的方式，来执行终端命令（bash command）。我们下面就使用 wget 来从 AWS 下载 Yelp 评论数据集。

!wget https://s3.amazonaws.com/fast-ai-nlp/yelp_review_polarity_csv.tgz

在左边栏里，你会看到 yelp_review_polarity_csv.tgz 这个文件，被下载了下来。

对于 tgz 格式的压缩包，我们采用 tar 命令来解压缩。

!tar -xvzf yelp_review_polarity_csv.tgz

左侧边栏里，你会看到 yelp_review_polarity_csv 目录解压完毕。

我们双击它，看看内容。

文件下载和解压成功。下面我们从 fast.ai 调用一些模块，来获得一些常见的功能。

from fastai import *
from fastai.text import *
from fastai.core import *

我们设置 path 指向数据文件夹。

path = Path('yelp_review_polarity_csv')

然后我们检查一下训练数据。

train_csv = path/'train.csv'
train = pd.read_csv(train_csv, header=None)
train.head()

每一行，都包括一个标签，以及对应的评论内容。这里因为显示宽度的限制，评论被折叠了。我们看看第一行的评论内容全文：

train.iloc[0][1]

对于验证集，我们也仿照上述办法查看。注意这里数据集只提供了训练集和“测试集”，因此我们把这个“测试集”当做验证集来使用。

valid_csv = path/'test.csv'
valid = pd.read_csv(valid_csv, header=None)
valid.head()

下面我们把数据读入。

data_lm = TextLMDataBunch.from_csv(path, valid='test')
data_clas = TextClasDataBunch.from_csv(path, valid='test', vocab=data_lm.train_ds.vocab)

注意，短短两行命令，实际上完成了若干功能。

第一行，是构建语言模型（Language Model, LM）数据。

第二行，是构建分类模型（Classifier）数据。

它们要做以下几个事儿：

语言模型中，对于训练集的文本，进行标记化（Tokenizing）和数字化（Numericalizing）。这个过程，请参考我在《如何用Python和机器学习训练中文文本情感分类模型？》一文中的介绍；
语言模型中，对于验证集文本，同样进行标记化（Tokenizing）和数字化（Numericalizing）；
分类模型中，直接使用语言模型中标记化（Tokenizing）和数字化（Numericalizing）之后的词汇（vocabs）。并且读入标签（labels）。

因为我们的数据量有数十万，因此执行起来，会花上几分钟。

结束之后，我们来看看数据载入是否正常。

data_lm.train_ds.vocab_size

训练数据里面，词汇一共有60002条。

我们看看，词汇的索引是怎么样的：

data_lm.train_ds.vocab.itos

分类器里面，训练集标签正确载入了吗？

data_lm.train_ds.labels

验证集的呢？

data_lm.valid_ds.labels

数据载入后，我们就要开始借来预训练语言模型，并且进行微调了。

语言模型

本文使用 fast.ai 自带的预训练语言模型 wt103_v1，它是在 Wikitext-103 数据集上训练的结果。

我们把它下载下来：

model_path = path/'models'
model_path.mkdir(exist_ok=True)
url = 'http://files.fast.ai/models/wt103_v1/'
download_url(f'{url}lstm_wt103.pth', model_path/'lstm_wt103.pth')
download_url(f'{url}itos_wt103.pkl', model_path/'itos_wt103.pkl')

左侧边栏里，在数据目录下，我们会看到一个新的文件夹，叫做 models 。

其中包括两个文件：

好了，现在数据、语言模型预训练参数都有了，我们要构建一个 RNNLearner ，来生成我们自己的语言模型。

learn = RNNLearner.language_model(data_lm, pretrained_fnames=['lstm_wt103', 'itos_wt103'], drop_mult=0.5)

这里，我们指定了语言模型要读入的文本数据为 data_lm，预训练的参数为刚刚下载的两个文件，第三个参数 drop_mult 是为了避免过拟合，而设置的 Dropout 比例。

下面，我们还是让模型用 one cycle policy 进行训练。如果你对细节感兴趣，可以点击这个链接了解具体内容。

learn.fit_one_cycle(1, 1e-2)

因为我们的数据集包含数十万条目，因此训练时间，大概需要1个小时左右。请保持耐心。

50多分钟后，还在跑，不过已经可以窥见曙光了。

当命令成功执行后，我们可以看看目前的语言模型和我们的训练数据拟合程度如何。

你可能会觉得，这个准确率也太低了！

没错，不过要注意，这可是语言模型的准确率，并非是分类模型的准确率。所以，它和我们之前在这张表格里看到的结果，不具备可比性。

我们对于这个结果，不够满意，怎么办呢？

方法很简单，我们微调它。

回顾下图，刚才我们实际上是冻结了预训练模型底层参数，只用头部层次拟合我们自己的训练数据。

微调的办法，是不再对预训练的模型参数进行冻结。“解冻”之后，我们依然使用“歧视性学习速率”（discriminative learning rate）进行微调。

如果你忘了“歧视性学习速率”（discriminative learning rate）是怎么回事儿，请参考《如何用 Python 和 fast.ai 做图像深度迁移学习？》一文的“微调”一节。

注意这种方法，既保证靠近输入层的预训练模型结构不被破坏，又尽量让靠近输出层的预训练模型参数尽可能向着我们自己的训练数据拟合。

learn.unfreeze()
learn.fit_one_cycle(1, 1e-3)

好吧，又是一个多小时。出去健健身，活动一下吧。

当你准时回来的时候，会发现模型的效能已经提升了一大截。

前前后后，你已经投入了若干小时的训练时间，就为了打造这个符合任务需求的语言模型。

现在模型训练好了，我们一定不能忘记做的工作，是把参数好好保存下来。

learn.save_encoder('ft_enc')

这样，下次如果你需要使用这个任务的语言模型，就不必拿 wt103_v1 从头微调了。而只需要读入目前存储的参数即可。

分类

语言模型微调好了，下面我们来构造分类器。

learn = RNNLearner.classifier(data_clas, drop_mult=0.5)
learn.load_encoder('ft_enc')
learn.fit_one_cycle(1, 1e-2)

虽然名称依然叫做 learn ，但注意这时候我们的模型，已经是分类模型，而不再是语言模型了。我们读入的数据，也因应变化成了 data_clas ，而非 data_lm 。

这里，load_encoder 就是把我们的语言模型参数，套用到分类模型里。

我们还是执行 "one cycle policy" 。

这次，在20多分钟的训练之后，我们语言模型在分类任务上得出了第一次成绩。

接近95%的准确率，好像很不错嘛！

但是，正如我在《文科生用机器学习做论文，该写些什么？》一文中给你指出的那样，对于别人已经做了模型的分类任务，你的目标就得是和别人的结果去对比了。

回顾别人的结果：

对，最高准确率是 95.64% ，我们的模型，还是有差距的。

怎么办？

很简单，我们刚刚只是微调了语言模型而已。这回，我们要微调分类模型。

先做一个省事儿的。就是对于大部分层次，我们都保持冻结。只把分类模型的最后两层解冻，进行微调。

learn.freeze_to(-2)
learn.fit_one_cycle(1, slice(5e-3/2., 5e-3))

半小时以后，我们获得了这样的结果：

这次，我们的准确率，已经接近了97% ，比别人的 95.64% 要高了。

而且，请注意，此时训练损失（train loss）比起验证损失（valid loss）要高。没有迹象表明过拟合发生，这意味着模型还有改进的余地。

你如果还不满意，那么咱们就干脆把整个儿模型解冻，然后再来一次微调。

learn.unfreeze()
learn.fit_one_cycle(1, slice(2e-3/100, 2e-3))

因为微调的层次多了，参数自然也多了许多。因此训练花费时间也会更长。大概一个小时以后，你会看到结果：

准确率已经跃升到了 97.28%。

再次提醒，此时训练损失（train loss）依然比验证损失（valid loss）高。模型还有改进的余地……

对比

虽然我们的深度学习模型，实现起来非常简单。但是把咱们2018年做出来的结果，跟2015年的文章对比，似乎有些不大公平。

于是，我在 Google Scholar 中，检索 yelp polarity ，并且把检索结果的年份限定在了2017年以后。

对第一屏上出现的全部文献，我一一打开，查找是否包含准确率对比的列表。所有符合的结果，我都列在了下面，作为对比。

下表来自于：Sun, J., Ma, X., & Chung, T. S. (2018). Exploration of Recurrent Unit in Hierarchical Attention Neural Network for Sentence Classification. 한국정보과학회 학술발표논문집, 964-966.

注意这里最高的数值，是 93.75 。

下表来自于：Murdoch, W. J., & Szlam, A. (2017). Automatic rule extraction from long short term memory networks. arXiv preprint arXiv:1702.02540.

这里最高的数值，是 95.4 。

下表来自于：Chen, M., & Gimpel, K. (2018). Smaller Text Classifiers with Discriminative Cluster Embeddings. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers) (Vol. 2, pp. 739-745).

这里最高的数值，是 95.8 。

下表来自于：Shen, D., Wang, G., Wang, W., Min, M. R., Su, Q., Zhang, Y., … & Carin, L. (2018). Baseline needs more love: On simple word-embedding-based models and associated pooling mechanisms. arXiv preprint arXiv:1805.09843.

这里最高的数值，是 95.81 。

这是一篇教程，并非学术论文。所以我没有穷尽查找目前出现的最高 Yelp Reviews Polarity 分类结果。

另外，给你留个思考题——咱们这种对比，是否科学？欢迎你在留言区，把自己的见解反馈给我。

不过，通过跟这些近期文献里面的最优分类结果进行比较，相信你对咱们目前达到的准确率，能有较为客观的参照。

小结

本文我们尝试把迁移学习，从图像分类领域搬到到了文本分类（自然语言处理）领域。

在 fast.ai 框架下，我们的深度学习分类模型代码很简单。刨去那些预处理和展示数据的部分，实际的训练语句，只有10几行而已。

回顾一下，主要的步骤包括：

获得标注数据，分好训练集和验证集；
载入语言模型数据，和分类模型数据，进行标记化和数字化预处理；
读入预训练参数，训练并且微调语言模型；
用语言模型调整后的参数，训练分类模型；
微调分类模型

值得深思的是，在这种流程下，你根本不需要获得大量的标注数据，就可以达到非常高的准确率。

在 Jeremy Howard 的论文里，就有这样一张对比图，令人印象非常深刻。

同样要达到 20% 左右的验证集错误率，从头训练的话，你需要超过1000个数据，而如果使用半监督通用语言模型微调（ULMFiT, semi-supervised），你只需要100个数据。如果你用的是监督通用语言模型微调（ULMFiT, supervised），100个数据已经能够直接让你达到10%的验证集错误率了。

这给那些小样本任务，尤其是小语种上的自然语言处理任务，带来了显著的机遇。

Czapla 等人，就利用这种方法，轻松赢得了 PolEval'18 比赛的第一名，领先第二名 35% 左右。

感兴趣的话，他们的论文在这里。

Google 给你的300美金，应该还剩余一些吧？

找个自己感兴趣的文本分类任务，实际动手跑一遍吧。

祝（深度）学习愉快！

喜欢请点赞和打赏。还可以微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)。

如果你对 Python 与数据科学感兴趣，不妨阅读我的系列教程索引贴《如何高效入门数据科学？》，里面还有更多的有趣问题及解法。

由于微信公众号外部链接的限制，文中的部分链接可能无法正确打开。如有需要，请点击文末的“阅读原文”按钮，访问可以正常显示外链的版本。

知识星球入口在这里：

你可能感兴趣的:(如何用 Python 和深度迁移学习做文本分类？)

保姆虐待老人新闻＋《许三观卖血记》读后感+计划感触+在文宣部那么久的感触一只小宋_三月
今天看到新闻，说保姆临时有事就把轮椅上的老人直接脖子绑在树上留在公园，然后就直接离开了。虽然说这种消息屡见不鲜了，但是还是心里疼了一下。可能是昨天刚看过许三观卖血记的缘故吧，更是多了几分感触。我想起来我的爷爷，他和奶奶不愿意来到城里，喜欢在老家和邻居说说话，在城市感觉孤独，姑姑们都在郑州，我们又在驻马店，就只有他们在老家，爷爷因为身体原因，几乎不能走路，也不能好好端饭，奶奶一个人力气小独自照顾他太
靠近财富的十个诀窍｜一年顶十年的财富课清单体笔记李杨手记
离财富更近的方法很多，多管齐下，效果更好。001财富的意义对财富、金钱有积极的态度和正确的观念，努力使自己成为更加富足的人。002靠近财富积极投入到离财富更近的領域、积极与离财富更近的人交流、积极进入离财富更近的圈子。003让别人了解你不要高估自己的影响力，以为别人知道自己的厉害之处。要主动向别人介绍自己。用简短的语言讲清自己能干什么。004让花钱很有价值买书报课前要精选，买回来之后要认真研究，让
文章合为时而著，诗歌合为事而作咿唔琅琅
一千多年前的白居易说：文章合为时而著，诗歌合为事而作。从这句话的意思去理解，也可以如下这样说吧。一千年以前和这一千年之间的文章，诗歌，大多都不是，合为时而著，大都不是合为事作。从这个角度去看，大多数文章说的都是废话，大多数诗歌也都是无病而呻吟的。从这角度去看，有人侃侃而谈，滔滔不绝，口若悬河，说个没完没了，说的是一套一套的，让人觉得很厉害。这个时候如果能够安静下来，想一想，这个人说的是不是都是废话
影响APP广告变现收益的4个关键因素 AdSet聚合广告平台
APP的广告收入（IAA）=展示*eCPM/1000IAA收入其实是由广告总展示量和每次展示的平均收入共同决定的。所以，提高IAA收入，我们需要双管齐下：同时提高广告总展示量和平均每次展示的收入。app广告变现对接点击⬇️链接，了解对接流程AdSet官网|聚合SDK广告变现平台-上海神蓍信息科技有限公司（1）总展示量总展示量=请求＊填充率＊展示率总展示量是请求量、填充率和展示率三者相互作用的结果，
day16|与自我辩驳：如何突破防御型思维的操控威Sir漫话
见如实描述所看到现象、内容、观点。感记录下思想变化，看到这个观点前怎么想，看到后怎么想，找到中间落差上周五和几个小伙伴聊起了自卑，大家聊完发现，自卑原来发生在很多人的身上。现场有一位很优秀的创业者，拿到了四百万的融资，还有一个非常具有凝聚力的小团队，可以说事业蒸蒸日上。令我们感到惊讶的是，自卑这个话题正是他先打开的。像这么一位优秀的创业者，怎么会有自卑情绪呢？聊完后发现，原来他经常参加一些常人眼中
我们大多在食用二次知识――论知识的阶级性 Yo有灵L0
不论是《美丽新世界》，还是《未来简史》，对人类未来的预计都没有很美好。这其中包含了太多集权的观点。即：人类的绝大多数资源被极少数人所掌控，而绝大多数人沦为平庸。在《美丽新世界》里，阶级的划分直接由人为控制出生来决定；在《未来简史》里，当人们把越来越多的事情交给算法去处理之后，人类自身则降至被动的地位。这些看起来和知识不搭边？不，知识这条路，竟然也存在着阶级划分。这种阶级划分，有自身的因素，也有环境
悟第三天作业 f50de842b0c5
第三天实修对破框法中的“托付心态”的理解和认识。托付心态:从今天开始，我知道我是有能力的，我也相信我有这个能力，我相信我的这个能力一定能够让我更好，从今天开始我要对我的生命负责任，我要做回生命主人的权利。我不把我的幸福和一切成功的机会寄托在任何人的身上，我要为自已的幸福和成功负责，我要对我的人生负责，我是有能力负责的，我完全的相信我自己。我相信我从来都是有能力的，很多的能力都深深的埋藏在了我的心里
关于XSS的一点理解「已注销」 XSS
什么是XSS攻击XSS，缩写自Cross-SiteScripting，即跨站脚本攻击，是一种注入型攻击方法，也就是攻击者把恶意脚本注入到良性和可信任的网站中。XSS攻击者通常会利用Web应用（通常在浏览器端脚本的form中）发送恶意代码给其他的Web应用用户。XSS的攻击原理就是攻击者使用XSS发送一些恶意的脚本代码给一些未防备的用户，这些用户的浏览器没办法分辨出这些脚本是否应该被信任，并且会完整
攻城天下内部号怎么获取哪里能弄到手游内部号？会飞滴鱼儿
（如果你玩手游，请你认真看完这篇文章。因为下面的内容可能会颠覆你的认知。）我本人从2015年从事手游研发和运营5年时间，曾经是某一游戏大厂的运营主管，这五年时间里我接手过17款热门游戏的研发与运营工作。但在2020年，我毅然决然的退出游戏行业。所有才敢爆出手游产业链的内幕。大家玩游戏肯定都遇到过托，其实市面上百分之85的手游里面都有手游托，甚至达到一款游戏一个服都有一个托。我们业内以内部号来称呼。
最便宜的房贷都逾期，有多少家庭已经弱不禁风？七年蝉龟
最近公积金贷款又被鄙视了。住建部、财政部和央行近日联合发布的《全国住房公积金2017年年度报告》，公布2017年全国公积金贷款的逾期金额是10.58亿。那些办商贷的人心里就会嘀咕了，连公积金贷款都会逾期，没那本事就别买房。10.58亿，从数字绝对值上看，一点也不多。2017年底，中国住户公积金贷款余额5.29万亿，10.58亿几乎可以忽略不计，更谈不上对银行有什么冲击。但有一个细节是我们不能忽视的
撕掉标签，让孩子做真实的自己一只喵喵_33033
现代心理学告诉我们，当一个人被一种词语名称贴上标签时，他就会作出自我印象管理，使自己的行为与所贴的标签内容相一致。这种现象由于贴上标签后面引起的，在心理学上称之为“标签效应”，也叫“暗示效应”。心理学认为，之所以会出现“标签效应”，主要是因为“标签”具有定性导向的作用，无论是“好”是“坏”，它对一个人的“个性意识的自我认同”都有强烈的影响作用。给一个人“贴标签”的结果，往往是使其向“标签”所喻示的
2022-05-20 BOOpan
潘蔚20220520日精进打卡一、感恩感谢同事们辛苦工作感谢大家一起过节感谢小区组织做核酸感谢厂家耐心解答感谢厂车带我上下班感谢小汤老哥帮忙找样图感谢婆婆每日辛苦付出二、行善利他配合做核酸三、反省感悟要对自己好点
帮你战胜99%普通人的意志力训练四：为什么善行之后会有恶行雪屋随思
回味了一下我最近的减重经历。为了减重，我增加了自己的运动量。燃烧卡路里的时候，我会不由自主地想，自己可以多吃一点作为锻炼的奖励。我认为积极锻炼的自己很“好”，这种“好”让我认为放弃节食是我对自己的“奖励”。最终锻炼成了我放纵胃口的许可证。这种“道德许可”很疯狂，它有可怕的诱惑力，让我们把“想做的事”，变成“必须做的事”。心理学家们的实验表明，哪怕我们所做的“善行”和我们要达成的目标毫无联系，我们的
《哈佛大学的哲学课》简简simple
《哈佛大学的哲学课》：《哈佛大学的哲学课》作者威廉·詹姆斯是美国本土第一位哲学家和心理学家，实用主义的倡导者、美国机能主义心理学派创始人之一。在美国哲学领域有着举足轻重的位置。《哈佛大学的哲学课》建立在实用主义的基础上，实用主义是美国土壤里生出的、影响最大的哲学流派，是代表美国人精神和生活方式的官方哲学。而本书正是美国实用主义的奠基之作。在《哈佛大学的哲学课》中，作者将正义赋予商业行为，将商人、企
相家庄中学：爱劳动，我快乐，共建美好校园余小鱼M
为了认真贯彻《渭滨区中小学德育深化工程实施方案》，培养学生热爱劳动，提高环保意识和热爱学校，美化校园的意识。2018年5月25日下午，由学校政教处组织，相家庄中学的学生和宝鸡文理学院大学生志愿者们一起进行了拔草劳动，还校园一个优美的绿色环境。大学生们不怕脏，不怕累，弯下腰，认真劳动起来，给学生们树立了榜样，在拔草的同时，志愿者和老师们又对学生们进行热爱劳动的教育，大家有的两三个人一起拔草，有的三五
Python 应用程序分发全指南：从基础到高级工具与实践面朝大海，春不暖，花不开 Python基础 python 开发语言
文章大纲引言在现代软件开发中，Python因其简洁的语法和强大的生态系统而广受欢迎。然而，将Python应用程序从开发者手中传递给最终用户并非总是简单的过程。分发Python应用程序涉及到诸多挑战，例如依赖管理、跨平台兼容性以及用户环境的多样性。如果分发不当，用户可能面临安装失败或运行错误等问题，从而影响软件的使用体验。本文将深入探讨Python应用程序分发的各种方法，从最基础的源代码分享到现代标
疯狂的双十一欢乐有多少烦恼就有多少毛红霞
作者：安宁在早先，11月11日并不是什么特别的日子，在电商如火如荼发展到消灭实体店的时候，那些并没有特殊含义的日子一下子翻身有了价值，乘机变得耀眼夺目倍有身份起来，某大佬为了挑起人们的购买欲，很创意的把11月11日型塑成是具有深刻含义的日子，于是，接下来的年份，每年的这一天就变得极有意义起来，最先是针对单身汉制定的买货日子，到现在已经不限单身汉了，大有横扫全民的来头，11月11日，也由光棍节演变成
《暴裂无声》：胜在剧本，拙在雕琢。笑翁
我看的场次共五个人。全程没有一个人说话，没有一个人走神。大家全神贯注的看完了这部电影。这就是这部电影的胜利。这是一部典型的多线索、群像电影。各种巧合、暴力穿插其中。原剧本本想打造一个三雄似的结构。一个底层矿工，一个中层律师精英，一个高层矿业企业家。三个人三条线索各自交代，然后是巧合的相遇和不可调和的暴力冲撞。胜在剧本宋阳饰演失声矿工张保民因为过度采矿，昌万年近日惹上了官司。他邀请律师徐文杰替自己打
3月8日，第②期"教育行走一起写吧"挑战300天活动第220天文章汇总小尘老师
3月8日，第②期"教育行走一起写吧"挑战300天活动第220天。我们的任务:每天一记录(500字以上自由写作)，每月一精品(2000字以上主题作文)我们的标准动作:写文（推荐）+挑战群中接龙（字数、题目+链接）+“教育行走一起写吧”小打卡圈打卡(字数、标题、内容)。每月精品文还需要登记在腾讯文档(链接入口查看群公告)2022年3月份主题文：“公益”(2000字以上精品文)特别提醒:打卡和接龙要求加
【ESP32设备通信】-ESP-Now多对一通信视觉与物联智能物联网全栈开发实战 ESP32 单片机 ESP Now 嵌入式硬件物联网网络
ESP-Now多对一通信文章目录ESP-Now多对一通信1、ESP-Now通信协议介绍2、硬件准备3、代码实现3.1查询MAC地址3.2发送方代码实现3.3接收方代码实现在本文中，我们将了解如何使用ESP-NOW和ArduinoIDE从多块ESP32板向一块ESP32板发送数据。换句话说，我们将从多块ESP32板向一块ESP32板传输数据（多对一通信）。之前，我们通过ESP-NOW单向通信将数据从
焦茶琉樱SAFS
好累啊，刚刚听完了地理，还要画画，还要准备住宿的东西，今天没有脑细胞了，写不出深度思考了。把自己的一点小感想扩一扩好了。转了一位博主的“为什么画画能控制人的心情啊”。不得不说，实在是很能共情。画画的时候，会不自觉地跟着画面中人物一起做表情，人物笑得很灿烂，我也嘴角上扬直到笑肌发酸；人物哭得稀里哗啦，我的表情也皱成一团；人物目眦欲裂，我眼睛也同时睁大；人物厌世脸冷冰冰，我也面无表情。再就是这位博主发
我们经常错把教训当教育思之远
图片发自App我读过一篇文章，是一个父亲写的，他在这篇文章要表达的就是，教育孩子是一件极其复杂的事情，它的难度远远超出了我们的想象。他举了一个例子，有一天他在家里头忙工作上的事儿，事情很紧急，可是小孩儿在屋子里头闹，时不时还要过来问这问那，弄得他心神不宁。这个时候做父母的往往最直接的反应就是，你安静点行不行，你滚一边去。之所以父母很可能说这句话，是因为他们不知道他们跟孩子之间的权利边界在哪儿，他们
第31次一周小结（2023.02.19-02.25） 2023.02.26 龚宇佳
上周总结：1.阅读21h。第一，精读《社会性动物》，有些内容和《态度改变与社会影响》、《思考，快与慢》想通，读起来很顺畅。第二，翻看《夏商周：从神话到史实》以及《汉字就是这么来的》。2.写作3.5h。保持日更。3.语言学习5h。I.粤语学习方面。上周模仿了电视剧《新四十二章经》，在工作中和同事用粤语交流，II.英语学习方面。每天至少听写或翻译一篇，跟读电影扎导版《正义联盟》。4.PPT学习3.5h
Event Loop 在浏览器和 Node.js 中的区别阿珊和她的猫 node.js 前端
前端开发工程师、技术日更博主、已过CET6阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》、《前端求职突破计划》蓝桥云课签约作者、上架课程《Vue.js和Egg.js开发企业级健康管理项目》、《带你从入门到实战全面掌握uni-app》文章目录一、事件循环的阶段浏览器Node.js二、微任务队列的处理浏览器Node
20190417小确幸 yzy杨
1、同事耐心地教我使用一种电子工具，特别地感谢同事教会了许多知识。2、晚上向远方的朋友聊了一会儿工作和今日临时遇到的事，朋友教了我一些经验和方法，特别感谢遇见，感谢让我成长的朋友们。3、傍晚妈妈打来电话让我帮她进点货，忙完工作的事，晚上去顺利地进好了货，然后弟弟和他的朋友来把货拉回了家。以前这些事都不用我做的，也感觉很多事是不会做的，现在因为没有选择，反而变得越来越勇敢。可以一个去做很多事情，即使
对象存储和文件存储之间的区别？
数据信息存储功能对于企业来说是十分重要的，企业会将业务中的数据存放在一个安全的位置，避免其受到网络攻击或损坏，给企业造成一定的经济损失，而在存储方面有文件存储、对象存储和块存储等多种方式，本文就来为大家介绍一下对象存储和文件存储之间的区别！对象存储是被称为基于对象的存储技术，主要是针对离散单元的处理和解决方式，其中对象可以是指任何形式的数据信息，比如文件信息和视频图片等，能够通过唯一ID访问数据对
轻松拿捏Anaconda安装，Python开发快人一步奔跑吧邓邓子必备核心技能 python 开发语言 Anaconda 科学计算
目录一、Anaconda是什么1.1包管理与环境管理1.2预装丰富的科学计算库二、为什么选择Anaconda2.1简化依赖管理2.2避免版本冲突2.3丰富的库资源2.4适合的应用场景三、安装前准备3.1确认系统要求3.2下载安装包四、Windows系统安装步骤4.1运行安装程序4.2许可协议4.3选择安装类型4.4选择安装路径4.5高级选项4.6安装完成五、MacOS系统安装步骤5.1下载安装包5
灰度发布实战：在生产环境中安全迭代功能荣华富贵8 程序员的知识储备2 程序员的知识储备3 consul 服务发现算法网络 wpf
摘要随着互联网服务规模的不断扩大，如何在保证系统稳定性和用户体验的前提下快速迭代新功能，已经成为大型分布式系统运维和开发团队面临的核心挑战。灰度发布（GreyRelease或CanaryRelease）作为一种渐进式发布策略，通过对少量用户或流量进行新版本试运行，实时监控关键指标、收集用户反馈，从而在生产环境中实现安全的功能迭代和风险管控。本文以某大型电商平台灰度发布实战为例，深入探讨技术原理、系
GitLab安装重生之苦练代码养女友 gitlab
环境说明（内存在4G以上）系统版本CentOS7.2x86_64软件版本gitlab-ce-10.8.4GitLab是一个用于仓库管理系统的开源项目，使用Git作为代码管理工具，并在此基础上搭建起来的web服务。可通过Web界面进行访问公开的或者私人项目。它拥有与Github类似的功能，能够浏览源代码，管理缺陷和注释。可以管理团队对仓库的访问，它非常易于浏览提交过的版本并提供一个文件历史库。团队成
数字电路与模拟电路的对比、我是男生。 fpga开发
数字电路和模拟电路是电子技术的两大支柱，它们的关系不是简单的“模块化”，而是处理信号的方式、设计哲学和抽象层次的根本性不同。下面从多个维度详细解释它们的区别与联系：底层硬件：统一的物理基础共同根基：无论是处理连续信号的模拟电路，还是处理0/1数字信号的数字电路，它们的物理实现都依赖于相同的半导体器件——主要是晶体管（BJT或MOSFET）。模拟本质：在晶体管级别，一切行为都是模拟的！输入电压连续变
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring