NLP 技术在微博 feed 流中的应用

分享嘉宾：董兴华新浪微博

文章整理：凌铭

内容来源：DataFunTalk

出品平台：DataFun

注：欢迎转载，转载请留言。

导读：新浪微博截止2019.9统计的数据，月活跃用户数为4.97亿，日活跃用户数为2.16亿，其中约94%为移动端用户，今天会和大家分享新浪微博在 feed 流中遇到的 NLP 问题和解决思路。主要包括：

❶ 难点与现存问题

❷ 标签系统

❸ 物料库

❹ 多任务、多模态探索

❺ 大规模预训练模型技术

——难点与现存问题——

❶ 博文内容大多比较短

第一个问题，微博的内容都是比较短的 ( 一般都是100字符以内 )，比如右图中提到文本 "下午茶"，但是图片内容并不是美食 "下午茶"，考虑整个微博文本和图片内容应该分类到美女频道而不是美食频道更合适。另外对于短文本使用 LDA/PLSA 等 topic model 效果都不太好。

❷ 语言表达随意化

第二个问题，文本的随意化和口语化，语法结构不严谨，对于内容分析带来较大挑战。

❸ 用户搜索行为序列不能准确获取

第三个问题，比如：在微博搜索结果页中，由于文本简短，大部分的结果在页面中能看到全文，没必要点击进入看内容 ( 除了第二条，需要点击展开全文 )，而从停留行为来看，由于一页展示多条博文，也不能准确定位用户感兴趣的是哪条微博。

❹ 用户 feed 行为序列不能准确获取

这个问题与搜索结果页相似，用户停留在 feed 流的页面中，不能准确区分哪条微博为用户感兴趣的。我们对点击较高的博文分析发现，点击较高的博文很多包含多张图片。由于一条微博可以包含多张图片，部分高点击的博文是由于用户想查看图片的内容才点击进入微博的正文页，但是这样的点击不能代表用户对该博文感兴趣。

综上所述，目前的微博场景很难获取十分准确的用户行为序列 ( 用户行为序列包括展示页，点击，停留，转发，评论，赞，收藏等 )，导致使用 LDA/PLSA 主题的方式和用户行为序列方式建模效果都不太好。接下来，将为大家分享下我们的解决办法和思路。

——标签系统——

标签系统主要包括：博文标签、用户兴趣 ( 画像 ) 标签、博主标签。今天主要介绍博文标签和用户兴趣 ( 画像 ) 标签。

❶ 博文标签

博文标签，主要分为：一二级标签、实体标签、关键词标签。

① 一二级标签

一级标签：对应频道，例如财经，法律，IT 产业，军事，历史，美食等标签。

二级标签：一级标签 "财经"，包含的二级标签：投资，众筹，货币，股票，保险，债券，基金，贷款，美股等。

一二级标签运用：一级标签与少量的二级标签和垂直频道对应，打上这部分标签的博文会分发到对应的频道下，对应的博文会在该频道进行展示。其次一级和二级标签也可用于画像的构建以及推荐中的召回和排序，但是作为标签，粒度太粗，不能很好的刻画用户兴趣。比如，有的用户只对英语感兴趣，如果把大量的教育相关的博文推荐给他，用户体验会比较差。

一二级标签分类系统：

目前分类系统使用 fasttext+bert 结合的方案，是由于 bert 效果好，而 fasttext 性能好。我们有如下的方案：针对关注度高 ( 明星 ) 和高质量的博文使用 bert，其他的博文先过一遍 fasttext，若标签得分高于阀值 ( 95分 )，则不再使用 bert 进行处理；若最高得分只有70分，那么使用 bert 再预测一次。Bert 是一种多层的编码器，最近的研究表明，bert 不同层的 embedding 捕获到了不同的句子知识。比如底层 embedding 捕获到词法方面特征，中间层 embedding 捕获到句法特征，高层 embedding 捕获到语义特征。因此，我们对 bert 的结构做了优化，使用对各层embedding 加权后获得的 embedding 作为整个博文的表征，后续的博文质量模型也是这种做法。

② 实体标签

实体标签在我们的场景中也叫三级标签，实体标签的来源：人工收集、微博热搜 query 和模型识别。如下图可看到一二级标签和实体标签之间的关系。

实体识别模型：

模型如图结构所示，首先经过 bert 层输出每个词对应每个序列标注的概率分布，再经过 crf 层输出最终的标注结果。而这些序列标注的训练数据是由人工标注的。

③ 关键词标签

关键词来源为两块：名词短语和用户 query。这是由于博文的文本较短所决定的 ( 90%以上都是100个字符以内 )，使用传统的主题模型方式并不奏效。

a. 名词短语抽取

首先我们先从名词短语抽取关键词说起，我们可从某个句子中获取依存句法相关信息。

如上图所示，有 Stanford NLP、哈工大 LTP 和 HanLP 等工具包可以获取句子的依存句法，可以根据多个 parser 解析出来的依存句法对名词短语进行提取，例如，击剑、比赛两个词。首先在 stanford NLP 中击剑、比赛为一个名词短语且在一个语块 ( chunker ) 下，同样其他依存句法工具也是击剑、比赛都为名词短语并且都为同一个语块 ( chunker )。这样多个句法分析工具输出结果都是一致的，我们就认为击剑比赛可以作为标签使用。

其次也可以从不同的分词结果对名词短语进行提取和校验。通过下列方式可以获取多个不同的分词结果：

❶ 同一个分词器不同的分词粒度。

❷ 同一个分词器 nbest ( 其它可能 ) 的结果

❸ 不同的分词器

使用不同的分词结果可以用于做名词短语提取正确性的校验。下文我们会详细阐述提取规则。

我们提取关键词短语有如下规则：

❶ 名词短语在多个句法 parser 中，在同一个 chunker 下，例如 "击剑比赛" 三个工具输出都是同一个 chunker。

❷ 长度大于等于三个字以上的名词，长度小于 L 的名词短语，不宜太长 ( 实际操作中长度不超过6 )。

❸ 名词短语边界与分词结果兼容，否则名词短语及名词短语所在同一 chunker 的短语不能作为候选。例如我们使用 Stanford NLP 依存句法结果与一个分词结果做兼容，依存句法结果：香农/在/信息论/中/把/信息/熵定义/为/自/信息/的/期望，分词器的结果：香农/在/信息论/中/把/信息熵/定义/为/自信息/的/期望。

可得到如下结论：

"信息论" 依存句法和分词都是同一个词说明兼容；
"信息熵定义" 依存句法分割为 "信息" 和 "熵定义"，而分词结果为 "信息熵" 和 "定义"，这两个切分的边界不一致。即依存句法边界在信息、熵的中间，而分词边界在熵、定义中间说明与分词不兼容。若依存句法为信息/熵/定义，那么熵、定义是拆开的，边界算是与分词保持一致，那么 "信息熵" 则与分词结果兼容；
"自信息" 依存句法为/自/信息/，分词结果为/自信息/，这里虽然依存句法自、信息被拆开了，但是与分词结果 "自信息" 是兼容的。
"信息熵定义"，依存句法结果为/信息/熵定义/，分词结果为/信息熵/定义/，因为分词结果/信息熵/定义/是拆开的，并且依存句法拆分不一致所以与分词结果不兼容，除非依存句法与分词结果拆分一致都为/信息熵/定义/，那么才说明与分词兼容。

❹ 使用多个分词结果校验提升关键词精度

最后，我们可根据以上所说的实体识别和名词短语规则将博文中词语提取出来做为关键词的候选。

b. 用户 query 提取

用户 query 作为关键词的条件：

❶ Query必须为高频

❷ 需要限制长度，不易太长

❸ 另外，query 会存在边界错误的情况。可使用新词发现的方式，通过左右信息熵和紧密度进行噪音过滤。

c. 匹配算法：

首先，我们可以使用高效匹配算法，Trie 树/Hash table、Double array trie (dat)、AC 自动机 ( 三者中 AC 匹配效率最高 )， 500w+ 的词典通过这些匹配算法，在博文上进行匹配。接着我们使用分词工具对文章进行分词，来校验分词的结果边界是否与匹配算法的结果兼容，输出最终兼容的结果。

其实该方法与上文说的提取名词短语思路相似，例如：关键词为 "史记"，而文中为 "历史记录"。在使用匹配算法时会将 "历史记录" 中的 "史记" 匹配上，但是经过分词工具时，分出来历史/记录，而史记被分开，"史" 与 "历" 链接，没有单独成块，同时 "记" 也与 "录" 链接，那么可以判定与其不能兼容。

有的同学会问，如果把关键词/实体词典加入分词用户词典，是不是同时解决了匹配问题和消歧问题？其实这是很难做到的，因为一般的分词词典词汇量约30-50万，分词的过程本身就是对句子消歧的过程，在分词的过程中往往借助词频、词性等其它信息，关键词/实体词 500W+，远超分词词典中词数量，如果放入分词用户词典，这些词会在匹配之后，在分词结果中保证不会被切开 ( 不同策略有所区别 )，将对分词的效果产生很大的负面影响。

d. 相关性

使用匹配算法和分词验证兼容性得到以上关键词，其中天龙八部、新笑傲江湖等是和电影相关的词，但是与博文中的主题相关性不一致 ( 主题是旅游 )，由于关键词需要映射到用户画像上来统计用户兴趣，这些词不能代表用户的偏好。

标签与博文的相关性计算流程为：获取文本向量 -> 向量相似度计算 -> 设置阈值过滤标签。其中，我们使用 bert 获取文本向量，博文和标签 ( 关键词 ) 分别以字的形式输入至 bert 模型中，对模型最后一层的每个字相加求均值，效果最好 ( 不同文本相似度计算任务向量取法有所区别，有的任务取最后一层 cls 的向量效果较好 )。我们用于计算相似度的 bert 模型是基于博文的分类 fine-tuning 结果的模型。

除了标签还进行了同义词、近义词和上下文词的挖掘，这里不展开做过多阐述。

④ 博文 embedding 标签

Embedding 标签通过用户的点击序列建模获取。模型如图所示，特征为 f0:用户id，f1: 用户的自身属性，f2: 用户点击列表，f3: 博文的id，f4：博文自身属性，label 为是否点击博文。如前文所述，用户的行为序列不能十分精准的获取，所以 embedding 的效果并不好。

以上就是基于博文的一些打标签的方式，下面我们再来讨论一下基于用户方面的标签。

❷ 用户兴趣标签

① 首先是基于模型 embedding 的用户兴趣标签：上文中有介绍，此方法效果不太好。

② 基于统计的标签：

❶ 标签可以分成三种类型，分别为长期、短期和即时。分别进行统计，就有了不同类型的标签，可用于做召回或者排序模型的特征。

❷ 关键词用户兴趣标签的特征有以下两个方面：一是，关键词在特定的用户行为中的曝光率、互动率、转评赞率和平均停留时长；二是，关键词在全量用户行为中的曝光率、互动率、转评赞率和平均停留时长，用来表示在大众整体的偏好，可用于排序的输入特征。

❸ 将用户生成博文 embedding 映射到用户兴趣标签中。

❹ 在以上计算用户兴趣的标签时，会用到一些平滑的策略。

——物料库——

对用户发博的博文做预处理，最终构建一个统一的基础物料库，实现各业务的物料共享，构建各业务需要的物料特征。

❶ 段子识别模型

各层的权重在训练过程中优化获得。在权重embedding的基础上进行reduce_mean操作获取到最终的embedding表示，进行sigmoid操作获取到相应的概率分数。我们基于人工标注的数据进行 bert 的 fine-turning。

❷ 物料评级模型

物料评级模型分成两块：一块是博文的内容，使用 bert 进行文本向量的抽取；另一块为博主的特征和上下文特征 ( 博主发博的上下文 )，比如博主等级，粉丝数，健康等级，博主昵称等，把相关特征拼接在一起，进行多分类。

——多模态——

上文也介绍过，对于文本较短的博文，我们没法获取太多的信息，这样需要借助多模态信息。

比如通过图像信息对文本内容的信息进行补充。那么通过该图像模态，我们可以打上美女这样的标签。

博文中出现了苹果，可能指代吃的苹果或者苹果公司。若借助图像可一目了然去除歧义。

❶ 多模态对偶模型

上图是在 BERT 发布之前的做法：多模态对偶模型，其中文本编码使用 lstm 模块，图像编码则使用 Inception-Resnet-V2 模块。两者编码对齐到同一个长度进行 attention-both 计算，之后两个模块分别与文本编码和图像编码进行加权计算，然后向量 add 输出多模态向量，最后解码进行标签分类。Attention-both 可以这样理解：由于 image、文本都编码为语义向量，单独的使用文本进行解码时，可以利用图片的 attention 信息，而单独使用图片解码时，可以利用到文本的 attention 信息，Attention-both 就是这两者的结合。模型效果相对于文本模型有一定的提升，但是性能会比较慢。

❷ BERT 多模态模型

① 预训练模型

BERT 出来之后，微软发表了图像结合 BERT 的多模态预训练文章。

其预训练除了文本还加入了图像的部分。首先把完整的图像做切分 ( Fast RCNN )，每个为一个个小块图片，并且做 mask 输入到模型中进行预测还原。

文本和图片的向量融合再进行预训练，输出文本和图片的联合向量。联合向量可用于相似博文的召回和根据博文内容来检索相似图片 ( 自动配图 )。

② 多模态打标签

我们也尝试在多模态预训练之后做打标签的任务，预训练的向量之后进行多分类的 finetuning。

——多任务——

对比之前版本的质量模型，多任务新增了 ctr 和停留时长的任务。整体效果会有些提升。

——大规模预训练模型技术——

有以下两种模型：BERT 和 GPT2，而这两种模型是有区别的。BERT 主要做编码，对文本进行理解。GPT2 则为做生成任务，可辅助写作。杜则尧同学开源了基于中文的 GPT2 模型：

https://github.com/Morizeyao/GPT2-Chinese

感兴趣可以具体了解。

除了 BERT 和 GPT2，还有 T5。T5 整合了 NLP 的四大任务：序列标注，分类任务，句子关系判断，生成式任务。

我们目前在大规模预训练模型技术，做了以下几块工作：

❶ 实现了 GPT2 模型的训练和推理

❷ 同时也实现了 T5 模型训练和推理

❸ 由于模型参数太多，性能太慢，我们尝试了模型的蒸馏、量化和 Tensor RT 以便提升性能

❹ 由于 T5 训练时是大杂烩，把所有任务和内容放在一块训练，我们认为把更相似的、可以相互影响的任务一起训练效果很更好

除此之外还孵化了以下几个项目：

❶ 机器翻译

❷ 复述系统

❸ 人工辅助写作系统

❹ 拼写纠错、语法检查和用词润色

——总结——

今天主要讲了新浪微博在 feed 流中遇到的 NLP 问题和解决思路。我们内部正与产品、架构团队积极沟通，以获取高精度的用户行为序列用于用户行为的分析和建模。由于博文较短，我们没有采用主流 LDA/PLSA 技术解决相关问题，而采用了更为传统的 NLP 技术和一些 trick 完成了实体/关键词的挖掘和相关性计算。

从技术来讲，随着预训练模型的出现，NLP 最近这几年取得了实质性的进展，但不可忽略的是：传统的 NLP 技术在某些场景下依然发挥着重要的作用。另外，一个技术趋势是在解决相关问题时逐渐从单一的技术走向多任务、多模态、多语言的融合。

分享嘉宾

▬

董兴华

新浪微博 | 资深算法专家

——END——

文章推荐：

推荐场景中召回模型的演化过程

知识结构化在阿里小蜜中的应用

DataFunTalk：

专注于大数据、人工智能技术应用的分享与交流。

一个「在看」，一段时光！ :point_down:

你可能感兴趣的:(tuicool)

VMware安装Centos7超详细过程（图文） MasterQu
原文：https://www.jianshu.com/p/ce08cdbc4ddb?utm_source=tuicool&utm_medium=referral本篇文章主要介绍了VMware安装Centos7超详细过程（图文），具有一定的参考价值，感兴趣的小伙伴们可以参考一下1.软硬件准备软件：推荐使用VMwear，我用的是VMwear12镜像：CentOS7,如果没有镜像可以在官网下载：http
Babel下的ES6兼容性与规范天幕下悠悠
Babel下的ES6兼容性与规范https://www.tuicool.com/articles/nEJRries5-shim也无法完全支持，如果想用react就要抛弃ie8至于es6有一些是es5根本没有的，即使babel了也无法支持，还是看浏览器这有一个babel编译后的兼容性，可参考：babel后es6兼容
为Java程序员而准备的Go入门教程指南 ArthurKingYs c++go java 程序员入门教程
https://zhuanlan.zhihu.com/p/24785820?utm_source=tuicool&utm_medium=referral作者：Dreawer链接：https://zhuanlan.zhihu.com/p/24785820来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。这篇文章是为了帮助Java程序员们迅速的掌握Go语言。本篇将先用Jav
运维相关收藏 purewater2014
一些小团队的自动化运维实践经验https://showme.codes/2018-06-07/devops-in-action/?utm_source=tuicool&utm_medium=referral
activemq性能优化掌少开发
转自：http://www.tuicool.com/articles/MfMNzyActiveMq运行是比较稳定的，数据的吞吐速度也很高，如果出现入队列或者出队列慢的问题，先检查一下自己的代码，是不是本身取到数据后处理过慢。本文的关于性能优化，其实是列举出一些需要注意的点，请确保你的项目没有一下问题：1.使用spring的JmsTemplateJmsTemplate的send和convertAnd
iOS核心动画高级技巧路漫漫其修远兮Wzt
1.IOS事件处理与图像渲染http://www.cocoachina.com/ios/20151203/14549.html?utm_source=tuicool&utm_medium=referral2.IOS核心动画高级技巧https://zsisme.gitbooks.io/ios-/content/index.htmlGitHub地址:https://github.com/ZsIsMe/
当下最新Java开发面试题汇总符文杰9527
原文地址：https://www.jianshu.com/p/faaa4c2a48fe?utm_source=tuicool&utm_medium=referral前言为了方便之后的面试复习，我把各类面试题给汇总了一下，每道题都是经过自己筛选后觉得需要掌握的，此次整理包括Java、数据结构与算法、计算机网络、操作系统、数据库等。文末我会把这些完整的答案放送给大家。Java篇(1).Java基础知识
R语言实现MapReduce的协同过滤算法张小琦数据挖掘
原文地址：http://www.tuicool.com/articles/63EjqiAuthor：张丹(Conan)Date:2013-04-07Weibo:@Conan_ZEmail:[email protected]:http://www.fens.me/blogAPPs:@晒粉丝http://www.fens.me@每日中国天气http://apps.weibo.com/chin
聊下并发和Tomcat线程数--转载 huchangan2005678 tomcat 性能配置
原文地址：http://www.tuicool.com/articles/2qe2Ije本文前半部分结论存在严重错误，请看最后2015-1-20更新部分。最近一直在解决线上一个问题，表现是：Tomcat每到凌晨会有一个高峰，峰值的并发达到了3000以上，最后的结果是Tomcat线程池满了，日志看很多请求超过了1s。服务器性能很好，Tomcat版本是7.0.54，配置如下：事后threaddump看
gitlab图形化使用教程（mtm推荐） weixin_30847939 git 运维 markdown
原文：http://www.restran.net/2016/02/23/git-and-gitlab-guide/?utm_source=tuicool&utm_medium=referral去年小组在从SVN和TFS迁移到Git的过程中整理了这份文档，面向的用户是对Git和SVN可能都不是很了解的人。看到自己写了这么多，于是就拿出来分享下，有些东西可能写得比较浅，有错误还请指正。1.关于Git
gitlab图形化使用教程（测试过） gb4215287 svn/git
原文：http://www.restran.net/2016/02/23/git-and-gitlab-guide/?utm_source=tuicool&utm_medium=referral去年小组在从SVN和TFS迁移到Git的过程中整理了这份文档，面向的用户是对Git和SVN可能都不是很了解的人。看到自己写了这么多，于是就拿出来分享下，有些东西可能写得比较浅，有错误还请指正。1.关于Git
iOS YYText富文本开源库 _KnowingNow iOS iOS
在infoQ上看到对YYText作者的采访：http://www.infoq.com/cn/news/2015/11/ibireme-interview?utm_source=tuicool&utm_medium=referral很强大的开源库想了解更多，可以打开git地址git资源：https://github.com/ibireme/YYText本地资源：http://download.csd
React Router 最新指南与异步加载实践 barnett_y 】
本文从属于笔者的React入门与最佳实践系列http://www.tuicool.com/articles/emayQ3IntroductionReactRouter是基于React的同时支持服务端路由与客户端路由的强大易用的路由框架，可以允许开发者方便地添加新页面到应用中，保证页面内容与页面路由的一致性以及在页面之间进行方便地参数传递。之前ReactRouter作者没有积极地开发与审核PullR
Grpc初体验安装测试 weixin_33929309 golang 数据库 python
2019独角兽企业重金招聘Python工程师标准>>>grpc初体验安装测试安装Protobuf-3.0.0下载链接：http://pan.baidu.com/s/1jGILD4q安装参考：http://www.tuicool.com/articles/nYZrmiGit安装参考：http://www.oschina.net/code/snippet_4873_1376Maven安装参考：http
零客户端开发经验 React Native 热更新 CodePush 打包集成指北 barnett_y 】
本文永久地址：github.com/rccoder/blog/issues/27，其他平台可能不是最新文章。文章评论等也希望去原文进行。https://juejin.im/post/5911dca544d904007bfdf8ab?utm_source=tuicool&utm_medium=referral一、背景我的毕业设计是用ReactNative写一款校园APP，服务端采用egg+Mongo
动态追踪技术-简介 weixin_33811961 操作系统 python 数据库
个人认为此文对动态追踪的东西介绍比较宽泛，但可用于指导学习动态追踪技术知识。特此转载。原文地址:http://openresty.org/posts/dynamic-tracing/#rd?utm_source=tuicool&utm_medium=referral动态追踪技术漫谈关于作者大家好，我是章亦春，网名agentzh。很多朋友可能是通过我做的一些开源项目了解到我的，比如我创立的OpenR
fastlane iOS android 集成打包夙愿_618f
Fastlane入门:初级使用篇http://www.jianshu.com/p/9f66b7a106ea使用fastlanegym/xctool编写ipa打包脚本http://www.jianshu.com/p/54ab07f2e63b/深入浅出Fastlanehttp://www.tuicool.com/articles/6ziMJfa
vmvare centos 7.0 root密码忘记后重置及总结 weixin_33991727
今天遇到了一个比较尴尬的事情，我centos7.0的虚拟机密码忘了.....里面还有我配置好的环境呢。于是我就上网上搜索各种方法，最后经我验证下面这个方法比较靠谱：使用光盘修复Centos：http://www.tuicool.com/articles/MJr2UzN下面这个方法在重启之后发生了错误，可能我开启了syslinux，可以参考一下：centOs7忘记root密码：http://blog
Docker背后的内核知识——Namespace资源隔离 liukuan73 docker docker namespace 内核
http://www.infoq.com/cn/articles/docker-kernel-knowledge-namespace-resource-isolation?utm_source=tuicoolDocker这么火，喜欢技术的朋友可能也会想，如果要自己实现一个资源隔离的容器，应该从哪些方面下手呢？也许你第一反应可能就是chroot命令，这条命令给用户最直观的感觉就是使用后根目录/的挂载
xcode 所遇到的坑 App Store 图片问题导致的随机崩溃成熟的
https://www.tuicool.com/articles/meiMZze9.1崩溃可能是图片引起的查看网址检查1.打一个ipa包，解压你的应用的ipa包，进入到你应用的Playload文件夹。进入到xx.app目录下.find.-name'Assets.car'2.xcrun--sdkiphoneosassetutil--info./Assets.car>/tmp/Assets.json生
CocoaPods - podfile 全面认知 YYLittleCat
https://www.tuicool.com/articles/6ZBvQbYhttps://blog.csdn.net/prettyfei1123/article/details/68060154
微信开发聊天机器人设计方案 java语言程序和数据库代码 wyx100 微信开发 java语言聊天机器人设计方案和代码微信开发聊天机器人设计方案和代码 java语言
转自：http://www.tuicool.com/articles/RBJfqyM使用Liferay和Lucene实现企业门户智能帮助机器人时间2015-04-3012:00:00IBMdeveloperWorks中国原文http://www.ibm.com/developerworks/cn/java/j-lo-LiferayLucene/index.html?ca=drs-企业门户智能帮助需
2020-04-28 移动端响应式解决方案小福子_1257
http://www.ruanyifeng.com/blog/2015/07/flex-grammar.html?utm_source=tuicoolFlex布局教程：语法篇HTML5----响应式（自适应）网页设计https://www.jianshu.com/p/073f58001538Flex.js讲解flex:http://caibaojian.com/flexible-js.htmlht
Docker学习笔记4: Docker-Compose—简化复杂容器应用的利器秋风小凉鱼 Docker学习笔记 docker集群管理 python-pip docker-compose
本文转载自http://www.tuicool.com/articles/AnIVJn.因Python语言，个人也没学过，不是太熟悉，这篇文章的代码格式排版不准确爆了很多错，让我走了好多坑，不过还是要感谢原文作者。在CentOS7系统上安装了docker-compose之后，我们以一个小例子来熟悉一下这个工具的使用.Docker-Compose使用使用Compose只需要简单的三个步骤：(1)首先
B版树莓派使用学习手札 bj123nimab vb2005xu自己动手系列 vb2005xu新技术灌水 vb2005xu软件学习树莓派 raspberry pi
配置:写道树莓派个人实测Q&A（最新修改使用windows连接远程桌面)http://www.eeboard.com/bbs/thread-5191-1-1.html树莓派的默认账号是pi,默认密码是raspberry,使用sudosu切换至根用户默认就有gcc树莓派相关的一些帖子:http://www.tuicool.com/articles/mINnmm链接远程桌面http://blog.16
每个系统管理员都要知道的 30 个 Linux 系统监控工具 ArthurKingYs linux linux 运维监控工具系统管理员
https://www.tuicool.com/articles/IzYNjyI您需要监控Linux服务器的性能吗？试试用这些内置命令和附加工具吧！大多数Linux发行版都附带了大量的监控工具。这些工具提供了获取系统活动的相关指标。您可以使用这些工具来查找性能问题的可能原因。本文提到的是一些基本的命令，用于系统分析和服务器调试等，例如：找出系统瓶颈磁盘（存储）瓶颈CPU和内存瓶颈网络瓶颈1.top
常见编码和加密 fmalz
ASCII编码ASCII码对应表Base64/32/16编码·16，32，64表示用多少个字符来编码·特征：大部分base64后面有1-2个等号·原理：https://www.tuicool.com/articles/2E3INnmURL编码·特征：含有%莫尔斯电码·特征：由点（.）、划（-）、每个字符间短的停顿（）、每个词之间中等的停顿（/）、句子之间长的停顿组成栅栏密码·特征：还是原来的字符，
swfit搭web端优优切克闹
【链接】[iOS]使用Vapor构建你的第一个SwiftWeb应用http://www.tuicool.com/articles/Bn2Y7nvapor的文档https://vapor.github.io/documentation/1.vapornewprojectName（最好建在桌面）
Angular vs React：谁更适合前端开发 yifanict angular 前端开发 react
翻译原文地址：http://www.tuicool.com/articles/Jb6bmuz原文地址：http://https://juejin.im/post/59ab51746fb9a024865d202bAngularvsReact：谁更适合前端开发大家总在写文章争论，Angular与React哪一个才是前端开发的更好选择（译者：在中国还要加上vue:P）。我们还需要另一个吗？我之所以写这篇
Ubuntu 16.04 apt-get 搭建 LAMP 环境 PythonShell 环境搭建 ubuntu server lamp apache
转载自http://www.tuicool.com/articles/2Evyq2VUbuntu的安装就不阐述了，网上有很多。Apache2$sudoapt-getinstallapache2//InstallApache2$apache2-v//VerifyApache2Serverversion:Apache/2.4.18(Ubuntu)Serverbuilt:2016-04-15T18:00
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {