一条水里的鱼

NLP篇【02】白话Word2vec原理以及层softmax、负采样的实现

上一篇：NLP篇【01】tfidf与bm25介绍与对比

下一篇：NLP【03】白话glove原理

一、什么是word2vec

Word2vec，即词向量。2013年，Google团队发表了word2vec工具。word2vec工具主要包含两个模型：跳字模型（skip-gram）和连续词袋模型（continuous bag of words，简称CBOW），以及两种高效训练的方法：负采样（negative sampling）和层序softmax（hierarchical softmax）。值得一提的是，word2vec词向量可以较好地表达不同词之间的相似和类比关系。Google提出的这个word2vec，极大的推动了自然语言处理的发展，所以后来Word2vec就成了词向量的代名词，我们口中的的word2vec有时特指Google发表的word2vec，有时又指由其他模型学习的词向量。

二、NLP词的表示方法

1、词的独热（one-hot）编码

用词向量来表示词并不是word2vec的首创，在很久之前就出现了one-hot的编码的词向量，这种词向量缺点：1、任意两个词的余弦值为0，无法表示词与词之间的关系。2、词向量是很冗长的，它使用是词向量维度大小为整个词汇表的大小，对于每个具体的词汇表中的词，将对应的位置置为1。所以就有了词的分布式表示 distributed representation。

2、分布式表示 distributed representation

Dristributed representation可以解决One hot representation的问题，它的思路是通过训练，将每个词都映射到一个较短的词向量上来。所有的这些词向量就构成了向量空间，进而可以用普通的统计学的方法来研究词与词之间的关系。这个较短的词向量维度是多大呢？这个一般需要我们在训练时自己来指定。词的分布式表示主要可以分为三类：基于矩阵的分布表示（共现矩阵）、基于统计的分布表示（tfidf）和基于神经网络的分布表示。

三、基于神经网络学习分布式词向量

在Google提出word2vec 12年之前， 2001年， Bengio 等人就正式提出神经网络语言模型（ Neural Network Language Model ，NNLM），该模型在学习语言模型的同时，也得到了词向量。但由于该模型训练速度非常慢，只适用小语料库，所以限制了词向量的应用。12后，Google提出的cbow和skip-gram模型，剔除隐藏层，模型更为简单，而且提出来了层softmax和负采样两种训练方式，大大加快了模型的训练速度，因此可以适用超大的语料库。一时间，word2vec在NLP界引起轰动，成了词向量的代名词。

四、训练word2vec的两种模型cbow和skip-gram

1、 Continuous Bag-of-Words (CBOW)

　　CBOW是用上下文预测中心词，即上下文为训练集，中心词为label，经典模型结构如上图，但比较抽象，不易理解。下面我举个例子，保证你能明明白白。假如语料库就一句话：I like studying very much，如下图：

　　窗口size为2（即上下文为I like very much，中心词为studying），1、首先把训练集做one-hot 2、再与词向量矩阵（这个矩阵就是最后我们需要的词向量矩阵）作矩阵相乘即得到每个词的词向量。3、把训练集4个词的词向量求平均值，记为平均向量 4、把平均向量与词向量的矩阵的转置作矩阵相乘，即得到了shape为（batch_size,vocab_size）在这里为（1,5）的向量，每个向量的值就是与每个词的余弦值 6、最后我们让标签对应的余弦值最大，即让交叉熵最小。

　　进一步想了一想的同学就会发现上述过程有两个问题 1、one-hot 中'very'中1的index为3，所以‘very’的词向量就是index为3的那行向量，所以没有必要去做矩阵相乘（毕竟矩阵相乘非常慢），直接索引就好了（的确，实际实现都是直接索引的，见不到one-hot）2、平均向量与矩阵向量的转置相乘，怎么能得到与每个词的余弦值得呢？（我建议大家拿起笔，演示一遍），是的，这里只是计算了余弦的分子部分，还没除于两个向量模的乘积。但当两个向量都进行l2_normal归一化后，即模变为1，两个向量的点乘就是余弦值。

　　其实这里还有一个大问题就是：我们最后的得到的向量shape为（batch_size,vocab_size），然后再求softmax与交叉熵以及梯度回传每次要更新所有词汇的embeding，这个复杂度是非常高的，因为在大的语料库中，vocab_size是非常大的，可达百万级或更高，所以google采用了层次softmax和负采样解决这个问题。

2、Skip-Gram

　　Skip-Gram的模型图与CBOW恰好相反，如上图所示，skip-gram是用中心词预测上下文，为了更好理解skip-gram，我同样举个例子，如下图：

　　同样语料库为I like studying very much，为了方便，设窗口size为1，中心词studying，则可以理解训练集为studying，标签为[0,1,1,1,0]。大致过程为1、对每个词进行数字编码，studying的编码为2 2、取词向量矩阵index为2的向量就是studying的向量 3、用studying的向量与词向量矩阵的转置作矩阵相乘，就会得到shape为（batch_size，vocab_size）这里就是（1,5），向量每个位置的值就是studying的词向量和每个词向量的余弦值 4、同label求交叉熵，使交叉熵最小并反向传播。很明显和cbow模型一样，复杂度与语料库中词的个数成正比。

五、加速训练word2vec的两种方式——层次softmax和负采样

1、层次softmaxt

　　首先，层次softmax是一棵huffman树，树的叶子节点是训练文本中所有的词，非叶子节点都是一个逻辑回归二分类器，每个逻辑回归分类器的参数都不同，分别用 $\theta _{*}$ 表示。假定分类器的输入是向量，记逻辑回归分类器输出的结果 $\sigma (\theta_{*}h)$ ，将向量传递给节点的左孩子的概率为 $\sigma (\theta_{*}h)$ ，否则传递给节点的右孩子的概率是 $1-\sigma (\theta _{*}h)$ 。重复这个传递的流程直到叶子节点。以cbow和skip-gram中的图为基础，更改之后的模型如下图所示：

图１　基于层次softmax的CBOW

图２　基于层次softmax的Skip-Gram

　　从图１和图２中可以看出，我们就是将隐藏层的向量直接传给了一个层次softmax，层次softmax的复杂度为。层次softmax采样到每个词的概率分别如下：

采样到 I 的概率 $p(I/context)=(1-\sigma (\theta _{1}h)) * (1-\sigma (\theta _{3}h))$

采样到 eat 的概率 $p(eat/context)=(1-\sigma (\theta _{1}h)) * \sigma (\theta _{3}h)$

采样到 to 的概率 $p(to/context)=\sigma (\theta _{1}h) * (1-\sigma (\theta _{2}h))$

采样到 like 的概率 $p(like/context)=\sigma (\theta _{1}h) * \sigma (\theta _{2}h) * (1-\sigma (\theta _{4}h))$

采样到 apple 的概率 $p(apple/context)=\sigma (\theta _{1}h) * \sigma (\theta _{2}h) * \sigma (\theta _{4}h)$

　　对于图1的CBOW模型，如果我们要预测的词是 to ，那么我们就要让尽量大一点，而对于图2的Skip-Gram模型，我们要根据to预测I，eat，like，apple，就是让sum(p(I/context),p(eat/context)...p(apple/context))最大，所以现在我们的任务转化为了训练个逻辑回归分类器。CBOW模型和Skip-Gram模型训练的目标函数与之前形式一样，为

　　有仔细思考的同学就会有疑问，这右边的哈夫曼树是怎么得到的呢？可以自行百度哈夫曼树的构造哈哈哈哈哈哈。

2、负采样

　　我看过大多数的博客，都没有把负采样讲明白。我争取用最通俗的话给他讲明白。拿cbow模型举例，回顾一下上述训练过程：获得上下文的向量特征后，要与语料库中每个词进行点乘（也就是求余弦值），然后softmax,最后根据label去损失，再反向传播回去。要与每个词都要计算一遍余弦值，是我们不愿看到的。所以负采样，就是先把正样本（上述过程就是‘studying’）拿出来，然后再选取一定数量的负样本（比如40个），如下图所示：

　上下文（窗口为2则为4个词）经过词向量矩阵获得对应的词向量，再求和平均得shape为（1，dim）（dim为词向量的维度）。正负样本组成41个词，经过词向量矩阵也得到了对应的词向量。最后把上下文向量与正负本向量相乘即可。

你可能感兴趣的:(【NLP】遇见电商❤️,word2vec,负采样,层次softmax,1024程序员节)

抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
似乎，发生了很多事情阿皮Ponder
似乎，有很多事情正在发生。今天，我跟夫人陪着孩子走进来幼儿园，人生头一回以孩子家长的身份参加了小小的班级家长会。在幼儿园，遇见老同学。从2017年开始失联，因为对方遇到了一些事情，跟大家都失去了联系，今日再见面，分外激动，他拉着我一直聊，一直聊。感谢我们的孩子。孩子有点咳嗽，去医院做了检查。叔叔家的两个妹妹开始了高中生活，新的开始。过去看望，遇到一位老师，很是面熟。咨询之下，果然，曾经初中母校的老
嘿，谢谢你小小玛拉沁
突然想对一个女孩子说，谢谢你！很久很久以前，总是觉得和你不会有太多交集，充其量也只是普通的舍友吧，毕竟有很多习惯，性格等方面相差甚远。其实特别感谢2017这一段经历和我遇见的人，只会慢吞吞的过自己生活的安小蜗是不会主动去结交朋友的，所以她来到了我的世界，让我在不知不觉中发现了自己太多太多的问题，而我正在逐渐去改变这些的习惯，成为更好的自己！我总是超级佩服她不管什么时候精力都超级旺盛，可以在上了一天
穷人做什么生意最赚钱？10个适合穷人赚钱的路子？氧惠爱高省
不管在什么地方，一般都是穷人占大量数，而富人只有少数，但是它们却掌握着大量的财富。对于穷人来说，想要买车、买房等奢侈品就难如登天，因为他们只能通过打工来赚取几千元的月薪。➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。（应用市场搜“氧惠”下载，邀请码:521521，全网优惠上氧惠！
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
直返APP是什么?直返APP是干嘛的氧惠帮朋友一起省
直返是一种电商购物模式，其核心特点是用户购买商品后可以获得直接返利。具体来说，用户在直返电商平台购买商品时，不仅可以获得商品本身的优惠，还可以获得一定的现金返利或者积分奖励。返利的金额可以提现到用户的账户余额，或者用于下次购物时抵扣。氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万
福袋生活邀请码在哪里填写，福袋生活app邀请码使用教程小小编007
很多人下载福袋生活后，注册使用时需要填写邀请码。因为福袋生活是注册邀请制，所以首次使用填写邀请码才可以正常登录使用。福袋生活是广州市福袋生活信息科技有限公司旗下一家多元化社交电商导购平台，以APP为载体，社群为媒介，汇集衣食住行、吃喝玩乐生活服务板块，使用福袋生活可以领到淘宝，拼多多等电商平台的商品优惠券和返利，还可以兼职去分享赚钱。我为什么从福袋生活转到果冻宝盒呢？当然是因为福袋生活返利更高，注
午间日记遥远的距离
有的人是来爱你的，有的人就是来给你上课的。我们会和很多人遇见，这其中有一些人，会给你爱。另外一些人，会给你伤害。有些缘分是好事，有些缘却是孽缘。不过它既然来了，也总会教会你一些什么。比如认清人渣，更明白什么是真正的爱。
上班的路毛毛虫小姑娘
七点半起床，拉开窗帘，天公不作美今儿是个阴雨天，天灰蒙蒙的，毛毛雨细细密密洒落下来。脑海里的两个小人开始斗争了，一个说：“毛毛雨啦，穿着风衣打着伞穿行在雨中，是一道亮丽的风景，说不定能遇见帅哥呢！”一个说：“不要不要，走到公司衣服鞋子都潮呼呼的，趴在身上很不舒服，外面湿气这么重，对身体不好！”我思索片刻，慢吞吞为自己冲了杯五谷粉，悠哉悠哉喝完去坐班车了。
《感恩日志》第八天祖乐
1.感恩武老师给姑娘朋友的宝宝起了名字。2.感恩张淑珍老师及时发的红包让我和杜姐能按时听课学习。3.感恩今天所有的遇见
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
新私域是什么平台靠谱吗氧惠佣金真的高
新私域指的是借助与互联网电商，随着平台内商家入驻量、用户量相辅相成的全国化平台。是否靠谱取决于平台是否合规。新私域指的是借助与互联网电商，在传统会员体系外新增的锁定用户跨平台、跨界收益，一种随着平台内商家入驻量、用户量相辅相成的全国化平台。关于新私域平台是否靠谱，这个需要看平台的底层逻辑是否合理、合法、合规以及平台的未来的发展方向氧惠APP抖音购物、看电影、点外卖、打车用氧惠APP！佣金更高、更优
果冻宝盒邀请码怎么填好，附6个顶级有效邀请码小小编007
在当今的电商时代，返利app已经成为了很多网购达人的必备工具。其中，果冻宝盒作为一款备受好评的返利软件，吸引了大量用户。而对于一些新手用户来说，填写果冻宝盒的邀请码可能会让他们感到困惑。本文将详细介绍果冻宝盒返利app，并指导用户如何正确填写邀请码。一、果冻宝盒返利app简介果冻宝盒是一款集折扣、返利、分享为一体的购物app。用户在果冻宝盒上购物时，不仅可以享受到商家提供的折扣，还可以获得果冻宝盒
5分钟说透AppStore审核原理，让你拥有上架新思路！ Q仔本人噢
在AppStore上架是越来越难了!相信非常多公司的技术人员都为此困扰，然而外包团队水平又层次不齐，容易遇坑，实在是内忧外患。是什么原因导致审核机制频繁调整？又是什么原因使得审核变得越发严格？那么接下来听小Q分解，马上给各位带来解答!首先看一下近一年的上下架的情况：近一年上架情况近一年下架情况通过数据我们发现越是马甲包产量权重高的分类里被下架的app数量越多，苹果此举可谓是上有政策，下有对策。通过
2022-10-10 幸福芳芳
10.10日觉察日记1.事件：开晨会员工来不齐，路远的请假，离得近的也请假，一律不批！2.感受：生气，气愤（情绪如何转化或使用）3.想法：1.今年已经很少开晨会了，非必要不会通知开会的，临近点了再打电话请假，又不是特别忙的季节，借口都会找～～2.不来的按公司标准执行负激励，待岗处理！我为你们负责，你们安全重要会议都不参加，自己都不为自己负责！以后有事也别找我！尤其是经销商老板，自己都不清楚自己用工
android 更改窗口的层次,浮窗开发之窗口层级 Ms.Bu android 更改窗口的层次
最近在项目中遇到了这样的需求：需要在特定的其他应用之上悬浮自己的UI交互(拖动、输入等复杂的UI交互)，和九游的浮窗类似，不过我们的比九游的体验更好，我们越过了很多授权的限制。浮窗效果很多人都知道如何去实现一个简单的浮窗，但是却很少有人去深入的研究背后的流程机制，由于项目中浮窗交互比较复杂，遇到了些坑查看了很多资料，故总结浮窗涉及到的知识点：窗口层级关系(浮窗是如何“浮”的)？浮窗有哪些限制，如何
莆田鞋在哪买？推荐二个靠谱渠道美鞋之家
莆田鞋在哪里买，莆田鞋一般在实体店或莆田鞋店购买，我觉得很多莆田鞋都是在莆田、广州、上海的鞋类批发市场购买的，价格非常方便。如果你想做莆田鞋生意，你可以去这些地方，如果你只想买一双莆田鞋穿，你可以在天猫和淘宝上买，因为淘宝的费用一般比较便宜。详细咨询VX→a40273莆田鞋在哪里买1、微商上购买，做莆田鞋微商代理的人群非常多，价格也比较实惠，但是也难免遇见高价卖的微商人群。其实莆田鞋的水很深，买之
258-各位相加不胖二十斤不改名zz
给定一个非负整数num，反复将各个位上的数字相加，直到结果为一位数。输入:38输出:2解释:各位相加的过程为：3+8=11,1+1=2。由于2是一位数，所以返回2。最简单的方法就是递归了。进阶:你可以不使用循环或者递归，且在O(1)时间复杂度内解决这个问题吗？假如一个三位数'abc'，其值大小为s1=100*a+10*b+1*c，经过一次各位相加后，变为s2=a+b+c，减小的差值为(s1-s2)
每天赚50零花钱的方法，日赚50元左右的5个正规渠道一起高省
每个人都希望拥有一笔自己的零花钱，但是很多人可能没有太多的时间去赚钱，或者没有太多的机会去赚取收入。但是，你可以通过一些简单的方法来赚取每天50元的零花钱。下面分享一些能每天赚50元的方法门路，总有一个适合你！①电商——高省高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。拂晓导师高省邀请码989898，注册送双皇
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
【自动化测试】UI自动化的分类、如何选择合适的自动化测试工具以及其中appium的设计理念、引擎和引擎如何工作 Lossya ui 自动化测试工具自动化测试 appium
引言UI自动化测试主要针对软件的用户界面进行测试，以确保用户界面元素的交互和功能符合预期文章目录引言一、UI自动化的分类1.1基于代码的自动化测试1.2基于录制/回放的自动化测试1.3基于框架的自动化测试1.4按测试对象分类1.5按测试层次分类1.6按测试执行方式分类1.7按测试目的分类二、如何选择合适的自动化测试工具2.1项目需求分析2.2工具特性评估2.3成本考虑2.4团队技能2.5试用和评估
十大适合穷人赚钱门路？普通人如何赚钱？没本钱赚钱快的方法？氧惠好项目
穷人赚钱门路哪个靠谱？生活越苦，就越要学习赚钱方法，赚到钱才能苦尽甘来；本文针对穷人如何赚钱这一问题，盘点了十大赚钱项目，其中有废品收购站、街边小吃、快递员、快递代理点、农村电商、承办酒席、网络主播、电脑维修等，下面跟随小编辑来看看城市和农村赚钱项目！1.废品收购站这个农村赚钱项目虽然名字听起来一般，但发展前景和利润还是很可观的。现在很多农村的基础设施并不够完善，无论大村小村，基本上都没有废品收购
弘一法师醍醐灌顶的五句话，渡了无数人梦润芳馨
一、凡是你想控制的，其实都控制了你自己。当你什么都不要的时候，天地都是你的；二、遇见是因为有债要还，离开是因为还清了，前世不欠，今生不见，今生相见，定有亏欠，缘起我在人群中看见你，缘散我看见你在人群中，如果流年有爱，就心随花开，如若人走情凉，就手心自暖；三、不要害怕失去，所失去的本来就不属于你，也不要害怕伤害，能伤害你的都是你的劫数；四、你以为错过了是遗憾，其实可能是躲过一劫，别贪心，你不可能什么
隔离在防晒霜前还是后防晒隔离霜和防晒霜的区别是什么氧惠导师
防晒霜是每天护肤的时候都需要使用的，主要针对的是紫外线，而隔离霜主要是用来隔离彩妆和空气中的脏东西，所以它用在化妆的前一步，即粉底液之前。二者缺一不可，也许很多人会说隔离霜有防晒成分，还要不要涂抹它，事实上，如果长期接触紫外线，只用隔离霜是不够的。➤推荐网购薅羊毛app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、
《海思沧海诗集》（2022年）如果没有你（170）海思沧海
如果没有你文/海思沧海或许我还没有去认真去想过，只是早已经习惯你的一切就像我们在不自觉中遇见，在不自觉中走过那么多年又到雨季，或许我们还会想起曾经的雨季或许生活只是平平常常，只是守候着曾经的那份甜蜜就像每一次你告诉我梦中的故事，或许一辈子时间并不是很长一切还没来得及感受，好像错过很多很多。就在阴雨连绵的雨季也许还可以记得曾经的古镇，那音乐穿过的夜空如果所有的恋情都是因为那份喜欢，永远无法改变的感觉
2021-11-26 雅雅_201d
感恩活着的美好幸福喜悦。谢谢谢谢谢谢感恩打卡261.感恩亲爱的自己每天坚定的动态静心，让我充满力量充满奇迹。谢谢谢谢谢谢2.感恩遇见的每一个在走心的人儿，高频的能量在深深的吸引着我引领着我。谢谢谢谢谢谢3.感恩范先生有着良好的生命状态，和高能量的智慧传递，让我愉悦安心。谢谢谢谢谢谢4.感恩宝贝女儿，积极正向充满力量，每一声回应都让我更加的安心更加的有力量。谢谢谢谢谢谢5.感谢亲爱的爸爸妈妈非常喜悦
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
Regular Expression 正则表达式 Aimyon_36 Data Development 正则表达式 redis 数据库
RegularExpression前言1.基本匹配2.元字符2.1点运算符.2.2字符集2.2.1否定字符集2.3重复次数2.3.1*号2.3.2+号2.3.3?号2.4{}号2.5(...)特征标群2.6|或运算符2.7转码特殊字符2.8锚点2.8.1^号2.8.2$号3.简写字符集4.零宽度断言（前后预查）4.1?=...正先行断言4.2?!...负先行断言4.3?Thefatcatsaton
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他