Tonylamam

Word2Vec (Part 1): NLP With Deep Learning with Tensorflow (Skip-gram)

Tensorflow上其实本来已经有word2vec的代码了，但是我第一次看的时候也是看得云里雾里，还是看得不太明白。并且官方文档中只有word2vec的skip-gram实现，所以google了一下，发现了这两篇好文章，好像也没看到中文版本，本着学习的态度，决定翻译一下，一来加深一下自己的理解，二来也可以方便一下别人。第一次翻译，如有不当，欢迎指出。

原文章地址：

Word2Vec (Part 2): NLP With Deep Learning with Tensorflow (CBOW）

文章如下：

下面我将写一写关于将词转化为向量的两种常用的技术：Skip-gram模型与CBOW模型。这两个都是学习词上下文的非监督学习方法。

文章的大致结构如下：

首先讨论一下Word2vec技术的动机，

然后我将会研究一下Skip-gram与CBOW模型运作的细节，

最后我会给出一些有助于理解代码的技术细节。

文章代码基于5_word2vec.ipynb（由python编写）

对Word2Vec的介绍

Word2Vec是一种有效的技术，以无监督的方式从大型文本预料库中获取知识。鉴于Web（或wiki）拥有大量的文本，自然语言处理可以以无监督的方式处理可用数据将非常有益。我们还应该理解到，给数据标注标签是一个非常繁琐和费力的任务，需要耗费大量的人力物力。而有关于这些技术的进一步阅读，可以参照Mikolov等人的文章Efficient Estimation of Word Representations in Vector Space和Distributed Representations of Words and Phrases and their Compositionality

词向量

那么Word2Vec是如何帮助我们处理NLP任务的呢？这是通过学习一个词汇的向量空间，并且相似的词汇将会相互靠近。打个比方，cat 将会和 kitten 很接近，dog 距离kitten 会远些，距离 iphone 则会更加远。通过学习词的数值表示，我们还可以进行很多向量操作得到一些有趣的结果。比如 kitten - cat + dog 得到的结果将会与 puppy 十分接近。

下面是一个学习好的词向量空间用T-SNE可视化的例子。可以看到相似的词汇彼此之间十分接近。

Skip-gram模型：一个学习词向量的方法

概要

接下来我们看看Word2Vec是如何运行的。skip-gram的主要思想是基于每个词的上下文训练模型，因此相似的词将会有相似的数值表达（相似的词向量）。比如，当我们看到如下的句子：cat climbed the tree ，对于我们的模型来说，如果看到 cat 这个词，说明我们预计很快会看到 climbed 与 tree 这两个词。充分地重复过后，我们的模型将会学习到给定词汇的向量表示。

现在我们来理解一下如何通过学习词的上下文来帮助我们学习到好的词向量。我们将在下列两个句子重复上述过程， cat climbed a tree 和 kitten climbed a tree ，如果我们使用(input : cat, output : tree) 和 (input : kitten, output : tree) 来训练模型的话，最终我们会使得模型理解到， cat 和 kitten 都与 tree 有关，因此 cat 与 kitten 在向量空间中会十分接近。

模型

现在我们来看看我们怎么样使得Skip-gram模型运行。

我们先定义如下的符号：

V - 词汇表的大小（语料库当中唯一词的数量）

P - 投影层或向量层

D - 向量空间的维度

b - 单个Batch的大小

我们假设的模型是简单的逻辑回归（Softmax）模型。因此高级的框架如下所示。下面给出了两个图，左边的是概念框架，右边的是实现框架。虽然框架不同，但是它们没有对功能做任何改变。

下面我们来说说两个架构有什么不同。为了方便说明，我们假设处理的句子为 The dog barked at the mailman 。我们可以将第一个模型可视化为一个正在对数据 (input:'dog',output:['the','barked','at','the','mailman']) 进行训练的模型，它们共享Softmax层的权重(weights)和偏差(biases)。换句化说，概念模型训练对同一个输入同时训练多个输出。然而这实际上很难实现。因此我们通常把元组 (input:'dog',output:['the','barked','at','the','mailman']) 拆分成为单个的二元组，如 (input:'dog', output:'the'),(input:'dog', output:'barked'),...,(input:'dog', output:'mailman') ，也就是右边图片的做法。

Skip-gram模型

数据收集

考虑如下句子，The dog barked at the mailman 。首先我们先选中 dog 这个词为目标词，然后我们定义窗口大小为 skip_window 也就是我们考虑目标单词上下文的个数（注意也就是考虑目标词前（或后）的词的个数）。比如我们选定 skip_window = 2 , 那么窗口内包含的词（也就是上下文）就是 ['The','dog','barked','at'] 。同样我们还定义 span 为窗口内词的总数（包括目标词本身，因此我们可以得到 span >= 2 * skip_window + 1 ）。另外还定义 num_skips 为在 span 内对目标词选取作为输出词的数目。现在假定 skip_window=2 且 num_skips=2 ，我们可以得到(input, output)元组为 ('dog','barked'),('dog','the') 。

在这里我们不叙述如何生成batch，具体的算法可以参考5_word2vec.ipynb中的 read_data , build_dataset 与 generate_batch 函数。更多注释的版本可以参考( 5_word2vec.py 和 5_word2vec_cbow.py )

我们只要知道，上面的几个函数可以将文本转化为数值表示。换句话说，它会赋予每个唯一的词唯一的编号（ID）。比如，将 The dog barked at the mailman 放入函数中处理之后，将会输出 [1,2,3,1,4] ，其中id(‘the’)=1, id(‘dog’)=2等等。

训练模型

现在我们有了(input, output)的二元组，接下来我们要利用它们来训练模型。下面我们将会解释如何利用tensorflow来实现skip-gram模型。

首先我们定义需要的 input, output 以及其它 Tensor 和参数值。

if __name__ == '__main__':
    batch_size = 128
    embedding_size = 128
    skip_window = 1 # How many words to consider left and right.
    num_skips = 2 # How many times to reuse an input to generate a label.
 
    valid_size = 16 # Random set of words to evaluate similarity on.
    valid_window = 100
    # pick 8 samples from (0,100) and (1000,1100) each ranges. lower id implies more frequent 
    valid_examples = np.array(random.sample(range(valid_window), valid_size//2))
    valid_examples = np.append(valid_examples,random.sample(range(1000,1000+valid_window), valid_size//2))
    num_sampled = 64 # Number of negative examples to sample for sampeled_softmax.
 
    graph = tf.Graph()
 
    with graph.as_default(), tf.device('/cpu:0'):
 
        # Input data.
        train_dataset = tf.placeholder(tf.int32, shape=[batch_size])
        train_labels = tf.placeholder(tf.int32, shape=[batch_size, 1])
        valid_dataset = tf.constant(valid_examples, dtype=tf.int32)
 
        # Variables.
        embeddings = tf.Variable(tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0))
        softmax_weights = tf.Variable(tf.truncated_normal([vocabulary_size, embedding_size],
                         stddev=1.0 / math.sqrt(embedding_size)))
        softmax_biases = tf.Variable(tf.zeros([vocabulary_size]))

现在我们定义符号操作。首先 embedding_lookup 用于查找 inputs 中相对应的 embeddings 。换句话说， embedding layer 的大小是VxD，其中包含词典中所有的词（V个）的词向量（D维）。为了训练单个实例的模型，你需要通过ID查找到给定输入单词的相应词向量（这里的 train_dataset 包含 batch 中每个单词相对应的一组唯一的ID）。尽管可以手动执行该操作，但是由于tensorflow不允许使用 Tensors 进行索引查找，因此我们需要使用该函数。

embed = tf.nn.embedding_lookup(embeddings, train_dataset)

接下来，我们使用 softmax 的一个更改版本来计算 loss 。因为正式文本的词典（V）可能非常大（接近50000），计算全部的 softmax loss 将会十分耗时。因此，我们从全部（V个）softmax units 中采样 num_sample 个作为 negative softmax units ，并且只使用它们计算 loss 。我们发现这是非常有效的对 full softmax 的近似，并且还提高了性能。

loss = tf.reduce_mean(tf.nn.sampled_softmax_loss(softmax_weights, 
                                                 softmax_biases,
                                                 embed,
                                                 train_labels,
                                                 num_sampled,
                                                 vocabulary_size))

现在我们使用一个高级梯度优化技术叫做 Adagrad ，它让我们“大海捞针”成为可能。它比标准的GD效果更好，因为 Adagrad 能胜任有多个变量 ( softmax_weights , softmax_biases 和 embed )需要优化的工作。要知道，所有这些变量的规模都达到 1,000,000 之大。

optimizer = tf.train.AdagradOptimizer(1.0).minimize(loss)

这个代码段使用所学习的词向量来计算一个给定的 minibatch 与所有单词之间的相似度（余弦距离）。

# We use the cosine distance:
norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), 1, keep_dims=True))
normalized_embeddings = embeddings / norm
valid_embeddings = tf.nn.embedding_lookup(normalized_embeddings, valid_dataset)
similarity = tf.matmul(valid_embeddings, tf.transpose(normalized_embeddings))

现在，所有需要的东西都已经定义好了，我们所要做的就是将数据喂给 placeholder 然后运行 optimizer 。optimizer 将会对参数( softmax_weights , softmax_biases 和 embeds)最小化 loss 。然后我们还要运行 loss 操作来输出 average loss 。这一步十分重要，因为我们可以通过 average loss 来观察训练过程中有没有出现问题。

with tf.Session(graph=graph) as session:
    tf.initialize_all_variables().run()
    print('Initialized')
    average_loss = 0
    for step in range(num_steps):
        batch_data, batch_labels = generate_batch(batch_size, num_skips, skip_window)
        feed_dict = {train_dataset : batch_data, train_labels : batch_labels}
        _, l = session.run([optimizer, loss], feed_dict=feed_dict)
        average_loss += l
        if step % 2000 == 0:
            if step > 0:
                average_loss = average_loss / 2000
                # The average loss is an estimate of the loss over the last 2000 batches.
            print('Average loss at step %d: %f' % (step, average_loss))
            average_loss = 0

现在每达到10000 steps 我们就通过 valid_dataset 中最相似的 top_k 个单词来评估我们的模型。

    # note that this is expensive (~20% slowdown if computed every 500 steps)
    if step % 10000 == 0:
        sim = similarity.eval()
        for i in range(valid_size):
            valid_word = reverse_dictionary[valid_examples[i]]
            top_k = 8 # number of nearest neighbors
            nearest = (-sim[i, :]).argsort()[1:top_k+1]
            log = 'Nearest to %s:' % valid_word
            for k in range(top_k):
                close_word = reverse_dictionary[nearest[k]]
                log = '%s %s,' % (log, close_word)
            print(log)
final_embeddings = normalized_embeddings.eval()

实验结果
如果在之前过程之中没有出现错误，你应该能看到随着时间的推移，词相似度的提升。这里是我在第0步和第10000步的结果

==========================================================================================================
Average loss at step 0: 7.805069
Nearest to when: drummer, acceleration, compost, loan, severe, quicker, nite, pies,
Nearest to people: hr, infertile, detractors, programmability, capacitors, lounge, report, horn,
Nearest to american: department, corvettes, rejoining, lindy, laconic, wels, kojiki, bibliography,
Nearest to than: dallas, corrino, whispers, empowered, intakes, homer, salvage, fern,
...
Nearest to except: finite, altitudes, particular, helper, endeavoured, scenes, helaman, myocardium,
Nearest to report: occupants, costing, brooker, armas, adversaries, powering, hawkwind, people,
Nearest to professional: bronx, covalently, reappeared, inti, anthologies, alaska, described, midwestern,
Nearest to bbc: cruzi, galatia, football, grammaticus, tights, homilies, agonists, turbines,
==========================================================================================================
Average loss at step 100000: 3.359176
Nearest to when: if, before, while, although, where, after, though, because,
Nearest to people: children, students, players, individuals, men, adapting, women, americans,
Nearest to american: british, australian, german, french, italian, scottish, canadian, soccer,
Nearest to than: or, much, announcements, and, leningrad, spark, kish, while,
...
Nearest to except: especially, embodied, endeavoured, scenes, devonshire, every, indoors, example,
Nearest to report: sloop, woodbridge, costing, pit, occupants, atheism, jannaeus, uns,
Nearest to professional: anthologies, major, cumings, inti, reset, hollow, copyrighted, covalently,
Nearest to bbc: paper, galatia, fliers, flavia, earth, manufacturing, icosahedron, grammaticus,
==========================================================================================================

以上就是skip-gram模型的内容，下次将会翻译CBOW模型的内容～敬请期待～

【算法编程心得记录】沉木渡香算法心得体会程序人生学习方法
算法编程实现中，依然遵循易于阅读理解，模块解耦的原则。自顶向下分成三个层级业务层->原理层->计算层。三者之间尽量互相分隔。一、业务层主要指适配业务流程完成相关处理，如，模式的切换，上下游数据转移等操作。二、原理层主要指算法实现的原理步骤，如先提取细节，再计算关键参数，再增强等。三、计算层主要指具体的计算实现，该层既有基础的加减乘除，也有标准计算，如直方图。此处和原理层偶尔会存在交叉的情况，这时候
我的编程之旅数字化信息化智能化解决方案年度征文
在科技的世界里，每一个代码的诞生，每一个项目的完成，都是一个旅程。我有幸与CSDN一起走过这段旅程，体验到了无数的挑战与成长。初识CSDN，是被它丰富的技术文章和活跃的社区氛围所吸引。在这里，我遇到了许多志同道合的伙伴，我们共同探讨技术难题，分享编程心得。CSDN为我打开了一个全新的世界，让我看到了无限的可能性。在CSDN的陪伴下，我经历了许多难忘的时刻。我记得为了解决一个棘手的问题，连续熬了好几
【干货】Shell编程心得 Jaime.Wong SHELL编程 linux 运维服务器 bash
文章目录前言符合代码规范代码有注释参数要规范变量和魔鬼数字缩进有规矩命名有标准编码要统一文件可执行权限错误处理和调试回显密码要移除太长要分行勤用引号使用新写法数值计算文件结构SUIDSGIDSBIT勤查资料勤练习、勤分享前言随着技术的发展，虽然出现了许多现代的编程语言，但Shell编程由于其独特的优势——简洁性、高效性和在Linux系统中的无处不在，仍然保持着其重要性。以下是笔者多年积累的一些Sh
Scratch（一）：认识Scratch编辑工具小猫学编.. Scratch图形化编程
上一个帖子带着大家了解了Scratch的【前世】和【今生】，那么今天就来教大家认识Scratch这个编程工具，并制作第一个小程序。编程是什么？无意间看到国外一个七岁女孩对编程的感悟，顿时感觉自叹不如啊。写出来和大家分享。菲茨杰拉德的七岁女儿编程心得：我学到的关于编程的5件事：1、计算机很傻，只会做那些你让它做的事情2、编程真的很难！你必须非常的认真3、你告诉它去做事情时必须按正确的顺序4、你可以用
linux进程创建心得体会,Linux系统下计算机C语言编程心得体会 weixin_39906878
摘要：C语言编程是目前计算机领域中应用较为广泛的编程语言,很多信息系统都基于C语言编程实现。Linux系统是免费且可以自由传播的操作系统,支持多用户、多平台应用,实际生活中应用也较为广泛。如何基于Linux系统进行C语言编程是编程人员面临的重要问题。这两种技术结合利用时需要掌握一定技巧,基于这一要求文章对基于Linux系统的C语言编程技巧进行了简单分析,为编程人员利用Linux系统和C语言编程提供
编程心得2 刘潇Edge
作为一个没有数学天赋的人来说，学习编程是一件自讨没趣的事情。对未来的职业规划也没有想做一名程序猿；工作内容也用不到编程；之前对黑客炫酷的想象，现实却枯燥乏味；流行的编程语言就有十几种，而且这些东西始终在更换，学到死也学不完。以上任何一点都可以让我放弃，之所以没有放弃不是因为“要做一个持之以恒的人”、“自己说出去的话，就应该说到做到”、“要做生活的勇者，不被挫折打败”等一些所谓正能量的屁话。对我来说
【Visual C++】游戏开发笔记十五游戏人工智能（一）运动型游戏AI . Jackchenyj 别人的好帖子/转载游戏 c++null image 算法 hp
本系列文章由zhmxy555编写，转载请注明出处。http://blog.csdn.net/zhmxy555/article/details/7434317作者：毛星云邮箱：[email protected]欢迎邮件交流编程心得我们常常听闻AI（ArtificialIntelligence人工智能）这个名词，比如Dota里面的AI地图。写这篇文章的时候，最新版的DotaAI是6.72f，估计过
c++虚函数详解 Ouyang_Lianjun c++进阶多态虚函数纯虚函数
前言博客编写人：Willam博客编写时间：2017/3/21博主邮箱：[email protected]（有志同道合之人，可以加qq交流交流编程心得）1、引入虚函数的目的在基类的派生类中就可以通过重写虚函数来实现对基类虚函数的覆盖。当基类的指针指向派生类的对象时，基类指针对虚函数的调用实际上是调用了派生类的虚函数。这是面向对象中多态性的体现。白话就是：为了实现类的多态，所谓的多态（多态就是：调用成
【深圳1024开发者城市聚会定向征文】 AI 智能服务 AI训练师 CSDN开发云
在这个周末，我有幸参加了1024程序员节活动，这是一个专门为程序员们举办的活动，旨在庆祝程序员这个特殊的群体。在这个活动中，我不仅感受到了浓厚的编程氛围，还收获了许多宝贵的经验和知识。活动在深圳湾科技生态园举行。活动主题涵盖了从技术到技术管理，从技术到业务市场，从技术到个人创业等多个领域，让我深感程序员这个职业的无穷魅力。在活动中，我与其他程序员们分享了编程心得，讨论了技术问题，并结识了一些志同道
面向对象编程心得 superfatsheep 总结对象继承面向对象编程 java
1、类之间的关系可以分为：关联、聚集、包容、继承。它们都是用来模拟现实生活中各个对象之间的关系的。2、包容：即一个对象由另一个对象所专有。前者我们可以用内部类来模拟。3、对于某些可能发生的运行时异常，比如：因找不到url所对应的文件而不知道返回什么等等情况，我们应该对涉及到的方法（可能抛出异常）或者是用到的可能导致异常抛出的数据域通过方法形式的封装来进行封装，并try-catch异常，以图安全。4
2D游戏效果之五：一个跑酷游戏的小Demo 欢乐的工科小硕 C++mfc C++游戏 demo
转载:http://blog.csdn.net/crocodile__/article/details/17357533本文由BlueCoder编写转载请说明出处：http://blog.csdn.net/crocodile__/article/details/17228209我的邮箱：[email protected]欢迎大家和我交流编程心得我的微博：BlueCoder_黎小华欢迎光临^_^最
开启编程之门编程之路，妙趣横生编程启航
自我介绍目前已经大二了，计算机专业在读，是一个热爱编程，做事踏实专注的人。转眼间一年已经过去了，也接触编程一年了，但开始并没有对所学所想进行很好的总结和输出，这一年也有了新的很多感悟与心得，想和大家分享一下。编程心得1.动手是关键纸上得来终觉浅，绝知此事要躬行！这句话用在在编程上相当贴合，实践是检验真理的唯一标准，看会永远不代表掌握，只有真正自己动手了，才知道自己几斤几两，因此眼高手低是大忌！2.
单片机编程心得体会 hhappy0123456789 tomcat
无论什么时候我们都要以实际应用的角度去考虑程序的编写2.无论什么时候都不要让CPU白白浪费等待尤其是延时(超过1MS)这样的地方3.设计相应驱动电路时候应该仔细阅读芯片的数据手册了解每个引脚的驱动能力以及整个芯片的驱动能力4.最重要的是如何去释放CPU(如果是led每500ms闪烁一次那么可以设置1ms为基准定时器定时1ms后进入相应操作使计数加1判断达到500时进入led(),这些函数执行的时间
python编程心得体会800字_Python学习心得体会 weixin_39822493
首先最开始，我们要明确一点，学习编程不是一日之功，需要每天投入时间学习，也不可纸上谈兵，需要自己亲自操作，不动手就不会发现问题，动了手印象才会深刻，记得更靠。接下来我就稍微总结一下，我在学习中遇到的问题和一些心得体会。1.修改字符串大小写时常用的方法有upper，lower，局限性就是真个字符串都会变化，还有一种叫title的方法，可以只把首字母大写，非常好用。2.列表本身是有顺序的，而且非常非常
python编程心得体会800字_学习python的心得体会 weixin_39548740
我自己将要向数据处理方向走，数据处理需要网络爬虫的知识，且更加精进。下面是我从网上查找这方面的信息，怎么才算对python有了更深层次的了解第一层：python的基本语法和标准库既然你要会python开发，那么语法基础和库是最基本的。第二层：Linux基础全栈和运维涉及linux服务器的操作，那需要shell编程和linux基础操作的基础能力。数据分析其实就没有这一层，涉及是数据采集，也就是爬虫。
每日一感知——初学编程心得好人他哥
最近我在学习c语言，零基础入门的我正在看极客时间里大神推荐的一本能称得上在马桶上可以看完的书——《啊哈c语言》。看此书有三五天时间，随着点滴的皮毛学习并结合之前考虑为什么要学习c语言的过程作一下总结。先说一下我为什么要学习编程？为什么选择c语言？电脑，手机可以称得上人手一个了。我们每天在应用的其实是载于硬件之中的软件及app，我们用的办公软件，游戏，社交，购物，及各个小程序，和我们可以说形影不离了
编程心得沧浪之水v
设计5分钟，命名3分钟，编码1分钟，调试8分钟如果你没有五年以上编程经验，你真的很难懂得什么是“面向对象编程”如果过了3-7天你再去看你以前写的代码没有吐，那么说明你在编程能力上真的没有进步当你认为这个功能/需求/任务，实现很简单，我脑中一想就像编译器一样“模拟”出了结果。那么你往往一写就死，如果侥幸跑起来了，那么相信我，一般都有不易发现的逻辑错误。有时候你会想什么是能力，什么是技能，什么是永恒的
Python之学会测试，让开发更加高效程序员Maria
前几天，听了公司某位大佬关于编程心得的体会，其中讲到了“测试驱动开发”，感觉自己的测试技能薄弱，因此，写下这篇文章，希望对测试能有个入门。这段时间，笔者也体会到了测试的价值，一句话，学会测试，能够让你的开发更加高效。本文将介绍以下两个方面的内容：TestwithCoverageMockTestwithCoverage测试覆盖率通常被用来衡量测试的充分性和完整性。从广义的角度讲，主要分为两大类：面向
深夜2点的编程心得：尽量避免推倒重来代码演奏家代码规范
深夜2点的编程心得：尽量避免推倒重来大家好！此刻深夜2点，我在修改代码的过程中感悟颇深，决定和大家分享一下这段经历。希望你们能从我的故事中找到一些启发，避免犯我所犯的错误。故事的起因：编写编译器遇到的困境我正在编写一个自定义语言的编译器，目前已经进行到了parser部分。但因为语义分析的deadline临近，parser部分写得又十分糟糕，我开始感到焦虑。经过今晚，我有了一个坚定的信念：绝对不重新
Python之学会测试，让开发更加高效（一）山阴少年
前几天，听了公司某位大佬关于编程心得的体会，其中讲到了“测试驱动开发”，感觉自己的测试技能薄弱，因此，写下这篇文章，希望对测试能有个入门。这段时间，笔者也体会到了测试的价值，一句话，学会测试，能够让你的开发更加高效。本文将介绍以下两个方面的内容：TestwithCoverageMockTestwithCoverage 测试覆盖率通常被用来衡量测试的充分性和完整性。从广义的角度讲，主要分为
编程心得 faadfafasd
1.启动：得心应手的工具1.1全能IDE关于IDE，目前我使用IntelljIDEA和SublimeText来应对各种语言的开发。在大学期间初学Java时曾使用过MyEclipse，后来职业生涯的前期很自然的过渡到了更加灵活的Eclipse。但两年前经过不断的试用丢弃再试用，最终我成功从Eclipse转投到了IntellijIDEA阵营。在那之后就一发不可收拾，不仅重度使用Intellij，而且还
2D游戏引擎Allegro 系列教程（三）加载并显示图片! 小泰勒 2D游戏引擎Allegro 2D游戏引擎Allegro教程
本系列文章由sky编写，转载请注明出处。http://blog.csdn.net/qq573011406/article/details/8220208作者：袁全伟邮箱：[email protected]欢迎邮件交流编程心得本系列教程索引：2D游戏引擎Allegro系列教程（一）配置allegro开发环境2D游戏引擎Allegro系列教程（二）Helloworld!2D游戏引擎Allegro系
士不可不弘毅，任重而道远——2021年总结巴山农夫闲言碎语年终总结
目录回顾工作改弦易辙年度超人回顾学习学历教育重拾博客在线课程编程心得体会Linux：永远的神K8S：真不错Java：内卷生活心得体会游戏短视频总结小时候就听说，大人的世界里，时间过得更快，而且年龄越大，速度越快。童年时，我对此难以置信。2021年末，我迎来了30岁生日。而现在回想过去的一年，感觉短暂得就像小学时一个四十多天的暑假。回顾工作改弦易辙从程序员的技术成长的角度来说，过去的一年还是有不小的
java实验网络编程心得体会，万分膜拜！胖嘟嘟的程序员程序员面试经验分享 java
并发历史在计算机最早期的时候，没有操作系统，执行程序只需要一个过程，那就是从头到尾依次执行。任何资源都会为这个程序服务，这必然就会存在浪费资源的情况。这里说的浪费资源指的是资源空闲，没有充分使用的情况。操作系统为我们的程序带来了并发性，操作系统使我们的程序同时运行多个程序，一个程序就是一个进程，也就相当于同时运行了多个进程。操作系统是一个并发系统，并发性是操作系统非常重要的特征，操作系统具有同时处
js实现简单贪吃蛇游戏不吃糖的感叹号
编程心得最近一段时间对于js部分理解起来比较吃力，掌握的内容少之又少，在编程的过程中也是属于懵懵懂懂的状态，凭借对白天老师所讲解的部分记忆，又在课后时间查询，借鉴，思考，坎坎坷坷的先码出一些代码，以此为记。一、编程思路1、找对象①蛇对象：属性：长度，起点位置（x，y），当前方向方法：渲染，更新（按键控制，变长）②食物对象属性：大小，背景颜色方法：渲染，改变位置③游戏引擎属性：行数，列数，游戏场景，
Java编程心得总结如果仲有听日
学习java已经一个多月了，期间在windows安装了eclipse，学习了java基本语法，在win_eclipse中谢了一些简单的demo程序和hadoop生态系统接口，遇到了很多问题，踩了很多坑，自己踩了一个礼拜，如果按照我的总结来学习，2天就可以上手了，现在总结如下：1.eclipse在windows下的安装（半天）安装eclipse总体来讲很简单，首先安装jdk，然后安装eclipse，
日常编程心得余丰旭算法
2021年2021年8月1个字节8位二进制下，最小值-128的二进制是10000000这是人为规定的，-1的二进制是11111111。想一下为什么是这两个形式，因为-127=-128+1是10000001，-126是-128+210000010，那么-1就是-128+127=11111111。最短路径，通常用BFS来解决。单源最短路径使用djikstra算法。任意两点间最短路径使用floyd算法。
《重构改善既有代码的设计 2》重新组织函数、数据素小暖 #重构改善既有代码的设计
/**@startTime2020-12-2015:30@endTime2020-12-2021:00@startPage103@endPage130@efficiency130/5=26页/天@needDays412/26=16天@overDay2020-12-16+16天=2020-12-31*/第五章重构列表第5~12章构成了一份重构列表草案，其中所列的重构手法来自作者数年的编程心得。1、重
Delphi网络Web编程心得 eulb Delphi
URL编码可以使用HttpApp.pas中的HTTPEncode对百度,直接使用HTTPEncode()编码就好了,但对Google,有点特别,需要做如下的编码HTTPEncode(UTF8Encode(url))即先做utf8编码再做url编码IdHTTP的设置IdHTTPWorker.AllowCookies:=False;IdHTTPWorker.HandleRedirects:=False
【Visual C++】游戏开发笔记之四——游戏画面绘图（一）基本图形绘制 iteye_15968
本系列文章由zhmxy555编写，转载请注明出处。http://blog.csdn.net/zhmxy555/article/details/7333886作者：毛星云邮箱：[email protected]欢迎邮件交流编程心得从本篇文章开始笔锋一转，展开介绍了GDI相关的知识，想知道浅墨具体需要更改思路的原因，请移步本系列文章的第一篇：【VisualC++】游戏开发笔记之一——API函数、D
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

Word2Vec (Part 1): NLP With Deep Learning with Tensorflow (Skip-gram)

你可能感兴趣的:(编程心得)