墨客无言

NLP笔记：word2vec简单考察

NLP笔记：word2vec简单考察
- 1. 简介
- 2. word2vec原理介绍
- 3. gensim实现
- 4. tensorflow实现
  - 1. cbow方式
  - 2. skip gram方式
  - 3. 直接生成方式
  - 4. 结论
- 5. pytorch实现
  - 1. cbow方式
  - 2. skip gram方式
- 6. 总结
- 7. 参考链接

1. 简介

word2vec是nlp之中蛮老的一个技术了，讲道理工作了两年多也基本没有用过这个玩意，除了刚开始工作的时候用了一下之后后面基本就是直接训练了。

word2vec顾名思义，其实就是将word从id转换至一个embedding向量，算是一个比较原始的迁移学习方式，从大量的无标注数据中训练出词向量，然后迁移至其他学习任务当中，可以更好地对词向量进行表达。

在早期的nlp任务当中，像是ner啊或者pos等任务当中，我们往往缺乏足够多的标注数据（事实上现在这部分标注数据也不多），因此我们往往会希望通过其他方式预先学习到一些词向量信息，这样就可以减轻模型整体的学习难度，进而优化模型的整体效果。

其中，关于word2vec一个比较有代表性的工作就是glove词向量。

但是当数据量本身足够时，这种方式就显得有些没有必要，更不要说后面以bert为代表的预训练语言模型的出现之后，word2vec技术就显得太过粗糙也没有必要了。

事实上，就笔者个人所知，从18年底之后似乎也就基本再没有在听到过什么相关的工作了。

但无论如何，作为一种早期的预训练词向量技术，这里还是可以来稍微复习一下的，实在不行用来熟练一下tensorflow以及pytorch的coding技术也是可以的

2. word2vec原理介绍

如前所述，word2vec的本质是无监督地将词学习为一个词向量，即做一个id到vector的映射，有点类似于图片的转换生成模型，先将图片通过一个encoder转换为一个表征向量，然后再通过一个decoder重新恢复为一张图片。

同样的，word2vec的训练方式也是相仿，首先将词汇的通过一个embedding层变换为向量表达，然后再尝试对其进行还原为one_hot形式的词汇id。

根据具体的训练方式不同，他们又主要分为以下两种训练方式：

cbow训练方式
- 通过前后的token来学习目标token；
skip_gram训练方式
- 通过当前的token来学习其前后的token；

不过我其实蛮好奇的，为啥不直接预测其本身呢？就是说，我直接输入n个词，将其转换回其本身不就结了？于是我也跑去做了一下实验，结果果然不理想。

后来仔细想了想也是，如果单纯就是那样计算的话，就变成了这样：

$\cdot A \cdot B = Y$

其中， $X$ 为输入的句子，其中每一行都是一个one_hot向量，而 $Y$ 是恢复得到的目标矩阵，目标就是要令 $Y$ 尽可能等于 $X$ 。

我们考察 $Y$ 中的任意一个元素 $y_{ij}$ ，则有：

$y_{ij} = \sum_{\alpha}\sum_{\beta}x_{i\alpha}\cdot a_{\alpha\beta} \cdot b_{\beta j}$

很显然，他并没有用到其他词汇的信息，因此，我们无法学习到词与词之间的相关性。

唉，只能说，经典果然是有经典的理由的。

3. gensim实现

gensim是一个开源的机器学习相关的工具库，其中包含了word2vec的训练。

因此，我们这里首先介绍一下使用gensim进行word2vec的训练方法。

首先，需要将数据处理为如下格式：

元芳 你 怎么 看 ？

数据文件中单行为一句话，每句话分好词之后词与词之间使用空格进行分隔。

我们令训练数据为train.txt，则我们可以快速地给出模型训练脚本如下：

from gensim.models import word2vec

sentences = word2vec.LineSentence("data/train.txt")
model = word2vec.Word2Vec(sentences, size=100)
model.save("model/word2vec.model")

三行代码的事，简单的不能再简单。

不过，如果使用gensim进行word2vec的训练的话倒是可以很方便的获取与某个词最为关联的几个词，其代码实现如下：

from gensim.models import word2vec
word2vec_model = word2vec.Word2Vec.load("model/word2vec.model")
word2vec_model.predict_output_word("花果山", topn=5)

不过，倒是好像没有办法直接获取某个词的embedding结果。

4. tensorflow实现

现在，我们来使用tensorflow来自行实现以下word2vec的模型训练。

根据训练策略的不同，我们分别给出cbow和skip gram方式的代码demo如下。

为了更好地进行形象化地说明，我们设置embedding_size=2，这样，我们就可以直接在二维图表中将结果进行呈现了。

这里所有的代码我们都已经放到我的GitHub仓库当中了，这里，我们就只给出我们的实验结果进行说明。

1. cbow方式

我们给出使用cbow方式训练word2vec模型前后的embedding结果如下图所示：

训练前

训练后

可以看到：

在embedding维度为两维的情况下，输出结果并没有呈现较好的团聚效果；
但是明显可以看到，词汇的分布间确实受到了训练的影响产生了聚合的现象。

2. skip gram方式

同样的，我们给出skip gram方式下的tensorflow实验结果如下：

训练前

训练后

可以看到，其结果与上述使用cbow方式训练得到的实验结果相仿。

3. 直接生成方式

另一方面，上面我们理论分析了一下是否可以通过直接预测的方式进行词向量的训练，得到结果如下：

训练前

训练后

可以看到：

和我们的理论分析相一致，训练前后词的embedding结果并没有显示出团聚特性，词和词之间的相似性信息完全没有学习到。

4. 结论

我们整理结论如下：

结论而言，在二维情况下，当前并没有很好的学习到词与词之间的相似性信息，这方面的原因可能有很多，包括：
1. 可能由于二维情况本来就不太足以表达复杂的词相似性信息；
2. 可能由于我们当前给出的训练数据量不足（毕竟我们在数据处理过程中为了图快每个句子中只取用了一个窗口的数据，导致使用的信息量其实很少）；
3. 可能由于我们的窗口选择不合理，窗口太短一些本应该有关联性的词并没有出现在一个窗口当中；
4. ……
但是，我们确实又看到模型的embedding结果之间出现了团聚的特性，说明我们当前的代码实现确实是正确的；
此外，我们还对直接进行word2vec训练的方式进行了测试，发现其效果确实和我们的理论分析相一致，无法学习到词汇间的关联信息。

5. pytorch实现

同样的，我们给出pytorch的代码实验结果如下。

1. cbow方式

给出cbow方式的模型训练结果如下：

训练前

训练后

可以看到：

我们使用pytorch进行cbow方式的word2vec训练，得到的结果与tensorflow是基本一致的。

不过这其实也是一个正常的结论，毕竟归根究底，tensorflow以及pytorch不过是两个高度封装的数学工具罢了，只要调整好相应的初始参数和运算方法，其结果本就应该是一致的。

2. skip gram方式

同样的，我们给出使用pytorch进行的skip gram方式下的word2vec模型训练结果如下：

训练前

训练后

同样的，其结果与之前的结果相一致。

6. 总结

这里，我们简单的回顾了一下word2vec的概念以及训练方式，并在tensorflow以及pytorch框架下分别进行了代码实现，并进行了一些简单的实验，其相关的代码全部位于我们的GitHub仓库当中。

为了保证我们结果的直观性，我们定义word的embedding维度为2，结果而言我们观察到了embedding的聚合，但是词和词之间的关联性方面并没有很好的结果表达，这方面还可以进行更多的实验考察，但这里暂时就不进行更深的展开了。

另一方面，在pytorch的代码实验当中，由于对pytorch的不熟悉，也是踩了不少的坑，包括：

pytorch与tensorflow在参数初始化时的默认值不一致的情况；
pytorch与tensorflow在cross entropy loss定义上的参数以及功能不完全一致的情况；
pytorch对于GPU的使用方法；
……

其中，有关问题二，我们已经在我们的另一篇博客（NLP笔记：浅谈交叉熵（cross entropy））当中进行了一定的讨论，更多的内容大约后面会挑选一些有意思的在其他的博客中相应的进行一些整理，这里暂时就不多做展开了。

7. 参考链接

如何通俗理解word2vec
[NLP] 秒懂词向量Word2vec的本质
一篇通俗易懂的word2vec
word2vec是如何得到词向量的？
https://github.com/RaRe-Technologies/gensim/tree/release-3.8.3
https://github.com/zake7749/word2vec-tutorial

你可能感兴趣的:(nlp笔记,机器学习,人工智能,深度学习,tensorflow,pytorch)

嵌入式秋招八股文笔记——C基础 I_LOVE_STM32 c语言 c++数据结构
C语言基础：1.Main函数的参数传递：Main函数的参数intargc，char*argv[]，在很多Linux初学者阅读代码时都不知道是什么意思，其中intargc表示程序运行时命令行指令的个数，char*argv[]则存放指向各个参数的指针。例如：intmain(intargc,char**argv){for(inti=0;i
探索深度学习：开启智能新时代顾漂亮深度学习人工智能机器学习
目录深度学习究竟是什么？深度学习的“三驾马车”：数据、模型与算力深度学习的前沿模型架构深度学习在各领域的深度应用深度学习的挑战与应对策略深度学习的未来展望在当今科技飞速发展的时代，深度学习无疑是最炙手可热的领域之一。它宛如一把神奇的钥匙，开启了通往智能世界的大门，从语音识别到图像分类，从自动驾驶到医疗诊断，深度学习的身影无处不在，正深刻地改变着我们的生活与工作方式。深度学习究竟是什么？深度学习隶属
Vue项目搭建 yxmanyxman vue vue-cli 脚手架 npm webpack
好吧，很久没碰过这个blog。有什么笔记我都是记在现实的笔记本上面，无奈有时候记得乱，找不到，这边markdown。最近在做Vue项目，搭建环境避免不了。一开始学习的时候，还是先学webpack的基本知识，一步一步配置入口文件等等。后面当然就嫌麻烦了，尤大大的vue-cli打遍天下无敌手。命令vueinitwebpack有两种版本，一个simple版vueinitwebpack-simple，si
Kotlin 开发Android笔记之Kotlin开发篇笑忘书客 Android Kotlin Kotlin开发 Kotlin语言开发 Android
Kotlin开发Android笔记之Kotlin开发篇省略findViewById()方法正常写法：valbtn=findViewById(R.id.btn)btn.setOnClickListener{Toast.makeText(this,"提示",Toast.LENGTH_SHORT).s}但Kotlin项目在创建的时候引用了插件applyplugin:‘kotlin-android-ext
deepseek免费大模型搜索工具发布葡萄爱 LLM大模型人工智能深度学习神经网络 AIGC AI编程
deepseek免费大模型搜索工具刚刚发布地址：https://chat.deepseek.com/DeepSeek"（深度求索）是一家专注于人工智能技术研究和应用的中国公司。该公司致力于开发和推广先进的AI技术，包括自然语言处理（NLP）、计算机视觉、机器学习等领域。DeepSeek的核心目标是通过AI技术推动各行业的智能化转型，提升生产效率和生活质量。DeepSeek的主要特点：自然语言处理（
基于深度学习的时空特征融合摔倒检测基于图像序列分析与主成分分析（PCA）的摔倒检测人工智能专属驿站深度学习
基于深度学习的时空特征融合摔倒检测该方法采用卷积神经网络（CNN）与循环神经网络（RNN）相结合的方式，通过提取时空特征来进行摔倒检测。通过对视频帧序列的时空特征进行融合，能够更准确地捕捉到摔倒事件的动态变化。步骤：时空特征提取：通过卷积神经网络（CNN）提取每一帧的视频图像特征。时间信息处理：使用循环神经网络（RNN）处理视频帧的时间序列，捕捉摔倒过程中的时序信息。摔倒判定：将时空特征输入到融合
如何选择合适的后端技术栈？破碎的天堂鸟学习教程后端开发
选择合适的后端技术栈是构建高效、可靠和可扩展应用程序的关键步骤。以下是基于我搜索到的资料，详细说明如何科学地选择后端技术栈的建议：1.明确项目需求性能要求：根据项目的实时性、高并发处理能力以及数据处理需求，选择适合的技术栈。例如，Node.js适用于流式应用和实时交互，而Python则在数据分析和机器学习领域表现优异。功能需求：根据业务逻辑复杂度，选择支持所需功能的框架。例如，Django适合快速
有趣的项目--汇总 cladel 人工智能
文章目录前言一、AI类二、前言持续记录有意思的项目，欢迎大家讨论一、AI类openglass+ollama：链接:OpenGlassAI眼镜的环境配置与实现InvidiaJetson+LLM：链接:生成式人工智能应用SenseCraftAI:链接:SenseCraftAIJetsonSeeedStudio（矽递科技）github:链接:SeeedStudioEEG2Video:TowardsDec
遗传算法与深度学习实战（33）——WGAN详解与实现盼小辉丶深度学习人工智能生成对抗网络
遗传算法与深度学习实战（33）——WGAN详解与实现0.前言1.训练生成对抗网络的挑战2.GAN优化问题2.1梯度消失2.2模式崩溃2.3无法收敛3WassersteinGAN3.1Wasserstein损失3.2使用Wasserstein损失改进DCGAN小结系列链接0.前言原始的生成对抗网络(GenerativeAdversarialNetwork,GAN)在训练过程中面临着模式坍塌和梯度消失
遗传算法与深度学习实战（32）——生成对抗网络详解与实现盼小辉丶遗传算法与深度学习实战深度学习生成对抗网络人工智能
遗传算法与深度学习实战（32）——生成对抗网络详解与实现0.前言1.生成对抗网络2.构建卷积生成对抗网络小结系列链接0.前言生成对抗网络(GenerativeAdversarialNetworks,GAN)是一种由两个相互竞争的神经网络组成的深度学习模型，它由一个生成网络和一个判别网络组成，通过彼此之间的博弈来提高生成网络的性能。生成对抗网络使用神经网络生成与原始图像集非常相似的新图像，它在图像生
【Python】已解决：ERROR: Could not find a version that satisfies the requirement cv2 (from versions: none) 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【Excel笔记_5】 LET 函数中数据范围不连续的处理方法科熊小猪 Office excel 笔记
在LET函数中，如果数据范围是不连续的（比如DK4:DK176和DK188:DK242），直接使用ABS计算偏差会导致错误，因为Excel不支持对多个不连续区域执行数学运算。正确的方法可以使用VSTACK（Excel365/2021支持）或CHOOSE（适用于更早的Excel版本）将不连续区域合并，然后进行计算。方法1：使用VSTACK（Excel365/2021）=LET(data,VSTACK
国家超算平台上线DeepSeek - R1系列模型：开启AI新征程 CodeJourney. 数据库人工智能算法人工智能
2025年初，科技圈发生了一件大事：国家超算平台上线了DeepSeek-R1系列模型。这事儿就像在科技池塘里扔了颗大石头，激起了好大的水花，对人工智能（AI）领域影响深远。一、DeepSeek-R1系列模型究竟啥来头DeepSeek-R1系列模型是DeepSeek这家公司研发的。它用了强化学习训练，推理的时候会反复思考验证，思维链能有好几万字长。在数学、代码编写和复杂逻辑推理这些方面，表现相当厉害
（Aliyun AI ACP 04）人工智能建模流程与基础知识：深度学习、增强学习与迁移学习关键技术综述 North_D 人工智能基础知识点人工智能深度学习学习自然语言处理迁移学习 python 神经网络
文章目录阿里云人工智能工程师ACP认证考试知识点辅助阅读（AliyunAIACP04）人工智能建模流程与基础知识：深度学习、增强学习与迁移学习关键技术综述I.深度学习算法1️⃣前馈神经网络(FFNs)详解2️⃣卷积神经网络(CNNs)探秘II.增强学习探索3️⃣增强学习基础与决策过程4️⃣常见增强学习算法剖析III.迁移学习实践5️⃣迁移学习基本原理与应用阿里云人工智能工程师ACP认证考试知识点辅
AI大模型探秘：核心能力与应用场景深度解析程序员辣条人工智能 java AI大模型大模型 spring
AI大模型是什么通过概念考察的方式，拆开来了解AI大模型。AI：包含很多术语，如：模式识别、自然语言处理、神经网络、机器学习、深度学习、强化学习、人类反馈强化学习等。类比：AI是电力–吴恩达。就像电力技术，是一种通用技术，对很多设备起作用，同样的AI可以赋能各种场景。大模型：把LM比作人的大脑。大参数大规模。参数就是脑细胞，脑细胞越多通常这个人越聪明，参数越多的LM通常越智能。分类语言大模型：Ch
揭秘AI的智能双翼：决策式AI与生成式AI 小马不会过河人工智能算法 embedding microsoft 知识图谱
在人在数字化浪潮的推动下，人工智能已成为推动社会进步的关键技术之一。特别是在决策式AI与生成式AI这两个领域，它们的发展不仅加速了技术创新的步伐，也在实际应用中展现出巨大的潜力和价值。01.智能双翼：决策式AI与生成式AI决策式AI（DiscriminativeAI）定义：决策式AI，也称为判别式AI，是一种通过学习数据中的条件概率分布，对新场景进行判断、分析和预测的人工智能技术。它的设计目标是模
手动计算conv1d 及pytorch源码取个名字真难呐 pytorch 人工智能 python
文章目录1.conv1d2.pytorch源码1.conv1dconv1d的作用是进行一维的卷积计算，将卷积核沿着输入矩阵进行一维卷积，具体参考如下excel通过网盘分享的文件：conv1d.xlsx链接:https://pan.baidu.com/s/1WIM4Pp5nwa-uP67TMP-m8Q?pwd=uti7提取码:uti72.pytorch源码importtorchimporttorch
开源数据分析工具 RapidMiner kcarly 大数据治理与分析开源数据分析数据挖掘
RapidMiner是一款功能强大且广泛应用的数据分析工具，其核心功能和特点使其成为数据科学家、商业分析师和预测建模人员的首选工具。以下是对RapidMiner的深度介绍：1.概述RapidMiner是一款开源且全面的端到端数据科学平台，支持从数据准备、机器学习、预测分析到模型部署的整个工作流程。它基于Java开发，具有高度的模块化和可扩展性，能够与多种数据源无缝集成，包括MicrosoftExc
二值连接：深度神经网络的轻量级革命步子哥 dnn 人工智能神经网络
引言：深度学习的下一步是什么？深度神经网络（DeepNeuralNetworks,DNN）近年来在语音识别、图像分类和自然语言处理等领域取得了令人瞩目的成就。然而，这些突破背后的一个关键推手是计算能力的飞速提升，尤其是图形处理单元（GPU）的广泛应用。然而，随着模型规模和数据量的增长，深度学习的计算需求也在不断攀升。与此同时，移动设备和嵌入式系统的快速发展对低功耗、高效能的深度学习算法提出了更高的
自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测 sirius12345123 pytorch 逻辑回归人工智能
importtorchimportnumpyasnpimporttorch.nnasnnfromtorch.utils.dataimportDataLoader,TensorDatasetdata=np.array([[-0.5,7.7],[1.8,98.5],[0.9,57.8],[0.4,39.2],[-1.4,-15.7],[-1.4,-37.3],[-1.8,-49.1],[1.5,75.
六。自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测菜狗woc pytorch 逻辑回归人工智能
importtorchimporttorch.nnasnnfromtorch.utils.dataimportDatasetimportnumpyasnp#自定义数据集类classCustomDataset(Dataset):def__init__(self,x_data,y_data):self.x_data=torch.from_numpy(x_data).float()self.y_data
Go 学习笔记（61）— Go 高阶函数、函数作为一等公民（函数作为输入参数、返回值、变量）的写法 wohu007 Go golang 函数作为变量
函数在Go语言中属于“一等公民（First-ClassCitizen）”拥有“一等公民”待遇的语法元素可以如下使用可以存储在变量中；可以作为参数传递给函数；可以在函数内部创建并可以作为返回值从函数返回；1.函数可以存储在变量中var(myFprintf=func(wio.Writer,formatstring,a...interface
Mongodb学习笔记 --- python读取mongodb数据杨鑫newlfe Python 数据库大数据挖掘与大数据应用案例
#-*-coding:utf-8-*-importpymongo__author__='yangxin'classMongodbConn(object):
python 库总结杜小伙伴 python 正则表达式后端
原文链接：https://blog.csdn.net/xufive/article/details/102676755在这个列表中，把模块分成11大类：基础类数据库接口类网络通讯类音像游戏类GUI类web框架类科学计算类2D/3D类数据处理类机器学习类工具类针对每一个模块给出了相应的推荐指数，从1颗星到5颗星。这是一个非常主观的判断，仅供参考。★☆☆☆☆：较少被用到★★☆☆☆：重要但较少被用到，★
MongoDB学习笔记-解析jsonCommand内容人生偌只如初见 MongoDB mongodb 笔记 java
如果需要屏蔽其他项目对MongoDB的直接访问操作，统一由一个入口访问操作MongoDB，可以考虑直接传入jsonCommand语句解析执行。相关依赖包org.springframework.bootspring-boot-starter-data-mongodb2.4.2部分代码@ResourceprotectedMongoPropertiesmongoProperties;publicList
OpenMV学习笔记----sensor、image 没有名字的鬼学习笔记 python 计算机视觉图像处理人工智能 Openmv
目录一、感光元件----sensorsensor.reset()sensor.set_pixformat()sensor.set_framesize()sensor.skip_frames(n=10)sensor.snapshot()sensor.set_auto_gain()sensor.set_auto_whitebal()sensor.set_auto_exposure(enable[\,e
python安装jupyter qq_27390023 python jupyter
JupyterNotebook的本质是一个Web应用程序，便于创建和共享程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。###安装pip##pip是一个安装和管理Python包的工具wgethttps://bootstrap.pypa.io/get-pip.pypython3get-pip.py##创建软连接ln-s/usr/
React学习笔记 26:28 React react.js 学习笔记
1、React初步认识React构建Web和原生交互界面的库，相较于其它前端框架的优势，具有丰富的生态跨平台支持。1.1、React的开发依赖开发React必须依赖三个库：react：包含react所必须的核心代码；react-dom：react渲染在不同平台所需要的核心代码；babel：将jsx转换成React代码的工具；1.2、VSCode代码片段我们在前面练习React的过程中，有些代码片段
算法问题整理（二）分享总结快乐算法
网络资料整理个人学习，感谢各位大神！（若侵则删）问题10:卷积-目标检测系列问题参考：40+目标检测网络架构大盘点！从基础架构ResNet到最强检测器Yolov7再到最新部署神器GhostNetV2【深度学习】YOLO检测器家族所有版本（2024最新汇总、详细介绍）_yolo各个版本-CSDN博客YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍！！-腾讯云开发者社区-腾讯云关键挑战：类
探秘 GitCode 上的开源项目：91pron - AI 引擎驱动的智能视频处理工具毕艾琳
探秘GitCode上的开源项目：91pron-AI引擎驱动的智能视频处理工具去发现同类优质开源项目:https://gitcode.com/项目简介在平台上，有一个名为的开源项目，它是一个利用人工智能技术进行智能视频处理的应用。虽然项目的名称可能有些隐晦，但其核心功能却极具实用价值，特别是对于那些需要自动化处理大量视频数据的工作。技术分析1.AI模型应用91pron使用了深度学习模型，尤其是计算机
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他