梓翔

CS224d-深度学习与自然语言处理－Day 1:

原文地址：http://www.jianshu.com/p/6993edef96e4

CS224d－Day 1:

要开始系统地学习 NLP 课程 cs224d，今天先来一个课程概览。
课程一共有16节，先对每一节中提到的模型，算法，工具有个总体的认识，知道都有什么，以及它们可以做些什么事情。

简介：

1. Intro to NLP and Deep Learning

NLP：

Natural Language Processing (自然语言处理)的目的，就是让计算机能‘懂得’人类对它‘说’的话，然后去执行一些指定的任务。

这些任务有什么呢？

Easy:
• Spell Checking－－拼写检查
• Keyword Search－－关键词提取&搜索
• Finding Synonyms－－同义词查找&替换
Medium:
• Parsing information from websites, documents, etc.－－从网页中提取有用的信息例如产品价格，日期，地址，人名或公司名等
Hard:
• Machine Translation (e.g. Translate Chinese text to English)－－自动的或辅助的翻译技术
• Semantic Analysis (What is the meaning of query statement?)－－市场营销或者金融交易领域的情感分析
• Coreference (e.g. What does "he" or "it" refer to given a document?)
• Question Answering (e.g. Answering Jeopardy questions).－－复杂的问答系统

NLP的难点：

情境多样
语言歧义

Deep Learning：

深度学习是机器学习的一个分支，尝试自动的学习合适的特征及其表征，尝试学习多层次的表征以及输出。

它在NLP的一些应用领域上有显著的效果，例如机器翻译，情感分析，问答系统等。

和传统方法相比，深度学习的重要特点，就是用向量表示各种级别的元素，传统方法会用很精细的方法去标注，深度学习的话会用向量表示单词，短语，逻辑表达式和句子，然后搭建多层神经网络去自主学习。

这里有简明扼要的对比总结。

向量表示：
词向量：

One－hot 向量：
记词典里有 |V| 个词，每个词都被表示成一个 |V| 维的向量，设这个词在字典中相应的顺序为 i，则向量中 i 的位置上为 1，其余位置为 0.
词－文档矩阵：
构建一个矩阵 X，每个元素 Xij 代表单词 i 在文档 j 中出现的次数。
词－词共现矩阵：
构建矩阵 X，每个元素 Xij 代表单词 i 和单词 j 在同一个窗口中出现的次数。

模型算法：

2. Simple Word Vector representations: word2vec, GloVe

word2vec：

word2vec是一套能将词向量化的工具，Google在13年将其开源，代码可以见https://github.com/burness/word2vec ，它将文本内容处理成为指定维度大小的实数型向量表示，并且其空间上的相似度可以用来表示文本语义的相似度。

Word2vec的原理主要涉及到统计语言模型（包括N-gram模型和神经网络语言模型），continuousbag-of-words 模型以及 continuous skip-gram 模型。

N-gram的意思就是每个词出现只看其前面的n个词，可以对每个词出现的概率进行近似。
比如当n=2的时候:

神经网络语言模型（NNLM）用特征向量来表征每个词各个方面的特征。NNLM的基础是一个联合概率:

其神经网络的目的是要学习：

Continuous Bag-of-Words(CBOW) 模型与NNLM类似，结构如下:

CBOW是通过上下文来预测中间的词，如果窗口大小为k，则模型预测:

其神经网络就是用正负样本不断训练，求解输出值与真实值误差，然后用梯度下降的方法求解各边权重参数值的。

Continuous skip-gram 模型与CBOW正好相反，是通过中间词来预测前后词，一般可以认为位置距离接近的词之间的联系要比位置距离较远的词的联系紧密。目标为最大化：

结构为：

应用：

同义词查找，
文本聚类，实现方法：用关键词来表征文本。关键词提取用TF-IDF，然后用word2vec训练得到关键词向量，再用k-means聚类，最后文本就能够以关键词的类别进行分类了。
文本类别投递，实现方法：人工标记出该词属于各个类别的概率，出全体词属于各个类别的概率。

Glove：

Global Vectors 的目的就是想要综合前面讲到的 word-document 和 word-windows 两种表示方法，做到对word的表示即 sementic 的表达效果好，syntactic 的表达效果也好：

3. Advanced word vector representations: language models, softmax, single layer networks

softmax：

softmax 模型是 logistic 模型在多分类问题上的推广， logistic 回归是针对二分类问题的，类标记为{0， 1}。在softmax模型中，label可以为k个不同的值。

4. Neural Networks and backpropagation -- for named entity recognition

5. Project Advice, Neural Networks and Back-Prop (in full gory detail)

Neural Networks：

神经网络是受生物学启发的分类器，可以学习更复杂的函数和非线性决策边界。

模型调优：

6. Practical tips: gradient checks, overfitting, regularization, activation functions, details

UFLDL：Unsupervised Feature Learning and Deep Learning

Gradient Checking（梯度检测）：

反向传播因为细节太多，往往会导致一些小的错误，尤其是和梯度下降法或者其他优化算法一起运行时，看似每次 J(Θ) 的值在一次一次迭代中减小，但神经网络的误差可能会大过实际正确计算的结果。

针对这种小的错误，有一种梯度检验（Gradient checking）的方法，通过数值梯度检验，你能肯定确实是在正确地计算代价函数（Cost Function）的导数。

GC需要对params中的每一个参数进行check，也就是依次给每一个参数一个极小量。

overfitting：

就是训练误差Ein很小，但是实际的真实误差就可能很大，也就是模型的泛化能力很差(bad generalization)

发生overfitting 的主要原因是：（1）使用过于复杂的模型(dvc 很大)；（2）数据噪音；（3）有限的训练数据。

regularization：

为了提高模型的泛化能力，最常见方法便是：正则化，即在对模型的目标函数（objective function）或代价函数（cost function）加上正则项。

平台：

7. Introduction to Tensorflow

Tensorflow：

Tensorflow 是 python 封装的深度学习库，非常容易上手，对分布式系统支持比 Theano 好，同时还是 Google 提供资金研发的

在Tensorflow里：

使用张量(tensor)表示数据.
使用图(graph)来表示计算任务.
在被称之为会话(Session)的上下文 (context)中执行图.
通过变量 (Variable)维护状态.
使用feed和fetch可以为任意的操作(arbitrary operation)赋值或者从其中获取数据.

TensorFlow 算是一个编程系统，它使用图来表示计算任务，图中的节点被称之为operation(可以缩写成op)，一个节点获得0个或者多个张量(tensor，下文会介绍到)，执行计算，产生0个或多个张量。

模型与应用：

8. Recurrent neural networks -- for language modeling and other tasks

RNN：

在深度学习领域，传统的前馈神经网络（feed-forward neural net，简称FNN）具有出色的表现。

在前馈网络中，各神经元从输入层开始，接收前一级输入，并输入到下一级，直至输出层。整个网络中无反馈，可用一个有向无环图表示。

不同于传统的FNNs，RNNs引入了定向循环，能够处理那些输入之间前后关联的问题。定向循环结构如下图所示：

9. GRUs and LSTMs -- for machine translation

传统的RNN在训练 long-term dependencies 的时候会遇到很多困难，最常见的便是 vanish gradient problem。期间有很多种解决这个问题的方法被发表，大致可以分为两类：一类是以新的方法改善或者代替传统的SGD方法，如Bengio提出的 clip gradient；另一种则是设计更加精密的recurrent unit，如LSTM，GRU。

LSTMs：

长短期内存网络(Long Short Term Memory networks)是一种特殊的RNN类型，可以学习长期依赖关系。

LSTMs 刻意的设计去避免长期依赖问题。记住长期的信息在实践中RNN几乎默认的行为，但是却需要很大的代价去学习这种能力。

LSTM同样也是链式结构，但是重复的模型拥有不同的结构，它与单个的神经网层不同，它有四个，使用非常特别方式进行交互。

GRUs：

Gated Recurrent Unit 也是一般的RNNs的改良版本，主要是从以下两个方面进行改进。

一是，序列中不同的位置处的单词(已单词举例)对当前的隐藏层的状态的影响不同，越前面的影响越小，即每个前面状态对当前的影响进行了距离加权，距离越远，权值越小。

二是，在产生误差error时，误差可能是由某一个或者几个单词而引发的，所以应当仅仅对对应的单词weight进行更新。

10. Recursive neural networks -- for parsing

11. Recursive neural networks -- for different tasks (e.g. sentiment analysis)

Recursive neural networks：

和前面提到的 Recurrent Neural Network 相比：

recurrent: 时间维度的展开，代表信息在时间维度从前往后的的传递和积累，可以类比markov假设，后面的信息的概率建立在前面信息的基础上。

recursive: 空间维度的展开，是一个树结构，就是假设句子是一个树状结构，由几个部分(主语，谓语，宾语）组成，而每个部分又可以在分成几个小部分，即某一部分的信息由它的子树的信息组合而来，整句话的信息由组成这句话的几个部分组合而来。

12. Convolutional neural networks -- for sentence classification

Convolutional neural networks：

卷积神经网络是一种特殊的深层的神经网络模型，它的特殊性体现在两个方面，一方面它的神经元间的连接是非全连接的，另一方面同一层中某些神经元之间的连接的权重是共享的（即相同的）。它的非全连接和权值共享的网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。

13. Guest Lecture with Andrew Maas: Speech recognition

14. Guest Lecture with Thang Luong: Machine Translation

大数据：

15. Guest Lecture with Quoc Le: Seq2Seq and Large Scale DL

Seq2Seq：

seq2seq 是一个机器翻译模型，解决问题的主要思路是通过深度神经网络模型（常用的是LSTM，长短记忆网络，一种循环神经网络）将一个作为输入的序列映射为一个作为输出的序列，这一过程由编码输入与解码输出两个环节组成。

Encoder:

Decoder:

注意机制是Seq2Seq中的重要组成部分:

应用领域有：机器翻译，智能对话与问答，自动编码与分类器训练等。

Large Scale DL：

为了让 Neural Networks 有更好的效果，需要更多的数据，更大的模型，更多的计算。

Jeff Dean On Large-Scale Deep Learning At Google

未来方向：

16. The future of Deep Learning for NLP: Dynamic Memory Networks

dynamic memory network (DMN)：

利用 dynamic memory network（DMN）框架可以进行 QA（甚至是 Understanding Natural Language）。

这个框架是由几个模块组成，可以进行 end-to-end 的 training。其中核心的 module 就是Episodic Memory module，可以进行 iterative 的 semantic + reasoning processing。

有了一个总体的了解，看的热血沸腾的，下一次开始各个击破

深度学习与自然语言处理(8)_斯坦福cs224d RNN，MV-RNN与RNTN 龙心尘 DL+NLP 自然语言处理深度学习 RNN 斯坦福大学
原文作者：RichardSocher翻译：@胥可&&@熊杰&&@杨帆&&@陈沛&&@Molly校对调整：寒小阳&&龙心尘时间：2016年7月出处：http://blog.csdn.net/han_xiaoyang/article/details/52075160http://blog.csdn.net/longxinchen_ml/article/details/52075519说明：本文为斯坦福
CS224D 课程学习笔记 L03 蜡笔大龙猫深度学习算法机器学习算法 Stanford CS224(d/n)Deep Learning for NLP Notes 深度学习自然语言处理人工智能
Lecture3.MoreWordVectorsLecture3这节课首先复习了上节课学到的word2vec模型，以及使用梯度下降和SGD优化参数，然后介绍了词向量的内部评测和外部评测，参数对于类比评测任务的影响，处理词义的模糊性和窗口分类等。文章目录Lecture3.MoreWordVectors梯度的更新词向量的评测内部评测vs外部评测内部评测示例：词向量的类比内部评测调整示例内部评测示例：相
计算机电子书 2017 BiliDrive 备份布客飞龙
下载方式根据你的操作系统下载不同的BiliDrive二进制。执行：bilidrivedownload链接文档链接斯坦福cs224d深度学习与自然语言处理讲义.epub(2.87MB)bdrive://2771ca27aa5f0eb73bcf9591ee127c2d51270617Matplotlib用户指南.epub(4.67MB)bdrive://0376e03bdbf46d1670cd8d95
CS224D:Deep Learning for NLP Note1 TheOneAc1 自然语言处理 nlp
keywords:WordVectors,SVD,Skip-gram.ContinuousBagofWords(CBOW).NegativeSampling.关键词:词向量,奇异值分解,Skip-gram,CBOW,负抽样词向量One-hotvector:RepresenteverywordasanR|V|×1vectorwithall0sandone1attheindexofthatwordin
pytorch入门学习第七课Seq2Seq, Attention 总写bug的程序员 python sequence attention python
代码实现Seq2Seq,Attention¶褚则伟[email protected]在这份notebook当中，我们会(尽可能)复现Luong的attention模型由于我们的数据集非常小，只有一万多个句子的训练数据，所以训练出来的模型效果并不好。如果大家想训练一个好一点的模型，可以参考下面的资料。更多阅读课件cs224d论文LearningPhraseRepresentationsusingR
NLP系列项目三：Seq2Seq+Attention完成机器翻译 lyj157175 nlp 机器翻译深度学习
本项目尽可能复现Luong的attention模型，数据集小，只有一万多个句子的训练数据，所以训练出来的模型效果并不好。如果想训练一个好一点的模型，可以参考下面的资料。课件cs224d论文LearningPhraseRepresentationsusingRNNEncoder-DecoderforStatisticalMachineTranslationEffectiveApproachestoA
深度学习与自然语言处理Lecture-1笔记 Jacky_QinXm 算法深度学习 NLP DL
最近开始学习斯坦福的课程“CS224d:DeepLearningforNatureLanguageProcessing”,课程老师是PhDRichardSocher。这里是边看边做一些简单的记录，以供后续的查阅。相关材料最开始是从网站“我爱自然语言处理”上得到的，课程材料的下载地址：http://cs224d.stanford.edu/syllabus.html。NLP简介NLP：NatureLa
CS224d lecture01 学习笔记 Xiao_yanling cs224d学习笔记
CS224dlecture01学习笔记1.NLPlevels语音文本语音分析文本识别对单词结构的形态分析句法分析语义理解：大部分利用上下文来理解2.NLPapplications（1）拼写检查、关键字搜索、同义词联想等（2）信息抽取、情感分析等（3）机器翻译、对话系统、问答系统等3.自然语言自然语言是传递信息的，离散、符号化、分类的符号体系。自然语言处理难在：（1）人类语言模棱两可（2）多省略4.
斯坦福大学深度学习与自然语言处理第二讲：词向量 Janvn NLP
斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程：CS224d:DeepLearningforNaturalLanguageProcessing，授课老师是青年才俊RichardSocher，以下为相关的课程笔记。第二讲：简单的词向量表示：word2vec,Glove(SimpleWordVectorrepresentations:word2vec,GloVe)推荐阅读材料：Paper
NLP resources Lucien_Liu
资料：书单|NLP秘笈，从入门到进阶斯坦福CS224d课程整理NaturalLanguageProcessingwithDeepLearningWord2vecTutorialhttp://www.52nlp.cn/tag/nlp%E4%B9%A6%E7%B1%8Dgensim官方教程word2vec原理入门https://blog.csdn.net/u010899985/article/deta
比较全的NLP参考资源御风之星
NLP自然语言处理（NaturalLanguageProcessing）是深度学习的主要应用领域之一。教程http://cs224d.stanford.edu/CS224d:DeepLearningforNaturalLanguageProcessinghttp://web.stanford.edu/class/cs224n/syllabus.htmlcs224d课程的课件http://demo.
Learn Artificial Intelligence | Day 1 quoniammm
我做了什么在bilibili刷了一个up主关于tensorflow的教程准备开始学习cs231n和cs224d在kaggle上digitsreco项目上提交了自己的实现我学到了什么今天提交了digits项目之后rank提升到538th很开心我知道这种开心是发自内心的希望我可以永远保留有这种真诚做一件事要足够专注你才能获得自己想要的结果不要为还未到的未来而恐惧专注你当下做的事情简单一些做你现在可以做
NLP (一): 自然语言和单词的分布式表示连理o NLP
本文为《深度学习进阶:自然语言处理》的读书笔记记录一个课程,有机会可以看下:CS224d:DeepLearningforNaturalLanguageProcessing目录自然语言处理(NLP)同义词词典(thesaurus)WordNet同义词词典的问题基于计数的方法基于Python的语料库的预处理单词的分布式表示分布式假设(distributionalhypothesis)共现矩阵(co-o
CS224d L2 word2vec gb_QA_log
title:CS224dL2word2vecdate:2017-03-2619:18:29categories:NLP/CS224dmathjax:truetags:[CS224d,NLP]1WordNet缺少细微差别（同义词间）缺少新词主观性大人力成本难离散化2“one-hot”representationx_{2}=\begin{bmatrix}0\\0\\0\\1\\0\\\end{bmat
CS224d-深度学习与自然语言处理－Day 1: 梓翔 cs224d
原文地址：http://www.jianshu.com/p/6993edef96e4CS224d－Day1:要开始系统地学习NLP课程cs224d，今天先来一个课程概览。课程一共有16节，先对每一节中提到的模型，算法，工具有个总体的认识，知道都有什么，以及它们可以做些什么事情。简介：1.IntrotoNLPandDeepLearningNLP：NaturalLanguageProcessing(自
学习资料重新出发_砥砺前行
CS224d:DeepLearningforNaturalLanguageProcessingLearningTask-DependentDistributedRepresentationsbyBackPropagationThroughStructureParsingNaturalScenesandNaturalLanguagewithRecursiveNeuralNetworksCS224d:
CS224D 课程学习笔记 L02 蜡笔大龙猫深度学习算法机器学习算法 Stanford CS224(d/n)Deep Learning for NLP Notes
Lecture2主要介绍了传统的共现矩阵生成词向量方法和迭代生成词向量的方法，例如word2vec和Glove。文章目录WordVectorsone-hotvector共现矩阵共现矩阵存在的问题SVDSVD存在的问题word2vec*word2vec的神奇之处*Glove几种得到词向量方法的对比IterationBasedMethod一元、二元语言模型CBOWSkip-gramNegativeSa
CS224d Problem set 2作业 diaofengzhi8607
欢迎转载，转载注明出处：http://www.cnblogs.com/NeighborhoodGuo/p/4716074.html1.以下是problemset2的详细推导过程：2.附上我自己敲的代码的解决过程，有错误请不吝指正。https://github.com/NeighborhoodWang/CS224D-problem-set2.git3.注意的要点：Pythongeneratorsht
斯坦福大学CS224d基础1：线性代数知识 weixin_30369041
斯坦福大学CS224d基础1：线性代数知识作者：ZicoKolter(补充：ChuongDo)翻译：@MOLLY([email protected])@OWEN校正：@寒小阳([email protected])@龙心尘([email protected])2015年9月30日1基本概念和符号21.1基本符号22矩阵乘法32.1向量的乘积32.2矩阵-向量的乘积42.
深度学习入门心得——书籍、课程、文档推荐 yaoyaoqiekenaoo 深度学习深度学习
转载至：http://blog.csdn.net/shingle_/article/details/52029214MOOCsHinton的neuralnetworksStanford的CS231n:ConvolutionalNeuralNetworksforVisualRecognitionStanford的CS224d:DeepLearningforNaturalLanguageProcess
CS224D学习笔记 qq_21704477 深度学习深度学习
第二次看了，理解深了一些2017.7.24传统方法通过统计一个单词周围的单词的频率，获得每个单词的wordvec，然后通过SVD降维，去除较大奇异值的矩阵，把vec长度在25-1000内。缺点是1.单词很多的时候SVD复杂度很高2.要添加新单词时很困难，扩展性差深度学习可以部分解决。wordvector和具体任务一起训练有可能有更好的训练效果，但是可能会把wordvector变得主要是为了训练任务
CS224d: Deep Learning for NLP Lecture1 听课记录 C塔贝塔伽马 NLP
重点提炼自然语言处理的一般处理过程/NLPlevels初始输入数据分为语音和文本两大类，对于语音一般进行语音分析转换成文本(语音识别)，对于文本一般进行词条化处理。而后两者处理过程类似，即依次进行词法分析，句法分析，语义分析，语篇加工等。深度学习的优势(1)工程师手动设计的特征往往只针对一个领域，并且需要花费大量的时间设计和验证特征，也有可能因为数据量巨大，不能得到完整的特征(2)深度学习可以通过
一些著名大学关于机器学习，深度学习，计算机视觉，自然语言处理的课程（部分有视频）... weixin_30820077
(1)Berkeley深度学习专题课程：https://berkeley-deep-learning.github.io/cs294-dl-f16/(2)stanford基于于深度学习的自然语言处理（有视频）：https://www.youtube.com/watch?v=sU_Yu_USrNc相关的作业：https://github.com/bogatyy/cs224d(3)由CMU的Larry
CS224d: Deep Learning for Natural Language Process weixin_34297300
2019独角兽企业重金招聘Python工程师标准>>>CourseDescriptionTeachingAssistantsPengQiCourseNotes(updatedeachweek)DetailedSyllabusClassTimeandLocationSpringquarter(March-June,2015).Lecture:Monday,Wednesday11:00-12:15Lo
准备PPT 材料重新出发_砥砺前行
反反复复为什么中间加上非线性方程以后就是非线性了，，goDeepper以下slide没有弄懂CNN求导数理解，，，CS231n:ConvolutionalNeuralNetworksforVisualRecognition,Fei-FeiLi(Stanford).CS224d:DeepLearningforNaturalLanguageProcessing,RichardSocher(Stanfo
CS224D 课程学习笔记 L01 蜡笔大龙猫深度学习算法 Stanford CS224(d/n)Deep Learning for NLP Notes
Lecture1.IntrotoNLPandDeepLearning邮箱：[email protected]主要讲解了下课程的大纲，NLP、DeepLearning的一些基础知识和背景，可能稍微觉得枯燥，了解这部分的背景可以跳过。教学大纲Lecture1.IntrotoNLPandDeepLearningLecture2.SimpleWordVectorrepresentat
cs224d课程Lecture1总结 liuchongee nlp 深度学习
1，词向量传统方法是使用类似于WordNet或《同义词词林》的方式来表示词语之间的关系（上下位、同义词、相似度等），但是这种方法存在很大局限性（人工、新词、主观误差等），所以这里提出词向量的方法表示单词。其实就是找到一种映射关系，将单词编码为更小的“词空间”中的一个向量。可以知道，一定存在一个远小于总词汇量的N维空间可以编码所有的单词。这样可以通过计算两个词向量之间的“距离”来表示其相似度。最简单
CS 224D lecture 5 笔记分类： CS224D notes ... diaofengzhi8607
哈哈哈，终于又到了写博客的时间，这次的内容，其实说实话不太多，就是Recommendreading太多看的人头大，而且Recommendreading大多是没有接触到的模型，更让人摸不着头脑，权当是预习吧，哈哈！废话不多说哦，先写写这一讲的整体结构。Lecture5主要有三部分内容。第一部分是对project的建议和介绍；第二部分就是详细介绍NeuralNetwork的结构，并且如何tune这个模
cs224d 作业 problem set1 (一) 主要是实现word2vector模型,SGD,CBOW,Softmax,算法 aihaotan8299
'''Createdon2017年9月13日@author:weizhen'''importnumpyasnpdefsigmoid(x):return1/(1+np.exp(-x))首先上来的是最简单的sigmoid激励函数，至于为什么选他做激励函数，1、因为这个函数能将定义域为(-inf,+inf)的值映射到(0,1)区间，便于计算(能够消除量纲的影响)2、这个函数的变化曲线不是特变陡峭，每一点
深度学习与自然语言处理(5)_斯坦福cs224d 大作业测验2与解答寒小阳深度学习与自然语言处理深度学习与自然语言处理
作业内容翻译：@胡杨([email protected])&&@面包君&&Fantzy同学校正与调整：寒小阳&&龙心尘时间：2016年7月出处：http://blog.csdn.net/han_xiaoyang/article/details/51815683http://blog.csdn.net/longxinchen_ml/article/details/51814343说明
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end