远陌

NLP读书笔记

NLP读书笔记，在看过《python自然语言处理实战核心技术与算法》、《数学之美第二版》记录一些笔记，日后常看看

然语言处理技术可以帮助这样的用户使用自然语言和机器交流；
NLP基本可以分为两个部分：自然语言处理以及自然语言生成，演化为理解和生成文本的任务；

NLP可以被应用于很多领域，这里大概总结出以下几种通用的应用：

●机器翻译：计算机具备将一种语言翻译成另一种语言的能力。

●情感分析：计算机能够判断用户评论是否积极。

●智能问答：计算机能够正确回答输入的问题。

●文摘生成：计算机能够准确归纳、总结并产生文本摘要。

●文本分类：计算机能够采集各种文章，进行主题分析，从而进行自动分类。

●舆论分析：计算机能够判断目前舆论的导向。

●知识图谱：知识点相互连接而成的语义网络。

情感分析来分析总体用户评价是积极还是消极。
智能问答在一些电商网站有非常实际的价值，比如代替人工充当客服角色，有很多基本而且重复的问题，其实并不需要人工客服来解决，通过智能问答系统可以筛选掉大量重复的问题，使得人工?席能更好地服务客户。
文摘生成利用计算机自动地从原始文献中摘取文摘，全面准确地反映某一文献的中心内容。
文本分类是机器对文本按照一定的分类体系自动标注类别的过程。
舆论分析可以帮助分析哪些话题是目前的热点，分析传播路径以及发展趋势，对于不好的舆论导向可以进行有效的控制
用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系
中文词语分析是中文分词的基础与关键
分词常用的手段是基于字典的最长串匹配，据说可以解决85%的问题，但是?义分词很难
基于机器学习的方法里，往往需要对词的词性进行标注
命名实体是指从文本中识别具有特定类别的实体（通常是名词）

句法分析往往是一种基于规则的专家系统
句法分析的目的是解析句子中各个成分的依赖关系
往往最终生成的结果是一棵句法分析树
词袋模型是完全相同的，但是句法分析可以分析出其中的主从关系，真正理清句子的关系
中文中代词出现的频率很高，它的作用的是用来表征前文出现过的人名、地名等。
情感一般可以分为两类，即正面、负面，也可以是三类，在前面的基础上，再加上中性类别
由于用户的输入出错的可能性比较大，出错的场景也比较多
问答系统往往需要语音识别、合成，自然语言理解、知识图谱等多项技术的配合才会实现得比较好
需要语言学、统计学、最优化理论、机器学习、深度学习以及自然语言处理相关理论模型知识做基础
句法语义分析：针对目标句子，进行各种句法分析，如分词、词性标记、命名实体识别及链接、句法分析、语义角色识别和多义词消歧等
关键词抽取涉及实体识别、时间抽取、因果关系抽取
文本挖掘主要包含了对文本的聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的呈现界面
对话系统系统通过多回合对话，跟用户进行聊天、回答、完成某项任务
维基百科是最常用且权威的开放网络数据集之一
词法分析包括汉语的分词和词性标注这两部分
句法分析是对输入的文本以句子为单位，进行分析以得到句子的句法结构的处理过程
一方面是为了帮助理解句子的含义，另一方面也为更高级的自然语言处理任务提供支持（比如机器翻译、情感分析等）
目前业界存在三种比较主流的句法分析方短语结构句法体系依存结构句法体系深层文法句法分析
语义分析的最终目的是理解句子表达的真实语义
语义角色标注一般都在句法分析的基础上完成，句法结构对于语义角色标注的性能至关重要
出于机器学习模型复杂度、效率的考虑，自然语言处理系统通常采用级联的方式，即分词、词性标注、句法分析、语义分析分别训练模型
将多个任务联合学习和解码，如分词词性联合、词性句法联合、分词词性句法联合、句法语义联合等
机器翻译、问答系统、自动摘要等方向取得成功
为什么深度学习可以在NLP中取得这样的成绩呢（1）海量的数据。（2）深度学习算法的革新。
由于语音和图像这种属于自然信号，而自然语言是人类知识的抽象浓缩表示，所以意味着深度学习并不能解决NLP中的所有问题
NLP过去几十年的发展，从基于简单的规则方法到基于统计学方法，再到现在的基于深度学习神经网络的方法，技术越来越成熟，在很多领域都取得了巨大的成就。
跨领域的研究整合将是未来的发展方向
正则表达式是一种定义了搜索模式的特征序列
正则表达式的作用之一是将这些文档内容从非结构化转为结构化以便后续的文本挖掘。
正则表达式的另一个作用就是去除“噪声”。
正则表达式是处理NLP的最基本的手段之一
文本最重要的来源无疑是网络
因为Numpy运算的时候需要结构相同
在处理自然语言过程中，需要将文字（中文或其他语言）转换为向量。即把对文本内容的处理简化为向量空间中的向量运算。基于向量运算，?们就可以实现文本语义相似度、特征提取、情感分析、文本分类等功能
在Numpy中，最核心的数据结构是ndarray，ndarray代表的是多维数组，数组指的是数据的集合
借用线性代数的说法，一维数组通常称为向量（vector），二维数组通常称为矩阵（matrix）
使用Anaconda快速构建开发环境，正则表达式快速进行字符串处理以及Numpy辅助进行科学计算。
语言理解中，词是最小的能够独立活动的有意义的语言成分
将句子转化为词的表示。这个切词处理过程就是中文分词
“规则分词”“统计分词”和“混合分词（规则+统计）”这三个主要流派
简单高效，但对新词很难进行处理
单纯的统计分词也有缺陷，那就是太过于依赖语料的质量，因此实践中多是采用这两种方法的结合，即混合分词
按照匹配切分的方式，主要有正向最大匹配法、逆向最大匹配法以及双向最大匹配法三种方法
由于汉语中偏正结构较多，若从后向前匹配，可以适当提高精确度。所以，逆向最大匹配法比正向最大匹配法的误差要小
双向最大匹配法（Bi-directction Matching method）是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较，然后按照最大匹配原则，选取词数?分最少的作为结果
随着大规模语料库的建立，统计机器学习方法的研究和发展，基于统计的中文分词算法渐渐成为主流
其主要思想是把每个词看做是由词的最小单位的各个字组成的，如果相连的字在不同的文本中出现的次数越多，就证明这相连的字很可能就是一个词。
组合频度高于某一个临界值时，?们便可认为此字组可能会构成一个词语
Jieba分词结合了基于规则和基于统计这两类方法
高频词一般是指文档中出现频率较高且非无用的词语，其一定程度上代表了文档的焦点所在
标点符号：一般标点符号无任何价值，需要去除
停用词：诸如“的”“是”“了”等常用词无任何意义，也需要剔除
词性标注是在给定句子中判定每个词的语法范畴，确定其词性并加以标注的过程
一般表现为同音同形的词在不同场景下，其表示的语法属性截然不同，这就为词性标注带来很大的困难
实词，一般只有一到两个词性，且其中一个词性的使用频次远远大于另一个
词性标注最简单的方法是从语料库中统计每个词所对应的高频词性，将其作为默认词性
目前较为主流的方法是如同分词一样，将句子的词性标注作为一个序列标注问题来解决
中文领域中尚无统一的标注标准，较为主流的主要为北大的词性标注集和宾州词性标注集两大类
首先基于正则表达式进行汉字判断
然后基于前缀词典构建有向无环图，再基于有向无环图计算最大概率路径，同时在前缀词典中找出它所分出的词性
若不符合上面的正则表达式，那么将继续通过正则表达式进行类型判断，分别赋予“x”“m”（数词）和“eng”（英文）
其目的是识别语料中人名、地名、组织机构名等命名实体
中文命名实体识别主要有以下难点：

各类命名实体的数量众多
命名实体的构成规律复杂
嵌套情况复杂
长度不确定

命名实体识别：

基于规则的命名实体识别
基于统计的命名实体识别
混合方法

关键词是代表文章重要内容的一组词
关键词提取算法一般也可以分为有监督和无监督两类
有监督的方法能够获取到较高的精度，但缺点是需要大批量的标注数据，人工成本过高
相对于有监督的方法而言，无监督的方法对数据的要求就低多了
人们常将TF-IDF算法应用于关键词提取中
其他算法的关键词提取都要基于一个现成的语料库
TextRank算法则是可以脱离语料库的背景，仅对单篇文档进行分析就可以提取该文档的关键词
PageRank算法是一种网页排名算法链接数量链接质量
Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达
在分完词之后，每个文档都可以表示为一系列词的集合
对我们算法的抽取产生负面的影响，我们将这种词称为干扰词
一般在算法开始前，还需要进行一个步骤——去除停用词
现在中文自然语言处理中较常用的一个停用词表就是哈工大的停用词表
训练一个关键词提取算法需要以下几个步骤：

1）加载已有的文档数据集。

2）加载停用词表。

3）对数据集中的文档进行分词。

4）根据停用词表，过滤干扰词。

5）根据数据集训练算法。

根据训练好的关键词提取算法对新文档进行关键词提取要经过以下环节：

1）对新文档进行分词。

2）根据停用词表，过滤干扰词。

3）根据训练好的算法提取关键词。

一般情况下，使用词性过滤，仅保留名词作为关键词的结果更符合我们的要求
通常在项目实践中，算法本身并没有高下之分，需要结合具体业务和尝试情况进行调整
句法分析是自然语言处理的核心技术，是对语言进行深层次理解的基石
句法分析的主要任务是识别出句子所包含的句法成分以及这些成分之间的关系，一般以句法树来表示句法分析的结果
句法分析主要有以下两个难点歧义、搜索空间
确保能够在可以容忍的时间内搜索到模型定义最优解
句法分析（Parsing）是从单词串得到句法结构的过程，而实现该过程的工具或程序被称为句法分析器（Parser）
句法分析的种类很多，这里我们根据其侧重目标将其分为完全句法分析和局部句法分析两种
句法分析中所用方法可以简单地分为基于规则的方法和基于统计的方法两大类
统计分析方法一般都离不开语料数据集和相应的评价体系的支撑
相较于分词或词性标注，句法分析的数据集要复杂很多，其是一种树形的标注结构，因此又称树库
目前使用最多的树库来自美国宾夕法尼亚大学加工的英文宾州树库
不同的树库有着不同的标记体系，使用时切忌使用一种树库的句法分析器，然后用其他树库的标记体系来解释
句法分析评测的主要任务是评测句法分析器生成的树结构与手工标注的树结构之间的相似程度
主要考虑两方面的性能：满意度和效率
目前主流的句法分析评测方法是PARS?VAL评测体系
准确率表示分析正确的短语个数在句法分析结果中所占的比例
召回率表示分析得到的正确短语个数占标准分析树全部短语个数的比例
交叉括号表示分析得到的某一个短语的覆盖范围与标准句法分析结果的某个短语的覆盖范围存在重叠又不存在包含关系，即构成了一个交叉括号
词法分析（分词、词性标注或命名实体识别等）
以短语结构树为目标的句法分析器目前研究得最为彻底，应用也最为广泛
句法分析又属于NLP中较为高阶的问题
PCFG是上下文无关文法的扩展，是一种生成式的方法，其短语结构文法可以表示为一个五元组（?，V，S，R，P）
马尔可夫网络是概率图模型中一种具备一定结构处理关系能力的算法
Stanford Parser主要有以下优点：

既是一个高度优化的概率上下文无关文法和词汇化依存分析器，又是一个词汇化上下文无关文法分析器
以权威的宾州树库作为分析器的训练数据，支持多语言
提供了多样化的分析输出形式，除句法分析树输出外，还支持分词和词性标注、短语结构、依存关系等输出
内置了分词、词性标注、基于自定义树库的分析器训练等辅助工作
支持多种平台，并封装了多种常用语言的接口，如Java、Python、P?P、Ruby、C#等

实践中，句法分析常常通过结合一定的规则来辅助解决一些任务
在自然语言处理研究领域，文本向量化是文本表示的一种重要方式
无论是中文还是英文，词语都是表达文本处理的最基本单元
词袋（Bag ?f ?ord）模型是最早的以词语为基本处理单元的文本向量化方法
词向量（word2vec）技术就是为了利用神经网络从大量无标注的文本中提取有用信息而产生的
上下文相似的词，其语义也相似
随着各类硬件设备计算能力的提升和相关算法的发展，神经网络模型逐渐在各个领域中崭露头角，可以灵活地对上下文进行建模是神经网络构造词表示的最大优点
通过语言模型构建上下文与目标词之间的关系是一种常见的方法
NNLM模型直接通过一个神经网络结构对n元条件概率进行估计
NNLM模型中计算量最大的操作就是从隐藏层到输出层的矩阵运算?h
由于NNLM模型使用低维紧凑的词向量对上文进行表示，这解决了词袋模型带来的数据稀疏、语义鸿沟等问题
一般使用随机梯度下降算法对NNLM模型进行训练
NNLM模型的目标是构建一个语言概率模型，而C&?则是以生成词向量为目标的模型
负样本是将正样本序列中的中间词替换成其他词得到的
CBOW的目标是根据上下文来预测当前词语的概率，且上下文所有的词对当前词出现概率的影响的权重是一样的
word2vec基于分布假说理论可以很好地提取词语的语义信息
文本的语序包含重要信息
doc2vec技术存在两种模型——Distributed Memory（DM）和DistributedBag of words（DBOW），分别对应word2vec技术里的CBOW和Skip-gram模型
一般的文本处理任务中，会将词向量和段向量相结合使用以期获得更好的效果
要训练词向量就必须要有大量的语料库
本文训练词向量的步骤是：

运行data_pre_process.py脚本对原始中文语料库进行预处理，该脚本执行完毕后会产生reduce_zhiwiki.txt这个文档
运行training.py脚本，执行完该脚本后会得到zhiwiki_news系列的四个文件，训练好的词向量就存在这几个文件里

与训练词向量类似，段落向量的训练分为训练数据预处理和段落向量训练两个步骤
doc2vec不仅利用了词语的语义信息而且还综合了上下文语序信息，而word2vec则丢失了语序信息
采用计算机自动化进行情感分析成为目前学术界和工业界的大趋势
情感分析会涉及很多主题，包括针对电影评论、商品评论，以及新闻和博客等的情感分析
情感分析领域，文本可以划分为积极和消极两类，或者积极、消极和中性（或不相关）的多类:

词法分析
基于机器学习的分析
混合分析。

词法分析运用了由预标记词汇组成的字典，使用词法分析器将输入文本转换为单词序列
文本的分类取决于文本的总得分
在情感分析中，主要使用的是监督学习方法。它可以分为三个阶段：数据收集、预处理、训练分类。在训练过程中，需要提供一个标记语料库作为训练数据。分类器使用一系列特征向量对目标数据进行分类。
在机器学习技术中，决定分类器准确率的关键是合适的特征选择
机器学习技术面临很多挑战：分类器的设计、训练数据的获取、对一些未见过的短语的正确解释
两种方法进行组合的可能性，既可以利用机器学习方法的高准确性，又可以利用词法分析快速的特点
在NLP问题中，情感分析可以被归类为文本分类问题
主要涉及两个问题：文本表达和文本分类
在深度学习出现之前，主流的表示方法有B??（词袋模型）和topic model（主题模型），分类模型主要有SVM（支持向量机）和LR（逻辑回归）
词袋模型有个很大的问题，就是无法抓取到核心的信息，因为它忽略了语法和文法，只是把一句话当成一个词的合集
在文本分类模型方面，一般?们会使用传统机器学习方法
CNN卷积神经网络,一般首先使用卷积操作处理词向量序列，生成多通道特征图，对特征图采用时间维度上的最大池化操作得到与此卷积核对应的整句话的特征，最后将所有卷积核得到的特征拼接起来即为文本的定长向量表示。
循环神经网络是一种能够对时序数据进行精准建模的网络
RNN及其变种长短时记?网络（Long ShortTerm Memory，LSTM）在NLP领域得到了广泛应用，例如在语言模型、句法分析、语意角色标注，图说模型、对话、机器翻译等领域均有优异的表现
循环神经网络按照时间展开
LSTM通过对循环层的刻意设计来避免长期依赖问题和梯度消失的问题
LSTM通过给简单的循环神经网络增加记?以及控制门，增强了它们处理距离依赖问题的能力
选择合适的参数训练网络非常重要，最终模型的好坏很大程度上取决于你选择的优化器（Momentum、Nesterov、AdaGrad、RMSProp、AdaDelta、Adam）、学习率以及网络架构
用朴素贝叶斯、支持向量机、逻辑回归等方法进行文本分类，用k-means方法进行文本聚类等
机器学习的一些基本概念：有监督学习、无监督学习、半监督学习、分类、聚类、回归、降维等
机器学习的常用分类算法：朴素贝叶斯、支持向量机、逻辑回归等
机器学习的聚类方法：k-means算法
机器学习是NLP的基石
“机器学习”最初的研究动机是让计算机系统具有人的学习能力以便实现人工智能
目前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”
由于“经验”在计算机系统中主要以数据的形式存在
成功训练一个模型需要四个要素：数据、转换数据的模型、衡量模型好坏的损失函数和一个调整模型权重以便最小化损失函数的算法。
对于数据，肯定是越多越好
通常数据和我们最终想要的相差很远
损失函数可以帮助我们平衡先验和后验的期望，以便?们做出决策
我们通过最小化损失函数来寻找最优参数
这是模型在训练数据集上的误差
这是模型在没见过的新数据上的误差，可能会跟训练误差不一样（统计上叫过拟合）
机器学习里最重要的四类问题（按学习结果分类）：

预测（Prediction）
聚类（Clustering）
分类（Classification）
降维（Dimensional reduction）

在实际情景中，监督学习最为常用
先准备训练数据，可以是文本、图像、音频、数字等，然后抽取所需要的特征，形成特征向量（Feature Vectors）
监督学习任务的基本框架流程：

先准备训练数据，可以是文本、图像、音频、数字等，然后抽取所需要的特征，形成特征向量（Feature Vectors）把这些特征连同对应的标记（label）一起喂给学习算法，训练出一个预测模型（Predictive Model）采用同样的特征抽取方法作用于新测试数据，得到用于测试的特征向量?使用预测模型对将来的数据进行预测。

回归与分类的区别在于，预测的目标是连续的变量
回归分析也许是监督学习里最简单的一类任务
无监督学习即在没有人工标记的情况下，计算机进行预测、分类等工作。
文本分类技术在NLP领域有着举足轻重的地位
文本分类是指在给定分类体系，根据文本内容自动确定文本类别的过程
信息检索、web文档自动分类、数字图书馆、自动文摘、分类新闻、文本过滤、单词语义辨析、情感分析等。
分类过程主要分为两个阶段，训练阶段和预测阶段
常见的分类器有逻辑回归（Logistic Regression，LR。名义上虽然是回归，其实是分类）支持向量机（Support Vector Machines，SVM）、K近邻居（K-Nearest Neighbor，KNN）、决策树（Decision Tree，DT）、神经网络（Neural Network，NN）等
如果特征数量很多，跟样本数量差不多，这时选择LR或者线性的SVM。如果特征数量比较少，样本数量一般，不大也不小，选择SVM的高斯核函数版本。如果数据量非常大，又非线性，可以使用决策树的升级版本——随机森林。在Kaggle竞赛中随机森林被大规模应用，取得了非常不错的成绩，当数据达到巨量时，特征向量也非常大，则需要使用神经网络拓展到现在的深度学习模型。
一般来说文本分类大致分为如下几个步骤：

1）定义阶段：定义数据以及分类体系，具体分为哪些类别，需要哪些数据。

2）数据预处理：对文档做分词、去停用词等准备工作。

3）数据提取特征：对文档矩阵进行降维，提取训练集中最有用的特征。

4）模型训练阶段：选择具体的分类模型以及算法，训练出文本分类器。

5）评测阶段：在测试集上测试并评价分类器的性能。

6）应用阶段：应用性能最高的分类模型对待分类文档进行分类。

在使用分类器之前，需要对文本提取特征
序列学习是一类近来备受关注的机器学习问题
当输入和输出都是不定长的序列时，?们把这类模型称为seq2seq
通俗地说，支持向量机（SVM）的最终目的是在特征空间中寻找到一个尽可能将两个数据集合分开的超级平面（hyper-plane）
无监督学习（?nsupervised Learning）希望能够发现数据本身的规律和模式，与监督学习相比，无监督学习不需要对数据进行标记
某种程度上说，机器学习的终极目标就是无监督学习
无监督学习可以帮助?们发现数据的“簇”，同时也可以帮助?们找寻“离群点”（outlier）
无监督学习对数据进行降维，保留数据的主要特征
常见的非监督学习任务:

聚类问题通常研究如何把一堆数据点分成若干类，从而使得同类数据点相似而非同类数据点不似子空间估计问题通常研究如何将原始数据向量在更低维度下表示

聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”（cluster）
文本聚类有很多种算法，例如K-means、DBScan、BIRC?、C?R?等
文本聚类存在大量的使用场景，比如数据挖掘、信息检索、主题检测、文本概括等
选择初始聚类点的方法有如下几种：
- 随机选择法。随机的选择k个对象作为初始聚类点。
- 最小最大法。先选择所有对象中的相距最遥远的两个对象作为聚类点。然后选择第三个点，使得它与确定的聚类点的最小距离是所有点中最大的，然后按照相同的原则选取。
- 最小距离法。选择一个正数r，把所有对象的中心作为第一个聚类点，然后依次输入对象，当前输入对象与已确认的聚点的距离都大于r时，则该对象作为一个新的聚类点。
- 最近归类法。划分方法就是决定当前对象应该分到哪个簇中。划分方法中最为流行的是最近归类法，即将当前对象归类于最近的聚类点。
准确率和召回率:
- 准确率（P，Precision）：A/（A+B），在所有被判断为正确的文档中，有多大比例是正确的。
- 召回率（R，Recall）：A/（A+C），在所有正确的文档中，有多大比例被我们判为正确。
- F1测度（F-measure）：2PR/（P+R），既衡量准确率，又衡量召回率。
机器学习领域的两个重要的分支——分类和聚类
人工神经网络思想来源于仿生学对大脑机制的探索，即希望通过对大脑的模拟达到智能的目的
是赋予机器以人类大脑类似的学习、思考、反馈、调节，以及做正确决策的能力
由于人工神经网络可以对非线性过程进行建模，因此可以解决例如分类、聚类、回归、降维、结构化预测等一系列复杂的问题
在NLP领域，主要是在信息抽取，命名实体识别，词性标注，文本分析，拼写检查，语音识别，机器翻译，市场营销、金融领域的情感分析，问答系统，搜索引擎，推荐系统等方向都有成功的应用
传统的算法一般会用统计等方法去标注，而深度学习会直接通过词向量表示，然后通过深度网络进行自动学习
深度学习在自然语言处理各个应用领域取得了巨大的成功
神经网络中最基本的是神经元模型
有论文证明，只要有足够多层数的神经网络就可以表示任意函数
感知机的基础数学模型，你可以这样理解，它是一个通过给每维数据赋予不同权重从而做出决策的机器
通过调整权重和阈值的大小，?们可以得到不同的决策模型
网络最左边的是输入层神经元，用于接收外界输入，中间为隐藏层，对信号进行一定加工与转换，最右边为输出层神经元，最终结果由输出层神经元输出表示
神经网络的学习过程，就是根据训练数据来调整神经元之间的“权重”以及每个功能神经元的阈值
换言之，神经网络学到的东西，蕴含在权重和阈值当中
前馈神经网络。这也就意味着网络中没有回路，信息总是向前传播，从不反向回馈
1）训练阶段（training）：是指网络输入样本数据作为初始数据，通过激活函数与网络连接，迭代求得最小化损失
数学上称这个过程为参数估计的过程
2）推导阶段（infer）。拿这个训练好的网络对实际的数据进行分类或回归，称为分类阶段
所谓神经网络就是将很多个单一的神经单元组合到一起
向传播算法（Back Propagation，BP）是其中的经典方法，它是现今最成功的神经网络算法
机器学习完成一个训练任务有三个要素：算法模型、目标函数、优化算法
优化机器学习问题的求解，本质上都是优化问题
优化的目标是损失函数最小化
基于神经网络的表示一般称为词向量、词嵌入（word embedding）或分布式表示（distributed representation）
NLP相关任务中最常见的第一步是?建一个词表库并把每个词顺序编号
无法捕捉词与词之间的相似度，也被称为“词汇鸿沟”问题
word2vec是Google在2013年发布的一个开源词向量建模工具
RNN背后的思想是利用顺序信息
长短时记忆网络（Long Short Term Memory network，LSTM）是一种特殊的RNN，它能够学习长时间依赖
LSTM是专门设计用来避免长期依赖问题的
Attention机制的实现是通过保留LSTM编码器输入序列的中间输出结果，然后训练一个模型来对这些输入进行选择性的学习，并且在模型输出时将输出序列与之进行关联
对于一些NLP任务，比如聊天机器人、机器翻译、自动文摘等，传统的方法都是从候选集中选出答案，这对候选集的完善程度要求很高
Tensorflow是由Google公司在2015年底发布的开源深度学习框架
自然语言中词的多义性很难用规则来描述
老科学家可以理解成“老的科学家”或者“老科学的家”
词是表达语义的最小单位
分词器示意图

应用不同，汉语分词的颗粒度大小应该不同
中文分词会用到英文分词里，以为手写的英文空格不是很清晰
隐含马尔科夫模型陆续成功过地应用于机器翻译、拼写纠错、手写体识别、图像处理、基因序列分析导尿管许多IT领域

一条信息的信息量与其不确定性有着直接的关系
熵、条件熵和先对熵这三个概念与语言模型的关系非常密切
信息熵是对不确定性的衡量
信息熵不仅是对信息的量化度量，而且是整个信息论的基础。
中学阶段花很多时间比同伴多读的课程，上大学以后用很短的时间就能读完
书本上的内容可以早学，也可以晚学，但是错过了成长阶段却无法补回来
理想在不断改变，但是通过努力走向成功的志向一直没有改变。
一个人想要在自己的领域做到世界一流，他的周围必须有非常多的一流人物
我每开除一名语言学专家，我的语音识别系统识别率就会提供一点
很多的历史偶然性背后有着它对的原因
只有掌握了事物本质和精髓才能做到游刃有余
很多现象，积累一段时间才会有感觉。
很多问题没有答案，只有好与不好
搜索领域的网络爬虫问题应该定义为“如何在有限的时间内最多爬取最重要的网页”
无法超越，是因为共有的技术很难突破。超越的路除了技术的突破，剩下的就是颠覆。

TF-IDF是对搜索关键词的重要性的度量
有限状态机

不是最快的，但一定是最稳定的
年轻人应当不惧怕失败，大胆尝试
这个螺旋式的回归不是简单的重复，而是一种升华
这已经不是技术的比赛，而是市场的竞争
香农第一定理：对于一个信息，任何编码的长度都不小于它的信息熵

一个好的方法，在形式上应该是简单的
统计数量不足，就像看楼下有两个男生和三个女生，就得出城市男女比例是2:3一样
分而治之原理是将一个复杂问题分成若干个简单的子问题进行解决，然后对子问题的结果进行合并，得到原来问题的解
在生活中大量用到的、真正有用的方法往往简单而又朴实
大多数与“智能”有点关系的问题，都可以归结为一个在多维空间进行模式分类的问题
梯度下降法讲的是，每次向着最“陡”的方向走一步，这样能保证最快地走到山顶
谷歌大脑与其说很聪明，不如说很能算
没有数据之前，不要给出任何结论
统计首先要求数据量充足
人们要认识到正确的理论和方法，总有一个渐进的过程
当我们认识到规律后，就应该自觉地在工作中遵循而非违背规律
End

你可能感兴趣的:(读书笔记)

日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
【花了N长时间读《过犹不及》，不断练习，可以越通透】君君Love
我已经记不清花了多长时间去读《过犹不及》，读书笔记都写了42页，这算是读得特别精细的了。是一本难得的好书，虽然书中很多内容和圣经吻合，我不是基督徒，却觉得这样的文字值得细细品味，和我们的生活息息相关。我是个界线建立不牢固的人，常常愧疚，常常害怕他人的愤怒，常常不懂拒绝，还有很多时候表达不了自己真实的感受，心里在说不嘴里却在说好……这本书给我很多的启示，让我学会了怎样去建立属于自己的清晰的界限。建立
《感官品牌》读书笔记 1 西红柿阿达
原文:最近我在东京街头闲逛时，与一位女士擦肩而过，我发现她的香水味似曾相识。“哗”的一下，记亿和情感立刻像潮水般涌了出来。这个香水味把我带回了15年前上高中的时候，我的一位亲密好友也是用这款香水。一瞬间，我呆站在那里，东京的街景逐渐淡出，取而代之的是我年少时的丹麦以及喜悦、悲伤、恐惧、困惑的记忆。我被这熟悉的香水味征服了。感想:感官是有记忆的，你所听到，看到，闻到过的有代表性的事件都会在大脑中深深
《如何写作》文心读书笔记逆熵反弹力
《文心》这本书的文体是以讲故事的形式来讲解如何写作的，读起来不会觉得刻板。读完全书惊叹大师的文笔如此之好，同时感叹与此书相见恨晚。工作了几年发现表达能力在生活中越来越重要，不管是口语还是文字上的表达。有时候甚至都不能把自己想说的东西表达清楚，平时也有找过一些书来看，想通过提升自己的阅读量来提高表达能力。但是看了这么久的书发现见效甚微，这使得我不得不去反思，该怎么提高表达能力。因此打算从写作入手。刚
【208】《班级管理课》读书感悟（一百零五）2023-07-23 南风如我意
-----------《班级管理课》读书感悟四文/李现风2023年读书笔记读书笔记以以下三个出发点为目的：一、书中的思想，提升自己的教育理念；二、书中的值得借鉴的做法，提升自己的教育技巧；三、书中的美句，有鉴于哲理性的句子，提升自己文章的语言魅力和教育文化水准。读《班级管理课》作者陈宇读书感悟四：【书目】《班级管理课》【页数】第70页第87页【阅读内容（摘录）】第四课开学一个月：班级常规工作正常运
D020+3组鱼来与鱼往+《吉田医生哈佛求学记》读书笔记筱麦
今天读第四章时，看到一句话：只要不放弃，就能发现道路，即便是羊肠小道。这让我想起那年去集安玩的经历，那年夏天我们三口人自驾去集安玩，玩的几天特别开心，夏季多雨，返程的时候，就赶上了大雨，雨势迅猛，任凭雨刷器摆的再快，也看不清前方的路，而且有一段路是盘山路，特别陡特别窄，在这样的路况下，女儿有些害怕，我心里也很紧张，老公劝我们说没事的，虽然他这么说，但我还是很紧张，坐在副驾驶专心替他看路。开过了盘山
03《孙子兵法<谋攻篇>》：全胜论---成年人该有的战略意识弓長言兑
承接前面的读书笔记，我们通过《孙子兵法》第一篇的《计篇》，了解到兵圣孙武“慎战论”的观点，并且知道了什么是“五事”、“七计”、“十二术”。通过第二篇《作战篇》，从经济学的角度，我们领悟了孙子为什么强调“速战论”，以及增利减害、以战养战的光辉思想。今天我们一起探讨《孙子兵法》第三篇《谋攻篇》。看看兵圣孙武又将带给我们怎样的智慧。老规矩，精选经典论述，让大家先读为快。1.好句共读：“凡用兵之法，全国为
【读书笔记】《一课经济学》经济学艺术 Cynthiayumoon
经济学•艺术文|雯雨霏【选摘】作者：亨利·黑兹利特本书目的：为了强调一般性的经济学原理，强调忽视这些原理会受到的惩罚。本书主旨：分析经济生活中盛行的一些谬论。第一部分：主旨•忽视那些不那么即时和不那么明显的后果，本身就是一个谬误。•经济学的艺术，在于不仅要观察任何行为或政策的即时影响，更要考察其比较长远的影响；不仅要关注政策对某个群体产生的影响，更要追踪其对所有群体造成的影响。•学会如何发现和避开
读书笔记6‖《怎样开会》知微呀
昨天梳理的第五、第六讲内容竟然被锁了，管它呢，我的目的是梳理读书内容，便于吸收记忆，管它锁不锁，我只管做就是了！今天继续第七讲和第八讲内容。第七讲:决策会1.提请决策的议题应当基本成熟通过开会作决策是会议的一项基本功能，也是极为重要的核心功能。决策正确则会议正确，决策失误则意味着会议根本失误。正常情况下，提请会议决策的议题都应是基本成熟的，并且要经过事先审核和协调沟通。日常工作中的具体决策，不一定
2022-11-13#看书笔记#成长#《我的第一本人生规划手册》萧瑟归去
本书的基本信息来源：微信读书APP种类：付费书籍说明符号：>>为划线的原文部分，例如：>为上一句无符号为想法部分，>为想法选中的原文部分，例如：读书笔记如下：序>>当我们把任何计划，加上“管理”两个字，立刻就可以变得高大上起来，比如说：“身材管理”“时间管理”“财富管理”“读书管理”“思维管理”，等等。将目标具体化，将计划具体化，其实是一个思维转化的问题>从“语文思维”到“数学思维”的转变计划安排
分享今日读书笔记小朗_18f9
设计治疗抑郁症的新方法。我们的理由很简单。既然抑郁症来自一个长期养成的消极思维模式，那如果我们可以改变这种思维模式，我们就可以治疗抑郁症。你怎样看问题决定了你是否能从抑郁中解脱出来，或者使抑郁更加严重。一次失败或打击会告诉你，你现在是无助的，但习得性无助只会造成暂时的抑郁，除非你有悲观的解释风格。
《你就是孩子最好的玩具》读书笔记许个诺
一、父母管教孩子的常见误区1、控制型父母特征：”都给我停下来！不许乱跑！再捣乱就别想看电视！-命令和威胁是控制型的典型表现-这样不会让孩子有责任感，孩子长大后会更容易放纵自己。”2、放任型父母”不理他，我没办法，小孩子闹一闹没关系的。“”孩子学不会应有的社会规则-孩子长大会缺乏约束和规矩，没有群体归属感，更容易涉及毒品、早孕和帮派、网络成瘾。因为他们需要极强的团队依赖。”3、轻视、低估和否定孩子的
清醒的头脑，进取的精神 chuck_study
jq1.jpg《永不言败》读书笔记16一个人才能的增长过程，其实就是不断用普通资源换取稀缺资源的过程。什么是普遍资源？就是通过努力都可以达到的能力和水平。实际上能够达到高境界的人并不多。理由很简单，并不是每一个人在获取普遍资源时都全力以赴。现实生活中，由于很多人都不能付出足够的努力，因此只有一小部分人才能拥有较高水平的普遍资源。也只有这些人，才有可能用他们得到的普遍资源来换取稀缺资源。所谓稀缺资源
读书笔记《心灵书写》霹雳婉儿的小屋
第三章《用书写觉察内心深处的需求》10《六个写作练习，让你与过去的自己和解》看着他们的第一次和最后一次，我感受到了他们在那一刻的心情，也知道那些不同凡响的第一次和最后一次给他们的整个人生带来了多么大的影响。他们写完后陷入了不同的情绪状态，彼此读出来的时候，他们有的声音哽咽，有的痛哭不止，有的激动发抖，有的把本子撕掉……不管如何，他们都在书写时回到了那个重要时刻，在那里和过去的自己重逢，疗愈脆弱的自
读书笔记《道德经说什么》38 和弦夜光杯
原文：上德不德，是以有德；下德不失德，是以无德。上德无为而无以为，下德无为而有以为；上仁为之而无以为；上义为之而有以为；上礼为之而莫之应，则攘臂而扔之。故失道而后德，失德而后仁，失仁而后义，失义而后礼。夫礼者，忠信之薄而乱之首；前识者，道之华而愚之始。是以大丈夫处其厚，不居其薄；处其实，不居其华。故去彼取此。R十行采集：1.上德不德，是以有德：最有德的人，做了有德的事儿，没有觉得有什么了不起。上德
2023-09-26 阳光亦然
读书笔记：读《阿德勒人格哲学》有感最近喜欢上了读书，且呈现了入迷的状态。每天只要一有空我就会读书，且是那种纸质书。我喜欢手里捧着书，拿支笔划出重点的那种感觉。朋友知道我喜欢读书，所以我生日的时候不送我红包也不送其他，送了我五十本书。说是可以让我读一年的礼物。其中就有这本《阿德勒人格哲学》。花了近一周的时间，我看完了第一遍。又花四天的时间，我看完了第二遍。于是，关于这本书，我想说点什么，写点什么。阿
读书笔记荷笑笑
这是个艰难而痛苦的旅程，许多人望而却步，他们找到一个看似安全的地方，创出一个沙坑，待在那儿止步不前，根本不愿再去穿越那令人痛苦的、遍布仙人掌、荆棘和砾石的沙漠。虽然多数人都听说过富兰克林的名言“唯有痛苦才会带来教益”，但真正能践行的人很少，许多人难以忍受横穿沙漠的痛苦，于是都早早中断了这一旅程。疾病不仅仅是生理上的失调，也表现为心理上的拒绝成熟。这种心理疾病完全可以通过心灵的成长加以调节。那些在生
2021-08-02 静合悦美A
我是生命智慧成长导师陈倪挖掘发现你的天赋与潜能、拥有健康力、智慧力、反思力、财富力【感恩成功复盘日记第137天】2021-8-2【今日成就✌️】小来签到838天；复盘137天；今日阅读33；语音打卡第119天；静心+运动+魔力足迹的练习16天；完成阅读《道德经》第二十一章成功完成8月份销售提升和优化的关键节点、关键事件。成功完成半小时阅读及输出读书笔记---如何正确的观察。成功完成去书店发现并淘了
【355】文慧《当我遇见一个人》—温和而坚定的“反控制”（21）文慧的心童年
2019.12.25，坚持一天一篇文章11个月25天（第355篇），为以后开一家有温度的育儿主题书店做准备，影响1万妈妈加入亲子阅读！我是文慧，专注于亲子阅读5年，希望可以陪伴0-6岁孩子和妈妈一起享受悦读时光，陪您经营幸福美满的家庭。期待你的关注：，今日头条，抖音，微博（文慧的悦读时光）图片发自App在家育儿也不忘自我成长，每天一篇育儿文章，这个月准备写《当我遇见一个人》这本书的读书笔记，精读一
二期阅读营Day3 李昊专业能力培训师
每天5:30－6:30必须上线听课主持人蕾蕾：爱里相遇联合创始人，用行动创造自己，接近优秀的人，把握当下，认真生活一，分享陈苏银学员分享：1.不要把收藏当做收获，学会分享，最终的方式把有用的东西当场记下。2.勤于思考，用才是真正的学。陈可儿分享：1.从不爱读书强迫自己看书，每年读100本，做三四本读书笔记，21年增加选修的课心理学。2.受到优秀人启发，不要给自己找借口，从强迫自己到热爱。3.学以致
《随园诗话》读书笔记76（卷三）：日影度花轻九曲奔流
原文：淡莲洲明府称芜湖胡漱泉秀才，有“日影度花轻”五字，得五言妙境。江君旭东亦赏沙斗初“花气半湖阴”五字，所见与莲洲同。九曲奔流笔记：1.日影度花轻。注：有意境。度，形容日影的移动；轻，既是日影度之轻，也是花之轻，化视觉为触觉。2.花气半湖阴。注：花气是香的，嗅觉，湖阴是触觉，化视觉、嗅觉为触觉。但是这句只是静，欠生动，改一字，花湿半湖阴。
《背叛》读书笔记01 释洁然
豆豆三部曲，读完了《天幕红尘》、《遥远的救世主》，今天开始读背叛，刚好要挑战日更，就写读书笔记吧。疑惑：夏英杰受方子云之托，给在监狱里的宋一坤送东西，见面前后只有三分钟，只有了了几句对话。为什么就能产生“一见钟情”的感觉？不是很能理解。虽然，我相信爱情是一瞬间的感觉，但豆豆笔下三部曲里爱情产生的这一瞬间我都不太难理解。豆豆笔下三部曲的男主、女主其实非常非常像，都是一类人，或者说三部曲里其实是同一对
【读书笔记】实现自由杨芝兰河南尉氏
文/杨芝兰当小豆豆第一次见到校长小林宗作先生的时候就有这样的感受：能永远和这个人在一起就好了。当时小豆豆在妈妈的带领下第一次见到校长时，校长就提出单独和小豆豆谈话。刚上一年级的小豆豆居然独自一人说了四个小时的话，这在他人看来是不可思议的事情，而他做到了，与此同时还有一个人的见证，那就是校长。校长在旁只是边笑边点头，有时候还问“后来呢？”“已经没有了吗？”“还有什么可说的呢？没有了吗？”…他一次也没
《红楼梦》第五回读书笔记百草丰茂
这一回合主要写了贾宝玉神游太虚境，得到了林荣两府中姐妹们的命运提示，我们一起去看一看。在本回合开篇还讲到了黛玉与宝玉的情感。黛玉自从来到荣府，贾母就非常的怜爱她，饮食起居全部和宝玉一个样。宝玉和黛玉两人之间的关系也与其他姐妹不同，白天同行同坐，晚上同止同息，关系比其他的姐妹都要亲密一些。结果薛宝钗来了之后，却深得下人的心，小丫头们都和宝钗亲近。因此，黛玉心中就有些隐隐的不舒服。而宝玉也是个孩子，他
读书笔记《娱乐至死》① 潜龙勿用qaz
要点1、每次大众媒介的改变，文化的内容都在发生变化，对“真理”和“智力”的定义都在改变。2、文字统治下，话语的特点：清晰易懂、严肃而有理性；电视统治下，话语变得无能而荒唐。3、电报的强项是传播信息，而不是解释分析。电报传播转瞬即逝的信息，然后用更多新信息取代，不容你稍加思索。带给你支离破碎的时间、被割裂的注意力。4、电视的关键特征是能看，它本身的特征决定了它必须舍弃思想、迎合人们对视觉快感的需求。
《随园诗话》读书笔记103（卷五）：破墙难补尽糊诗九曲奔流
原文：丁丑，余觅一抄书人，或荐黄生，名之纪，号星岩者，人甚朴野。偶过其案头，得句云；“破庵僧卖临街瓦，独井人争向晚泉。”余大奇之，即饷米五斗。自此欣然大用力于诗。五言句云：“云开日脚直，雨落水纹圆。”“竹锐穿泥壁，蝇酣落酒尊。”“钓久知鱼性，樵多识树名。”“笔残芦并用，墨尽指同磨。”七言云：“小窗近水寒偏觉，古木遮天曙不知。”“旧生萍处泥犹绿，新落花时水亦香。“旧甓恐闲都贮水，破墙难补尽糊诗。”“
解密世界顶级咨询公司麦肯锡克敌制胜的法宝 | 读书笔记（4）大海的成长记录
历史上的今日1934年抗日将领吉鸿昌慷慨就义1988年世界最大木板典籍《乾隆版大藏经》重印1993年科学家周培源逝世电梯法则：商务沟通必须有高效率所谓的电梯法则，就是假设一种经典的场景：你在电梯里面游说客户，看看在这短短30秒内是否能够打动客户。30秒电梯法则的重点1.开头要精彩进行商务沟通时，最重要的就是调动客户的胃口，可以从与他相关的利益点着手，让他产生兴趣。2.逐步引导客户先声夺人之后，就要
探索名门望族背后的秘密期待遇见最好的自己
20200814读书笔记（十三）林则徐家族159节，林则徐曾经说过，子孙若如我，留钱做什么，贤而多财则损其志，子孙不如我，留钱做什么。愚而多财益增其过。这是林则徐的财富观，更是价值观，一个人的立身之本，一定不是外在的财富，而是产生财富的种子，一个有志气的人，一生不可能贫穷。教导孩子就如授人以鱼，不如授人以渔，把孩子培养成财富，把孩子打造成金身才是传承之道。有什么样的价值观，就会有什么样对应的价值出
读书笔记《自由不是为所欲为》冰底之石
自由和爱情一样有时常会被我们误解和滥用，就像很多人认为，自由等于为所欲为，其实这样的误解，使我们永远的偏离了自由应有的方向，而沦为了欲望的奴隶。就想爱，有多少人是真正懂爱的呢？如果很多人懂，就不会那么多伤害是以爱的名义造成的。自由也是一样，很少人能够懂。什么是自由？很多人会觉得，由着自己，想干嘛就干嘛。什么叫不自由，就是想干的不能干。如果你把自由理解为为所欲为，那只能说你平时被禁锢太久了。很多人对
《妈妈强大了孩子才优秀》P105-P120读书笔记罗宝妈妈
记得有一次带罗宝出去吃饭，饭桌上还有两个小朋友，一个女孩，一个男孩，男孩拿着玩具和画画的书，看的出男孩的妈妈十分重视孩子教育，罗宝主动靠近小男孩，想要跟小男孩一起画画，玩玩具，但小男孩就是不愿意给她玩，而另外一个女孩跟男孩的关系很好，男孩的妈妈说给小妹妹给一个呗，但是男孩不愿意，说谁叫她不好好吃饭了，当时罗宝很难过，一直不停的在哭，我和她爸也在不断的安慰她，没事，明天妈妈给你买个更漂亮的，我当时也
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本