weixin_30292843

【数学之美笔记】自然语言处理部分（一）.md

文字、数字、语言、信息

数字、文字和自然语言一样，都是信息的载体，他们的产生都是为了记录和传播信息。

但是貌似数学与语言学的关系不大，在很长一段时间内，数学主要用于天文学、力学。

本章，我们将回顾一下信息时代的发展，看语言学如何慢慢与数学联系起来的。

信息

最开始的时候，人类会用声音来传播信息。

这里面的信息的产生、传播、接收、反馈，与现在最先进的通信在原理上没有任何差别。

因为早期人类需要传播的信息量不多，所以不需要语言文字。

但是当人类进步到一定的程度的时候，就需要语言了。

所以我们的祖先将语言描述的共同因素，比如物体、数量、动作便抽象出来，形成了今天的词汇。

文字和数字

文字的产生

随着人类的发展，语言和词汇多到一定的程度，大脑已经无法完全记住了。此时就需要一种文字，将信息记录下来。

使用文字的好处在于，信息的传输可以跨越时间、空间了，两个人不需要在同一时间，同一地点碰面就可以进行信息的交流。

那么如何创造文字呢？最直接的方式就是模仿要描述对象的形状，这就是所谓的象形文字。

文字的聚类

早期，象形文字的数量和记录一个文明的信息量是相关的，也就是说象形文字多，代表着这个文明的信息量大。

但是随着信息量的增加，没有人能学会和记住这么多的文字，这样就需要进行概括和归类了。也就是使用一个词来表达相同和相似的一类意思。

比如说“日”本来是说太阳，但是它又同时可以是我们讲的一天。

这种概念的聚类，和现在自然语言处理或者机器学习的聚类很相似，只是在远古，可能需要上千年，而现在只需要几小时。

但是文字按照意思来聚类，总会有歧义性，也就是弄不清楚一个多义字在特定环境下表示其中哪一个含义。

要解决这个问题，都是依靠上下文，大多数Disambiguation可以做到，但总有个别做不到的时候。对上下文建立的概率模型再好，也会有失灵的时候。

翻译

不同的文明因为地域的原因，文字和语言一般来说是不同的，当两个文明碰在一起的时候，翻译的需求就有了。

翻译能达成的原因：不同的文字系统在记录信息的能力上是等价的，文字只是信息的载体，而不是信息的本身，甚至可以用数字进行搭载。

今天，我们对埃及的了解比玛雅文明多，要归功于埃及人通过文字记录了生活中最重要的信息，对我们的指导意义在于：

同一个信息重复三份，只要有一份保留下来，原有的信息就不会丢失，这对信道编码有指导意义。
语料，也就是语言的数据，至关重要。

数字的产生

文字是在头脑里面已经装不下信息的时候才出现，而数字则是在财产需要数一数才能搞清楚的时候才产生。

早期的数字没有书写的形式，只是说掰指头，这也是我们使用十进制的原因。

渐渐地，祖先发现十个指头也不够用了，最简单的方法是把脚趾头也算上，但是不能解决根本问题。于是他们发明了进位制，也就是逢十进一。

那为什么现有的文明多用十进制，而不是二十进制呢？

相比十进制，20进制多有不便，比如说十进制只需要背诵九九乘法表，如果是20进制的话，就需要背19*19的围棋盘了。

对于不同位数的数字表示，中国人和罗马人都用明确的单位来表示不同的量级。

中国人是用十百千万亿兆，罗马人用I表示个，V表示5等等。

这两种表示法都不自觉的引入了朴素的编码的概念。

用不同的符号代表不同的数字概念。
制定了解码的规则：中国的解码规则是乘法，比如200万的写法意味着2 * 100 * 10000，而罗马的解码规则是加减法——小数字出现在大数字左边为减，右边为加，比如IV表示5-1=4，VII表示5+2=7，这个规则相当复杂，而且对于大的数字难以描述。

从编码的有效性来说，中国人更高明。

描述数字最有效的是古印度人，他们发明了10个阿拉伯数字，比中国和罗马的都抽象，这也标志着数字和文字的分离。客观上让自然语言与数学在几千年没有重复的轨迹。

文字和语言背后的数学

最短编码原理

从象形文字到拼音文字是一个飞跃，因为人类在描述物体的方式上，从物体的外表到抽象的概念，同时不自觉的采用了对信息的编码。

不仅如此，在罗马体系的文字中，常用字短，生僻字长，在意型文字中，也是一样，常用字笔画少，而生僻字笔画多，这符合信息论中的最短编码原理。

罗马语言体系：

st=>start: 楔形文字
op1=>operation: 叙利亚
op2=>operation: 古希腊
op3=>operation: 罗马人和马其顿人
en=>end: 罗马式语言

st->op1->op2->op3->en

在纸发明之前，书写文字并不容易。所以需要惜墨如金，所以古文这种书面文字非常简洁，但是非常难懂。而口语却与现在差别不大。这就和现在的信息科学的一些原理类似

在通信时，如果信道较宽，信息不必压缩就可以直接传递；
而如果信道很窄，信息在传递前需要尽可能地压缩，然后在接收端进行解压缩。

这点就是现在的互联网与移动互联网的网页设计完全一致。

使用宽带的话，页面得设计得比较大，而手机终端上的由于受空中频道带宽的限制，传输速度慢，分辨率低。

校验

《圣经》记录了创世纪以来，犹太人祖先的故事，《圣经》的写作持续了很多世纪，有若干人来完成，抄写的错误在所难免，

为了避免抄错，犹太人发明了一种类似校验码的方法，他们把希伯来字母对应于一个数字，每行加起来就是一个特殊的数字，这个数字即为校验码。

当抄完一页以后，需要把每一行的文字加起来，看看校验码与原文是否相同。

语法

从字母到词的构词法是词的编码规则，那么语法则是语言的编码和解码规则。

相比较而言，词是有限且封闭的集合，语言则是无限和开放的集合。从数学上来讲，前者有完备的编解码规则，而语言则没有，也就是说语言有语法规则覆盖不到的地方，这就是“病句”

那么到底是语言对，还是语法对呢？有人坚持从真实的语料中出发，有人坚持从规则出发。

小结

本章讲述了文字、数字、语言的历史，帮助读者感受语言和数学内在的联系。提到了如下的概念

通信的原理和信息传播的模型
( 信源）编码和最短编码：文言文。
解码的规则：语法
聚类：一个字多个意思
校验位：一个希伯来字对应一个码。
双语对照文本，语料库和机器翻译：信息载体相同。
多义性和利用上下文消除歧义性：概率

自然语言处理——从规则到统计

上一章我们说到，语言出现的目的就是为了人类的通信，而字母、文字、数字实际上是信息编码的不同单位。

任何一种语言都是一种编码方式，而语言的语法规则是编解码的算法。比如，我们把想要表达的东西通过语言组织起来，这就是进行了一次编码，如果对方能懂这个语言，它就可以使用这门语言的解码方式进行解码。

那么机器是否可以读懂自然语言呢？当然可以

机器智能

自然语言处理发展过程可以分为两个阶段：

从 2 0 世纪 5 0 年代到7 0 年代，科学家的认识局限在人类学习语言的方式上了，也就是用电脑模拟人脑。成果几乎为0.
70年代以后进入了第二阶段，也就是基于数学模型和统计的方法。取得了实质性的突破。

50年代，学术界对人工智能和自然语言理解的认识是这样的：要让机器完成语音识别，必须让计算机理解自然语言。因为人类就这么做的。这种方法论就称为“鸟飞派”，也就是看鸟怎么飞的来造出飞机。事实上，人们发明飞机靠的是空气动力学，而不是仿生学。

那么如何才能理解自然语言呢？

一般需要：

分析语句，也就是通过语法。这些语法规则比较容易能用计算机描述。
获取语义。语义比语法更难在计算机中表达出来，

我们可以看一个简单的句子

徐志摩喜欢林徽因

这个句子可以分为主、谓、句号三部分，可以对每个部分进一步分析，得到如下的语法分析树(Parse Tree)

分析它采用的文法规则称为重写规则

但是这种方法很快遇到了麻烦。从上图可以看出一个短短的句子居然分析出这么一个复杂的二维树结构，如果要处理一个真实的句子就非常的麻烦了。

主要有两个坎儿：

要想通过文法规则覆盖哪怕20% 的真实语句，文法规则的数至少是几万条。
而且这些文法规则甚至有矛盾，所以还需要说明规则的使用环境。如果要覆盖50%以上的语句，文法规则的数量最后会多到每增加一个新的句子，就需要加入新的文法

其实很容易理解，无论在中学或者大学的时候，英语成绩多么好，也未必考得好GRE，因为我们学了10年的英语语法也无法覆盖全部的英语。
即使能覆盖所有的语法，计算机来解析一个复杂的句子也是比较困难的。而且自然语言的词义与上下文有特定的关系，也就是上下文有关文法，所以解析起来的计算量相当大。

那么其实从语法这条路来分析句子，并不靠谱。

从规则到统计

上面我们讲到了基于规则的句法分析对于语义处理比较麻烦，因为自然语言中的词的多义性难用规则来描述，而是依赖于上下文。

比如 “The box is in the pen.” 因为这里pen是围栏的意思。整句话翻译成中文就是“ 盒子在围栏里” 。这里面 pen是指钢笔还是围栏，通过上下文已经不能解决，需要常识

1970年以后统计语言学让自然语言处理重获新生，里面的关键任务是贾里尼和他领导的IBM华生实验室。最开始的时候，他们使用统计的方法，将当时的语音识别率从70%提升到90%，同时语音识别规模从几百单词上升到几万单词

小结

基于统计的自然语言处理方法，在数学模型与通信是相通的，因此在数学意义上，自然语言处理又和语言的初衷——通信联系在一起了。

统计语言模型

前面的章节，我们一直强调，自然语言从产生开始，逐渐演变成一种上下文相关的信息表达和传递方式。

所以要让机器能处理自然语音，关键在于为自然语音这种上下文相关的特性建立数学模型，这就是统计语言模型(Statistical Language Model)

这个模型广泛应用于机器翻译、语音识别、印刷体识别、拼写纠错、汉字输入、文献查询

用数学的方法描述语言规律

语音识别需要解决的一个重要的问题就是计算机给出来的一个文字序列，是否能被人类所理解。70年代以前，人们使用语义分析来解决。

而贾里克从另一个角度来看待这个问题，一个简单的统计模型就搞定了。

也就是说要看一个句子是否合理，就看看它的可能性大小如何。

比如说一个通顺的语句出现的概率为$10^{-20}$，而一个乱七八糟的语句出现的概率为$10^{-70}$，所以通顺的语句更有可能。

假定$S$表示一个有意义的句子，由一串特定顺序的词${\omega _1},{\omega _2}, \cdots ,{\omega _n}$组成，这里$n$是句子的长度。现在需要知道这个句子出现的概率

$$P\left( S \right) = P\left( {{w_1},{w_2}, \cdots ,{w_n}} \right)$$

利用条件概率的公式，$S$这个序列出现的概率等于每个词出现概率相乘

$$P\left( {{w_1},{w_2}, \cdots ,{w_n}} \right) = P\left( {{w_1}} \right)P\left( {{w_2}|{w_1}} \right) \cdots P\left( {{w_n}|{w_1},{w_2}, \cdots ,{w_{n - 1}}} \right)$$

$P\left( {{w_n}|{w_1},{w_2}, \cdots ,{w_{n - 1}}} \right)$表示词$w_n$出现的概率取决于它前面的所有词。

问题就来了，这种条件概率怎么计算呢？

20世纪初，俄国的数学家马尔科夫给出了一个有效的方法，当遇到这种情况的时候，假设任意一个词$w_i$出现的概率只与前面的词$w_{i-1}$有关，与其他词无关，这就叫马尔科夫假设

所以公式又变成了

$$P\left( {{w_1},{w_2}, \cdots ,{w_n}} \right) = P\left( {{w_1}} \right)P\left( {{w_2}|{w_1}} \right) \cdots P\left( {{w_n}|{w_{n - 1}}} \right)$$

这就叫二元模型(Bigram Model)

如果假设一个词由前面$N-1$个词决定，对应的模型就叫$N
$元模型，会更复杂。

同样那么如何估算条件概率$P\left( {{w_i}|{w_{i - 1}}} \right)$,可以先看一下它的定义

$$P\left( {{w_i}|{w_{i - 1}}} \right) = \frac{{P\left( {{w_{i - 1}},{w_i}} \right)}}{{P\left( {{w_{i - 1}}} \right)}}$$

需要做的是估计

联合概率${P\left( {{w_{i - 1}},{w_i}} \right)}$：连续两个词同时出现的概率
以及边缘概率${P\left( {{w_{i - 1}}} \right)}$

那么这两种概率如何得到？

有了大量的语料库(Corpus)以后，只要数一下${{w_{i - 1}},{w_i}}$在统计的文本前后相邻出现了多少次${# \left( {{w_{i - 1}},{w_i}} \right)}$即可。然后除以语料库的大小#，这样就可以使用频度来估计概率了。

根据大数定理，只要统计量足够，相对频度就等于概率。

$$P\left( {{w_i}|{w_{i - 1}}} \right) = \frac{{# \left( {{w_{i - 1}},{w_i}} \right)}}{{# \left( {{w_{i - 1}}} \right)}}$$

居然用这么复杂的模型就可以解决复杂的语音识别、机器翻译的问题。

统计语言模型的工程诀窍

高阶语言模型

二元模型最大的特点在于，每个词只与前面一个词有关，太简化了，更普遍的是某个词与前面若干词都有关。

所以$N$元模型指的就是当前词$w_i$只取决于前$N-1$个词，这就是N-1阶马尔科夫假设

实际中，三元模型用得多更多，所以$N=3$，而更高阶的就比较少用了，因为

模型阶数大，复杂度高。

$N$元模型的大小，几乎是$N$的指数，所以$N$不能太大。当$N$从1到2，再从2到3的时候，模型的效果上升显著，而模型从3到4，效果提升就不明显了，耗费的资源却很多。所以很少有人使用4元以上的模型
纵然是提升了阶数，依然不能覆盖所有的语言现象。比如说从一个段落跨到另一个段落，即使阶数更高，对这种情况也无可奈何。这时需要其他的长程依赖性来解决(long Distance Dependency)

模型的训练、零概率问题和平滑方法

使用语言模型需要知道模型中所有的条件概率，我们称之为模型的参数。

通过对语料的统计，得到这些参数的过程称作模型的训练。

之前我们讲过，只需要统计出相邻两个字符同时出现的次数以及${w_{i - 1}}$单独出现的次数，然后计算一下比值即可。

但是有一种情况我们没有考虑，如果相邻两个词并没有同时出现过，也就是$# \left( {{w_{i - 1}},{w_i}} \right) = 0$怎么办，是否就说明概率为0。

当然不是，这就涉及到统计的可靠性了。

在数理统计中，我们之所以敢用采用数据来预测概率，是因为大数定理，它的要求是有足够的观测值。也就是如果样本太小，则使用次数来预测概率当然不靠谱。

那么如何正确的训练一个语言模型呢？

直接的方法就是增加数据量。但是也依然会遇到零概率的问题，称之为“不平滑”
对于不平滑的的概率，我们不能认为它发生的概率为零，可以从概率的总量中，分配一个很小的比例给予这些没有看见的事件。

这样一来，看见的那些事件的概率总和就要小于1了，因此，需要将所有看见的亊件概率调小一点。至于小多少，要根据“越是不可信的统计，对它的折扣越多”的方法进行。

下面以统计词典中每个词的概率来具体讲讲。

假定在语料库中出现$r$次的词有$N_r$个，$N$表示语料库的大小。

$$N = \sum\limits_{r = 1}^\infty {r{N_r}} $$

也就是说每个词出现的$r$词的词的个数与出现了多少次相乘。

当$r$比较小，说明出现的次数不够多，那么在计算它们的概率的时候要使用一个更小一点的次数，比如$d_r$

$${d_r} = \left( {r + 1} \right)\frac{{{N_{r + 1}}}}{{{N_r}}}$$

而且

$$\sum\limits_r {{d_r}{N_r}} = N$$

一般来说，出现1次的词的数量比出现两次的多，同样出现两次比出现三次的多。

也就是出现的次数$r$越大，词的数量$N_r$越小，所以${N_{r + 1}} < {N_r}$，可以看出${d_r} < r$，这样估算是因为$d_r$是我们要找的那个比$r$更小的数，而当只出现0次的时候${d_0}>0$

这样，

对频率超过一定阈值的词，它们的概率估计就是语料库中的相对频度
对于频率小于阈值的词，概率估计就小于他们的相对频度。

对于二元模型，

其中

$T$是一个阈值，一般在8~10左右。
$f_{gt}()$表示经过平滑处理以后的相对频度
而$Q(w_{i-1})$可以保证所有的频率加起来为1.

这种平滑的方法最早是由IBM的卡茨提出来的，所以称为卡茨退避法

还有一种方法是删除差值法，也就是用低阶模型和高阶模型进行线性插值的方法来平滑处理，但是因为效果差于卡茨退避发，所以很少使用了。

语料的选取问题

模型训练中另一个重要问题是训练数据，或者说是语料库的选取，如果训练预料和模型应用的领域相脱节，模型的效果也要大打折扣。

比如对于建立一个语言模型，如果应用是网页搜索，它的训练数据就应该是杂乱的网页数据和用户输入的搜索串，而不是传统的、规范的新闻稿，即使前者夹杂着噪音和错误。因为训练数据和应用一致，搜索质量反而更好。

训练数据通常是越多越好，高阶模型因为参数多，需要的训练数据也相应会多很多，遗憾的是，并非所有的应用都能有足够的训练数据，比如机器翻译的双语语料，这个时候，追求高阶的大模型没有任何意义。

如果训练数据和应用数据一致了，而且训练量足够大了以后，训练预料的噪音高低也会对模型产生影响。所以训练之前需要进行预处理，对于可以找到规律的而且还比较多的噪音需要进行处理，比如制表符

中文分词

演变

对于西方拼音来说，词之间有明确的分界符(Delimit)。但是对于中文来讲，词之间没有明确的分界符。所以需要先对句子进行分词。

最容易想到的方法就是查字典也就是说，从左到右扫描一遍，遇到字典里面有的词就标识出。

但是这种方法遇到复杂的问题就不行了。比如说遇到二义性的分割时。像“发展中国家”，正确的分割是“发展-中-国家”，而从左向右查字典会分割为“发展-中国-家”

同样我们可以使用统计语言模型来解决分词二义性的问题。

假定一个句子$S$有几种分词方法：

$$\begin{array}{l}
{A_1},{A_2},{A_3}, \cdots ,{A_k}\
{B_1},{B_2},{B_3}, \cdots ,{B_m}\
{C_1},{C_2},{C_3}, \cdots ,{C_n}
\end{array}$$

最好的分词方法就是分完词以后，这个句子出现的概率最大。

当然如果穷举所有的分词方法，并计算每种可能性下的句子的概率，那么计算量是相当大的。

可以看作是一个动态规划(Dynamic Programming)问题，并利用维特比(Viterbi)算法快速的找到最佳分词

语言学家对词语的定义不完全相同，比如说“北京大学”，有人认为是一个词，有人认为是两个词。折中的方法就是先当做一个四字词，然后再进一步找到细分词“北京”和“大学”

工程上的细节

人工分词产生不一致性的主要原因在于人们对词的颗粒度的认识问题。

比如说“清华大学”，有人认为是一个整体，有人认为“清华”是修饰“大学”的。这里不需要去强调谁的观点正确，而是应该知道，在不同的应用里面，会有一种颗粒度比另一种更好的情况。

比如说在机器翻译中，颗粒度大翻译效果好，比如“联想公司”如果拆分为开，很难翻译为“Lenovo”。但是在网页搜索里面，小的颗粒度会比大的要好，比如用户查询“清华”而不是“清华大学”一样可以查询到清华大学的主页。

如果为不同的应用构建不同的分词器，太过浪费。可以让一个分词器同时支持不同层次的词的切分。

首先需要一个基本的词表和一个复合词表。

基本词表包括“清华”、“大学”、“贾里尼克”这样无法再分的词
复合词表包含复合词以及它们由哪些基本词构成，包括像“清华大学：清华-大学”
接下来需要根据基本词表和复合词表各建立一个语言模型：L1,L2
根据基本词表和L1进行分词，就得到小颗粒度的分词结果。一般来说，基本词比较稳定，偶尔才会增加点新词。
最后，再用复合词表和L2进行第二次分词，此时输入的是基本词串，输出的是复合词串。

也就是说先把句子按照基本词进行分割，再把基本词串按照复合词模型再分割。

转载于:https://www.cnblogs.com/dy2903/p/8734249.html

你可能感兴趣的:(【数学之美笔记】自然语言处理部分（一）.md)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多