贾继康

【自然语言处理】论述自然语言处理的技术范畴

文章目录

论述自然语言处理的技术范畴

一、前言
二、主要技术范畴

1、语音合成(Speech Synthesis)
2、语音识别(Speech Recognition)
3、中文自动分词
4、词性标注
5、句法分析
6、文本分类
7、文本挖掘
8、信息抽取
9、问答系统
10、机器翻译
11、文本情感分析
12、自动摘要
13、文字蕴涵

三、自然语言处理的难点

1、语言环境复杂
2、文本结构形式多样
3、边界识别限制
4、词义消岐
5、指代消解

四、展望自然语言处理

论述自然语言处理的技术范畴

一、前言

本片博文主要是介绍说明自然语言处理的全貌，一些主要的技术范畴。
自然语言处理(NLP)这个是一个很大的话题,，它是一个人机交互的一个过程，它涉及的学科比较广泛譬如如下所示：

    1：语言学
    2：计算机科学(提供模型表示，算法设计，计算机实现):
    3：当然还有数学以此来提供数学模型
    4：心理学(人类言语心理模型和理论)
    5：哲学(提供人类思维和语言的更高层次理论)
    6：统计学(提供样本数据的预测统计技术)
    7：电子工程(信息论基础和语言型号处理技术)
    8：生物学(人类言语行为机制理论)

总之那涉及的学科范围广泛。不言而喻在自然语言处理研究工作中是十分艰难的，博主现在也只是学习它的一个小小的分支罢了，看到此篇博文的小伙伴希望能抛出你们的建议和意见，要是如此博主甚是感激，开心呀！！！

二、主要技术范畴

1、语音合成(Speech Synthesis)

       所谓的语音合成就是指用人工的方式产生人类语音。语音合成器，就是利用计算机系统作用在语音合成上。而语音合成器可以用软/硬件实现。
       文字转语音（Text-To-Speech，TTS）系统则是将一般语言的文字转换为语音，其他系统可以描绘语言符号的表示方式，就像音标转换至语音一样。
       语音合成器的质量: 通常取决于人声的相似度及语义是否能被了解。举个例子，对于个瞎子看不到文字，只能通过语音合成器很清楚的听到文字转换成语音的效果。
       语音合成的应用包括智能仪表、智能玩具、电子地图、电子导游、电子词典等。

总结：用大白话来讲使用语音合成器可以实现文字转换为语音，音标转化为语音,并且效果如同非瞎看文字，瞎子听语音同一个效果为最好。

2、语音识别(Speech Recognition)

       语音识别（Speech Recognition）技术也被称为语音转文本识别（Speech to Text，STT），目标是让计算机自动将人类的语音内容转换为相应的文字。
       语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如，语音到语音的翻译。
       总结：用大白话来讲语音识别就是借助计算机工具来识别人类说的话转化为可视化的东东(也就是文字啦)。

3、中文自动分词

       中文自动分词指的是----->使用计算机----->自动对中文文本----->进行词语的切分。就像英文那样使得中文句子中的词之间有空格以标识。中文自动分词也是中文自然语言处理中的最底层的一个环节。
现有的方法：
       ⊚ 基于词典的匹配：前向最大匹配、后向最大匹配。
       ⊚ 基于字的标注：最大熵模型、条件随机场模型、感知器模型。
       ⊚ 其他方法：与词性标注结合、与句法分析结合。
       例如以下是博主写的一个简单的测试
       代码

"""
 author:jjk
 datetime:2018/11/1
 coding:utf-8
 project name:Pycharm_workstation
 Program function: 中文分词
                   结巴分词
 
"""
import jieba # 导入结巴分词包
import jieba.posseg as pseg
import time #  时间

time_Start = time.time()

#f=open("t_with_splitter.txt","r")#读取文本  
#string=f.read().decode("utf-8")

string = '中文自动分词指的是使用计算机自动对中文文本进行词语的切分，' + \
         '即像英文那样使得中文句子中的词之间有空格以标识。' + \
         '中文自动分词被认为是中文自然语言处理中的一个最基本的环节'

words = pseg.cut(string) # 进行分词
result = "" #记录最终结果的变量 
for w in words:
    result += str(w.word) + "/" + str(w.flag) # 加词性标注  
print(result) # 输出结果
f = open("result.txt","w") #将结果保存到另一个文档中 
f.write(result)
f.close()
time_Stop = time.time()
print("分词及词性标注完成，耗时："+str(time_Stop-time_Start)+"秒。")# 输出结果

结果

4、词性标注

       词性标注（Part-of-Speech tagging 或POS tagging) 又称词类标注或者简称标注，是指在词性标记集已确定，并且词典中每个词都有确定词性的基础上，将一个输入词串转换成相应词性标记串的过程。如上 3、中文自动分词 中举的例子的结果所示。
       在汉语中，因为汉语词汇词性多变的情况比较少见，大多词语只有一个词性，或者出现次最高的词性远远高于第二位的词性，相对比较简单。同时，它也受到一些条件约束。比如：兼类词在具体语境中的词性判定问题、未登录词即新词词性问题、兼类词问题等。
       词性标注方法包括概率方法、隐马尔可夫模型的词性标注方法、机器学习规则的方法等。

5、句法分析

句法分析

句法分析（Parsing）就是指对句子中的词语语法功能进行分析。比如“欢迎大家使用演示平台”就可以表示为"欢迎\VV 大家\PN 使用\VV 演示\NN 平台\NN"。
句法分析在中文信息处理中的主要应用包括机器翻译、命名实体识别等。

自然语言生成

自然语言生成研究使计算机具有人一样的表达和写作功能，即能够根据一些关键信息及其在机器内部的表达形式，经过一个规划过程，自动生成一段高质量的自然语言文本。自然语言处理包括自然语言理解和自然语言生成。自然语言生成是人工智能和计算语言学的分支，相应的语言生成系统是基于语言信息处理的计算机模型，其工作过程与自然语言分析相反，从抽象的概念层次开始，通过选择并执行一定的语义和语法规则来生成文本。

6、文本分类

文本分类用计算机对文本集按照一定的分类器模型进行自动分类标记。文本分类的总体过程如下（引用自 NLPIR 汉语分词系统）。

（1）预处理：将原始语料格式化为同一格式，便于后续的统一处理。
（2）索引：将文档分解为基本处理单元，同时降低后续处理的开销。
（3）统计：词频统计，项（单词、概念）与分类的相关概率。
（4）特征抽取：从文档中抽取出反映文档主题的特征。
（5）分类器：分类器的训练。
（6）评价：分类器的测试结果分析。

文本分类常用算法包括决策树、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、KNN、遗传算法、最大熵等，广泛应用于垃圾过滤、新闻分类、词性标注等。

7、文本挖掘

       文本挖掘一般指在文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生，如模式识别。文本挖掘通常涉及输入文本的处理过程，产生结构化数据，并最终评价和解释输出。
       例如博主的这篇文章中对微信朋友圈个性签名生成词云的分析,就是一个文本挖掘。
       典型的文本挖掘方法包括文本分类、文本聚类、信息抽取、概念/实体挖掘、情感分析和观点分析等。

8、信息抽取

信息抽取（Information Extraction）是从大量文字数据中自动为访问数据库而抽取特定消息的技术。
简单点来说从给定文本中抽取重要的信息，比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等。大白话就是，就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果，涉及实体识别、时间抽取、因果关系抽取等关键技术。

9、问答系统

问答系统（Question Answering）是当下自然语言处理研究的热点，也是未来自然语言处理的重点问题。从问答系统的外部行为来看，其与目前主流资讯检索技术有两点不同：首先是查询方式为完整而口语化的问句，再者是其回传的为高精准度网页结果或明确的答案字串。
至此不知道小伙伴你有没有想到聊天机器人呀！！！

10、机器翻译

机器翻译（Machine Translation，经常简写为MT）属于计算语言学的范畴，是计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。简单来说，机器翻译是通过将一个自然语言的字辞取代成另一个语言的字辞来实现的。借由使用语料库的技术，可达成更加复杂的自动翻译，包阔可更佳地处理不同的文法结构、辞汇辨识、惯用语的对应等。
这里用博主自己的大白话的理解就是：将一种语言(比如中文) 翻译成

11、文本情感分析

文本情感分析（也称为意见挖掘）是指用自然语言处理、文本挖掘及计算机语言学等方法来识别和提取原素材中的主观信息。通常来说，情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极的观点的态度。这个态度或许是他的个人判断或评估，或许是他当时的情感状态（也就是说，作者在做出这个言论时的情绪状态），或是作者有意向的情感交流（就是作者想要读者所体验的情绪）等。
总结：就是作者规定一些代表文本的态度词，然后使用可视化进行表现出来从而达到客户情感交流。

12、自动摘要

       所谓自动摘要就是利用计算机自动地从原始文献中提取文摘，文摘是全面准确地反映某一文献中心内容的连贯短文。常用方法是自动摘要将文本作为句子的线性序列，将句子视为词的线性序列。
       自动摘要可以按照技术类型和信息提取分类。
       ⊚ 技术应用类型：自动提取给定文章的摘要信息，自动计算文章中词的权重，自动计算
文章中句子的权重。
       ⊚ 信息提取：单篇文章的摘要自动提取，大规模文档的摘要自动提取，基于分类的摘要
自动提取。
       举例如下所示：

"""
 author:jjk
 datetime:2018/10/15
 coding:utf-8
 project name:Pycharm_workstation
 Program function: 查找关键词
    思路：
	     1：加载已有的文档数据集
		 2：加载停用词表
		 3：对数据集中的文档进行分词
		 4：根据停用词表，过来干扰词
		 5：根据数据集训练算法


"""

import math
import jieba
import jieba.posseg as psg
from gensim import corpora, models
from jieba import analyse
import functools
import numpy as np


# 停用词加载方法
def get_stopword_list():
    stop_word_path = './data/stopword.txt'
    # 遍历txt文档，剔除''
    stopword_list = [sw.replace('\n', '') for sw in open(stop_word_path, encoding='utf-8').readlines()]
    return stopword_list


# 分词方法，调用结巴接口
# pos是判断是否采用词性标注的参数
def seg_to_list(sentence, pos=False):
    if not pos:
        # 不进行词性标注的分词方法
        seg_list = jieba.cut(sentence)
    else:
        # 进行词性标注的分词方法
        seg_list = psg.cut(sentence)
    return seg_list


# 去除干扰词，根据pos判断是否过滤除名词外的其他词性，再判断词是否在停用词表中，长度是否大于等于2等。
def word_filter(seg_list, pos=False):
    stopword_list = get_stopword_list()
    filter_list = []
    # 根据pos参数选择是否词性过滤
    # 不进行词性过滤，则将词性都标记为n,表示全部保留
    for seg in seg_list:
        if not pos:
            word = seg
            flag = 'n'
        else:
            word = seg.word
            flag = seg.flag
        if not flag.startswith('n'):
            continue
        # 过滤高停用词表中的词，以及长度为<2的词
        if not word in stopword_list and len(word) > 1:
            filter_list.append(word)
    return filter_list


# 数据加载
# corpus.txt为数据集
def load_data(pos=False, corpus_path='./data/corpus.txt'):
    # 调用上面 方式对数据集进行处理，处理之后的数据集仅保留非干扰词
    doc_list = []
    for line in open(corpus_path, 'rb'):
        content = line.strip()
        seg_list = seg_to_list(content, pos)
        filter_list = word_filter(seg_list, pos)
        doc_list.append(filter_list)
    return doc_list


# idf值统计方法
def train_idf(doc_list):
    idf_dic = {}
    # 总文档数
    tt_count = len(doc_list)
    # 每个词出现的文档数
    for doc in doc_list:
        for word in set(doc):
            idf_dic[word] = idf_dic.get(word, 0.0) + 1.0

    # 按公式转换为idf值，分母加1进行平滑处理
    for k, v in idf_dic.items():
        idf_dic[k] = math.log(tt_count / (1.0 + v))
    # 对于没有在字典中的词，默认其尽在一个文档出现，得到默认idf值
    default_idf = math.log(tt_count / (1.0))
    return idf_dic, default_idf


# topK
# cmp()函数是为了输出top关键词时，先按照关键词的计算分值排序，在得分相同时，根据关键词进行排序时
def cmp(e1, e2):
    # import numpy as np
    res = np.sign(e1[1] - e2[1])
    if res != 0:
        return res
    else:
        a = e1[0] + e2[0]
        b = e2[0] + e1[0]
        if a > b:
            return 1
        elif a == b:
            return 0
        else:
            return -1


# TF-IDF类
class TfIdf(object):
    # 训练好的idf字典，默认idf值，处理后的待提取文本，关键词数量
    def __init__(self, idf_dic, default_idf, word_list, keyword_num):
        self.word_list = word_list
        self.idf_dic, self.default_idf = idf_dic, default_idf
        self.tf_dic = self.get_tf_dic()
        self.keyword_num = keyword_num

    # 统计tf值
    def get_tf_dic(self):
        tf_dic = {}
        for word in self.word_list:
            tf_dic[word] = tf_dic.get(word, 0.0) + 1.0
        tt_count = len(self.word_list)
        for k, v in tf_dic.items():
            tf_dic[k] = float(v) / tt_count
        return tf_dic

    # 按公式计算tf-idf
    def get_tfidf(self):
        tfidf_dic = {}
        for word in self.word_list:
            idf = self.idf_dic.get(word, self.default_idf)
            tf = self.tf_dic.get(word, 0)
            tfidf = tf * idf
            tfidf_dic[word] = tfidf
        # 根据tf-idf排序，取排名前keyword_num的词作为关键词
        for k, v in sorted(tfidf_dic.items(), key=functools.cmp_to_key(cmp), reverse=True)[:self.keyword_num]:
            print(k + "/", end='')
        print()


# 主题模型
class TopicModel(object):
    #
    def __init__(self, doc_list, keyword_num, model="LSI", num_topics=4):
        # 使用gensim接口，将文本转为向量化表示
        self.dictionary = corpora.Dictionary(doc_list)
        # 使用BOW模型向量化
        corpus = [self.dictionary.doc2bow(doc) for doc in doc_list]
        # 对每个词，根据tf-idf进行加权，得到加权后的向量表示
        self.tfidf_model = models.TfidfModel(corpus)
        self.corpus_tfidf = self.tfidf_model[corpus]

        self.keyword_num = keyword_num
        self.num_topics = num_topics
        # 选择加载的模型
        if model == 'LSI':
            self.model = self.train_lsi()
        else:
            self.model = self.train_lda()
        # 得到数据集的主题-词分布
        word_dic = self.word_dictionary(doc_list)
        self.wordtopic_dic = self.get_wordtopic(word_dic)

    def train_lsi(self):
        lsi = models.LsiModel(self.corpus_tfidf, id2word=self.dictionary, num_topics=self.num_topics)
        return lsi

    def train_lda(self):
        lda = models.LdaModel(self.corpus_tfidf, id2word=self.dictionary, num_topics=self.num_topics)
        return lda

    def get_wordtopic(self, word_dic):
        wordtopic_dic = {}
        for word in word_dic:
            single_list = [word]
            wordcorpus = self.tfidf_model[self.dictionary.doc2bow(single_list)]
            wordtopic = self.model[wordcorpus]
            wordtopic_dic[word] = wordtopic
        return wordtopic_dic

    # 词空间构建方法和向量化方法，在没有gensim接口时的一般处理方法
    def word_dictionary(self, doc_list):
        dictionary = []
        for doc in doc_list:
            dictionary.extend(doc)

        dictionary = list(set(dictionary))

        return dictionary

    def doc2bowvec(self, word_list):
        vec_list = [1 if word in word_list else 0 for word in self.dictionary]
        return vec_list

    # 计算词的分布和文档的分布的相似度，取相似度最高的keyword_num个词作为关键词
    def get_simword(self, word_list):
        sentcorpus = self.tfidf_model[self.dictionary.doc2bow(word_list)]
        senttopic = self.model[sentcorpus]

        # 余弦相似度计算
        def calsim(l1, l2):
            a, b, c = 0.0, 0.0, 0.0
            for t1, t2 in zip(l1, l2):
                x1 = t1[1]
                x2 = t2[1]
                a += x1 * x1
                b += x1 * x1
                c += x2 * x2
            sim = a / math.sqrt(b * c) if not (b * c) == 0.0 else 0.0
            return sim

        # 计算输入文本和每个词的主题分布相似度
        sim_dic = {}
        for k, v in self.wordtopic_dic.items():
            if k not in word_list:
                continue
            sim = calsim(v, senttopic)
            sim_dic[k] = sim

        for k, v in sorted(sim_dic.items(), key=functools.cmp_to_key(cmp), reverse=True)[:self.keyword_num]:
            print(k + "/ ", end='')
        print()


def tfidf_extract(word_list, pos=False, keyword_num=10):
    doc_list = load_data(pos)
    idf_dic, default_idf = train_idf(doc_list)
    tfidf_model = TfIdf(idf_dic, default_idf, word_list, keyword_num)
    tfidf_model.get_tfidf()


def textrank_extract(text, pos=False, keyword_num=10):
    textrank = analyse.textrank
    keywords = textrank(text, keyword_num)
    # 输出抽取出的关键词
    for keyword in keywords:
        print(keyword + "/")


# print()

def topic_extract(word_list, model, pos=False, keyword_num=10):
    doc_list = load_data(pos)
    topic_model = TopicModel(doc_list, keyword_num, model=model)
    topic_model.get_simword(word_list)


if __name__ == '__main__':
    # 获取测试文本
    text1 = 'test.txt'
    text = open(text1, encoding='utf-8').read()
    print(text)

    pos = True
    seg_list = seg_to_list(text, pos)
    filter_list = word_filter(seg_list, pos)

    print('\nTF-IDF模型结果：')
    tfidf_extract(filter_list)

    print('\nTextRank模型结果：')
    textrank_extract(text)

    print('\nLSI模型结果：')
    topic_extract(filter_list, 'LSI', pos)

    print('\nLDA模型结果：')
    topic_extract(filter_list, 'LDA', pos)

结果

13、文字蕴涵

       文字蕴涵（Textual Entailment，TE）
       文字蕴涵在自然语言处理中主要指一个文字片段之间的定向关系。
       ⊚ 正向蕴涵
       文本T：日本时间2011 年3 日11 日，日本宫城县发生里氏震级9.0 震，造成死伤失踪约3 万多人。
       假设H：日本时间2011 年3 日11 日，日本宫城县发生里氏震级9.0 强震。
       ⊚ 矛盾蕴涵
       文本T：张学友在1961 年7 月10 日，生于香港，祖籍天津。
       假设H：张学友生于1960 年。
       ⊚ 独立蕴涵
       文本T：黎姿与“残障富豪”马廷强结婚。
       假设H：马廷强为香港“东方报业集团”创办人之一马惜如之子。

三、自然语言处理的难点

1、语言环境复杂

自然语言处理的语言环境较为复杂，以命名实体识别进行分析，对于同一个汉字某些情况下可以看作实体处理，某些情况则不能看作实体。
例如，天龙八部中的“竹剑”小姐姐在有些情况下可能就是指的是竹子做得剑。还有“湖北” 有可能指定是地点 “湖北”，也有可能指定是“湖的北边”。可见字自然语言处理过程中语言环境(根据上下文才能究其表达的意思)的复杂。

2、文本结构形式多样

       文本内部结构形式多样。还是以自然语言处理中的命名实体识别任务为例子，例如：
       ⊚ 人名，人名由姓和名构成。其中姓氏包括单姓和复姓（如赵、钱、孙、李、慕容、东方、西门等），名由若干个汉字组成。姓氏的用字范围相对有限，比较容易识别。然而名就比较灵活，既可以用名、字、号表示，也可以使用职务名和用典。比如：“李白、李十二、李翰林、李供奉、李拾遗、李太白、青莲居士，谪仙人”都是同一个人。
       ⊚ 地名，一般由若干个字组成地名，可以为作为后缀关键字或者别名，都是指代一个地方。比如：“成都、蓉城、锦城、芙蓉城、锦官城、天府之国”，其中“蓉城、锦城、芙蓉城、锦官城、天府之国”为别名。除了全称的名称，还有地理位置代表地名的。比如：“河南、河南省、豫”都是指的一个省份，其中“豫”是简称。
       ⊚ 组织机构名，组织机构命名方式比较复杂，有些是修饰性的命名，有些表示历史典故，有些表示地理方位，有些表示地名，有些表示风俗习惯和关键字等。例如：组织名“广州恒大淘宝足球俱乐部”中，“广州”表示地名的成分，“恒大”“淘宝”表示公司名称成分，“足球”是一项体育赛事成分，“俱乐部”是关键字的成分。比如：“四川大学附属中学”（四川省成都市第十二中学）中包括另一个机构名“四川大学”。机构名还可以以简称形式表示，比如：“四川大学附属中学”简称“川大附中”，“成都信息工程大学”简称“成信大"。

3、边界识别限制

在自然语言处理任务中，边界识别最广泛应用于命名识别当中。边界识别可以分解为两大任务：如何去识别实体的边界；如何去判定实体的类别（诸如人名、地名、机构名）。中文命名实体识别要比英文命名实体识别更为复杂，一是受中文自身语言特性的限制，不同于英语文本中词间有空格界定；二是英文中的实体一般首字母大写容易区分，例如：‘Jobs wasadopted at birth in San Francisco，and raised in a hotbed of counterculture’ 中，人名乔布斯Jobs的首字母大写，地名旧金山San Francisco 的首字母也是大写,而中文不具备这样的特征。

4、词义消岐

词义消歧
词义消歧是一个自然语言处理和本体论的开放问题。歧义与消歧是自然语言理解中最核心的问题，在词义、句义、篇章含义层次都会出现语言根据上下文语义而产生不同含义的现象。消歧即指根据上下文确定对象语义的过程，词义消歧即在词语层次上的语义消歧。语义消歧/词义消歧是自然语言处理任务的一个核心与难点，影响了几乎所有任务的性能，比如搜索引擎、意见挖掘、文本理解与产生、推理等。
词性标注和词义消岐
       词性标注与词义消歧是相互关联的两个问题，在语言使用者身上它们往往同时能得到满足。但是目前的计算机系统一般并不能让二者共用参数并同时输出。语义理解包括分词、词性标注、词义消歧、句法解析、语义解析等。它们并不是前馈的，是相互依赖并存在反馈的。词性标注与语义消歧都要依赖上下文来标注，但是词性标注比语义消歧处理起来要更简单，最终结果也往往较好。主要原因是词性标注的标注集合是确定的，而语义消歧并没有，并且量级上词性标注要大得多；词性标注的上下文依赖比语义消歧要短。
举例说明
       许多字词不单只有一个意思，因而我们必须选出使句意最为通顺的解释。看下面歧义的句子，词义消歧就是要分析出特定上下文的词被赋予的到底是哪个意思。
       （1）川大学生上网成瘾如患绝症。歧义在于“川大学生”——四川大学的学生；四川的大学生。
       （2）两代教授，人格不同。歧义：“两代”——两位代理教授；两个时代的教授。
       （3）被控私分国有资产，专家总经理成了被告人。歧义：“专家总经理”——专家和总经理；有专家身份的总经理。
       （4）新生市场苦熬淡季。歧义：“新生”——新学生的市场；新产生的市场。
       （5）朝鲜十年走近国际社会一步。歧义：“十年走近国际社会一步”——每十年就向国际社会走近一步；最近十年间向国际社会走近了一步
       （6）新汽车牌照。歧义：“新”——新的汽车；新的牌照。
       （7）咬死了猎人的狗。歧义：——猎人的狗被咬死了；把猎人咬死了的那条狗。
       （8）菜不热了。歧义：“热”——指菜凉了；指菜不加热了。
       （9）还欠款四万元。歧义：“还”——读huai；读hai。
       （10）北京人多。歧义：——北京/人多；北京人/多。

5、指代消解

定义
指代消解（Anaphora Resolution）是自然语言处理的重要内容，在信息抽取时就用到了指代消解技术
中文的三种典型指代
       （1）人称代词：李明怕高妈妈一个人呆在家里寂寞，【他】便将家里的电视搬了过来。
       （2）指示代词：很多人都想创造一个美好的世界留给孩子，【这】可以理解，但不完全正确。
       （3）有定描述：贸易制裁似乎成了美国政府在对华关系中惯用的大棒。然而，这【大棒】果真如美国政府所希望的那样灵验吗？
典型指代消解
       ⊚ 显性代词消解
       所谓显性代词消解，就是指在篇章中确定显性代词指向哪个名词短语的问题，代词称为指示语或照应语（Anaphor），其所指向的名词短语一般被称为先行语（Antecedent）。根据二者之间的先后位置，可分为回指（Anaphora）与预指（Cataphora），其中：如果先行语出现在指示语之前，则称为回指，反之则称为预指。
       ⊚ 零代词消解
       所谓零代词消解，是代词消解中针对零指代（Zero Anaphora）现象的一类特殊的消解。
       ⊚ 共指消解
       所谓共指消解，是将篇章中指向同一现实世界客观实体（Entity）的词语划分到同一个等价集的过程，其中被划分的词语称为表述或指称语（Mention），形成的等价集称为共指链（Coreference Chain）。在共指消解中，指称语包含普通名词、专有名词和代词，因此可以将显性代词消解看作共指消解针对代词的子问题。共指消解与显性代词消解不同，它更关注在指称语集合上进行的等价划分，评测方法与显性代词消解也不尽相同，通常使用 MUC、 B-CUBED、CEAF 和 BLANC 等评价方法。
       指代消解的研究方法大致可以分为基于启发式规则的、基于统计的和基于深度学习的方法。目前看来，基于有监督统计机器学习的消解算法仍然是主流算法。
典型例子

       指代消解是解决“谁对谁做了什么”，处理如上所述的自然语言的问题，下面看看例子：
       （1）美国政府表示仍然支持强势美元，但这到底只是嘴上说说还是要采取果断措施，经济学家对此的看法是否定的。
       （2）今天老师又在班会上表扬了自己，但是我觉得还需要继续努力。
       （3）三妹拉着葛姐的手说，她老家在偏远的山区，因为和家里赌气才跑到北京打工的，接着她又哭泣起自己的遭遇来。
       （4）当他把证书发给小钱时，他对他笑了。
       （5）小明和肖华去公园玩，他摔了一跤，他急忙把他扶起来。
       （6）星期天, 小雨和小英到田老师家补习功课，她一早就打电话给她约好在红旗饭店吃早餐。

四、展望自然语言处理

关于在2017年第三届中国人工智能大会上来自哈尔滨工业大学的刘挺教授对自然语言处理的一个发展趋势的一个总结归纳。
归纳链接：http://www.sohu.com/a/163742617_610522

你可能感兴趣的:(自然语言处理,自然语言处理小分支)

谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
我的烦恼余建梅
我的烦恼。女儿问我：“你给学生布置什么作文题目？”“《我的烦恼》。”“他们都这么大了，你觉得他们还有烦恼吗？”“有啊！每个人都会有自己烦恼。”“我不相信，大人是没有烦恼的，如果说一定有的话，你的烦恼和我写作业有关，而且是小烦恼。不像我，天天被你说，有这样的妈妈，烦恼是没完没了。”女儿愤愤不平。每个人都会有自己的烦恼，处在上有老下有小的年纪，烦恼多的数不完。想干好工作带好孩子，想孝顺父母又想经营好自
今日联对0306 诗图佳得
自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.1、试对肖老师联：烟销皓月临江浒，夜笼寒沙梦晚舟。耀哥求正2、试对萧老师联:烟销浩月临江浒，雾散乾坤解汉城。秀霞习作请各位老师校正3、自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.4、试对肖老师垫场联：烟销皓月临江浒，雾锁寒林缈葉丛。小智求正[抱拳]5、试对肖老师联：烟销皓月临江浒；风卷乱云入峰巅。一一五品6
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
情殇——（5）压抑的小木匠放纵了自己。石疯聊情感故事
木讷的小木匠，其实只是不苟言笑。其实内心深处也是挣扎着，由于性格内敛，不喜形于色，给人的感觉非常的木讷。其实小木匠情商智商都不低。他为人扎实，非常的务实。他的爱是既深沉又宽容。可是是一个男人，都会对妻子出轨的事儿，不会忘怀！只是压抑在心底，为了某种考量或许是真爱。小木匠对于丽影和别人私奔又重回家庭，表面上并没有，天翻地覆，暴风骤雨，其内心深处也是经历了，痛苦的挣扎。。。再一次酒后，他和一个离家多年
感赏日志133 马姐读书
图片发自App感赏自己今天买个扫地机，以后可以解放出来多看点书，让这个智能小机器人替我工作了。感赏孩子最近进步很大，每天按时上学，认真听课，认真背书，主动认真完成老师布置的作业。感赏自己明白自己容易受到某人的影响，心情不好，每当此刻我就会舒缓，感赏，让自己尽快抽离，想好的一面。感赏儿子今天在我提醒他事情时，告诉我谢谢妈妈对我的提醒我明白了，而不是说我啰嗦，管事情，孩子更懂事了，懂得感恩了。投射父母
我的黑历史袖手围观有来有去
孩子同学与我们一起共进晚餐，俩孩子加我三个人。小同学是一个大方率性礼貌的小孩，我们也都非常喜欢。好了，回到正题上来让我把这个故事讲完。俩孩子都喜欢吃鱼，所以就发生了小孩子之间常会发生的事。我狠狠的盯了我家孩子，孩子表情有些狼狈。和孩子单独一起的时候，见她尚未释怀，并谴责我不该狠盯她，让她没面子。也许是她触动了我的童年往事吧。由此，一狠心，给她讲了一段埋藏心里极深的黑历史：我奶奶有四个儿子，四个儿子
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
想明白这个问题，你才能写下去文自拾
春节放假的时候，又有一天梦见她，第二天她冒着漫天大雪，傻傻地跑来见我。她说，见见傻傻的我，天很冷，心很暖。她回去后，我写了一篇文章，题目叫——从此梦中只有你。我们没在一起的很长一段时间里，她都在我的心底，一次次出现在我的梦里。我对她说，在一起之前，是胆小且闷骚，在一起之后，我变得不要脸了。不要脸的——去爱你。那文章没写完，火车上，给她看了。我有点小失望，花了好几个小时写，她分分钟就看完，很希望她逐
2019-08-08 65454
东莞家庭聚会出行旅游去哪里玩住？想起来有很久没有和家里人聚会啦，这次组织家人来到威廉古堡别墅轰趴，一大家子27个人，在别墅订了一天办，玩的非常的开心，小孩子玩游戏机，也很放心不会丢，我们就在唱歌、打麻将、打桌球一系列的活动，还准备小次等小孩生日在别墅举办，还可以给孩子做一个生日的策划
没有邀请码怎么注册买手妈妈? 氧惠评测
买手妈妈怎么注册小编为大家带来买手妈妈没有邀请码怎么注册。打开买手妈妈APP，点击“马上注册”，输入邀请信息“邀请码”点击下一步，没有邀请码是登录不上的，所以这个必须要填写，那我们没有怎么办？填写成功就可以登录下一步。这里面有手机登录和淘宝登录，手机登录以后也需要用淘宝授权的，所以基本上都是淘宝登录。购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客
嘿，谢谢你小小玛拉沁
突然想对一个女孩子说，谢谢你！很久很久以前，总是觉得和你不会有太多交集，充其量也只是普通的舍友吧，毕竟有很多习惯，性格等方面相差甚远。其实特别感谢2017这一段经历和我遇见的人，只会慢吞吞的过自己生活的安小蜗是不会主动去结交朋友的，所以她来到了我的世界，让我在不知不觉中发现了自己太多太多的问题，而我正在逐渐去改变这些的习惯，成为更好的自己！我总是超级佩服她不管什么时候精力都超级旺盛，可以在上了一天
怎么做淘客赚钱(2022最新免费淘客盈利的方法) 高省_飞智666600
很多人都不知道什么是淘宝客，今天小编为大家解答一下吧。淘宝客，现在简称淘客，是时下比较流行的一个词语，特质为淘宝店推广商品获取提成的人，这些人没有自己的产品，只是在淘宝里面选择适合自己的产品，在自己比较熟悉的领域推广，把产品卖出去之后，会从淘宝店家那里获得百分之五到百分之五十左右的佣金。淘宝客付出的是什么呢？时间。你需要花时间去选适合自己推广的产品，需要花时间去选自己的推广方法，如果你打算自己做个
C++菜鸟教程 - 从入门到精通第二节 DreamByte c++
一.上节课的补充(数据类型)1.前言继上节课,我们主要讲解了输入,输出和运算符,我们现在来补充一下数据类型的知识上节课遗漏了这个知识点,非常的抱歉顺便说一下,博主要上高中了,更新会慢,2-4周更新一次对了,正好赶上中秋节,小编跟大家说一句:中秋节快乐!2.int类型上节课,我们其实只用了int类型int类型,是整数类型,它们存贮的是整数,不能存小数(浮点数)定义变量的方式很简单inta;//定义一
2019-3-23晨间日记红红火火小耳朵
今天是什么日子起床：7点40就寝：23点半天气：有太阳，不过一会儿出来一会儿进去特别清爽的凉意，还蛮舒服的心情：小激动要给女朋友过生日啦纪念日：田田女士过生日任务清单昨日完成的任务，最重要的三件事：1.英语一对一2.运动计划3.认真护肤习惯养成：调整状态周目标·完成进度英语七天打卡（5/7）轻课阅读（87/180）音标课（25/30）读书（福尔摩斯一章）学习·信息·阅读#英语课#Cookingte
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
日常演播练习0822 开阳春天
日常演播练习0822一、绕口令练习司小四和史小世，四月十四日十四时四十上集市，司小四买了四十四斤四两西红柿，史小世买了十四斤四两细蚕丝。司小四要拿四十四斤四两西红柿换史小世十四斤四两细蚕丝。史小世十四斤四两细蚕丝不换司小四四十四斤四两西红柿。司小四说我四十四斤四两西红柿可以增加营养防近视，史小世说我十四斤四两细蚕丝可以织绸织缎又抽丝。二、文本练习狗熊是动物街有名的美食家，它吃得多所以长得胖，它能吃
热和冷萍梗子
刚回家时，是阴冷潮湿天气，担心孩子着凉感冒。如今气温回升，天气暖和舒适，却又觉得干燥了，孩子嘴唇有破裂，小脸蛋也红扑扑的。需要补水。需要保湿。小爹的一句“不适应了”，让我感慨不同地区气候的不同。从海南到浙江。而去年三月去北京那几天，也是觉得干燥得很，加上雾霾，嘴唇鼻子喉咙，都难受得很。真是一方水土养一方人。在一个地方待久了，就适应那个地方的气候了。中华大地，地域广阔。风土人情也真是有很大的不同。世
每天都有“小感动” 河北张海霞
上次开学，在楼道值班儿的我，回到办公室后，发现我的办公桌上了一个小饭盒，打开一看，是自家腌的萝卜片，闻起来香香的，是哪位有心的孩子带来的？我猜测着……会不会是杨同学，记得开学第一天，她胃疼再加上低血糖，我曾陪她去医务室看病，并给她带回了早餐……还是李同学，那次她被别的同学欺侮，我为她主持公道。晚餐时间到了，我还带她去餐厅吃饭，引得同学们一阵羡慕……会不会是王同学，那次她眼睛不好，我陪她聊天，关心地
第九十章真情溪境
图片发自App图片发自App和雏田在一起的日子真的很开心。姐姐永远是最亲的最真的。佐助总来捣乱。小樱准备一盆水泼佐助。想到恋爱通告亦菲被泼水不免高兴。亦菲是最美的。没想到她也会有这种遭遇。也许不需要赚那么多钱。和家人在一起的日子真好。却轻易破碎。雏田的话语温软，依稀在耳边。她的微笑纯美温柔。喜欢温柔的哥哥，雏田就是这样啊。不知道雏田是喜欢男生还是女生。我都支持。过去门当户对。现在自由恋爱。想永远和
厦门自由行之第一天: 大苏子在广漂
厦门三人行之杂记出发前一天:12️28日下午15:00从广州粗发，来深圳集合！但是中间发生一个小插曲，验票时候发现车票不见了，或许也是一场恶作剧，对于不排队的人，忍不住说了一下，接下来就发现车票不见了，已经是拿在手上！不过还好，可以凭借购票订单查看到信息，所以有惊无险，顺利进站！晚上三个人一起去吃了柠檬鱼，说实话，那会，感觉美吃饱，啊哈哈！晚上回来，两个人又开始彻夜长谈，发现身边优秀的人，一大把，
在一起的日子少些期待
在一起已经三年多了，我是一个97年的摩羯座女生，他是一个89年的同样的摩羯座男生，刚开始是他追的我，我开始对他也挺有好感的，他从他朋友哪里，要到我的电话号，给我发信息，我没理他。然后我们的故事就这样开始了·····我不记得到底是什么，让我对他特别喜欢，想一心一意跟着他过日子，说白了我也就是个他的小跟班，又或者是个小跟屁虫，或者是个保姆，反正就是他在那里，我就得陪他到哪里，谈了半年多对象的时候，他因
《太虚游》第六十二章。玄牝之威。古楼臭道士
“好好好，流云这孩子深得我心，想必长爻知道是你的话定然会惊喜不已的。”白玄牝听得风流云应了下来，脸色慈和，伸手在他头顶轻轻抚了抚，如同抚在怀中九尾小狐一样自然，极其温柔。身后的四位青丘长老同时一怔，嘴角微动，似要开口劝阻。风流云只感到一道霞光瑞气如有实质一般顺着头顶百会大穴直沉在下丹田内，随后这股气息又逐渐凝聚，似乎给自己吃了什么东西一般。啊喔不好，这祖奶奶该不会是看中我这肉身，像人魔一样，要给她
童年那些故事教给我们的山川大地日月星辰
同事的女儿二次考研失败，但是仍不气馁还想接着再学再考，得为孩子点个赞，可是同事很矛盾，以她的意见，当初女儿大学毕业就该直接考编，回到家过安稳日子，我问她还记不记得《小马过河》的故事？她说跟小马有啥关系？幼儿园就给孩子讲《小马过河》，当然孩子们除了喜欢故事里的“人物”小松鼠、老牛、小马跟老马，对小马爱劳动喜欢帮助妈妈干活也是有基本认知的，孩子们对为什么老牛说水浅、而松鼠说水深也有一定的常识，到了成人
一颗小桃树李蓉乐平市湾头中小学
当“凹”同“洼”的时侯，才读(wa，平声)，他不叫贾平洼(贾，原名贾平娃)，非要写作贾平凹。为了表示对他的尊重，对文学的尊重，对文化人的尊重。如果不是帮闺蜜的儿子修改作文，我也不会发现贾平凹叫贾平娃。以下是摘选他的文章《一棵小桃树》：可我的小桃树儿，一颗“仙桃”的种子，却开得太白了，太淡了，那瓣片儿单薄得似纸做的，没有肉的感觉，没有粉的感觉，像患了重病的少女，苍白白的脸，又偏苦涩涩地笑着。雨还在下
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。