shiter

《自然语言处理实战入门》---- 第1课：自然语言处理简介

本博客为《自然语言处理实战课程》---- 第一课：自然语言处理简介讲稿

文章大纲

个人简介
本节课程导览
1.自然语言处理（NLP）简介

1.1 基础技术
1.2 NLP 核心技术
1.3 NLP+（高端技术）
1.4 课程涵盖的主要内容总揽

2.知名NLP服务系统与开源组件简介

2.1 单一服务提供商

2.1.1 汉语分词系统ICTCLAS
2.1.2 哈工大语言云（Language Technology Platform，LTP）
2.1.3 HanLP
2.1.4 BosonNLP

2.2 云服务提供商

2.2.1 Amazon Comprehend
2.2.2 阿里云NLP
2.2.3 腾讯云NLP
2.2.4 百度语言处理基础技术

2.3 NLP开源组件简介

2.3.1 NLTK
2.3.2 Jieba分词
2.3.3 ICTCLAS
2.3.4 Gensim

参考文献

大家好，今天开始和大家分享，我在自然语言处理（Natural Language Processing，NLP）的一些学习经验和心得体会。

随着人工智能的快速发展，自然语言处理和机器学习技术的应用愈加广泛。为使大家对该领域整体概况有一个系统、明晰的认识，同时入门一些工程实践，也借CSDN为NLP的学习，开发者们搭建一个交流的平台。

个人简介

王雅宁， 2016年毕业于陕西师范大学计算机软件与理论专业。

CSDN博客专家，主要专注于大数据，计算机视觉，自然语言处理

对大数据机器学习类软件开发技术都有比较浓厚的兴趣，熟悉数据分析，机器学习，计算机视觉等领域的研发工作。熟悉windows，Linux下的c/c++开发，OpenCV图形图像库的各类接口。熟悉大数据生态圈下的Python开发。

曾参与并负责国家级安全项目相关POC验证与探索工作，在客户业务场景下验证产品的功能与性能。
主要工作内容有：
1、在客户现场搭建大数据产品平台，与客户沟通，根据客户的需求或业务场景在大数据平台上实现大数据平台软件的项目实施与安装部署。
2、现场提供专业服务，包括系统、大数据集群故障分析与诊断，数据分析服务，业务应用对接迁移，完善提供整体解决方案。
3、实现在单机与分布式环境下发掘等短文本的兴趣倾向和命名实体识别。该项目对结构化数据进行分词，停用词处理，命名实体识别，图计算等操作。

目前在西安知盛数据科技有限公司主要负责大健康平台中医疗健康保险的部分内容构建与实施，主要负责包括数据理解，数据接入与清洗，描述性统计分析，大数据可视化等方面的工作与探索。对自然语言处理，保险数据异常检测方面有独到的探索经验。

本节课程导览

本小结主要介绍内容如下

自然语言处理简介

3W，发展历程、研究现状、
课程涵盖的主要内容总览

第一阶段
第二阶段
知名NLP服务系统与开源组件简介

对汉语自然处理的服务提供商及其服务内容做一个简单的梳理，让大家能够更好的了解目前的技术手段，技术现状。

本小节课程主要内容分为2大部分：
第一部分，自然语言处理简介，用认知思维的方法，结合发展历程总揽自然语言处理.

同时顺带介绍，本课程的主要内容，本课程的主要内容我们分成两个阶段。第一个阶段如思维导图的右边，我们力求短时间内上手，完成爬虫、分词、可视化、文本分类4个自然语言处理实战中最经常碰到的问题，我首先通过爬虫爬取自己CSDN的博客积累语料，其次尝试通过一些解决方案的对比，比如不同的分词组件的对比，选择一个进行可视化词云，主题模型的生成。最后我们介绍一些文本分类的方法，文本分类的应用较广，如垃圾邮件检测，舆论分析，文本查重等场景都可以转化为文本分类问题。第二个阶段的课程，如果有时间的话，我们来共同探讨一些业界常用的NLP实战场景，如脑图左侧所示的，命名实体识别，问答机器人，知识图谱，基于深度学习的NLP 等

第二部分介绍，NLP技术在我国的应用现状，以及一些我们经常用到的开源包。

1.自然语言处理（NLP）简介

上学的时候，老师经常使用这样提问的方式加深我们对于知识的理解和认知

what is it？
自然语言处理（Natural Language Processing，简称 NLP）是人工智能和语言学交叉领域下的分支学科。
用于分析、理解和生成自然语言，以方便人和计算机设备进行交流，以及人与人之间的交流

NLP 是人工智能和语言学领域的交叉学科，
自然语言处理在广义上分为两大部分：

第一部分为自然语言理解，是指让计算机懂人类的语言。
第二部分为自然语言生成，是指把计算机数据转化为自然语言。

NLP 技术按照由浅入深可以分为三个层次，分别为：

基础技术
核心技术
NLP+

1.1 基础技术

这三个层次中，基础技术主要是对自然语言中的基本元素进行表示和分析，比如词汇，短语，句子。

词汇短语分析中，大家熟知的分词技术，就是为了解决如下问题，比如：我去北京大学玩，北京大学独立成词，而不是分成北京和大学。

句法语义分析：对于给定的句子，进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。

1.2 NLP 核心技术

NLP 的核心技术是建立在基础技术之上的的技术产出，基础技术中如词法，句法的分析越准确，核心技术的产出才能越准确。核心技术主要包括以下几个方面：

信息抽取
从给定文本中抽取重要的信息，比如，时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来，就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽取、因果关系抽取等关键技术。
文本挖掘（或者文本数据挖掘）
包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。
机器翻译
把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同，可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法，再到今天的基于神经网络（编码-解码）的方法，逐渐形成了一套比较严谨的方法体系。
信息检索
对大规模的文档进行索引。可简单对文档中的词汇，赋之以不同的权重来建立索引，也可利用（句法分析，信息抽取，文本发掘）来建立更加深层的索引。在查询的时候，对输入的查询表达式比如一个检索词或者一个句子进行分析，然后在索引里面查找匹配的候选文档，再根据一个排序机制把候选文档排序，最后输出排序得分最高的文档。

1.3 NLP+（高端技术）

能够真正影响我们生活的黑科技，能够通过图灵测试的机器问答系统，我们可以称之为NLP+

问答系统
对一个自然语言表达的问题，由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析，包括实体链接、关系识别，形成逻辑表达式，然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
对话系统
系统通过一系列的对话，跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外，为了体现上下文相关，要具备多轮对话能力。
AI助手
目前自然语言处理的前沿，已经与人类真假难辨
https://v.qq.com/x/page/w0648xqraxj.html

参考：
https://www.zhihu.com/question/19895141/answer/149475410

1.4 课程涵盖的主要内容总揽

2.知名NLP服务系统与开源组件简介

以下我们通过一些知名中文NLP服务提供商，包括我们熟知的云服务提供商BAT ,aws，以及两家科研院所的系统简介，来介绍以及宏观认识NLP的各种技术手段和应用场景。

首先介绍的是两家NLP基础分析，准确率很高的科研院所的产品，源自北理工和哈工大，之后我们介绍知名云服务提供商的产品。

2.1 单一服务提供商

2.1.1 汉语分词系统ICTCLAS

主页：http://ictclas.nlpir.org/
在线演示系统：http://ictclas.nlpir.org/
Python版本：https://github.com/tsroten/pynlpir
（需要频繁更新key）
https://blog.csdn.net/sinat_26917383/article/details/77067515

对于**** 这篇新闻稿的实体抽取结果
http://news.163.com/18/0715/14/DMOTHJEK000189FH.html

该系统为汉语自然语言处理领域顶尖大牛，北京理工大学张华平博士20年的专业技术积累，NShort 革命性分词算法的发明者。

主要功能包括中文分词；英文分词；中英文混合分词，词性标注；命名实体识别；新词识别；关键词提取；支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。

该平台的特点为：功能丰富，分词，语义，实体发现准确率高，近期发布了最新的2018版。
（与熟知的jieba，ltp，清华thulac）

2.1.2 哈工大语言云（Language Technology Platform，LTP）

https://www.ltp-cloud.com/

源自哈工大知名的分词插件ltp，准确率高

Python版本：https://github.com/HIT-SCIR/pyltp

语言技术平台（Language Technology Platform，LTP）是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示，并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块（包括词法、句法、语义等6项中文处理核心技术），以及基于动态链接库（Dynamic Link Library, DLL）的应用程序接口、可视化工具，并且能够以网络服务（Web Service）的形式进行使用。

“语言云”
以哈工大社会计算与信息检索研究中心研发的 “语言技术平台（LTP）” 为基础，为用户提供高效精准的中文自然语言处理云服务。使用 “语言云” 非常简单，只需要根据 API 参数构造 HTTP 请求即可在线获得分析结果，而无需下载 SDK 、无需购买高性能的机器，同时支持跨平台、跨语言编程等。 2014年11月，哈工大联合科大讯飞公司共同推出 “哈工大-讯飞语言云”，借鉴了讯飞在全国性大规模云计算服务方面的丰富经验，显著提升 “语言云” 对外服务的稳定性和吞吐量，为广大用户提供电信级稳定性和支持全国范围网络接入的语言云服务，有效支持包括中小企业在内开发者的商业应用需要。
有关更多语言云API的使用方法，请参考：http://www.ltp-cloud.com/document/

windows 下安装pyltp的话，应该是需要安装visual studio, 由于LTP是用c++写的，pyltp也是基于它封装而成的，需要调用 cl.exe 完成源码的编译。然后下载源码，使用python setup.py install 的方式进行安装就可以了。

2.1.3 HanLP

HanLP是一系列模型与算法组成的NLP工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP提供下列16大类功能：

中文分词
词性标注
命名实体识别
关键词提取
自动摘要
短语提取
拼音转换
简繁转换
文本推荐
依存句法分析
文本分类
情感分析
文本聚类
word2vec
文档语义相似度计算
语料库工具

项目地址：https://github.com/hankcs/HanLP
python 版本：https://github.com/hankcs/pyhanlp
windows 安装指南：https://github.com/hankcs/pyhanlp/wiki/Windows

由于HanLP底层是java 版本的，所以对java 的支持比较好，python 版本中有一些功能没有实现，但可以通过调用java 实现。HanLP随v1.6.8发布了在一亿字的大型综合语料库上训练的分词模型，该语料是已知范围内全世界最大的中文分词语料库。在HanLP的在线演示中使用已久，现在无偿公开。语料规模决定实际效果
，所以不用多说HanLP确实可以直接拿来做项目。有趣的是HanLP 有着非常多的衍生项目，其中docker 版和ES 版值得大家关注，这些衍生项目无疑更加提高了HanLP的可用性、灵活性。

调用代码样例


from pyhanlp import *

print(HanLP.segment('你好，欢迎在Python中调用HanLP的API'))
for term in HanLP.segment('下雨天地面积水'):
    print('{}\t{}'.format(term.word, term.nature)) # 获取单词与词性
testCases = [
    "商品和服务",
    "结婚的和尚未结婚的确实在干扰分词啊",
    "买水果然后来世博园最后去世博会",
    "中国的首都是北京",
    "欢迎新老师生前来就餐",
    "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作",
    "随着页游兴起到现在的页游繁盛，依赖于存档进行逻辑判断的设计减少了，但这块也不能完全忽略掉。"]
for sentence in testCases: print(HanLP.segment(sentence))
# 关键词提取
document = "水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露，" \
           "根据刚刚完成了水资源管理制度的考核，有部分省接近了红线的指标，" \
           "有部分省超过红线的指标。对一些超过红线的地方，陈明忠表示，对一些取用水项目进行区域的限批，" \
           "严格地进行水资源论证和取水许可的批准。"
print(HanLP.extractKeyword(document, 2))
# 自动摘要
print(HanLP.extractSummary(document, 3))
# 依存句法分析
print(HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。"))

2.1.4 BosonNLP

BosonNLP(界面，接口友好，准确率高)
https://bosonnlp.com/demo

如果你在网上搜索汉语分词评测，十有八九你会搜索到专注于汉语自然语言处理技术的这家公司，以及下面这张评测结果：

2.2 云服务提供商

2.2.1 Amazon Comprehend

https://amazonaws-china.com/cn/comprehend/?nc2=h_a1

Amazon Comprehend 是一项自然语言处理 (NLP) 服务，可利用机器学习发现文本中的见解和关系。Amazon Comprehend 可以识别文本语言，提取关键的短语、地点、人物、品牌或事件，了解文本的含义是肯定还是否定，还可以自动按主题整理一系列文本文件。

您可使用 Amazon Comprehend API 分析文本，并将结果进行广泛应用，包括客户意见分析、智能文档搜索以及 Web 应用程序的内容个性化设置。

该服务不断地通过各种信息来源 (包括世界上最大的自然语言数据集之一：Amazon.com 商品描述和买家评论) 学习和提升，以跟上语言的发展演变。

实例：利用 AWS Comprehend 打造近实时文本情感分析
https://amazonaws-china.com/cn/blogs/china/realizing-near-real-time-text-sentiment-analysis-with-aws-comprehend/

可以看到图中，aws 使用kibana 仪表盘和 Comprehend 服务组成了一个实时的电影评论实时分析系统，其实主要功能就是实现了分词和内容来源的地理位置统计，看起来很炫酷。

2.2.2 阿里云NLP

https://data.aliyun.com/product/nlp?spm=5176.8142029.388261.396.63f36d3eoZ8kNK

阿里的NLP 服务简介为：

自然语言处理是为各类企业及开发者提供的用于文本分析及挖掘的核心工具，
已经广泛应用在电商、文化娱乐、金融、物流等行业客户的多项业务中。

自然语言处理API可帮助用户搭建内容搜索、内容推荐、舆情识别及分析、文本结构化、对话机器人等智能产品，
也能够通过合作，定制个性化的解决方案。

按量付费的基准价，在没有购买资源包或资源包用尽的情况下，将按基准价进行计费。
其中，基础版对每个主帐号提供每日5万次的免费使用额度。商品评价解析没有免费额度。

值得注意的是阿里云的nlp 服务刚发布不到1年，应该算是领域内的新手，语料库应该和aws 一样，主要为商品描述和评论，所以它有一项功能叫做商品评价解析

时隔半年之后我们再来看一下这个产品名录发现，功能更加丰富了。整体来看受限于语料的积累，我认为没有什么亮点。

2.2.3 腾讯云NLP

https://cloud.tencent.com/product/nlp

界面友好，功能丰富，语料库为海量综合性语料库

腾讯云智在线演示系统
http://nlp.qq.com/semantic.cgi

2.2.4 百度语言处理基础技术

http://ai.baidu.com/tech/nlp
依托海量检索数据，并且搜索引擎本身就是NLP 最终的结果产出，所以在NLP领域，百度无论是语料库丰富程度，技术先进性，以及服务多样性等都是遥遥领先其他厂家，基本上可以算作是中文NLP服务提供商的业界最佳实践。

功能丰富且技术领先
- 词法分析
- 词向量表示
- 词义相似度
- 评论观点抽取
- 文章标签
- 依存句法分析
- DNN语言模型
- 短文本相似度
- 情感倾向分析
- 文章分类
- 对话情绪识别
- 文本纠错
- 新闻摘要

等13个大类的服务,对于个人开发者来说，配比了免费额度，对于词向量来说，每秒免费的额度是5个词，基本可以够用拿来做点有趣的事情了。

从图中结果也可以看出，百度对词向量相似度的分析和我用余弦相似度的结果一样，可以推断出百度的算法比较接地气。

DNN语言模型

Deep Neural Network（DNN）模型是基本的深度学习框架，DNN语言模型是通过计算给定词组成的句子的概率，从而判断所组成的句子是否符合客观语言表达习惯

通常用于机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等
百度这个模型是大厂中首个公开提供服务接口的深度学习语言模型。

调用方式友好简单

提供更加简单的调用方式：类似aws boto3
如果已安装pip，执行pip install baidu-aip即可
Sdk 方式，安装

from aip import AipNlp
 """ 你的 APPID AK SK """ 
APP_ID = '你的 App ID' 
API_KEY = '你的 Api Key' 
SECRET_KEY = '你的 Secret Key' 
client = AipNlp(APP_ID, API_KEY, SECRET_KEY)

word = "张飞"
 """ 调用词向量表示 """ 
client.wordEmbedding(word);

2.3 NLP开源组件简介

NLP 领域有非常多的开源组件可以用来快速构建开发的原型，我来简单介绍以下四个知名开源组件

2.3.1 NLTK

http://www.nltk.org/

最常用的自然语言处理库
NLTK是一个高效的Python构建的平台，用来处理人类自然语言数据。基本包含了NLP 中需要用到的所有技术。
它提供了易于使用的接口，通过这些接口可以访问超过50个语料库和词汇资源（如WordNet），还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库，以及工业级NLP库的封装器和一个活跃的讨论论坛。
古腾堡项目（Project Gutenberg）
NLTK 包含古腾堡项目（Project Gutenberg）中电子文本档案的经过挑选的一小部分文本。该项目大约有57,000 本免费电子图书，放在http://www.gutenberg.org/上。我们先要用Python 解释器加载NLTK 包，然后尝试nltk.corpus.gutenberg.fileids()，当然其中的中文语料也很丰富（都是没有版权的免费文档），比如李白文集，三字经，百家姓等等（要是用这些训练中文模型效果可想而知）

2.3.2 Jieba分词

https://github.com/fxsjy/jieba

“结巴”中文分词：做最好的 Python 中文分词组件
“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.
实现基本功能的代码量在一千行左右，词典长度35w ，安装方式友好，简洁，高效，（但准确性已经跟不上时代！！！85%）

2.3.3 ICTCLAS

http://ictclas.nlpir.org/

主要功能包括中文分词；词性标注；中英混合分词；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取；张华平博士先后倾力打造20余年，内核升级10次。

全球用户突破20万，先后获得了2010年钱伟长中文信息处理科学技术奖一等奖，2003年国际SIGHAN分词大赛综合第一名，2002年国内973评测综合第一名。

2.3.4 Gensim

https://radimrehurek.com/gensim/

它的 slogan 是：Topic modelling for humans.
Gensim提供了一个发现文档语义结构的工具，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。它将语料（Corpus）向量化表示后，主要能够实现以下三个功能：

建立语言模型
词嵌入模型的训练
检索和语义分析的神器

简介参考：https://www.cnblogs.com/iloveai/p/gensim_tutorial.html

参考文献

我爱自然语言处理
http://www.52nlp.cn/

深度学习与中文短文本分析总结与梳理
https://blog.csdn.net/wangyaninglm/article/details/66477222

分析了近5万首《全唐诗》，发现了这些有趣的秘密
http://www.growthhk.cn/cgo/9542.html

万字干货｜10款数据分析“工具”，助你成为新媒体运营领域的“增长黑客”
http://www.woshipm.com/data-analysis/553180.html

jieba分词简介与解析
https://www.cnblogs.com/baiboy/p/jieba2.html

有哪些好的汉语分词方案
https://www.zhihu.com/question/19578687
基于分布式的短文本命题实体识别之----人名识别（python实现）
https://blog.csdn.net/wangyaninglm/article/details/75042151

NLP技术的应用及思考
https://yq.aliyun.com/articles/78031

日更教会我的那些事：慢慢写，深深爱。青子入戏
网图就是一个大舞台，充满了无限的惊喜。这个世界阻挡不了你的光芒，你也覆盖不了别人的光辉。在，人人都是平等的，人人都是自由的，你可以自由的闪耀你的光芒。首先很感谢，创造了一个优质的写作平台。创作你的创作，这句话就代表了一切，就是这么简单干脆直接。让我们这些文字爱好者，有了可以展示自己的机会，可以袒露心声。我有好多话想对你说，感谢平台的包容，也感谢自己明智的选择。一：日更教会我热爱一件事，就全力以赴。
小白秒懂系列-服务器/存储SAS架构介绍存储服务专家StorageExpert 其他 DELL服务器维护服务器架构运维 NetApp存储 EMC存储
写在前面今天有朋友在我们的”存储技术交流群“中探讨一个PHYLINK的问题，无论是对于服务器还是存储系统，目前存储上很多后端都是SAS架构，这几年开始往NVMe架构在过度，我们这里还是聚焦于SAS的后端架构，对于一个故障提示或者故障log，要想分析判断出问题所在，首先我们要能理解报错的这些内容是什么，都是什么概念。写这个文章的目的就是让各位看官了解到服务器/存储的后端SAS存储架构的概念。码字不易
R 和 Hadoop 大数据分析（一）
原文：annas-archive.org/md5/b7f3a14803c1b4d929732471e0b28932译者：飞龙协议：CCBY-NC-SA4.0前言企业每天获取的数据量呈指数增长。现在可以将这些海量信息存储在像Hadoop这样的低成本平台上。这些组织目前面临的难题是如何处理这些数据，以及如何从中提取关键见解。因此，R就成为了关键工具。R是一个非常强大的工具，它使得在数据上运行高级统计模
磁盘分析软件（C盘爆满精确清理必备）---SpaceSniffer 潜心专研的小张同学杂谈其他
1.第一步上图2.第二步分享软件链接：https://pan.baidu.com/s/1GhLmzNtG398ah_26lVV1aQ提取码：sfqf3.第三步简单使用教程3.1打开软件，选择要分析的盘（我这里选的C盘）：3.2静待分析完成3.3根据分析的结果，删除对应文件目录的文件
习近平总书记关于党的建设的重要思想奔向黎明的曙光
学习贯彻习近平总书记关于党的建设的重要思想，要充分认识其重要意义。习近平总书记关于党的建设的重要思想，是习近平新时代中国特色社会主义思想的重要组成部分，是新时代党的建设理论发展和实践经验的科学总结，是马克思主义建党学说中国化时代化的最新成果，是全面推进新时代党的建设新的伟大工程的根本遵循和行动指南。习近平总书记关于党的建设的重要思想，是在科学运用马克思主义建党学说基本原理、深入分析世情国情党情、有
jQuery.jsonview.js 简单用法聂曦r
Title测试结果：切换展开折叠$.get('/protocol/plugin/test/',{},function(r){if(r.code==200){$("#test_result").JSONView(r.ret,{collapsed:true,nl2br:true,recursive_collapser:true});$('#collapse-btn').on('click',funct
备课《我多想去看看》小光5106
教材说明：部编版语文第二册第二单元第二篇课文教材解析：本文一共两个自然段，分别从新疆和北京两地的儿童角度入手，表达了对对方生活的了解和向往，其中许多准确的“的”字词语搭配可以帮助学生丰富语言积累，同时相同的段式结构也有利于学生借助其结构和语言进行表达训练，是一篇指导阅读、理解、表达的好范本，同时有助于对学生进行民族团结、和睦友好的价值观渗透，是一篇文质兼美的小短文。生情分析：一年级学生对于生字学习
分布式任务调度xxl-Job leese233 java
xxl-Job简介针对分布式任务调度的需求，市场上出现了很多的产品：1）TBSchedule：淘宝推出的一款非常优秀的高性能分布式调度框架，目前被应用于阿里、京东、支付宝、国美等很多互联网企业的流程调度系统中。但是已经多年未更新，文档缺失严重，缺少维护。2）XXL-Job：大众点评的分布式任务调度平台，是一个轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代
claude-code-router：智能请求路由管理工具
claude-code-router：智能请求路由管理工具项目介绍在软件开发领域，高效管理请求并确保它们正确地被路由到对应的服务或模型是至关重要的。ClaudeCodeRouter就是这样一款工具，它专为ClaudeCode请求的路由管理而设计。通过这个工具，开发者可以自定义任何请求，将它们路由到不同的模型上，从而提高系统整体的工作效率和响应速度。项目技术分析ClaudeCodeRouter基于J
信而泰×DeepSeek：AI推理引擎驱动网络智能诊断迈向 “自愈”时代
DeepSeek-R1：强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力，融合了自然语言处理（NLP）、深度学习、大规模数据分析等前沿技术。DeepSeek-R1具备卓越的逻辑推理、多模态分析（文本/图像/语音）和实时交互能力，能够高效处理代码生成、复杂问题求解、跨模态学习等高阶任务。凭借其开源、高效、多模态
NLP论文速读|chameleon：一个即插即用的组合推理模块Plug-and-Play Compositional Reasoning with Large Language Models Power2024666 NLP论文速读自然语言处理人工智能机器学习深度学习 nlp 语言模型
论文速读|Chameleon:Plug-and-PlayCompositionalReasoningwithLargeLanguageModels论文信息：简介:该论文介绍了一个名为Chameleon的人工智能系统，旨在解决大型语言模型（LLMs）在处理复杂推理任务时存在的固有限制，例如无法访问最新信息、使用外部工具以及执行精确的数学和逻辑推理。Chameleon通过插入即用模块增强LLMs，使其
Python 大数据分析（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/5058e6970bd2a8d818ecc1f7f8fef74a译者：飞龙协议：CCBY-NC-SA4.0第六章：第五章处理缺失值和相关性分析学习目标到本章结束时，你将能够：使用PySpark检测和处理数据中的缺失值描述变量之间的相关性计算PySpark中两个或多个变量之间的相关性使用PySpark创建相关矩阵在本章中，我们将使用Iris数据集处理
Claude Code 分层多Agent架构篇强化学习曾小健 c#开发语言
ClaudeCode分层多Agent架构篇原创飞鸟白菜shareAI2025年07月01日09:31广东本文档基于ClaudeCode源代码的深度逆向工程分析，详细还原了其分层多Agent架构的完整技术实现。通过分析混淆代码和运行时行为，我们深入揭示了Task工具如何实现SubAgent的创建、生命周期管理、并发执行协调以及安全隔离机制，为理解现代AI编程助手的核心架构提供了详尽的技术洞察。htt
2019-05-27--tkinter练习-04-Radiobutton 选择按钮 heiqimingren
importtkinterastkwindow=tk.Tk()#建立一个窗口window.title('一个最简单的窗口')window.geometry('300x200')#窗口大小为300x200var1=tk.StringVar()#字符串形式#StringVar是Tk库内部定义的字符串变量类型，在这里用于管理部件上面的字符；#不过一般用在按钮button上。#改变StringVar，按钮
游戏分析-《第五人格》 M_Yan_9cdd
《第五人格》是网易首款非对称性对抗竞技手游。荒诞哥特画风，悬疑烧脑剧情。刺激的1V4对抗玩法，都将给玩家带来全新的游戏体验。玩家可以选择扮演监管者或求生者，展开激烈的对抗。游戏类型——可玩性竞技类游戏决定了游戏的玩法存在着对立的2方，基本上是建立在平等的对抗关系，并且存在合作的关系。但是《第五人格》是非对称性的，一方很强势但是孤军作战；一方比较缩小，多人合作，这一不对称的关系使玩家以多取胜或者以一
这才是你需要了解的时序数据库 Apache-IoTDB 源码解析之系统架构！ AI科学小老师
个人博客导航页（点击右侧链接即可打开个人博客）：大牛带你入门技术栈1.系统架构1.1系统简介以上示意图可能非常简单，但我觉得足够表明一个整体架构。当一台设备、一辆车连接到协议网关后，便开始了真正的收发数据。一般通信的方式都是基于tcp，搞一段二进制协议，所以协议网关基本要做的工作就是完成对连接的管理、完成对数据的收发及编解码。当数据完成编解码之后一般会发往消息队列当中，一般都是Kafka之中。用来
解析：投票活动买票查得出吗，怎样才能不被发现神州网络公司
解析：投票活动刷票查得出吗，怎样才能不被发现这个基本上是不会查的，但是如果被人举报的话是有可能封号的哈IP地址。每一个微信投票评选活动举办的时候，主办方都会对投票和刷票有严格的控制，如果是人工投票的活动，很难被发现，但是人工刷票的话，主办方很容易通过查看刷票的时间、设备、频率、IP地址等都可以查出来。说说微信怎么刷票快，以下内容仅供参考哦：1.把投票链接分享到各个朋友圈首先最简单的就是将你要投票的
常见数据编码方式的详细对比表格
一、常见数据编码方式的详细对比表格编码名称基本原理电平数自同步能力直流平衡典型应用场景编码效率（数据位/信号单元）主要优点主要缺点曼彻斯特编码每个比特周期中间强制跳变：0（高→低），1（低→高）2是（中间跳变提供时钟）无（50%占空比，直流分量为0）早期10BASE-T以太网50%（1位/2信号单元）自同步能力强，抗干扰简单信号速率是数据速率的2倍，带宽利用率低差分曼彻斯特编码比特起始处是否跳变表
2021-06-19 每日一些小知识
以乐观的心态看待世界，世间处处是快乐;以平静的心态看待事物，你会看到事物的两面，其实，时时刻刻我们都在分享快乐，有时，只是因为你没有细心品味罢了。分享快乐很简单，你一言我一语，处处是快乐，遍地是笑声。祝自己生日快乐
晚间黄金分析青色信物
2021年2月4日（周四）黄金TD行情分析：黄金TD方面，日内黄金整体是震荡行情，最高测试381附近，最低测试377.15附近，止损上方黄金多单小幅度获利；日线方面收取一根实体大阴柱，布林呈现向下运行发展，MACD死叉持续放量，上方关注承压点385附近，下方支撑377；4小时线方面收取一根实体阳柱，布林向下开口发展，MACD死叉形成并递增放量，上方关注384附近；下方支撑位378；小时线方面收取一
为什么越长大就会越觉得时间过得很快呢？微光_呀
为什么越长大越觉得时间过得很快呢？这是怎么回事？长大之后，感觉时间过得越来越快，一年一眨眼就过去了，但是小时候却没有这样的感觉？有人来分析一下这一现象吗？
如何防止重复提交订单？天天摸鱼的java工程师 java
如何防止重复提交订单？作者：Java后端开发工程师一、背景介绍：为什么会产生重复提交？在电商平台中，用户提交订单是一个非常敏感的动作。这通常涉及：库存扣减优惠券核销支付下单消息发送但用户总喜欢：点两次“提交订单”按钮网络卡顿时刷新页面使用浏览器回退再次提交结果就是：重复提交订单，造成资源浪费，甚至业务损失！二、问题分析：重复提交的常见场景场景示例用户行为多次点击按钮、浏览器刷新接口幂等性差接口无幂
【深度学习】softmax 回归的从零开始实现与简洁实现 Douglassssssss 深度学习深度学习回归人工智能 softmax回归交叉熵损失函数
前言小时候听过一个小孩练琴的故事，老师让他先弹最简单的第一小节，小孩练了两天后弹不出。接着，老师让他直接去练更难的第二小节，小孩练习了几天后还是弹不出，开始感觉到挫败和烦躁了。小孩以为老师之后会让他从简单的开始练，谁知老师直接让他开始练最难的一小节。小孩不干了，问老师是不是故意刁难他。老师笑笑，让他现在弹弹第一小节试试。神奇的是，小孩竟然发现自己已经能完整弹出来了。这有点像我现在的学习状况，前些天
李开复：AI 2.0 时代的意义 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，伦理问题，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从最初的局限于特定领域的应用，逐渐发展到能够处理更复杂的任务，甚至展现出一些类似人类智能的能力。2010年以来，深度学习技术的兴起，特别是Transformer模型的出现，为AI发展带来了新的突破。这些模型能够处理海量数据，学习复杂的模式，并在自然语言处理
时序数据库IoTDB好不好？时序数据说时序数据库数据库 iotdb 物联网开源
时序数据库IoTDB（InternetofThingsDatabase）是专为物联网场景设计的一款开源时序数据库系统，由清华大学团队开发并贡献给Apache基金会。经过多年发展，IoTDB已经在工业物联网、车联网、能源电力等多个领域得到广泛应用。那么IoTDB究竟好不好？下面我将从几个核心优势来分析。一、专为物联网优化的存储架构分层存储设计：IoTDB采用"内存缓冲区+磁盘文件+分布式存储"的分层
2021-3-24回忆录超超姐
重要的三件事：1《羊皮卷启示录》的阅读2房树人读心术特训营的集体分析3姑姑生病住院，做力所能及的支持第二卷《羊皮卷启示录》是在妈妈不烦的直播里，被主播口里津津乐道推荐的一本书。因为主播说读了这本书第一遍，你只觉得它很励志，但坚持读半年后，你会收获不一样的自己。因为无论从心智还是思维上，它都给人以启发和思考。所以我在微信读书上找到了这本书，并购买了纸质版的，我想通过对这本书的阅读，启发心智，成长自己
主力洗盘未成功行情继续上行，今日数字币行情分析及走势如烟如金
据TokenInsight数据显示，反映区块链行业整体表现的TI指数北京时间03月27日8时报381.29点，较昨日同期上涨1.43点，涨幅为0.38%。据监测显示，BTC活跃地址数较前日下降3.62%，转账数较前日上升38.62%。BCtrend分析师Jeffrey认为，IEO带动市场活跃度上升，BTC转账数也随之同步上行，短期BTC或将延续升势。另据BitUniverse量化分析，VIA、RE
批量插入技巧：减少事务提交次数的性能提升
一、事务提交成本分析每次事务提交触发‌磁盘I/O同步‌（WAL机制）、‌日志写入‌和‌锁资源释放‌操作，高频独立提交会产生指数级开销‌。实验表明：MySQL提交1万次单条插入比单次批量插入‌慢20倍以上‌‌。高频提交还加剧锁竞争与死锁风险，导致事务队列膨胀‌。二、核心优化方案‌合并事务提交‌关闭自动提交（autocommit=0），单事务内完成批量操作后统一COMMIT，减少日志刷盘次数‌。示例代
HoRain云--Docker容器迁移全攻略：4种方法详解与实战避坑指南 HoRain云小助手 arm开发
HoRain云小助手：个人主页个人专栏:《Linux系列教程》《c语言教程》⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。专栏介绍专栏名称专栏介绍《C语言》本专栏主要撰写C干货内容和编程技巧，让大家从底层了解C，把更多的知识由抽象到简单通俗易懂。《网络协议》本专栏主要是注重从底层来给大家一步步剖析网
2019-08-12写作墨秋123
就是想随便写写自己觉得的写作可以让自己站在别人的角度思考问题。这就是所谓的empathy我仔细分析自己为什么会走入今天的状态，因为我被设计了，被谁呢被人抓进圈套了因为写作，我需要想我写的东西是不是能够尽可能的让对方看懂而不是一味的表达自己，林行说你只考虑你自己，我现在明白了，他叫我，我不上去，其他的人就会觉得有些什么而我为什么会情绪化呢其实我的点都很好猜测的
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam