临风而眠

西湖大学张岳老师NLP课程笔记1 Introduction

参考资料
- B站链接
- 课程主页
《Natural Language Processing: A Machine Learning Perspective 》
csdn大佬笔记
- https://blog.csdn.net/qq_45645521/category_11685799.html

文章目录

西湖大学张岳老师NLP课程笔记1 Introduction
- 1.1 What is Natural Language Processing (NLP)?
- - Main approaches
  - - Rule based(symbolic) approch (1950s-1980s)
    - Statistical approach (traditional machine learning) (1980s-2000s)
    - Connectionist approach (Neural networks) (2000s-now)
- 1.2 NLP Tasks
- - 1.2.1 Fundamental NLP tasks 基础自然语言处理任务
  - - Syntactic tasks 句法分析任务
    - - Word level
      - Sentence level
    - Semantic tasks 语义分析任务
    - - Word level
      - Sentence level
    - Text entailment 自然语言推理
    - Discourse tasks 篇章分析
  - 1.2.2 Information Extraction tasks 信息抽取任务
  - - Information extraction (IE)
    - Entities 实体
    - - Named entity recognition (NER) 命名实体识别
      - Anaphora Resolution 指代消解
      - Co-references 共指消解
    - Relations
    - - relation extraction 关系抽取
      - Knowledge graph 知识图谱
      - Entity linking(entity disambiguation) 实体链接
        
        Named entity normalization 实体规范化
        
        Link prediction（knowledge graph completion）链接预测/知识图谱补全
    - Events
    - - Event Detection 事件检测
      - News event detection (first story detection) 新事件检测
      - Event factuality prediction (predict the likelihood of event) 事实性检测
      - Event time extraction (e.g. temporal ordering of events 事件的时间顺序排列、timeline extration 时间线检测) 事件时间次序推断
      - Causality detection 因果检测
      - Event coreference resolution 事件共指消解
      - Zero-pronouns 零指代消解
      - Script learning 脚本学习
    - Sentiment
    - - Sentiment analysis（opinion mining）情感分析意见挖掘
      - Sentiment related tasks 情感分析相关任务
      - Sarcasm detection 讽刺检测
      - Sentiment lexicon acquisition 情感词典自动获取
      - Emotion detection 情绪检测
      - Stance detection and argumentation mining 立场检测和议论挖掘
  - 1.2.3 Text generation Tasks 文本生成任务
  - - Realization 实现/ linearization/线性化
    - - Data-to-text generation 数据到文字的生成
    - Summarization 文本摘要文本总结
    - Machine translation 机器翻译
    - Grammar error correction 句法纠错
    - Question answering (QA) 自动问答系统
    - - Knowledge-base QA 基于知识库的问答
      - Reading comprehension (machine reading) 基于文本的问答/机器阅读理解
      - Community QA 社区问答
      - Open QA 开放问答
    - Dialogue systems 对话系统
    - - Chit-chat 闲聊式的对话
      - Task-oriented dialogues 基于任务的对话
  - 1.2.4 Other Applications
  - - Information retrieval 信息检索
    - Recommendation system
    - Text mining and text analytics 文本挖掘和文本分析
- 1.3 NLP from a Machine Learning Perspective 机器学习视角下的自然语言处理
- - 为什么要从机器学习视角出发
  - - The current dominant method
    - The historical of research
  - 从机器学习视角来对NLP task进行划分
  - - 可以按照输出划分 According to the output
    - - classification tasks 分类任务
      - structured prediction tasks 结构预测
      - regression problem 回归问题
    - 可以按照训练数据划分 According to the nature of training data for machine learning
    - - unsupervised learning 无监督学习
      - supervised learning 监督学习
      - semi-supervised learning 半监督学习
Resources（来自课程PPT）

1.1 What is Natural Language Processing (NLP)?

In the broadest sense ,NLP refers to any program that automatically processes human languages.
- 广义上讲，NLP指的是对人类语言自动处理或合成的研究

Main approaches

Rule based(symbolic) approch (1950s-1980s)

The oldest approaches to NLP
Based on human-developed rules and lexicons （基于人类制定的语言规则）

lexicon

also the lexicon

n.[sing.] (linguistics 语言) （某语言或学科、某人或群体使用的）全部词汇
Challenges in resolving ambiguities

语言的歧义性，一词多义给语言学家制定的规则提出了很大的挑战
- a well-quoted example:上世纪60年代一个著名案例的例子
  
  在机器翻译研究的初期，人们经常举一个例子来说明机器翻译任务的艰巨性。在英语中“The spirit is willing but the flesh is weak.”，意思是“心有余而力不足”。但是当时的某个机器翻译系统将这句英文翻译到俄语，然后再翻译回英语的时候，却变成了“The Voltka is strong but the meat is rotten.”，意思是“伏特加酒是浓的，但肉却腐烂了”。从字面意义上看，“spirit”（烈性酒）与“Voltka”（伏特加）对译似无问题，而“flesh”和“meat”也都有肉的意思。
  - "The spirit is strong, but the flesh is weak“ “The Vodka is good, but the meat is bad”
  - 句子“精神很强大，但肉体很弱”被错误地翻译成了“伏特加很美味，但肉很难吃”。

Statistical approach (traditional machine learning) (1980s-2000s)

基于统计的机器学习方法，从语言学家手工标注的数据中学到重要的统计意义的特征，并把这些特征作为知识来估算一个输入对应的不同输出的概率，这样就可以把最可能的输出作为统计的结果来反映给客户，语言学家的工作从设计规则参与算法编写变成了对数据集进行标注

Gradually adopted by both the academia（学术界） and the industry
Using probabilistic modeling （使用概率模型）
- training data (corpus with markup)
- feature engineering
- training a model on parameters
- applying model to test data

Connectionist approach (Neural networks) (2000s-now)

计算能力提升，大量数据训练参数很多的神经网络，输入输出的结构进行端到端关联
自然语言处理的神经网络可以在大规模的未标注的互联网语言文本进行预训练，再用少量语言学家标注的语料进行参数微调，神经网路表达能力非常强，性能强大

Deep learning surpasses statistical methods（优于，超过统计方法） as the domain approach
- free from linguistic features （不需要语言特征）
- very large neural models
- pre-training over large raw text
  
  （可以在庞大的原始文本上进行预训练）

1.2 NLP Tasks

We give an overview of NLP tasks in this section, which provides a background for discussing machine learning algorithms in the remaining chapters.

Note that our introduction of linguistic and task-specific concepts is brief, as this is not the main goal of the book. Interested readers can refer to dedicated materials listed in the chapter notes at the end of the chapter for further reading.

1.2.1 Fundamental NLP tasks 基础自然语言处理任务

起源于计算语言学（Computational Linguistics）这门学科，研究算法如何代替语言学家自动获得输入文本中所蕴含的语言学知识，研究词法句法语义篇章等的关系
- Phonology 音韵学
- Morphology 词法
- Syntax 句法
- Semantics 语义
- Discourse 篇章
- Pragmatics 语用学

Syntactic tasks 句法分析任务

Syntactic Tasks investigate the composition structures of languages, ranging from the word level to the sentence level

Word level

词的形态划分 morphological analysis

the task of morphological analysis studies automatic prediction of morphological features of input words, such as morphemes.

词根词缀提取出来
分词 word segmentation

分词任务歧义性较强
符号化 tokenization
词性标注，语法标注，词类消疑 POS Tagging (part-of-speech tagging)
- Part-of-speech(POS)
  
  Basic syntactic role that words play in a sentence
  
  前面的can是情态动词，后面的can是名词罐子

Sentence level

一些常用的句法范式 Grammar formalisms for syntactic parsing
- constituent grammars 成分句法
- dependency grammars 依存句法
- lexical functional grammars(LFG) 词汇功能文法
- Head-driven phrase structure grammars(HPSG) 中心词驱动短语结构语法
  - [ACL2019]Head-Driven phrase structure grammar句法分析 - sonta的文章 - 知乎 https://zhuanlan.zhihu.com/p/94009246
  - 中心词驱动短语结构语法(HPSG)——生成语法的旁门左道 - 思思的文章 - 知乎 https://zhuanlan.zhihu.com/p/52973742
Tree adjoining grammars(TAG) 树邻接文法
- Combinatory categorical grammar(CCG) 组合范畴文法
constituent parsing 成分句法分析（也叫短语结构句法分析）

Constituent parsers assign phrase labels to constituent, also referred to as phrase-structure grammars.

通过层次化短语结构来表达一句话

a book 名词短语

bought a book for Mary 动词短语

Tim bought a book for Mary. 句子结构

成分句法分析就是通过算法自动找到一句话里面的层次短语结构

dependency parsing 依存句法分析
- Dependency parsers analyze a sentence in head words and dependent words.
  
  依存句法通过两个词之间的关系来组成一句话的结构
  
  上例中有主语宾语修饰语等等关系，
  - 每个词都修饰句子中唯一的词，
  - 这句话中有个词不修饰任何词，它叫做这句话的根节点root节点
CCG parsing 组合范畴句法分析
- 组合范畴句法是高度词汇化的句法
  - 词汇化：每个词都带有一个句法信息丰富的标签
  - 例如
    - 下面的bought是及物动词，标签为(S\NP)/NP,S代表一个句子，NP代表名词短语
    - 它需要向右找一个名词短语作为它的宾语，消解以后得到S\NP这样一个结构，再向左边找一个名词短语，就得到一句话
      - 先向右和a book(NP)组合，得到宾语，bought a book；然后又和左边的Tom结合形成S
  - 如果每个词都得到了复杂的词汇化标签，那么句法分析变得简单，因为标签和标签之间的组合有较强的限制性
supertagging 浅层句法分析任务

Also called shallow parsing, a pre-processing step before parsing.
- 在组合范畴句法分析中，给每个单词打标签的这一步称为CCG supertagging
  - 为啥叫super，因为每个句法标签含义很丰富，所以给每个词标记了标签，几乎就形成了句法分析
- 和成分句法相关的浅层句法分析任务叫 syntactic chunking
  - identify basic syntactic phrases from a given sentence
    
    把一句话切成比较大的短语块

Semantic tasks 语义分析任务

Word level

Word sense disambiguation (WSD) 词义消歧

The NLP task that disambiguates the sense of a word given a certain context, such as a sentence, is called word sense disambiguation (WSD).
- Never trouble troubles till trouble troubles you.
- I saw a man saw a saw with a saw.
  
  我看见一个男人用锯子锯另一把锯子
Metaphor detection 隐喻检测

Metaphor detection is an NLP task to discover metaphoric uses of words in texts.
- Love is a battlefield.
- Bob is a couch potato. (沙发土豆，指经常泡在电视机前的人)
Sense relations between words
- Synonyms ：pairs of words with similar senses 同义词 /sɪnənɪmz/
  - quick-fast
  - bad-poor
  - big-large
- Antonyms ：pairs of words with opposite relations 反义词 /ˈæntəʊnɪmz/
  - big-small
  - bad-good
  - easy-difficult
- Hyponyms ：pairs of words in subtype–type relations 上下位词
  - car-vehicle
  - apple-fruit
  - cat-animal
- Meronyms ： pairs of words in part–whole relations. 组成部分
  - leaf-tree
  - nose-face
  - roof-house
Analogy 类比

判断词对和词对之间的语义关系
- king-queen / man-woman / boy-girl
- Beijing/China — London/UK
- Piano/Play – Novel/Read

Sentence level

Predicate-argument relations 谓词-论元结构

On the sentence level, the semantic relation between verbs and their syntactic subjects and objects belongs to predicate–argument relations, which denote meaning of events.
- 谓词：动词，事件
  - 有时也可以是名词
- 论元：事件的参与者或属性
- A typical NLP task on predicate-argument structures is semantic role labelling (SRL，语义角色标注),
form of semantic representation
- predicate–argument
- frame structure
- logic 逻辑表达式
  - predicate logic 谓词逻辑
  - first-order logic 一阶逻辑
  - lambda calculus λ表达式
    - 比一阶谓词逻辑表达能力更强
    - 属于一种编程范式，表达能力可以和图灵机、任何算法表达能力相当
    - 从广义上讲，所有可以表达句子含义的表达框架，包括SQL，都可以作为语义分析的输出
    - 比如，一个疑问句可以转换为SQL的查询语句以便从数据库中得到答案，这也是一个语义分析任务
- semantic graphs 语义图
  - 一个表达能力丰富的语义表示框架：Semantic graphs 语义图
    - Abstract Meaning Representation 抽象语义表示
    - 节点表示语义单元，边表示语义单元之间的关系
    - 图中的节点和句子中的词并不是一一对应的
    - 语义图还能表达修饰关系，如 red apple

Text entailment 自然语言推理

text entailment（文本蕴含）是判断两句话之间语义关系的任务
- Textual entailment is a directional semantic relation between two texts.
- The task of textual entailment recognition is to decide whether a hypothesis text is entailed by a given premise text.
也叫自然语言推理 natural language inference (NLI)
- A related task, natural language inference (NLI) is the task of determining whether a hypothesis is true, false or undetermined given a premise, which reflect entailment, contradiction and neutral relations between the two input texts, respectively. Paraphrase detection is another semantic task between two sentences, which is to decide whether they are paraphrases of each other.
需要一个前提和一个假设
- For example, given the premise（前提） “Tim went to the Riverside for dinner”, the hypotheses（假设） “The Riverside is an eating place” and “Tim had dinner” are entailed, but the hypothesis “Tim had lunch” is not.

Discourse tasks 篇章分析

A discourse refers to a piece of text with multiple sub-topics and coherence relations between them.
Discourse parsing：Analyze the coherence relations between sub-topics in a discourse.
There are many different discourse structure formalisms. Rhetoric structure theory (RST) is a representative formalism which we use for discussion.
- 篇章分析有很多范式，下面主要学习 RST 修辞结构理论
例

四个篇章单元，电影有趣和Tim想看是并列关系，这两句话和他这周不能去看组成了反义、转折关系，前三句话和他下周期末考试组成了解释关系
RST篇章分析的基本步骤叫 Discourse segmentation（篇章切分）

把一段长的文本切分为基本单元

前面四句话可以用一个长句子表达

篇章切分任务可以针对一句话或多句话

and but because这种关键词（discourse markers）可以在篇章切分中有帮助

1.2.2 Information Extraction tasks 信息抽取任务

上世纪90年代末为捕获网络舆情产生的任务
/数据挖掘兴起后和语言文字相关的挖掘任务

Information extraction (IE)

Obtain structured information from unstructured texts

Entities 实体

Named entity recognition (NER) 命名实体识别

To identify all named entity mentions from a given piece of text 从给定文本找出所有提到的命名实体

Anaphora Resolution 指代消解

指代消解其实属于Fundamental NLP tasks

resolves what a pronoun or noun phrase refers to （判断一句话中名词短语和代词指代什么）

这句话He代表Tim ， it 代表book
Zero-pronoun resolution ：detects and interprets dropped pronouns （零指代：检测和解释省略的代词）

检测省略的代词，并且判断它属于哪一个具体的对象

高中做语法单选题的回忆来了啊哈哈哈

Co-references 共指消解

Co-reference resolution：finds all expressions that refer to the same entities in a text

Relations

Relations between entities represent knowledge
- common relations
- hierarchical 可分层的
- domain-specific 特定领域

relation extraction 关系抽取

identify relations between entity under a set of prespecified relation categories
- Tim和Mary的社会关系
- Tim和MSRA的隶属关系
- MSRA和Beijing的位置关系

Knowledge graph 知识图谱

Large-scale entity and relation knowledge can be stored in a knowledge graph (KG), a type of database where entities form nodes and relations form edges.

图中的节点代表实体，节点之间的边代表实体之间的关系知识

Entity linking(entity disambiguation) 实体链接

determines the identity of entity mentioned from text （把文本中的实体和知识图谱中的实体进行关联）

Named entity normalization 实体规范化

是entity linking的related task

finds a canonical term for named entity mentions （为提到的命名实体找到一个规范术语）

Link prediction（knowledge graph completion）链接预测/知识图谱补全

Knowledge graphs allow knowledge inference

知识推理

Events

Event Detection 事件检测

Here events can be defined as open-domain semantic frames, or a set of specific frames of concern in a certain domain, such as “cooking”. Event mentions contain trigger words, which can be both verb phrases and noun phrases. The detection of event trigger words can be more challenging compared to detecting entity mentions since trigger words can take different parts of speech.

命名实体识别相关论文中常出现的mention该如何理解？ - Sussurro的回答 - 知乎 https://www.zhihu.com/question/53590576/answer/2281734586

to identify mentions of events from texts

从文本中检测出触发词

Events have timing. While some events have happened, others are yet to happen or expected to happen. Several NLP tasks are related to event times.

News event detection (first story detection) 新事件检测

to detect events that have just emerged from news or social media texts.

比如从互联网帖子里发现一些地区有人说的自然灾害等

Event factuality prediction (predict the likelihood of event) 事实性检测

to predict the likelihood of event happenings

Event time extraction (e.g. temporal ordering of events 事件的时间顺序排列、timeline extration 时间线检测) 事件时间次序推断

to extract the time of events from text
to find out temporal relations of events using textual clues, which are not necessarily in their narrative order （利用文本线索找出事件的时间关系，这些线索不一定是按叙述顺序排列的（有时会有倒叙、插入））

Causality detection 因果检测

to identify whether a given event is caused by a second event.

事件之间也存在相互指代

Event coreference resolution 事件共指消解

Zero-pronouns 零指代消解

there is a verb phrase ellipsis(省略) in the second sentence, detection of which is useful for event extraction.

Script learning 脚本学习

Here a script refers to a set of partially ordered events in a stereotypical scenario, together with their participant roles.

aims to extract such commonsense knowledge automatically from narrative texts

从大量文本抽取脚本知识

订餐包含就坐、点餐、用餐、付款等小事件，这些小的事件有时候会部分出现，有时候会以不同的顺序出现

在语义学范畴，这种整体的事件框架叫script

Sentiment

Sentiment analysis（opinion mining）情感分析意见挖掘

Sentiment analysis, or opinion mining is an NLP task that extracts sentiment signals from texts.
There are numerous task variations.
- sentiment classification
  - to predict the subjectivity and sentiment polarity（极性） of a given text, which can be a sentence or a full document.
  - The output can be a binary subjective/objective class, or a ternary（三元的） positive/negative/neutral class. More fine-grained（细粒度） output labels can be defined, such as a scale of [ −2, −1, 0, 1, 2], which corresponds to [very negative, negative, neutral, positive, very positive], respectively.
There are also tasks that offer more fine-grained details in sentiments.
- targeted sentiment
  - investigates the sentiment of a text towards a certain target entity.
- aspect-oriented sentiment
  - typically defined in the product review domain（源自于商品评论）. The goal is to extract different aspects given a certain topic, together with the sentiment signals towards each aspect.
- More fine-grained sentiment analysis
  - extracts not only the opinion target, but also the opinion holder（情感所有者） and the opinion expression.

Sentiment related tasks 情感分析相关任务

Sarcasm detection 讽刺检测

to classify whether a text contains sarcasm or not

Sentiment lexicon acquisition 情感词典自动获取

to acquire from texts a lexicon that contains sentiment-bearing words, together with their polarities and strengths from texts. The resulting lexicons are used for sentiment analysis.

Emotion detection 情绪检测

to extract the emotion of the narrator（叙事者）, such as “angry”, “disappointed” and “excited”.

Stance detection and argumentation mining 立场检测和议论挖掘

Sentiment analysis is also related to stance detection（立场检测）, which is to detect the stance of a text towards a certain subject (i.e., “for” or “against”)
- argument mining从文字中自动搜索观点及其论据的结构的任务，有助于新闻，审稿，评论等内容的自动理解分析

1.2.3 Text generation Tasks 文本生成任务

Realization 实现/ linearization/线性化

一个基础性的文本生成任务是语义分析任务的逆运算

The generation of natural language text from syntactic/semantic representations

给定一个语义图，任务的输出是表达其中语义的文字

语义到文字的生成也可以看作是图到文字的生成（graph-to-text generation）
Semantic dependency graphs (logical forms) example:

Data-to-text generation 数据到文字的生成

The generation of natural language text from syntactic/semantic representations
例

Summarization 文本摘要文本总结

长文本→短文本，提取重要内容；可总结单篇文档，多篇文档（如报道同一事件的新闻）

抽取式文摘 extractive summarization
- 简单抽取原文片段拼凑成文本摘要
生成式文摘 abstractive summarization
- 用语言生成方式改写原文生成摘要
related tasks
- 标题生成
- 关键字抽取

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rN7lOD6o-1670488706830)(https://cdn.jsdelivr.net/gh/xin007-kong/picture_new/img/20221208151004.png)]

Machine translation 机器翻译

从一种语言到另一种语言的生成任务

句子级别翻译
篇章级别翻译等
辅助人工翻译工具

Grammar error correction 句法纠错

将带有语病文本自动纠正为正确文本的生成任务，可用于英语学习，文档编辑系统等
related tasks
- Grammar error detection
  - 可用于作文自动评分等
- Disfluency detection
- Writing quality assessment

Question answering (QA) 自动问答系统

Knowledge-base QA 基于知识库的问答

知识库可以是数据库、知识图谱等

Reading comprehension (machine reading) 基于文本的问答/机器阅读理解

answer questions in interpretive ways
答案来自文章而不是结构化数据，机器先要理解文章，然后从中找出答案

Community QA 社区问答

如：Quora、知乎这样用户之间相互提问回答的系统
子任务：相关问题的搜索
- 用户提出一个问题，用算法找一找这个社区里有没有相关或相同的问题，然后直接把答案反馈给用户做参考

Open QA 开放问答

综合性，不限定答案来源（知识库/网上文本），经常组合知识问答、阅读理解等各种方法
老师提到：一个应用场景就是用户对下一代搜索引擎提出任何问题，引擎可以直接给出答案

最近的chatGpt应该就是吧哈哈哈，还可以对chatGpt指定回答的简洁程度

Dialogue systems 对话系统

Chit-chat 闲聊式的对话

情感交流，自由聊天
注重理解，对话的趣味性，回答的多样性

Task-oriented dialogues 基于任务的对话

帮用户解决定机票、订宾馆等问题
包含很多子模块：用户意图理解，对话状态追踪和管理，回复生成等子任务，文本生成在其中是起关键作用的模块

1.2.4 Other Applications

Information retrieval 信息检索

其实不是NLP的子问题，除了文字外，视频图像等也是 Information retrieval关心的对象，但语言文字是信息重要载体，所以信息检索和NLP有很大的交叉

Text classification / text clustering 文本分类
- Text topics classification
  - “finance”,“sports”,“Tech”…
- Spam detection
  - email spam 垃圾邮件检测
- Opinion spam detection
  - whether a review contains deceptive（欺骗性的） false opinions
- Language identification
  - “French”,"English“
- Rumour detection 谣言检测
  - false statement
- Humor detection 幽默检测

Recommendation system

也不是NLP的子任务，但是和NLP有密切联系

leverage text reviews for recommending（利用文字评论来推荐）

leverage 借助，利用；杠杆

Text mining and text analytics 文本挖掘和文本分析

通过文字进行数据分析从而寻找到重要信息和决策依据

derive high-quality information from text

如：
- Clinical decision assistance 辅助诊疗系统
- Stock market prediction 股市预测系统
- Movie revenue prediction 电影票房预测
- Presidential election results prediction 总统选举预测

1.3 NLP from a Machine Learning Perspective 机器学习视角下的自然语言处理

为什么要从机器学习视角出发

The current dominant method

从机器学习的角度来看，NLP任务可以被分为少数类型）

NLP目前最主流最有效的是基于ML尤其是DL的方法，对于一个新的自然语言处理任务进行建模的时候，我们需要考虑任务的语言属性、机器学习属性、数据属性。
以命名实体识别为例
- 从机器学习角度来看这是一个序列标注的问题。
  
  给定一段文本，我们需要看文本中哪些片段属于命名实体，并给这些片段打上标签。（决定作用）
- 从语言学角度来看，解决命名实体识别往往需要判断命名实体本身的拼写特点以及它上下文的特点，比如一个以大写字母为开头的英文单词，很可能是命名实体的一部分，比如United States
  
  如果上下文是总统出访了某地，无论词的拼写是什么，它是一个地点命名实体的概率都很大，这些是语言学的特点
- 从数据角度看
  
  如果我们有一套人工标注好的训练数据用来进行机器学习的训练，那么这套数据的标注规范（人是怎么标注命名实体的）、被标注的数据量的大小、不同类型的命名实体的分布是怎样的（统计概率是怎样的）都会影响我们对方法的设计和选择
这三个角度里面，机器学习性质是起到最主要的决定作用的，数据特性也起到很大作用，机器学习性质相比于语言学特性在不同任务之间更通用，学习起来更方便

The historical of research

NLP发展历史脉络来看，整个领域也是随着机器学习技术的进步而不断发展的
The NLP field has been driven by the development of methods rather than tasks. In fact, a technical advance typically leads to improvements over a range of NLP tasks. Hence we center around methods for the remainder of this book, describing tasks of the same nature together.

从机器学习视角来对NLP task进行划分

Although there is a plethora of NLP tasks in the linguistic or application perspective, NLP tasks
can be categorised into much fewer types when viewed from a machine learning perspective.（尽管从语言学或应用的角度来看，NLP任务非常多，但从机器学习的角度来看，NLP任务的类型要少得多。

NLP tasks are many and dynamically evolving, but fewer according to machine learning nature （NLP任务很多，而且是动态发展的，但根据机器学习的性质来划分，可以归为少数几类）

How can we categorise NLP tasks according to their machine learning nature? There are different perspectives.

可以按照输出划分 According to the output

classification tasks 分类任务

Output is a distinct label from a set 输入是文本，输出是类别标签
e.g. 情感分类、主题分类、垃圾邮件分类、rumour detection 谣言检测等等

structured prediction tasks 结构预测

Outputs are structures with inter-related sub structures
- 输入是文本，输出是具有相互关联子结构的大结构（如一颗句法树）（词性标注，句法分析，关系抽取，语义分析，事件抽取，命名实体识别 and so on）
- 输入是文本序列，输出也是文本序列：序列到序列（机器翻译，文本摘要，句法纠错，对话回复生成）
e.g. POS-tagging and dependency parsing
Many NLP tasks are structured prediction tasks, As a result, how to deal with structures is a highly important problem for NLP.

regression problem 回归问题

（在NLP研究的相对较少）

In some cases, the output is neither a class label nor a structure, but a real-valued number.

Output is a real valued number 输出是实数值而非离散类别
e.g. predicting stock prices ，automatic essay scoring

可以按照训练数据划分 According to the nature of training data for machine learning

unsupervised learning 无监督学习

data without human annotation

When the set of training data does not contain gold-standard outputs (i.e., manually labelled POS-tags for POS-tagging and manually labelled syntactic trees for parsing), the task setting is unsupervised learning.

supervised learning 监督学习

data with human annotated gold-standard output labels

In contrast, when the set of training data consists of gold-standard outputs the task setting is supervised learning.

semi-supervised learning 半监督学习

both data with labels and data without annotation

In between the two settings, semi-supervised learning uses both data with gold-standard labels and data without annotation.

Take POS tagging for example. In the supervised learning setting, the training data consist of sentences with each word being annotated with its gold-standard POS. The unsupervised learning POS-tagging task (i.e., POS induction), on the other hand, uses only raw text as training data.

For semi-supervised learning, a relatively small set of data with human labels and a relatively large amount of raw text can be used simultaneously（同时地）.

Resources（来自课程PPT）

NLP toolkits
- NLTK - leading platform for text processing libraries and corpora https://www.nltk.org
- AllenNLP - NLP research library built on PyTorch https://allennlp.org/
- Stanford’s Core NLP Suite http://nlp.stanford.edu/software/corenlp.shtml
- Huggingface Transformer - pretrained models ready to use https://github.com/huggingface/transformers
Word level syntax
- POS tagging online: https://part-of-speech.info
- The Stanford log-linear POS tagger https://nlp.stanford.edu/software/tagger.html
- NLP4j - robust POS tagging using dynamic model selection https://emorynlp.github.io/nlp4j/
- Flair - with a state-of-the-art POS tagging model https://github.com/zalandoresearch/flair/
Syntax
- spaCy - industrial-strength NLP in python, for parsing and more https://spacy.io/
- phpSyntaxTree - generate graphical syntax trees http://ironcreek.net/phpsyntaxtree/
- The Stanford Parser https://nlp.stanford.edu/software/lex-parser.html
- Penn Treebank https://www.sketchengine.eu/penn-treebank-tagset/
- CCGBank http://groups.inf.ed.ac.uk/ccg/ccgbank.html
Lexical semantics
- WordNet - the de-facto sense inventory for English https://wordnet.princeton.edu/
- Open Mind Word Expert sense-tagged data http://www.cse.unt.edu/~rada/downloads.html#omwe
- CuiTools - a complete word sense disambiguation system http://sourceforge.net/projects/cuitools/
- WDS Gate - a WSD toolkit using GATE and WEKA http://sourceforge.net/projects/wsdgate/
- SEMPRE - a toolkit for training semantic parsers https://nlp.stanford.edu/software/sempre/
Semantic roles
- PropBank - the proposition bank https://propbank.github.io/
- Implied Relationships - predicate argument relationships http://u.cs.biu.ac.il/~nlp/resources/
Logic
- GEO880 http://www.cs.utexas.edu/users/ml/nldata/geoquery.html
- DeepMind logical entailment dataset https://github.com/deepmind/logical-entailment-dataset
AMR
- AMR - abstract meaning representation https://amr.isi.edu/
Segrada - semantic graph database https://segrada.org/
Text entailment
- The Stanford Natural Language Inference (SNLI) Corpus https://nlp.stanford.edu/projects/snli/
- MultiNLI - the multi-genre NLI corpus https://www.nyu.edu/projects/bowman/multinli/
Discourse segmentation
- PDTB - Penn Discourse Treebank https://www.seas.upenn.edu/~pdtb/
- Prague Discourse Treebank - annotation of discourse relations https://ufal.mff.cuni.cz/pdit2.0
NER
- Stanford Named Entity Recognizer (NER) https://nlp.stanford.edu/software/CRF-NER.html
- OpeNER - open Polarity Enhanced Name ENtity Recognition https://www.opener-project.eu/
- CoNLL 2003 language-indenpendent named entity recognition http://www.cnts.ua.ac.be/conll2003/ner/
- OntoNotes https://catalog.ldc.upenn.edu/LDC2013T19
- MUC-3 and MUC-4 datasets http://www.itl.nist.gov/iaui/894.02/related_projects/muc/
Co-reference
- BART coreference system http://www.bart-coref.org/
- CherryPicker - a coreference resolution tool with cluster ranker http://www.hlt.utdallas.edu/~altaf/cherrypicker/
Relation extraction
- The NewYorkTimes(NYT) - supervised relationship extraction https://catalog.ldc.upenn.edu/LDC2008T19
- ACE2004 - multilingual training corpus https://catalog.ldc.upenn.edu/LDC2005T09
- SemWval2010 http://semeval2.fbk.eu/
- TACRED - relation extraction dataset built on newswire, web text https://nlp.stanford.edu/projects/tacred/
- RewRel - the largest supervised relation classification dataset http://www.zhuhao.me/fewrel/
Knowledge graph
- Microsoft Text Analytics https://labs.cognitive.microsoft.com/en-us/project-entity-linking
- Dexter - a open source framework for entity linking http://dexter.isti.cnr.it/
- neleval - for named entity liking and coreference resolution https://pypi.org/project/neleval/
Events
- ACE(KBP) automatic content extraction https://cs.nyu.edu/grishman/jet/guide/ACEstructures.html
- TimeBank 1.2 https://catalog.ldc.upenn.edu/LDC2006T08
- TAC KBP 2017 - event tracking https://tac.nist.gov/2017/KBP/data.html
- Story Cloze Test corpora http://cs.rochester.edu/nlp/rocstories/
Sentiment
- The Stanford Sentiment Treebank(SST) - movie reviews https://nlp.stanford.edu/sentiment/index.html
- MPQA - news articles manually annotated for opinions http://mpqa.cs.pitt.edu/corpora/
- SemEval17 - consist of 5 subtasks, both Arabic and English http://www.aclweb.org/anthology/S17-2088
- The IMDb dataset - reviews from IMDb with label https://kaggle.com/carolzhangdc/imdb-5000-movie-dataset
- MeaningCloud Https://www.meaningcloud.com
Machine translation
- Workshop on Statistical Machine Translation (WMT) http://www.statmt.org/wmt14/translation-task.html
- International Workshop on Spoken Language Translation (IWSLT) http://workshop2015.iwslt.org/
- OpenNMT - open source neural machine translation http://opennmt.net/
- BinQE - a machine translation dataset annotated with binary quality judgements https://ict.fbk.eu/binqe/
- T2T for neural translation https://github.com/tensorflow/tensor2tensor
Summarization
- The CNN / Daily Mail dataset - training machine reading systems https://arxiv.org/abs/1506.03340
Grammar error correction
- CoNLL-2014 Shared Task - benchmark GEC systems https://www.comp.nus.edu.sg/~nlp/conll14st/
QA
- CoQA - a conversational question answering dataset https://stanfordnlp.github.io/coqa/
- QBLink - sequential open-domain question answering https://sites.google.com/view/qanta/projects/qblink
- DrQA: Open Domain Question Answering https://github.com/facebookresearch/DrQA
- DocQA: Multi-Paragraph Reading Comprehension by AllenAI https://github.com/allenai/document-qa
Dialogue system
- MultiWOZ (2018) - for goal-driven dialogue system http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/
- DailyDialog Dataset (2017) http://yanran.li/dailydialog
- DeepPavlov - open-source library for dialogue systems https://deeppavlov.ai/
- KVRET - multi-turn, multi-domain, task-oriented dialogue dataset https://nlp.stanford.edu/blog/a-new-multi-turn-multi-domain-taskoriented-dialogue-dataset/
Recommendation system
- Amazon product review http://jmcauley.ucsd.edu/data/amazon/
- Case Recommender - recommender tool https://github.com/caserec/CaseRecommender
- MyMediaLife - recommender system library http://www.mymedialite.net/
- LIBMF - a matrix-factorization library for recommender system https://www.csie.ntu.edu.tw/~cjlin/libmf/
Text mining and text analytics
- GATE - general architecture for text engineering https://gate.ac.uk/
- OpenNLP - Apache OpenNLP library https://opennlp.apache.org/
- LingPipe - tool kit for processing text http://alias-i.com

你可能感兴趣的:(NLP,自然语言处理,人工智能)

全球软件技术峰会 2025：聚焦大模型开发、智能运维与架构创新，共赴技术实战盛宴向日葵也有悲伤运维架构推荐算法数据结构大数据数据库架构
全球软件技术峰会2025：聚焦大模型开发、智能运维与架构创新，共赴技术实战盛宴在软件定义未来的时代，人工智能与数字化技术正以颠覆性力量重塑全球产业格局。2025年8月15-16日，以"全球专家、卓越智慧"为宗旨的全球软件技术峰会将盛大启幕，特邀全球近50位来自微软、谷歌、亚马逊、字节跳动等企业的技术领袖及一线实战专家，围绕大模型智能应用开发、AI与ML智能运维、软件开发智能化、架构设计与演进四大核
AI产品经理面试宝典第42天：学习方法与产品流程解析 TGITCIC AI产品经理一线大厂面试题产品经理 AI面试大模型面试 AI产品经理面试大模型产品经理面试 AI产品大模型产品
具体问答：学习产品及AI知识的方法问：请谈谈您是如何学习产品及AI知识的，以及您认为哪些资源对您帮助最大答：我的学习体系包含三个维度：分层知识架构、实践验证闭环、资源筛选机制。在知识获取阶段，采用「理论-案例-工具」三级学习法：通过《人工智能：一种现代的方法》构建AI基础框架，用TensorFlow官方文档掌握工程实现，结合《启示录》《俞军产品方法论》理解产品逻辑。实践环节采用「项目反哺」模式，例
重磅！LM Studio AI编程全面免费
从今天起，LMStudio在家和工作中均可免费使用。查看更新后的条款了解详情。我们的隐私政策保持不变，您可以在此处阅读。在家免费使用，现在也可在工作场所使用LMStudio一直以来都免费供个人使用。这源于我们秉持的根本信念：人工智能应该让人们在自己的机器上轻松访问，无需依赖任何外部资源，并且完全保护隐私。此前，LMStudio应用条款规定，公司或组织若要使用LMStudio，必须联系我们并获得单独
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
Self-Consistency：跨学科一致性的理论与AI推理的可靠性基石大千AI助手人工智能 Python #Prompt 人工智能机器学习神经网络算法大模型幻觉 LLM
本文综合其在逻辑学、心理学及人工智能领域的核心定义、技术实现与前沿进展来对Self-Consistency（自洽性）进行系统性解析。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与跨学科内涵基础概念逻辑学定义：指理论或系统内部逻辑自洽，无矛盾或悖论。例如物理理论中，狭义相对论的速度变换
人工智能学习指南：从菜鸟到大神的进击之路橡晟人工智能深度学习计算机视觉算法学习 python
人工智能学习指南：从菜鸟到大神的进击之路前言：别慌，AI没那么可怕嘿！想学人工智能？恭喜你，你已经比90%的人更有眼光了！很多人一听到"人工智能"就开始头疼，仿佛这是什么高深莫测的巫术。其实不然，AI就像学做饭一样——刚开始可能会糊锅，但掌握了方法，你也能做出一桌好菜！目录第一章：认清现实，别被忽悠第二章：建立知识地图第三章：实战为王第四章：自检清单——你真的学会了吗？第五章：进阶之路结语：成为A
敏捷开发中的自然语言处理集成项目管理实战手册项目管理最佳实践敏捷流程自然语言处理 easyui ai
敏捷开发中的自然语言处理集成：让代码与需求“说人话”关键词：敏捷开发、自然语言处理（NLP）、用户故事分析、需求自动化、持续集成优化摘要：在敏捷开发中，“快速响应变化”的核心目标常被繁琐的文本处理拖慢——需求文档像“天书”、用户故事靠“脑补”、缺陷报告整理耗时……自然语言处理（NLP）就像一位“智能翻译官”，能让开发团队与需求文档“流畅对话”。本文将用“搭积木”“翻译机”等生活化比喻，带您理解如何
阴谋爆仓！社科院课堂朱民ST-balance节能风电被骗揭秘！受害者亲述不能出金真相！正义青天
随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁。因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局若你也不幸被骗遇到此类平台一定不要打草惊蛇，早期不
对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
飞算科技：以原创技术为翼，赋能产业数字化转型
在数字经济浪潮席卷全球的当下，一批专注于技术创新的中国企业正加速崛起，飞算数智科技（深圳）有限公司（简称“飞算科技”）便是其中的佼佼者。作为一家国家级高新技术企业，飞算科技以自主创新为核心驱动力，凭借互联网科技、大数据、人工智能等前沿技术，为各行业客户插上数字化转型的翅膀。飞算科技的定位清晰而坚定——自主创新型数字科技公司。这一定位不仅体现在其技术研发的方向上，更融入到为客户服务的每一个环节。无论
警惕!北恒私募高级班周一丰，马建军不正规。不让出金,不能提现,大家远离骗局! 昌龙律法
随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁。因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，若你也不幸被骗遇到此类平
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
计算机发展史：人工智能时代的智能变革与无限可能 jdlxx_dongfangxing 计算机发展史计算机发展史
在计算机发展的漫长进程中，人工智能时代的到来无疑是最具革命性的篇章之一。它使计算机从单纯的数据处理工具，进化为能够模拟、延伸和拓展人类智能的强大系统，对科学研究、经济发展、社会生活乃至人类文明的走向，都产生了深远且不可逆转的影响。从早期对智能机器的设想，到如今人工智能技术在全球范围内的广泛应用，这一领域经历了无数次理论突破、技术迭代与实践探索，正以前所未有的速度重塑着我们的世界。人工智能的起源与早
使用Python调用Hugging Face Question Answering (问答)模型墨如夜色 python easyui 开发语言 Python
使用Python调用HuggingFaceQuestionAnswering(问答)模型在自然语言处理领域，问答系统是一种能够回答用户提出的问题的智能系统。HuggingFace是一个知名的开源软件库，提供了许多强大的自然语言处理工具和模型。其中，HuggingFace的QuestionAnswering模型可以帮助我们构建问答系统，使得我们能够从给定的文本中提取答案。本文将介绍如何使用Pytho
走进区块城市，开启你的元宇宙之旅！口碑信息传播者
随着科技的飞速发展，虚拟现实、区块链、人工智能等前沿技术逐渐融入我们的生活。在这个大背景下，元宇宙概念应运而生，成为全球关注的焦点。本文将带领读者走进区块城市，一探元宇宙的究竟，感受这个未来世界的魅力。探索未来，触碰无限可能！国内区块链元宇宙正引领一场前所未有的科技革命，现在正是您加入这场盛宴的最佳时机！在这里，您将亲身体验到一个全新的虚拟世界，感受与现实世界无缝对接的震撼体验。加入国内区块链元宇
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
大学专业科普 | 人工智能、物联网和云计算技术鸭鸭鸭进京赶烤人工智能物联网云计算 5G 信号处理信息与通信网络
一、专业概述人工智能专业是一门融合计算机科学、数学、信息学等多学科知识的交叉学科。它旨在培养学生掌握人工智能领域的基本理论、方法和技能，以应对人工智能在各个领域的应用需求和发展挑战。二、主要课程基础课程：包括高等数学、线性代数、概率论与数理统计、离散数学等数学基础课程，为人工智能算法提供理论支撑；以及数据结构、算法设计与分析、计算机组成原理、操作系统、计算机网络等计算机科学基础课程，帮助学生理解人
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全苏柒 web安全计算机网络网络安全运维转业程序员编程
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）从零基础到精通，收藏这篇就够了！～小羊没烦恼～黑客技术黑客网络安全 web安全安全学习运维网络
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全k叔 web安全计算机网络网络安全编程计算机转业信息安全
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
宗毅说 | 乌卡瑟时代的生存思考裂变学院
今天，互联网经济、人工智能、全球化发展对我们的影响，要比我们想象得大得多。在多股合力的相互作用下，这个时代的社会特征、商业特征与之前相比显著不同，我称之为乌卡瑟“VUCASE”。备注：乌卡瑟（VUCASE）这个术语是我自创的，来自于乌卡(VUKA）。VUCA是Volatility(易变性)，Uncertainty(不确定性)，Complexity(复杂性)、Ambiguity（模糊性）这四个英文单
[论文阅读] 人工智能 + 软件工程 | 单会话方法论：一种以人类为中心的人工智能辅助软件开发协议张较瘦_ 前沿技术论文阅读人工智能软件工程
单一对话法（SCM）：AI辅助软件开发的“全局对话”新思路SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSoftwareDevelopmentarXiv:2507.12665SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSo
如何安全使用人工智能大模型
人工智能大模型的安全漏洞在推送，你只要有不一样的解决方案他就会通过学习学会，在别人讨论相同问题时，就会作为解决问题的推荐方案。这种机制是没办法防的。鉴于此我们只能采取如下措施:1.绝对本地部署，就是部署好以后断网，因为你使用时他还是会手机数据往后台传送，我本地部署的大模型在推理时看性能，网络也是有数据流的。也不知道在交换什么。2.既然搞不清楚那就彻底不相信，断网。那么我们要加快进度，快速完成任务，
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】陈辰学长人工智能科技
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】在21世纪的科技浪潮中，人工智能（AI）作为一股不可忽视的力量，正以前所未有的速度渗透并重塑着我们的生活、工作乃至艺术创作领域。其中，AI绘画作为科技与艺术深度融合的产物，不仅挑战了传统艺术的边界，更开启了一个充满无限想象与可能的新时代。本文将从AI绘画的定义与发展历程、技术原理、对艺术创作的影响、面临的挑战与机遇以及未来展望等多个维度，深入探讨这
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

西湖大学张岳老师NLP课程笔记1 Introduction

西湖大学张岳老师NLP课程笔记1 Introduction

文章目录

1.1 What is Natural Language Processing (NLP)?

Main approaches

Rule based(symbolic) approch (1950s-1980s)

Statistical approach (traditional machine learning) (1980s-2000s)

Connectionist approach (Neural networks) (2000s-now)

1.2 NLP Tasks

1.2.1 Fundamental NLP tasks 基础自然语言处理任务

Syntactic tasks 句法分析任务

Word level

Sentence level

Semantic tasks 语义分析任务

Word level

Sentence level

Text entailment 自然语言推理

Discourse tasks 篇章分析

1.2.2 Information Extraction tasks 信息抽取任务

Information extraction (IE)

Entities 实体

Named entity recognition (NER) 命名实体识别

Anaphora Resolution 指代消解

Co-references 共指消解

Relations

relation extraction 关系抽取

Knowledge graph 知识图谱

Entity linking(entity disambiguation) 实体链接

Named entity normalization 实体规范化

Link prediction（knowledge graph completion） 链接预测/知识图谱补全

Events

Event Detection 事件检测

News event detection (first story detection) 新事件检测

Event factuality prediction (predict the likelihood of event) 事实性检测

Event time extraction (e.g. temporal ordering of events 事件的时间顺序排列、timeline extration 时间线检测) 事件时间次序推断

Causality detection 因果检测

Event coreference resolution 事件共指消解

Zero-pronouns 零指代消解

Script learning 脚本学习

Sentiment

Sentiment analysis（opinion mining） 情感分析 意见挖掘

Sentiment related tasks 情感分析相关任务

Sarcasm detection 讽刺检测

Sentiment lexicon acquisition 情感词典自动获取

Emotion detection 情绪检测

Stance detection and argumentation mining 立场检测和议论挖掘

1.2.3 Text generation Tasks 文本生成任务

Realization 实现/ linearization/线性化

Data-to-text generation 数据到文字的生成

Summarization 文本摘要 文本总结

Machine translation 机器翻译

Grammar error correction 句法纠错

Question answering (QA) 自动问答系统

Knowledge-base QA 基于知识库的问答

Reading comprehension (machine reading) 基于文本的问答/机器阅读理解

Community QA 社区问答

Open QA 开放问答

Dialogue systems 对话系统

Chit-chat 闲聊式的对话

Task-oriented dialogues 基于任务的对话

1.2.4 Other Applications

Information retrieval 信息检索

Recommendation system

Text mining and text analytics 文本挖掘和文本分析

1.3 NLP from a Machine Learning Perspective 机器学习视角下的自然语言处理

为什么要从机器学习视角出发

The current dominant method

The historical of research

从机器学习视角来对NLP task进行划分

可以按照输出划分 According to the output

classification tasks 分类任务

structured prediction tasks 结构预测

regression problem 回归问题

可以按照训练数据划分 According to the nature of training data for machine learning

unsupervised learning 无监督学习

supervised learning 监督学习

semi-supervised learning 半监督学习

Resources（来自课程PPT）

你可能感兴趣的:(NLP,自然语言处理,人工智能)

Link prediction（knowledge graph completion）链接预测/知识图谱补全

Sentiment analysis（opinion mining）情感分析意见挖掘

Summarization 文本摘要文本总结