1.怎么写论文,怎么转行NLP?
除了要符合一些会议或者期刊的格式要求,一般NLP有一个相对固定的经典结构:
NLP学术会议(甚至包括期刊)论文已经形成比较固定的结构。绝大部分论文由以下六大部分构成:摘要(Abstract)、介绍(Introduction)、相关工作(Related Work)、方法(Method)、实验(Experiment)、结论(Conclusion)。少数论文会根据创新成果形式不同而略有不同,例如提出新数据集的论文,可能会把Method部分调整为Dataset的标注与分析,但不影响论文整体构成。每个部分作用不同:
摘要:用100-200词简介研究任务与挑战、解决思路与方法、实验效果与结论。
介绍:用1页左右篇幅,比摘要更详细地介绍研究任务、已有方法、主要挑战、解决思路、具体方法、实验结果。
相关工作:用0.5-1页左右篇幅介绍研究任务的相关工作,说明本文工作与已有工作的异同。
方法:用2-3页篇幅介绍本文提出的方法模型细节。
实验:用2-3页篇幅介绍验证本文方法有效性的实验设置、数据集合、实验结果、分析讨论等。
结论:简单总结本文主要工作,展望未来研究方向。
除此之外要想写出一篇合格的NLP论文,首先是态度问题,只有态度重视,才有可能不厌其烦地反复修改,才会“不择手段”地寻找各种办法来尽力改进论文(找学长找外教借助Grammarly工具等)。其次是动手问题,只有写下来,才可能不断改,只要改就能不断进步。最后是经验问题,要写得精彩可能需要天赋,而要写得合格,只要坚持写,不断根据评阅人和其他人的意见进行思考和修改,就可以进步。总之,坚持就是胜利。
另外关于如何入门NLP:可以参考下我们baseline课上的学习路径,
关于理论:第一阶段:学习概率论与数理统计、矩阵论、最优化方法、统计学习方法、高等数学;第二阶段:学习机器学习、统计自然语言处理,至少学习一门语言及机器学习或深度学习开发框架;第三阶段:学习深度学习、强化学习,抓住NLP某个领域(文本分类、摘要生成、机器翻译、序列标注、语义关系抽取等)阅读相关论文
关于实战:(1)如果没有Python基础的话,可以先学习下Python基础语法、数据结构,函数以及创建对象(2)可以学习一个深度学习框架,比如TensorFlow或者Pytorch,可以做一些基础的nlp 入门小项目 (3)可以尝试复现论文或者参加NLP相关的比赛,进行实战 (4) 专题训练,根绝自己业务方向或者研究方向,进行输入研究、尝试实现自己的想法
2.面试会侧重项目的实现还是各种算法原理
根据以往经验,一般面试的时候算法原理关注比重相对较高一些。这里不是指“各种算法原理”,而是你简历上体现处理的算法原理,不可能是面试NLP的算法岗位去问CV的相关算法。稍微注意的地方就是,只要是你简历上体现出来的项目或者算法字眼,一定要好好准备,搞清背后的原理,以防万一。
3.我们都知道NLP后面在强化学习和知识图谱等领域都会有所涉及,在NLP这一行在后期,是选择专门的领域去研究,还是研究这些领域共同的方法后再去研究
建议是后者这种方式,因为NLP知识体系非常庞大,我们不可能顾及所有的领域,如果每个领域或者子任务都涉及的话可能有点不深入。但是到后期的时候,有了一定NLP知识体系感知的基础之上,一定要选择一到两个专门的领域去深入开展下去,比如如何把信息抽取做好,如何把阅读理解做好等,可以选择开展一个纵向任务、或者论文研究等
4.主要是idea怎么去寻找?另外怎么样去证明自己的结论?
1、学科发展角度的”好“,学术研究本质是对未知领域的探索,是对开放问题的答案的追寻。所以从推动学科发展的角度,评判什么是好的研究想法的标准,首先就在一个“新”字。
可实现性,体现在该想法是否有足够的数学或机器学习工具支持实现。可验证性,体现在该想法是否有合适的数据集合和广泛接受的评价标准。很多民间科学家的想法之所以得不到学术界的认同,就是因为这些想法往往缺乏可实现性和可验证性,只停留在天马行空的纸面,只是些虚无缥缈的理念。
这个大家可以好好看看:
【学术分享】好的研究想法从哪里来 https://cloud.tencent.com/developer/article/1550028
5.文本匹配怎么和具体应用结合?
(1) 用户查询-广告页面相似度:基于用户查询语句进行推荐相似广告
(2)新闻推荐:长文本-长文本的语义匹配可用于个性化推荐的任务中。在互联网应用中,当我们积累了用户大量的行为信息后,这些行为信息对应的文本内容可以组合成一篇抽象的“文档”,对该“文档”进行主题映射 后获得的 主题分布 作为用户画像。例如,在新闻个性化推荐中,我们可以将用户近期阅读的新闻(或新闻标题)合并成一篇长“文档”,并将该“文档”的主题分布作为表达用户阅读兴趣的用户画像。如图5所示,通过计算每篇实时新闻的主题分布与用户画像之间的Hellinger Distance,可作为向用户推送新闻的选择依据,达到新闻个性化推荐的效果。
(3)如搜索的Query和Doc、广告中Query-Ad、搜索Suggestion中Query前缀和Query(见图1)、关键词推荐中Query和Query、文档去重时Doc和Doc等。
6.转行,干了两年爬虫,现在混进了一个算法部门打杂,想转nlp
很赞,以后可以继续加油下去
(1)广度:应该尽量了解与自然语言处理相关的算法,知道越多越好,对其相应的应用场景有也要有一定的了解。 ------------ 百度输入法团队 (一个很年轻的面试官和我说的,嘿嘿)
(2) 深度:找准方向纵向切入,NLP的核心思想是: 序列,语义,图。
(3)培养对实际情况的应对能力:如果你自己能够应用一个或者某几个算法的组合解决了实际问题或者应用在了项目中的话,那么一方面这个过程可以会推动着你更加了解这些算法的原理,另一方面也会强化你对这些算法更深层次的理解,同时也印象深刻
(4) 好好学英语
Q7. 论文上是英文的,对于中文如何初始化向量呢?
(1)基于wiki百科训练通用word2vec:具体可以看下:基于中文维基百科的词向量构建及可视化 https://blog.csdn.net/weixin_40547993/article/details/97781179
(2)基于独自研究领域的个人语料库进行训练
(3)基于开源或者公开的预训练词向量,比如【腾讯词向量】腾讯中文预训练词向量https://www.cnblogs.com/yanqiang/p/13536619.html
8.dssm都木有考虑词的上下文,有没有其它方法?
可以尝试引入Attention机制,比如文本的编码器也可以通过基于Self-Attention的Transformer实现
9.NLP如何与水产养殖或渔业养殖相结合?
构建农业知识图谱或者养殖业知识图谱:将鱼类的养殖、捕捞、生产的养殖、生产、加工、储藏、运输及零售等供应链各环节
进行编码标识以及实体标识,并相互关联,可获取各个环节的数据信息。一旦食品出现安全问题,可通过知识图谱
进行追溯,能够快速缩小发生安全问题的食品范围,准确查出问题出现的环节所在,直至追溯到食品生产
的源头,从而确保产品撤回和召回的高效性、准确性。为政府产品质量监管提供有效手段、保护消费者利
益、最大限度的降低企业的损失,提升企业产品竞争力。
10.NLP如何与情感陪护相结合?有什么好方向去发论文呢?
结合的切入点:主要是如何定义情感,情感计算以及情感识别
发论文:
(1)基于aspect的情感分析 旨在捕捉用户生成的评论中对产品、电影、公司等实体的不同方面所表达的情感。
(2)多语种情感分析 目前大多数的情绪分析系统通常只涉及英语,但网上的意见存在于更多的语言。
(3)多模态情感分析 随着社交多媒体的普及,多模态情感分析将带来新的机遇,它将整合其他互补的数据流,如面部和声音的显示和表达,往往以一种非常有力的方式表达情感。这样做不仅能改进基于文本的情绪分析,甚至还能超越它。难点在于如何在真实环境中提取视觉情感(低分辨率、主体运动),以及如何从音频文本中可靠提取语言和副语言特征。
(4)情绪分析,检测并识别文本中的情绪类型,如愤怒、厌恶、恐惧、快乐、悲伤和惊讶。
11.NLP有什么主要的领域应用呢?
搜索:Item内容理解、Query理解、检索召回相似文档、还有text2sql 等;
推荐:用户embedding、商品embedding。item的标题,描述,评论都是文本,user2vec,item2vec都是NLP方法,很多应用场景;
问答:客服,FAQ,语音助手(尤其与智能硬件上),百科问答(知识图谱),闲聊,专业领域问答,记录与提醒;
舆情:情感分析,热点分析,热点预测,预警监控;
风控:聊天室广告屏蔽,黄赌毒内容审核,脏话过滤;
信息抽取整理:各种UGC内容tag提取,主题分布按主题归档,政策惩罚抽取,法律判决抽取,公司主权结构抽取等;
写文章,翻译,阅读理解:辅助新闻写作,广告文案生成,不同语言翻译,不同风格翻译,生成一大堆文档抽取主要事情;
语音识别:这不用说吧;
推理:法律知识图谱罪行推断,疾病知识图谱并发症推断,商业事理知识图谱等;
预测:购买预测,点击预测,热点预测,爆款预测,疾病预测, …基于上面这些构建用户画像,
大家可以看下这个话题:NLP究竟能有哪些真正有意义的应用场景?基本上很全面https://www.zhihu.com/question/264459321
12.NLP具体结合对教育领域有哪些产品和应用?后面的课程能不能针对具体的一个应用方向进行案例讲解?
这个教育领域的话可以想象下:A12教育中的应用,比如作文批改,错别字识别 文本翻译;还有些引导小朋友学习的机器人,可以对话,可以回复等,
13.NLP 写论文思路怎么来,怎么结合语言学背景发NLP的文章?
1、了解NLP的最基本知识 2. 了解早年经典的NLP模型以及论文 3. 了解机器学习的基本模型 4. 多看NLP其他子领域的论文:NLP有很多子领域,MT,信息抽取,parsing,tagging,情感分析,MRC等等。多多熟悉其他子领域的进展是必要的。其实不同子领域所运用的模型不会相差太大。但是最开始看不熟悉领域的问题可能会有一点难,原因是对问题的formalization不是很了解。这可能就需要多花一些时间,多找懂的同学去问。其实了解不同问题的formalization也是对领域知识最好的扩充。
可以多看下语言学中基本语素提取 分词 实体识别如何与深度学习结合的;另外可以关注下语法树的研究
14.NLP在智慧司法方面有哪些典型应用?
追溯起来,人工智能与法律的结合已经有30年历史了,始于1987年在美国波士顿的东北大学举办的首届国际人工智能与法律会议(ICAIL),并最终促成了国际人工智能与法律协会( IAAIL)在1991年的成立,旨在推动人工智能与法律这一跨学科领域的研究和应用。包括十大主要议题:
法律推理的形式模型;
论证和决策的计算模型;
证据推理的计算模型;
多智能体系统中的法律推理;
自动化的法律文本分类和概括;
从法律数据库和文本中自动提取信息;
针对电子取证和其他法律应用的机器学习和数据挖掘;
概念上的或者基于模型的法律信息检索;
自动化次要、重复性的法律任务的法律机器人;
立法的可执行模型。
具体可以看下:法律人工智能十大趋势
https://zhuanlan.zhihu.com/p/30880747
15.NLP近两年哪一个方向论文好发
推荐哈工大刘挺教授总结的nlp十大前沿进展和挑战,其中的每个点都是一个有价值的研究和学习方向。自然语言处理现阶段的十个进展:1) 广泛采用分布式语义表示;2)深层注意力模型逐步成为标准;3)模型预训练成为NLP的新范式;4)多任务学习进一步提升效果;5)知识图谱开始发挥实际作用;6)阅读理解在某些数据集上超过人类平均水平;7)文本情感分析进展明显;8)文本生成从研究到实用;9)自然语言处理平台陆续开放;10)对话系统从应用到平台化。
自然语言处理现阶段面临的十个挑战:1)如何构造大规模带标数据;2)如何获取常识知识;3)可解释性问题;4)小数据问题;5)知识工程与统计方法的融合问题;6)文本推理问题;7)领域迁移问题;8)话语(Discourse)与语用(Pragmatics)的研究;9)基于多模态融合的文本理解;10)模型压缩与加速。
如果比较好发的话,可以多看看后面的这些方向
16.强化学习与控制论什么关系?
我们可以认为所有的最优控制问题都能够被归纳为强化学习问题,也就是说,最优控制是强化学习的一个子集。我们将强化学习方法定义为能够使用任何有效的方式解决强化学习问题的方法。强化学习的问题就是如何去最大化系统的回报、或者能够被抽象为通过控制策略以最大化系统回报的问题。正是因为强化学习和最优控制有着这种交叉历史,所以看起来这两个问题是如此的接近。我们也会把解决最优控制问题的动态规划方法称之为强化学习方法。由于绝大部分传统的最优控制方法都要求对于受控系统的内部完全可知,将其称之为强化学习的一部分,似乎听起来不太自然,不过这并不妨碍我们进一步研究。
17.Bert怎么和知识图谱合起来做智能问答系统?
这个需要知道如何bert与文本表示高效结合起来,你可以看下Google开源的Bert模型结合Milvus开源的向量搜索引擎,可以快速搭建基于语义理解的对话机器人。
对应的是这个https://juejin.cn/post/6844904130775908360
这个需要自己把ner或者一些标注模型部署到后台,然后需要前段工程师把需求实现和对接起来。
bert可能要作为知识图谱其中的某个模块来结合使用,比如BERT做命名实体识别和句子相似度。
18.语言学和NLP的相似性和区别
计算语言学是从语言学的角度出发的,是语言学的一个分支,该学科的目的是提出一种可被计算机处理的语言学理论、框架、模型。我认为WordNet, treebank, TimeML等项目应该都属于此类。
自然语言处理是从计算机科学的角度出发的,算是计算机的一个子学科。目的是高效的可用于处理自然语言的算法。如基于字序列标注的中文分词,HMM词性标注,CKY, Early算法,N-gram,噪声信道模型,这些应该都算是NLP的成果。
但总体趋势是二者的界限开始变模糊了。统计NLP已取得巨大成果,但其极度以来统计手段,相比之下深入的语言学思考少很多。遇到今天的瓶颈,许多NLP的研究者都在引入一些语言学的知识来帮助他们提取更多的训练特征,和更靠谱的思维角度。计算语言学方面,虽然说做的还是那些理论工作,但衡量一个理论是否有效,还是得放在真实语料上做些实验才知道。
19.关于对话系统,哪方面落地会好些呢,哪个部分会更容易出论文呢?
对于落地 智能客服落地场景比较多,比如阿里的小蜜,京东等电商智能客服,还有一些保险领域的;智能对话里面一些语义理解,语意消岐多轮对话还是比较容易的
20.nlp在法律应用上成熟吗?
成熟的,现在有做用于法律案件的因果关系识别 、实体提取,分类等,这些场景都会有的
21.语义相似度用什么算法比较好
如果效果好的话,可以看看预训练模型如何与相似度结合的,比如Sentence-BERT: 一种能快速计算句子相似度的孪生网路
22.语义相似度主要用什么算法实现
基本上我们课堂会提到好多方法的,但是有两个比较核心:如何表示文本;如何衡量文本的相似性,也就是如何计算相似度