郭畅小渣渣

自然语言处理面试 | （1）胡盼盼（NLP入门到实践）总结

第一章自然语言处理初探

1.在早期，自然语言的处理思路可以分为哪两个流派? (121)

答: 1948年，信息论创始人Cade Ewnd Shamon发表论文《通信的教学理论》，其中提到了把自然语言当作一个马尔科夫过程，把概率模型和城的概念引人到了自然语言处理中。1956年，数学家Stephen Kleene发表了论文《神经网络事件表示法和有穷自动机)，提出了正则表达式的概念。语言学家Avram Noum Chomsky在1956 年提出了上下文无关语法在自然语言处理中的应用。这一系列的研究基本也表明了自然语言处理技术的两大阵营，基于概率的符号派和基于规则的随机派。

2.为什么基于规则的自然语言处理方法应用逐渐减少? (P21)

答:基于规则的方法工作量大，可扩展性不高。比如一些早期的聊天系统只能在特定的领城表现良好，当稍微超出预定的规则，将系统置于一个比较合糊和不确定的语境时，聊天系统就无法正常聊天了。

3.你知道21世纪以来哪些具有里程碑意义的自然语言处理研究成果? (P21)

答:基于神经网络的语言模型、多任务学习、循环神经网络、词向量、注意力机制等。

4.自然语言处理可以与哪些领域深度结合? (P21)

答:医疗、教育、媒体、金融、法律等领域。

5.自然语言处理的挑战有哪些? (P21)

答:从细粒度的任务层面而言，词义消歧、指代消解、上下文理解以及对于语用意义的理解等。

6.自然语言处理有哪些基本任务及基本工具? (P21)

答:基础任务有词形还原、词性标注、分词、命名实体识别、句法分析;基本工具有NLTK、Spacy、Stanford CoreNLP、LTP、 Polyglol、 jieba 等。

7.有哪些常用的机器学习相关工具? (121)

答: Numpy、 Seipy、 Pandas 、sikit - learm、MLib、Shogun 等。

8. 你知道哪些深度学习框架? (21)

答: Mxnet、 Caffe、 CNTK、TensorFlow、Keras、PYTorch等。

第二章自然语言处理与机器学习

1.逻辑回归应用于何种问题? (P47)

答:逻辑回归一般应用于比较简单的二分类问题，也可以通过一定的方法使其造应于多分类问题。

2.逻辑回归有什么优缺点? (P47)

答:逻辑回归算法实现简单，计算代价不高，解释性强，还能够提供分类概率，缺点则是在比较复杂的场景下容易欠拟合，精度不高。

3.朴素贝叶斯中的“朴素"指什么? (P47)

答:各个特征之间的条件独立性假设，即特征之间不存在关联。

4. Kmeans 的一般步骤是什么? ( P47)

答: (1) 选择K个点作为初始质心。

(2) 将余下的点归类到最近的质心形成K个簇。

(3) 重新计算每个簇的质心。

(4)重复2、3步骤直到达到设定的最大选代次数或者簇不发生变化。

5.对于Kmeans中质心的选择有什么改进方案? (P47)

答:存在多种方案: (1)通过层次聚类划分k个层次，并且计算每个簇对立的质心作为初始质心。

(2)随机选择第一个质心，接下来选择离此点距离最大的点作为下一个质心。依次进行，直到选出k个质心。

(3)大体思想与2类似,不同的点在于，通过检测样本点的祥本密度和与之前质心的分散度来决定下一个质心的选取。

6. 决策树有哪些选择特征的方法? (P47)

答: ID3、C4.5、 CART.

7.什么是随机森林? (P47)

答:是一种自助抽祥集成算法，将训练集分成n个新训练集，，分别构建n个模型，预测阶段整合此n个模型得到最终结果，当模型为决策树的时候便为随机森林。

8.还有哪些经典的机器学习算法?(P47)

答: K邻近算法、支持向量机、奇异值分解、独立成分分析等。

第三章自然语言处理与神经网络

1.人类神经元的结构是什么样的? (P61)

答:神经元主要由细胞体和细胞突起构成，细胞突起是细胞体延伸出的细长部分，又可分为树突与轴突。树突可以有多个，可以接受刺激并将兴奋传入细胞体，而轴突一般只有一个，可将兴奋从胞体传送至其他组织或另外的神经元。

2.激活函数有什么作用?有哪些常见的激活函数? (P61)
答:激活函数用于将数据进行非线性变化，增强模型的拟合能力，常见的有Sigmoid.Tanh、Relu等。

3. Sigmoid作为激活函数的时候有什么缺点? (P61)

答:输出值不以零为中心，并且容易导致梯度消失问题。

4.相比于传统的机器学习,深度学习有哪些优势? (P62)

答:能够自主选择有用特征并且挖掘潜在特征，模型的拟合能力很强大，能应对更复杂的问题。

5.有哪些基础的神经网络结构? ( P62)

答:多层感知机、循环神经网络、卷积神经网络。

6.预训练模型有什么作用，在什么场最下可以用到? (P62)

答:相当于前人的经验与总结，能够极大地提高当前任务的运作效率，几乎大部分场景下都可以应用，在自然语言处理中主要体现在对词的预编码。

7.有哪些减少过拟合的方法? (P62)

答:增强数据的“质”及“量”，加入正则化项，适当简化模型，应用集成思想等。

8.注意力机制和自注意力机制的差别是什么? (P62)

答:以机器翻译的场景为例，注意力机制针对的是原文与译文之间的注意力关系，而自注意力机制则指同一文本间的注意力关系。

第四章文本预处理

1.有哪些常用的文本预处理项目? (P83)

答:格式统一、去噪、去停用词、大小写转换、去特殊符号、词形还原、分词、词性标注、句法分析、文本纠错、关键词提取等，根据具体任务有机选取。

2.中英文本的预处理过程有何不同? (P83 )

答:中文的词语中间不存在空格，因此需要分词算法将词语进行区分;英文是形态变化语，因此存在词形还原、大小写转换、词干提取等预处理步骤。

3.你知道哪些关键词提取的方法? ( P83)

答:基于规则、基于主题模型、基于图模型。

4.有哪些常用的分词工具? (P83)

答: StanforCoreNLP、 HanLP、 THULAC、SnowNLP、 jieba 等。

5.数据不平衡会对模型训练带来什么影响? ( P83)

答:模型容易过拟合，对数据量少的类别识别不佳。

6.从数据层面有哪些针对数据不平衡问题的思路? ( P83)

答:基于数据量及数据特性，对数据进行上下采样、数据合成等操作。

7.从算法层面有哪些针对数据不平衡问题的思路? (P83 )

答:采用集成学习的思路减弱过拟合，为模型添加特殊的代价机制。

8.你用过哪些处理数据不平衡的工具？（P83）

第五章文本的表示技术

1.基于频次的词袋模型有什么缺点? (P107)

答:没有考虑词序、词之间的联系以及文法，丢失了许多重要信息。

2. TF-IDF的基本原理是什么? (P107)

答:其核心包含两部分: TF表示某个词在某一文本中出现的频率，IDF为逆向文档频率，与某词在综合语料库中出现的频率相关。TF- IDF综合考虑了以上两个方面，如果某词在当前文本中出现频次越多，而在其他文本中出现频次越少，此词越是重要。

3. Word2Vec的基本原理是什么? (P107)

答:利用深度学习对大量语料库中词与词之间的上下文联系进行建模，输入中心词预测上下文或者输入上下文预测中心词，最终训练而得的词向量在模型隐层矩阵中。

4. Word2Vec的训练过程中有哪些技巧? (P107)

答:将常见的单词组合(或者说词组) 当作一个单词来处理;

对高频词进行抽样处理，减少其样本量;

负采样，大幅度减小计算量。（三大创新）

s.有哪些改进后的词表征方案? (P107)

答: GloVe、FastText、 ELMo 、Open AI GPT、Bert等。

6.如何应用词向量获取句向量? (P107)

答:最简单的方式是直接平均，或者基于词语在语科中的出现频次等因素进行加权平均。

7.可以应用类似Word2Vec的方法直接训练句向量吗? (P107)

答:可以，以三个相邻的句子为为一组，利用中心句来预测前后两个句子。

8.为什么可以将多任务学习应用于句向的表征中?(P107)

答:基于语料与任务的多样性，模型可以学习到更广泛更通用的语言表征。

第六章序列标注

1. 有哪些任务可以转化为序列标注问题?(P120)

答:常见的有词性标注、分词、命名实体识别等基础自然语言处理任务，另外，只要数据可以转换为序列形式，并且序列元素需要进行分类的问题都可以认为是序列标注问题。

2. 序列标注任务的难点有哪些? (P120)

答:与具体任务相关，如果序列元素之间、标注与元素之间、标注与标注之间等存在错综复杂的关系，那么特征提取会很困难，不容易用单一模型进行建模。

3.基于HMM模型的序列标注的大概原理是什么? (P120)

答:将输入序列当作观测序列，标注组成的序列为隐藏状态序列，HNM模型假设前一隐藏状态与后一隐藏状态存在转移关系，隐藏状态与观测值间也存在关系，通过这些假设对数据进行建模，预测某一观测序列的隐藏状态序列。

4.基于HMM模型的序列标注存在哪些问题? ( P120)

答:假设性太强，任一隐藏状态只有前一隐藏状态及观测值存在关系，而很多实际问题事实上与全局序列都存在关联;对隐藏状态和观测序列进行联合分布建模，而在标注问题中，我们的预测目标仅仅是，在给定观测序列时隐藏状态序列的条件概率。

5. MEMM模型与HMM模型有哪些不同? (P120)

答: MEMM考虑到相邻隐藏状态之间的依赖关系，且考虑了整个观察序列，因此提取特征能力更强;是判别模型，针对分类问题(序列标注可看作对每个序列元素的分类问题)。

6.基于CRF模型的序列标注有哪些优势? (P120)

答: CRF在具MEMM模型优点的基础上，还克服了MEMM模型标记偏置的问题。

7.如何应用深度学习模型进行序列标注? (P120)

答:一般可应用循环神经网络进行序列建模，在输入的表征、特征的提取、模型细节的设计等方面有诸多选择方案，具体根据任务情况来考量。

8.为什么要在深度学习模型中加人CRF层? (P120)

答:深度学习模型比较倾向于提取输入序列的特征并进行建模，而忽略了标注序列间的元素也存在一定联系，CRF层可以通过建模相邻标注之间的关系弥补这一缺陷。

第七章关系抽取

1.谷歌、百度等搜索引擎是如何实现关联搜索的? (P136)

答:搜索引擎背后有一张巨大的由实体和关系组成的关系网络，相当于计算机的大脑，根据输入内容联想到相关信息。

2.关系抽取有哪些主要方法? (P136)

答:应用传统机器学习或者深度学习的方法进行全监督学习;

基于Bootstrap 的半监督关系抽取方法;

基于聚类的无监督学习方法。

3.关系抽取中的远程监督是为了解决什么问题? (P136)

答:随着深度学习的发展，基于监督学习的方法在性能上有了很大的提升，但是存在标签数据缺少的问题。远程监督的核心假设为:如果某两个实体存在确定的某一关系，那么所有包含此两者的句子都表达了这一关系。基于这一假设，只需要带有确定关系的实体对，便能够在大量文本数据中提取相应的句子并转化为带标签的数据，极大地增加了标注数据量。

4.强化学习如何解决远程监督中错误标签的问题? ( P136)

答:将对关系候选项集合进行识别的任务当作一系列动作组合而成的行为，根据筛选出的集合在分类任务上的性能表现评判筛选质量，并基于此对行为进行反馈，最终学习到最佳的筛选行为。

5. Snowball系统的基本流程是什么? (P136)

答:依靠少量的种子实体对，即已确认存在关系的实体对，生成关系表达模式，再根据关系表达式生成更多的实体对，如此反复迭代直至找到更多的实体对。

6. Snowball系统中是如何对Patterns以及Tuples质量评估的? (P136)

答:对于Patterns的评估，如果一个Pattern 找到的Tuples质量高，那说明此Patterm 的质量也高，反之对于Tuples也是如此，质量好的Pattern 所生成的Tuple质量也高。作者利用Tuples以及Patterns之间相互生成以及相互监督质量的方式，正如系统名所示，滚雪球般地从文本中获取了实体及实体间的关系信息，其中的思想非常巧妙。

7. DeepDive的一般工作流程是什么? (P136)

答:数据预处理、数据标注、学习与推理、交互迭代。

8.什么是因子图? (P136)

答:因子图是一种概率图模型，其节点有两种模式，随机变量及因子。随机变量用于描述一个事实，因子是关于变量的函数，用于表述变量间的关系。

第八章知识图谱

1.知识图谐的前身是什么? (P152)

答:基于对人类大脑的认识，Qullin早在20世纪600年代就提出了语义网络的概念，由相互连接的节点和边组成，节点表示概念或对象，边表示其间的关系，进而表达人类知识。其后，万维网之父Tim Berners Lee分别在1998年和2000提出了语义网(Semantic Web)和链接数据(Linked Data)的概念。知识图谱的概念是对以上概念的部分继承以及进一步包装。

2.知识图谱的表现形式是什么? (P152)

答:知识图谱由一条条知识构成，而每一条知识可以用一个三元组表示，其基本形式主要包括“实体-属性-属性值"和“实体1-关系-实体2”。每个实体都是唯一的，其“属性-属性值”用描述实体的特性。

3.如何存储知识图谱? (P152)

答:要结合数据的特性及相关应用进行选择，通常在很多情况下会结合多种形式进行存储，可以选取关系型数据、NoSQL 数据库、图数据库等。假如数据间的关系比较复杂，可以选用图数据库;如果数据中的属性很多，考虑关系式数据库;如果考虑可移植性、可分布性等性能，可以采用NoSQL数据库。

4.实体匹配的难点是什么? (P152)

答:本体匹配存在数据杂以及数据规模大两大挑战。

5.实体链接解决的是什么语言现象? (PI52)

答:自然语言的多样性及歧义性。

6. 知识推理主要有哪些方法? (P152)

答:主要可分为基于规则的推理、基于分布式表达的推理、基于神经网络的推理以及融合多种方法的推理。

7.如何将知识图谱应用于反欺诈系统? (P152)

答:通过知识图谱可以更加体系化地存储、查询并使用信息，在用户背景调查、虚假信息检测、动态异常检测等方面都能发挥作用。

8.如何将知识图谱结合推荐系统? (P152)

答:将知识图谱中实体的属性作为算法的输入特征，从而增加推荐系统所考虑的特征维度;或者将其当作一个异构信息网络，并且构造特定的关系路径或关系图来挖掘实体点的潜在联系，并基于此进行个性化推荐。

OpenHarmony解读之设备认证：解密流程全揭秘陈乔布斯 HarmonyOS 鸿蒙开发 OpenHarmony harmonyos openHarmony 嵌入式硬件鸿蒙开发 respons
往期推文全新看点（文中附带最新·鸿蒙全栈学习笔记）①鸿蒙应用开发与鸿蒙系统开发哪个更有前景？②嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~③对于大前端开发来说，转鸿蒙开发究竟是福还是祸？④鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？⑤记录一场鸿蒙开发岗位面试经历~⑥持续更新中……一、概述本文重点介绍客户端收到end响应消息之后的处理过程。二、源码分析这一模块的源码位于：/bas
测试工程师面试技巧几点分享未寄的舟软件测试面试职场和发展
很多软件测试工程师在面试的时候都会遇到考官给的各种各样的面试题，这也反应了测试工程师对企业的重要性，面试通常分为以下几个方面，由于篇幅有限，在这里就只给大家分享一些比较常见通用的问题。一、自我介绍这里不分享如何自我介绍、话术之类，相信大家都比较熟悉套路，这里分享几个细节1、自我介绍时需要有底气有些同学明明技术很厉害，但是一面试就紧张，一直低头，不敢直视面试官，更为紧张者都说不出话，这样的表现面试官
面试前必记
git:查看当前配置gitconfig--list初始化仓库gitinit克隆远程仓库gitclone查看仓库状态gitstatus操作命令示例作用初始化仓库gitinit新建仓库克隆远程仓库gitclone拉取远程仓库查看状态gitstatus查看变更状态添加变更到暂存区gitadd准备提交提交变更gitcommit-m"描述"保存快照查看提交历史gitlog查看提交记录推送到远程仓库gitpu
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
互联网大厂Java求职面试：基于Spring AI与云原生架构的RAG系统设计与实现在未来等你 Java场景面试宝典 Java SpringAi RAG系统云原生
互联网大厂Java求职面试：基于SpringAI与云原生架构的RAG系统设计与实现场景背景郑薪苦，一位自称“代码界的段子手”的程序员，正在参加某互联网大厂的技术总监面试。面试官是技术总监李总，拥有丰富的架构设计经验，尤其擅长AI与大模型技术、云原生架构等领域。今天的面试主题围绕企业知识库与AI大模型的深度融合架构展开，重点探讨如何设计一个高性能、可扩展的RAG（Retrieval-Augmente
斗鱼大数据面试题及参考答案大模型大数据攻城狮大数据大数据面试 hadoop面试 spark面试 flink面试手撕SQL 手撕代码
GC（垃圾回收）相关知识一、常见的GC收集器SerialGCSerialGC是最基本的垃圾收集器，它是单线程的。在进行垃圾收集时，会暂停所有的用户线程，直到垃圾收集完成。它的工作过程比较简单，首先标记出所有的垃圾对象，然后将它们清除。例如，在一个小型的、对响应时间要求不高的Java应用程序中，如简单的命令行工具，SerialGC可以满足垃圾收集的需求。因为这种应用程序通常没有很高的并发要求，暂停用
AI产品经理面试宝典第30天：AI+教育个性化学习与知识图谱相关面试题的解答指导 TGITCIC AI产品经理一线大厂面试题人工智能产品经理 AI产品经理面试大模型产品经理面试 AI面试大模型面试
自适应学习系统如何实现千人千面？面试官：请用产品视角解释AI自适应学习系统的核心逻辑你的回答：自适应学习系统本质是构建"数据-模型-决策"的闭环。以沪江Hitalk为例，其通过12级能力评估体系采集学员的听、说、读、写数据，利用知识图谱建立知识点关联网络。当学员完成"实景演练-诊断反馈-学习包推送"的完整链路时，系统会动态调整知识图谱权重，形成个性化学习路径。面试官追问：如何验证个性化效果？回答：
自学java到什么程度才能就业？ Python编程社区
多年Java开发从业者：首先，这个问题主要问：自学Java编程技术，如果才能找到一份Java编程的工作。按照现在的招聘标准来看，无论你去哪个公司面试，你只需要满足他们公司的需求就可以。找到一份Java编程工作需要掌握的内容如下：首先是Javase作为Java最基本的学习内容，不在多说。然后是掌握JavaScript的基本原理，因为做Java编程开发必须学会JavaScript，用到JavaScri
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
无面试无offer? 你需要AI 求职co-pilot的帮助!
大家好啊，我写的开源免费求职AIco-pilot工具发布了v3.0.0，欢迎大家参与、使用!https://github.com/weicanie/prisma-ai一、项目介绍开源免费的求职co-pilot，自动化简历准备至offer到手的整个流程。优化您的项目、定制您的简历、为您匹配工作，并帮助您做好面试准备。二、核心价值prisma-ai旨在解决求职者在准备简历和寻找工作时最头疼的3个问题:
OkHttp3源码解析--设计模式，android开发实习面试题
this.cache=builder.cache;}//构造者publicstaticfinalclassBuilder{Cachecache;…//构造cache属性值publicBuildercache(@NullableCachecache){this.cache=cache;returnthis;}//在build方法中真正创建OkHttpClient对象，并传入前面构造的属性值publi
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
javaSE面试题---语法基础、面向对象、常用类、集合、多线程、文件和IO yang_xiao_wu_ java 面试开发语言 javase java基础多线程文件和IO
目录语法基础1.jdkjrejvm区别2.基本数据类型3.引用数据类型4.自动类型转换、强制类型转换5.常见的运算符6.&和&&区别7.++--在前和在后的区别8.+=有什么作用9.switch..case中switch支持哪些数据类型10.break和continue区别11.while和dowhile区别12.如何生成一个取值范围在[min,max]之间的随机数13.数组的长度如何获取？数组下
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
flutter知识点 ZhDan91 flutter
#时隔4年了#4年前用flutter开发海外项目和医疗项目。绘制界面的语法与html还是较类似的。把这些封印的记忆和技术回顾一下，最开始是开发Android出身的，所以开发起flutter来依旧是用的androidstudio开发工具。整理下用到的知识点：整理来源：flutter面试题——基础篇（1）-CSDN博客1、Dart是单线程的。在单线程中以消息循环来运行的。其中敖汉两个任务队列。一个是微
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
python相关内容二湫默 python 开发语言
1.技术面试题（1）详细描述单调栈的工作原理和应用场景答：工作原理：维护一个栈结构，栈中元素保持单调递增或单调递减的顺序。遍历数据时，新元素入栈前，弹出栈顶所有不满足单调关系的元素，再将新元素入栈，确保栈的单调性。应用场景：解决下一个元素更大的问题，如数组中后面一个元素比前面一个入栈的元素大，则需要上一个元素出栈，然后大的那个元素入栈。（2）详细描述单调队列的工作原理和应用场景答：工作原理：维护队
面试官：Spring 如何控制 Bean 的加载顺序？
在大多数情况下，我们不需要手动控制Bean的加载顺序，因为Spring的IoC容器足够智能。核心原则：依赖驱动加载SpringIoC容器会构建一个依赖关系图（DependencyGraph）。如果BeanA依赖于BeanB（例如，A的构造函数需要一个B类型的参数），Spring会保证在创建BeanA之前，BeanB已经被完全创建和初始化好了。@ServicepublicclassServiceA{
C++面试核心知识点全面解析：从基础到高级
掌握这些核心知识点，轻松应对90%的C++技术面试一、基础语法与关键字1.1const关键字的多种用法//1.常量变量constintMAX_SIZE=100;//2.常量指针与指针常量constint*ptr1=&var;//指向常量的指针int*constptr2=&var;//常量指针constint*constptr3=&var;//指向常量的常量指针//3.常量成员函数classMyCl
Java实习模拟面试之安徽九德 —— 面向对象编程、Spring框架与数据库技术详解培风图南以星河揽胜 java面试 java 面试 spring
关键词：Java实习生、模拟面试、安徽九德、SpringBoot、MySQL、Redis、面向对象编程、团队协作一、前言作为一名计算机相关专业的学生，想要顺利进入一家互联网公司或软件开发企业实习，技术面试是必须面对的一道门槛。本文将带你走进一场真实的Java实习生模拟面试场景，以“安徽九德”公司为背景，围绕其发布的招聘岗位要求，进行一次全方位的技术面试演练。本次模拟面试涵盖以下核心知识点：Java
C++ 性能优化指南三月微风 c++性能优化开发语言
C++性能优化指南（针对GCC编译器，面向高级工程师面试）代码优化面试常问点：如何避免不必要的对象拷贝？为什么要用引用或std::move？虚函数调用有什么性能开销？原理解释：传递对象时按值会拷贝整个对象，特别是大对象会频繁分配/释放内存，影响性能；应尽量改用引用或指针传递。C++11引入移动语义（move），允许“窃取”临时对象的资源，避免深拷贝。虚函数调用需要先通过对象的虚函数表指针（vptr
C#常见面试题 rapLiu c#数据库开发语言
1.http和https的区别1.HTTP明文传输，数据都是未加密的，安全性较差，HTTPS（SSL+HTTP）数据传输过程是加密的，安全性较好。2.使用HTTPS协议需要到CA（CertificateAuthority，数字证书认证机构）申请证书，一般免费证书较少，因而需要一定费用。证书颁发机构如：Symantec、Comodo、GoDaddy和GlobalSign等。3.HTTP页面响应速度比
C#常见面试题 rapLiu java 开发语言
1.i++中为什么用到锁在C#中，i++通常不需要用锁，因为i++操作本身是一个原子操作。原子操作是指一个操作要么完全执行，要么完全不执行，不会被中断。因此，在单线程环境下，i++操作是安全的。然而，在多线程环境下，如果多个线程同时对i进行++操作，就可能会出现竞争条件（racecondition），导致数据不一致或错误的结果。为了避免这种情况，需要使用锁来保护i的操作，确保在同一时刻只有一个线程
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

自然语言处理面试 | （1）胡盼盼（NLP入门到实践）总结

第一章 自然语言处理初探

第二章 自然语言处理与机器学习

第三章 自然语言处理与神经网络

第四章 文本预处理

第五章 文本的表示技术

第六章 序列标注

第七章 关系抽取

第八章 知识图谱

你可能感兴趣的:(#,自然语言处理面试)