狮子座明仔

中文关键词提取算法

如何提取query或者文档的关键词？

一般有两种解决思路：

有监督方法，把关键词提取问题当做分类问题，文本分词后标记各词的重要性打分，然后挑出重要的topK个词；
无监督方法，使用TextRank、TFIDF等统计算法区分各词的term weight，然后按weight排序后挑出重要的topK个词。

有监督方法

有监督的关键词提取分两种做法。

特征工程方法

用一个树模型（如Xgboost）做分类模型，提取句子分词后各词的文本特征、统计特征、语言模型特征等，再把特征喂给分类模型，模型区分出各词的重要性得分，这样挑出topK个词就是提取的结果；分类模型的训练集是事先人工标注过的，每个词一个label。

特征工程可以参考：https://github.com/shibing624/pke_zh

文本特征：包括Query长度、Term长度，Term在Query中的偏移量，term词性、长度信息、term数目、位置信息、句法依存tag、是否数字、是否英文、是否停用词、是否专名实体、是否重要行业词、embedding模长、删词差异度、以及短语生成树得到term权重等
统计特征：包括PMI、IDF、TextRank值、前后词互信息、左右邻熵、独立检索占比（term单独作为query的qv/所有包含term的query的qv和）、统计概率、idf变种iqf
语言模型特征：整个query的语言模型概率 / 去掉该Term后的Query的语言模型概率

训练样本形如：

邪御天娇 免费 阅读,3 1 1

重要度label共分4级：

Super important：3级，主要包括POI核心词，比如“方特、欢乐谷”
Required：2级，包括行政区词、品类词等，比如“北京温泉”中“北京”和“温泉”都很重要
Important：1级，包括品类词、门票等，比如“顺景温泉”中“温泉”相对没有那么重要，用户搜“顺景”大部分都是温泉的需求
Unimportant：0级，包括语气词、代词、泛需求词、停用词等

深度学习方法

比较朴素的思路是直接用深度模型做分类任务，取代人工提取特征，模型端到端产出分类预测label。
此处的深度模型可以是TextCNN、Fasttext、Transformer等，也可以是BERT预训练模型，适用于分类任务的模型都行。分类任务可以参考：https://github.com/shibing624/pytextclassifier

还有一种方法是Seq2Seq生成模型，基于query生成式给出关键词结果，或者生成句子摘要，代表性的模型有T5、Bart、Seq2Seq等。生成任务可以参考：https://github.com/shibing624/textgen

以上方法的实现可以参考我写的开源项目，此处不再赘述，本文重点介绍无监督方法。

无监督方法

无监督的关键词提取算法有：

统计方法
TFIDF
YAKE
图方法
TextRank
SingleRank
TopicRank
MultipartiteRank
PositionRank
语义模型
KeyBert

经验来看，TFIDF是很强的baseline，有较强普适性，基本能应付大部分关键词抽取场景，简单有效，速度很快。TextRank虽然算法复杂些，但其应用效果不比TFIDF强，而且涉及网络构建和随机游走迭代，效率极低。

TFIDF

TF-IDF是一种很简单但却很有效的方法，计算文本中的每个term会考虑两个因素。一是term本身在文档中的词频TF，另一个是倒文本频率（Inverse Document Frequency）IDF，这个指标衡量的是有多少文本包含了该term。IDF主要用来惩罚那些在很多文本中都有出现的term，往往这些term都是一些无关紧要的停用词等。

TFIDF整个核心思想就是，term在一个文档的重要程度取决于该term在该文档的频率和在其它文档的出现的次数。意思是term在该文档出现了多次，而在其他文档不常出现，那么该term很能代表该文档的含义。这种思想也是TFIDF经常用来做文本分类任务的特征提取的原因。

小结

优点：能够识别出独特性强的词语
缺点：不能识别复杂的词语关系，并且有时候会识别出不相关的关键词。效率较高，因为算法简单且只需要计算词频和逆文档频率。

YAKE

paper：A Text Feature Based Automatic Keyword Extraction Method for Single Documents

YAKE（Yet Another Keyword Extractor）是一种无监督的关键词提取算法，基于词语分散性的关键词提取算法。特征提取主要考虑五个因素（去除停用词后）：

是否大写：英文大写字母的term（除了每句话的开头单词）的重要程度比那些小写字母的term重要程度要大
词的位置：文本越开头的部分句子的重要程度比后面的句子重要程度要大
词频：一个词在文本中出现的频率越大，相对来说越重要，同时为了避免长文本词频过高的问题，会进行归一化操作
上下文关系：一个词与越多不相同的词共现，该词的重要程度越低
词在句中频率：一个词在越多句子中出现，相对更重要
中文只用后4个指标来计算候选词的得分，从而筛选TopK关键词。

小结

优点：效率高，不需要考虑语义关系和词语位置，因此适用于大量文档的关键词提取
缺点：语义关系和词语位置的考虑不足，因此可能会提取到不够重要的关键词

TextRank

PageRank算法

PageRank算法通过计算网页链接的数量和质量来粗略估计网页的重要性，算法创立之初即应用在谷歌的搜索引擎中，对网页进行排名。

PageRank算法的核心思想如下：

链接数量：如果一个网页被越多的其他网页链接，说明这个网页越重要，即该网页的PR值（PageRank值）会相对较高；
链接质量：如果一个网页被一个越高权值的网页链接，也能表明这个网页越重要，即一个PR值很高的网页链接到一个其他网页，那么被链接到的网页的PR值会相应地因此而提高。

TextRank算法
paper：TextRank: Bringing Order into Texts

TextRank算法是一种基于图的用于关键词抽取和文档摘要的排序算法，由谷歌的网页重要性排序算法PageRank算法改进而来，它利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词，它能够从一个给定的文本中抽取出该文本的关键词、关键词组，并使用抽取式的自动文摘方法抽取出该文本的关键句。

TextRank算法的基本思想是将文档看作一个词的网络，该网络中的链接表示词与词之间的语义关系。

TextRank算法主要包括：关键词抽取、关键短语抽取、关键句抽取。

关键词抽取（keyword extraction）
关键词抽取是指从文本中抽取几个能描述该文本的词的过程。
对关键词抽取而言，用于构建顶点集的文本单元可以是句子中的一个或多个字（词）；根据这些字之间的关系（比如：在一个框中同时出现）构建边。根据任务的需要，可以使用语法过滤器（syntactic filters）对顶点集进行优化。语法过滤器的主要作用是将某一类或者某几类词性（如名词、形容词）的词过滤出来作为顶点集。
关键短语抽取（keyphrase extration）
关键词抽取结束后，我们可以得到的N个关键词，在原始文本中相邻的关键词构成关键短语，然后分析关键词是否存在相邻的情况，最后确定哪些是关键短语。
关键句抽取（sentence extraction）
句子抽取任务主要针对的是自动摘要这个场景，将每一个sentence作为一个顶点，根据两个句子之间的内容重复程度来计算他们之间的“相似度”，以这个相似度作为联系，由于不同句子之间相似度大小不一致，在这个场景下构建的是以相似度大小作为edge权重的有权图。

小结

优点：能够识别出复杂的词语关系
缺点：复杂度较高，需要调整许多参数，而且可能误识别关键词。效率一般，因为需要建立关系图并进行多次遍历。

SingleRank

paper：CollabRank: Towards a Collaborative Approach to Single-Document Keyphrase Extraction

SingleRank是PageRank的变体，主要有两个变化：

不同于PageRank，每个边都有相同的分值，SingleRank会根据窗口大小词之间的距离计算不同的边权重
与TextRank不同的是，SingleRank保留所有的unigrams词，然后类似TextRank方法，滑动窗口方式计算更高的n-grams词，背后的原理是，两个分值较低的unigram，有可能产生较高分值的bi-gram。

小结

优点：实现简单
缺点：词频不能反映词的重要性，可能识别出不相关的关键词。效率较高

TopicRank

paper：TopicRank: Graph-Based Topic Ranking for Keyphrase Extraction

TopicRank把主题当做相似关键短语的簇，这些topics会根据在文档的重要性进行排序，然后选取topK个最相关的topics，每个topic选择一个最重要的关键短语来代表文档的核心关键词。

TopicRank算法的步骤如下：

主题识别：主要抽取名词短语来表征文档的主题，短语中有超过25%重合的单词就考虑为相似短语，用 Hierarchical Agglomerative Clustering (HAC) algorithm进行了聚类相似的短语。
图构建：这里的图中的节点是topics，边的权重，根据两个topics之间的语义关系进行分配，而语义关系的强弱根据两个主题的关键短语之间的距离公式。
关键短语选择：一旦topic进行排序后，选择topK个topics，每个topic选择一个最重要的关键短语作为输出，所有topics总共产生topK个关键短语。有三个策略选择一个topic最适合的关键短语：1) 选择关键短语中最开始出现在文档的那个关键短语；2) 选择频率最高的那个关键短语；3) 选择聚焦的群簇中心的那个关键短语。

小结

优点：可以考虑文档中词语的语义关系，因此可以更好地提取出与文档主题相关的关键词
缺点：效率不高，因为需要进行大量的计算以建立主题模型

MultipartiteRank

paper：Unsupervised Keyphrase Extraction with Multipartite Graphs

MultipartiteRank是一种基于多元关系的关键词提取算法。在TopicRank的基础上，在多部分图结构中对主题信息进行编码，并将关键词候选词和主题表示在一个图中，并利用它们之间的相互加强关系来提取关键词。

小结

优点：可以考虑多种关系，如语义关系和词语位置，从而更好地提取关键词
缺点：需要大量的计算，因此效率不高

PositionRank

paper：PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents

PositionRank也是一种基于图结构的算法，与TextRank类似，是基于PageRank的图关系计算词的得分，根据词的位置和词频来计算每个词的权重值。算法主要两个部分组成：

图的构建：类似TextRank，根据POS选择关键词构建图的节点，节点的边根据窗口size共现次数来计算两个词的边的权重分值。
Position-Biased PageRank，会根据每个词位置的倒数计算权重，若一个词出现在文档多个位置，则分值相加。核心思想是：越在一个文档靠前的位置，权重越大，同时频率出现越高，权重也越大。假设一个词在文档的位置时第2，第5，第10，则权重分值为：1/2+1/5+1/10=0.8，再归一化。

该方法在迭代计算词权重的过程中融入了位置信息，融入方式有两种，一种是融入了该词出现的所有位置，另外一种是融入了该词出现的第一个位置。第一种融入方式效果好些。

实验结果：PositionRank优于目前一些主流的图方法和统计方法。

小结

优点：可以考虑文档中词语的位置，因此可以更好地提取出文档中重要的关键词
缺点：效率不高，因为需要考虑多个文档和词语的位置。

KeyBERT

paper：Keyword Extraction with BERT

是一种基于 Transformer 模型的关键词提取算法，利用了预训练的语言模型的能力来提取关键词。使用BERT的embedding表示层和简单余弦相似性来查找文档中与文档本身最相似的子短语。做法是：

使用Sentence-BERT计算文档的embedding表示；
对文档中的Ngram短语计算其embedding表示；
使用余弦相似度来查找与文档最相似的单词/短语；
最相似的topK个单词可以被识别为最能描述整个文档的单词，即关键短语。

实验结果：准确率最高，速度最慢。

小结

优点：可以考虑多种语言特征，如语义关系和词语位置，因此效果较好
缺点：效率较低，因为需要大量的计算以生成关键词

Reference

关键词提取（keyword extraction）技术
https://github.com/MaartenGr/KeyBERT
PositionRank等四种花式变体的算法思想与开源实现

OpenCV 图像几何变换：旋转，缩放，斜切奈何小洪 OPENCV opencv 图像旋转缩放
几何变换几何变换可以看成图像中物体（或像素）空间位置改变，或者说是像素的移动。几何运算需要空间变换和灰度级差值两个步骤的算法，像素通过变换映射到新的坐标位置，新的位置可能是在几个像素之间，即不一定为整数坐标。这时就需要灰度级差值将映射的新坐标匹配到输出像素之间。最简单的插值方法是最近邻插值，就是令输出像素的灰度值等于映射最近的位置像素，该方法可能会产生锯齿。这种方法也叫零阶插值，相应比较复杂的还有
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
Java IDEA中Gutter Icons图标的含义路宇 java笔记 java intellij-idea 开发语言 gutter-icons 图标 Java开发工具
前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下"通俗易懂，风趣幽默"，感觉非常有意思,忍不住分享一下给大家。点击跳转到教程前言：很多人刚开始用IDEA来学习编程，会发现下面这些图标。但是我们有时候并不知道它的含义和设置显示与隐藏，下面给大家讲解一下装订线图标位于左侧编辑器中。它们调用一些基本操作以及其他特定于框架和技术的功能。设置步骤File->Setting进到idea的设置页面。接
OpenCV旋转估计（2）用于自动检测波浪校正类型的函数autoDetectWaveCorrectKind() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::autoDetectWaveCorrectKind是OpenCV中用于自动检测波浪校正类型的函数，它根据输入的旋转矩阵集合来决定使用哪种波浪校正模式。波浪校正（WaveCorrection）是图像拼接过程中的一部分，主要用于纠正由于相机在拍
使用fastapi部署stable diffusion模型明晚十点睡代码 fastapi stable diffusion pytorch python 人工智能深度学习计算机视觉
使用vscode运行stablediffusion模型，每次加载模型都需要10+分钟，为算法及prompt调试带来了极大麻烦。使用jupyter解决自然是一个比较好的方案，但如果jupyter由于种种原因不能使用时，fastapi无疑成为了一个很好的选择。参考github链接：https://github.com/jarvislabsai/fastapi-sd-templatefromfastap
基于51单片机设计的呼吸灯鱼弦单片机系统合集 51单片机嵌入式硬件单片机
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）基于51单片机设计的呼吸灯是一种常见的LED灯效应果，通过控制LED的亮度逐渐增加和减小，模拟人类呼吸的效果。下面将对其原理、应用场景、算法实现、代码实现等进
【科大讯飞笔试题汇总】2024-04-21-科大讯飞春招笔试题-三语言题解(CPP/Python/Java) 春秋招笔试突围最新互联网春秋招试题合集 python java 开发语言春招笔试互联网大厂笔试题
大家好这里是KK爱Coding，一枚热爱算法的程序员✨本系列打算持续跟新科大讯飞近期的春秋招笔试题汇总～ACM银牌|多次AK大厂笔试｜编程一对一辅导感谢大家的订阅➕和喜欢KK这边最近正在收集近一年互联网各厂的笔试题汇总，如果有需要的小伙伴可以关注后私信一下KK领取，会在飞书进行同步的跟新，5月1日之前限时免费领取哦，后续会由ACM银牌团队持续维护~。文章目录01.硬币最少组合问题问题描述输入格式输
用指针实现数组元素循环移动 Stimpay 算法数据结构 c语言
任务描述本关任务：编写程序，用指针实现以下功能，n个整数存入一维数组中，将该数组循环左移m位。如一个长度为10的数组中原来的元素顺序为0123456789，则循环左移3个位置后元素的顺序为3456789012。相关知识为了完成本关任务，有两种算法思想：一种是使用辅助数组实现数据移动；另一种是不使用辅助数组，只需一个中间变量就可实现数据移动。使用辅助数组实现数据移动创建一个同样大小辅助数组，存放临时
【科研必备】EI/Scopus收录！2025年3-4月智能制造、自动化、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！努力毕业的小土博^_^ 学术会议推荐制造自动化人工智能深度学习神经网络算法
【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！文章目录【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
图生视频技术的发展与展望：从技术突破到未来图景 Liudef06 Stable Diffusion 音视频人工智能深度学习 stable diffusion
一、技术发展现状图生视频（Image-to-VideoGeneration）是生成式人工智能（AIGC）的重要分支，其核心是通过单张或多张静态图像生成动态视频序列。近年来，随着深度学习、多模态融合和计算硬件的进步，图生视频技术经历了从基础研究到商业落地的快速演进。早期探索与GAN的奠基早期图生视频技术主要基于生成对抗网络（GAN），通过对抗训练生成低分辨率的视频片段。例如，DeepMind的DVD
RSA加密算法不会搬砖的淡水鱼网络服务器安全
RSA加密算法：数学魔术背后的安全守护者RSA加密算法（Rivest-Shamir-Adleman）是一种广泛使用的公钥加密算法，它在信息安全领域具有重要作用。RSA是由罗纳德·李维斯特（RonRivest）、阿迪·萨莫尔（AdiShamir）和伦纳德·阿德曼（LeonardAdleman）在1977年一起提出的。当时他们三人都在麻省理工学院工作。RSA就是他们三人姓氏开头字母拼在一起组成的。RS
基础算法--欧拉函数不会搬砖的淡水鱼基础算法算法 java 数据结构
欧拉函数（Euler’stotientfunction），也称为费马函数，是一个与正整数相关的数论函数，用符号φ(n)表示。欧拉函数φ(n)定义为小于或等于n的正整数中与n互质的数的个数。RSA加密算法（Rivest-Shamir-Adleman）就是通过欧拉函数进行公钥加密。具体而言，对于给定的正整数n，欧拉函数φ(n)计算满足以下条件的k的个数：1≤k≤n，且k与n互质（即k和n的最大公约数为
基础算法--背包问题不会搬砖的淡水鱼基础算法算法 java 动态规划贪心算法
背包问题概念完全背包（无限背包）0-1背包概念背包问题是一个经典的组合优化问题，其目标是在给定的一组物品中选择一些物品放入背包中，使得物品的总价值最大化，同时要求背包的总重量不超过背包的容量限制。背包问题有两种常见的变体：完全背包和0-1背包。鉴于完全背包计算过程相对0-1背包简单，这里先讲完全背包。完全背包（无限背包）在完全背包问题中，每个物品可以选择放入背包中的次数是无限的，即可以重复选择。每
CUDA编程基础清澜算法面试人工智能 c++算法 nvidia cuda编程
一、快速理解CUDA编程1.1CUDA简介CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA推出的并行计算平台和应用程序接口模型。它允许开发者利用NVIDIAGPU的强大计算能力来加速通用计算任务，而不仅仅是图形渲染。通过CUDA，开发者可以编写C、C++或Fortran代码，并将其扩展以在GPU上运行，从而显著提高性能，特别是在处理大规模数据集和复杂算法
泛目录程序：2025快云站群程序的SEO优化功能云惠科技大数据泛目录
快云站群程序的SEO优化功能围绕搜索引擎算法设计，具体包含以下核心模块：1.关键词智能布局密度检测与优化：自动分析内容关键词密度，建议合理区间（2%-8%），避免堆砌或遗漏；多词策略支持：可针对单篇内容设置主关键词+长尾词组合，覆盖更多搜索场景；标题/摘要自动生成：根据关键词智能生成高点击率的标题和Meta描述，提升搜索展示效果。2.内链自动化系统内容关联推荐：基于语义分析，自动在文章中插入相关内
【SoC基础】单片机之寄存器解析望闻问嵌 #SoC 单片机嵌入式硬件
：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】：文章若有幸对你有帮助，可点赞收藏⭐不迷路：内容若有错误，敬请留言指正！原创文，转载注明出处文章目录1、寄存器位置2、寄存器种类2.1通用用途寄存器2.2CPU执行相关寄存器2.3外设控制寄存器3.寄存器在CPU访问外设过程中起到的作用1、寄
大模型时代的知识焦虑机载软件与适航机器学习-建模算法-代理模型人工智能大数据
引言：浪潮之巅，焦虑暗涌大模型时代已经浩荡而来，如同奔腾的浪潮，以令人惊叹的速度重塑着世界的面貌。从智能客服的温声细语，到AI绘画的妙笔生花，再到自动驾驶的日趋成熟，大型语言模型、图像模型等人工智能技术以前所未有的姿态，渗透进我们生活的方方面面。信息获取前所未有的便捷，知识创造空前高效，人机交互焕然一新，一个充满无限可能的智能化未来似乎触手可及。然而，在这令人眼花缭乱的技术盛景之下，一股无形的焦虑
【LeetCode 热题100】 23. 合并 K 个升序链表的算法思路及python代码 pljnb LeetCode热题100 算法 leetcode 链表
23.合并K个升序链表给你一个链表数组，每个链表都已经按升序排列。请你将所有链表合并到一个升序链表中，返回合并后的链表。示例1：输入：lists=[[1,4,5],[1,3,4],[2,6]]输出：[1,1,2,3,4,4,5,6]解释：链表数组如下：[1->4->5,1->3->4,2->6]将它们合并到一个有序链表中得到。1->1->2->3->4->4->5->6示例2：输入：lists=[
【Leetcode刷题随笔】59 螺旋矩阵 Poor_DayDreamer leetcode数组篇 Medium Tag leetcode 矩阵算法
1.题目描述给定一个正整数n，生成一个包含1到n2所有元素，且元素按顺时针顺序螺旋排列的nxn正方形矩阵matrix。可结合以下原题链接阅读。原题链接：59螺旋矩阵2.解题思路本题为模拟矩阵填充过程，不需要设计算法，只要完成正确的填充过程即可。首先初始化一个nxn的二维矩阵（涉及到动态内存分配），从矩阵左上角开始往顺时针填充，关键在于填充的转角处不要重复填充，所以对于每条边都要遵循严格的统一规则，
算法入门——二分法 Able Zhao 650829 算法数据结构 c++蓝桥杯
二分法真的很容易出错！！！在用dp学习之后总结了一下二分法二分查找关键总结一、核心思想分治策略：每次将搜索范围缩小一半，适用于有序数组。时间复杂度：O(logn)，比线性查找高效得多。二、关键点前提条件有序性：数组必须有序（升序或降序），否则需先排序（但排序成本O(nlogn)）。静态性：适合静态数据或低频更新的数据（高频更新建议用哈希表或树结构）。两种边界问题左边界：第一个等于目标的位置（或第一
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
大整数加、减法（Java实现）与debug找错 gfu_ java 算法数据结构
前言这篇文章主要内容涉及大整数加法的实现以及debug使用的简单记录。以前当我碰到程序报错时，总是想找别人帮忙，感觉debug太难了，自己根本看不懂。这次，自己在做一道算法题时，程序能够运行，结果却出错了。本来想找别人帮忙，但想着学习还是要脚踏实地，于是自己硬着头皮上了，先在网上了解如何debug，然后一步一步找到了错误所在。主要是想记录下第一次debug找到问题的快乐。一、大整数加法（java）
谷歌准备斥资 230 亿收购网络安全初创公司 Wiz 网络研究观网络研究观谷歌
Alphabet正在就收购Wiz进行深入谈判，这将显著增强其安全能力。这将是谷歌母公司有史以来最大规模的收购。这是路透社根据匿名消息来源撰写的内容。目标收购金额为230亿美元，即211亿欧元。Wiz拥有实时检测和响应网络威胁的技术。通过实施人工智能，Wiz能够在短时间内吸引许多公司作为客户。Alphabet的收购目标定于2020年初。到2023年，Wiz的收入将达到3.5亿美元。当时，全球40%的
数学领域的跨时代进化与升级：从公理化到智能化的破茧之路夏末之花算法
作者：夏末之花|发布时间：2025-03-16|阅读量：10万+|点赞数：5.6万引言：数学的“破茧时刻”与文明跃迁人类历史上，数学的每一次重大突破都像一次“破茧时刻”，推动文明跨越式发展。从古希腊的几何公理化到牛顿的微积分，再到20世纪的计算机理论，数学始终是科学革命的基石。而在21世纪的今天，随着量子计算、人工智能、生物信息等技术的爆发，数学正迎来新一轮的进化与升级——从纯粹的逻辑工具，演变为
精准测试：软件开发中的高效质量保障利器霍格沃兹软件测试开发精准化测试测试用例安全性测试测试覆盖率模块测试 selenium 测试工具压力测试
全面解析软件测试开发：人工智能测试、自动化测试、性能测试、测试左移、测试右移到DevOps如何驱动持续交付在现代软件开发中，测试效率与测试质量直接影响产品竞争力。精准测试作为一项兼具效率与精度的创新测试方法，已经成为众多企业提升软件质量的重要手段。本篇文章围绕精准测试的落地实施、对质量指标的提升、数据统计与效果评估方法以及如何提高投入产出比进行全面解读，帮助企业掌握精准测试的价值与实践路径。精准测
提升敏感力，“工具人”破圈的唯一解！技能咖 GAI认证生成式人工智能认证人工智能
在当今这个日新月异的数字化时代，个人与组织面临着前所未有的挑战与机遇。随着科技的飞速发展，尤其是生成式人工智能（GenerativeAI）的兴起，职场生态正在发生深刻变革。如何在这场变革中提升敏感力，实现从“工具人”到行业佼佼者的跨越，成为了众多职场人士关注的焦点。本文将探讨提升敏感力的重要性，并引入生成式人工智能认证（GAI认证），为您揭示“工具人”破圈的唯一解。提升敏感力：职场竞争的关键什么是
Web3身份验证技术对数据保护的影响研究清晨反侦测指纹浏览器社交媒体 web3 ClonBrowser 跨境电商隐私保护
Web3身份验证技术对数据保护的影响研究在这个数字化时代，我们的身份和数据安全比以往任何时候都更加重要。Web3技术以其去中心化和用户主权的核心理念，为个人数据的管理和保护提供了新的视角。本文将探讨Web3身份验证技术如何影响数据保护，并分析其对我们数字生活的影响。Web3身份验证技术简介Web3身份验证技术依托于区块链和先进的加密技术，如非对称加密算法和智能合约，为用户提供了一种全新的身份验证方
金三银四快过去一半了，是时候加把劲了后端go找工作面试
从复旦春招会的15000+岗位争夺战，到AI算法岗年薪百万的“神仙打架”，再到游戏行业20:1的残酷竞争比，今年的金三银四像极了《三体》里的黑暗森林：机会看似遍地，但稍有不慎就成了别人的“背景板”。但现实真的是“投晚了就凉了”吗？数据告诉你真相：智联研究院统计显示，算法工程师、机器人算法工程师等岗位需求同比激增44%，而中小企业的“捡漏窗口”才刚开启。这半个月，我整理了20+场面试实录（含小鹅通、
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

中文关键词提取算法

中文关键词提取算法

有监督方法

特征工程方法

深度学习方法

无监督方法

TFIDF

YAKE

TextRank

SingleRank

TopicRank

MultipartiteRank

PositionRank

KeyBERT

Reference

你可能感兴趣的:(NLP,算法,人工智能)