TF-IDF(term frequency–inverse document frequency)

TF-IDF （term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，互联网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。

原理

在一份给定的文件里，词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）对于在某一特定文件里的词语 $t i$ 来说，它的重要性可表示为：

$/mathrm{tf_{i,j}} = /frac{n_{i,j}}{/sum_k n_{k,j}}$

以上式子中 $n i, j$ 是该词在文件 $d j$ 中的出现次数，而分母则是在文件 $d j$ 中所有字词的出现次数之和。

逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：

$/mathrm{idf_i} = /log /frac{|D|}{|/{d: d /ni t_{i}/}|}$

其中

|D|：语料库中的文件总数
$|/{d:d/ni t_{i}/}|$ ：包含词语 $t i$ 的文件数目（即 $n_{i} /neq 0$ 的文件数目）

然后

$/mathrm{tf{}idf_{i,j}} = /mathrm{tf_{i,j}} /cdot /mathrm{idf_{i}}$

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

例子

有很多不同的数学公式可以用来计算 TF- IDF。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是 0.03 (3/100)。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词，然后除以文件集里包含的文件总数。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是 10,000,000份的话，其文件频率就是 0.0001 (1000/10,000,000)。最后，TF-IDF分数就可以由计算词频除以文件频率而得到。以上面的例子来说，“母牛”一词在该文件集的TF- IDF分数会是 300 (0.03/0.0001)。这条公式的另一个形式是将文件频率取对数。

在向量空间模型里的应用

TF-IDF权重计算方法经常会和余弦相似度 (cosine similarity)一同使用于向量空间模型中，用以判断两份文件之间的相似性。

//from http://hi.baidu.com/sowhatliu/blog/item/aa0a8817d701b70fc93d6db6.html

=================================================================

TF/IDF（term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。

一。TF/IDF描述单个term与特定document的相关性

TF(Term Frequency): 表示一个term与某个document的相关性。
公式为这个term在document中出现的次数除以该document中所有term出现的总次数.

IDF（Inverse Document Frequency）表示一个term表示document的主题的权重大小。主要是通过包含了该term的docuement的数量和docuement set的总数量来比较的。出现的次数越多，权重越小。
公式是log(D/Dt) D是docuemnt set的总数量， Dt是包含了该term的document的总数。

这样，根据关键字k1,k2,k3进行搜索结果的相关性就变成TF1*IDF1 + TF2*IDF2 + TF3*IDF3。比如document1的term总量为1000，k1,k2,k3在document1出现的次数是100，200，50。包含了 k1, k2, k3的docuement总量分别是
1000， 10000，5000。document set的总量为10000。
TF1 = 100/1000 = 0.1
TF2 = 200/1000 = 0.2
TF3 = 50/1000 = 0.05
IDF1 = log(10000/1000) = log(10) = 2.3
IDF2 = log(10000/100000) = log(1) = 0;
IDF3 = log(10000/5000) = log(2) = 0.69
这样关键字k1,k2,k3与docuement1的相关性= 0.1*2.3 + 0.2*0 + 0.05*0.69 = 0.2645
其中k1比k3的比重在document1要大，k2的比重是0.

TF/IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵（Kullback-Leibler Divergence).

二。用TF/IDF来描述document的相似性。
假如document1和document2的term的TF/IDF分别是t11，t12,t13,...t1n和t21,t22,t23,...,t2n.他们之间的相似性可以用余弦定理来表示。则：
cos(d1,d2) = d1和d2的内积/(d1的长度*d2的长度) = (t11*t21 + t12*t22 + t13*t23 + ... + t1n*t2n)/(|d1|*|d2|).
d1 = sqrt(t11*t11 + t12*t12 + t13*t13 + ... + t1n*t1n);
夹角越大，相似性越大。为1则表示d1和d2一致。
在今日我们可以从网络上吸收大量资讯，有时候一堆文章看不完。如果我们想要吸收资讯，时间却又不够的时候，使用电脑帮我们过滤资讯，或是用电脑帮我们做个总整理，是个方法。如果今天手中有一篇文章，我们想要用电脑帮我们找出这篇文章最重要的关键字，要怎麽做呢？在资讯检索 (IR: Information Retrieval)领域里面，有个基础的方法，入门必学的方法，就是使用 TF 和 IDF (TF: Term Frequency, IDF: Inverse Document Frequency)。使用这两个估计值，可以让电脑具有计算重要关键字的能力，进而节省我们的时间。
　　接下来让我们看看，TF 和 IDF 个是甚麽东西呢？TF 全名是Term Frequency，也就是某个关键字出现的次数，譬如说某篇文章里面，「电脑」这个词出现很多次，或是「使用者需求」这个词出现很多次，那麽这些词句的出现频率，就会很高。一篇文章中出现很多次的词句，必定有其重要性。譬如说一篇论述「人工智慧」的文章，「人工智慧」这个词句再文章中出现的频率也一定很高。然而为甚麽除了 TF (Term Frequency) 以外，还要有 IDF (Inverse Document Frequency) 呢？
　　让我们先想想，如果单使用某个字词出现的频率，来判断一篇文章最重要的关键字，会有甚麽困难。首先，我们会遇到一些常用字词，出现的频率也很高，会和重要字词出现的频率一样高，让电脑因此无法分辨出，哪些是常用字词，那些是重要字词。如果就英文来说，有个规则是语言学家 (linguist) 归纳出来的规则，叫做 Zipf’s Law

引述中文维基百科的一段介绍如下：

　　从根本上讲, 齐夫定律可以表述为, 在自然语言的语素库里, 一个单词出现的频率与它在频率表里的排名成反比. 所以, 频率最高的单词出现的频率大约是出现频率第二位的单词的 2 倍，而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与 power law probability distributions 有关的事物的参考。这个 “定律” 是 Harvard linguist George Kingsley Zipf (IPA [z?f])发表的。
比如, 在 Brown 语库， “the” 是最常见的单词，它在这个语库中出现了大约 7 %（10 万单词中出现 69971 次）。正如齐夫定律中所描述的一样，出现次数为第二位的单词 “of” 占了整个语库中的 3.5% (36411次), 之後的是”and” (28852次). 仅仅 135 但此项就占了 Brown 语库的一半。
　　所以我们现在知道问题在哪边了。如果只用词句出现的频率来判断某一篇文章里面最重要的关键字，我们可能会找到常用字，而不是最重要的字，像是英文里面的 “the”、”a”、”it”，都是常常出现的字，但是通常一篇文章里面最重要的字不是这些字，即使那些重要的字出现的频率也很高。
　　这个时候我们要怎麽办呢？IDF 在这个时候就帮上忙了。在了解 IDF 之前，我们先了解 DF 是甚麽。DF 就是Document Frequency，也就是说，如果今天我们手中有固定 N 篇文章，某个关键字的 Document Frquency (DF)，就是说这个关键字在 N 篇文章里面出现了几次。Inverse Document Frequency (IDF) 则是把 DF 取倒数，如此一来，一个数字乘以 IDF，就等於是除以 DF 的意思。
　　有了 TF 和 IDF 以後，我们就可以计算 TF 乘上 IDF，对每一个关键字都算出一个分数。这个分数的高低，就代表了这个关键字在某篇文章中的重要程度。为甚麽我们说这样子可以找出重要的字，而不是常出现的字呢？因为 TF 会把某篇文章中，出现最多次的排在第一位，其次的排在第二位，以此类推。然而乘上 IDF 以後，也就是除以 DF，那些常常出现的字，像是英文中的 “the”、”a”、”it”，因为每一篇文章都会出现，所以 DF 就大。DF 大，取倒数之後的 IDF 就小，IDF 小，乘上 TF 以後，虽然”the”、”a”、”it”在某篇文章中出现的频率很高，但是因为 IDF 小，TF * IDF 一相乘，重要性就变低了，我们 (电脑程式) 就不会把这些常出现的字，误认为是重要的字了！
　　真正重要的字会得到甚麽样子的分数呢？如果这篇文章刚好在讲 AI，”AI” 出现很多次，因此 “AI” 在这篇文章里面的 TF 很高。然而我们电脑资料库里面的 N 篇文章，并不是每一篇都在讲 AI，也因此”AI”可能只有在 N 篇文章里面的某 3 篇文章出现，因此 DF 只有 3，IDF 变成 0.33，假设我们 N = 100 有 100 篇文章在资料库里面，其他常出现字像是 “the” 每一篇都出现，DF 就是 100，IDF 就是 0.01。所以 “AI” 的 IDF 会比 “the” 的 IDF 高，假设这篇文章中 “AI” 和 “the” 两个字出现的次数刚好一样，乘上 IDF 以後，”AI” 这个字的分数就比 “the” 这个字的分数来的高，电脑也就会判断 “AI” 是这篇文章重要的关键字，而 “the” 这个字并不是这篇文章的重要关键字。
　　所以经由 TF * IDF，我们可以计算某个关键字，在某篇文章里面的重要性。从这一个方向，我们可以计算一篇文章中重点的字有哪些，帮我们做一篇文章的总整理。从相反的方向，我们可以给定关键字，然後再每一篇文章里面为这个关键字计算一次 TF * IDF，然後比较哪一篇文章，这个关键字是最具重要性的，用这个方法找出和一个关键字最相关的文章。不管是从文章找出重点字词，或是由关键字找相关文章，TF * IDF 都是个基本且不错的方法。会写程式又还没?试过这个方法的读者，或许可以亲自试试看，不过可能要先自己准备文章资料库 (corpus)，或是从网际网路上面用网页撷取器 (crawler) 存几篇有兴趣的网页，然後把 HTML 标签清理乾净，剩下纯文字，就可以用这个方法来小试身手罗！
　　我们也可以比较一下人类和电脑的不同。电脑做数学数字的计算，或是执行固定的步骤，非常擅长，速度也很快。人类可以了解一个字的意思，读完一篇文章以後，了解了意思，之後要找这篇文章最重要的关键字，是从「意义」开始，回忆出或做出结论，这篇文章重要的关键字是甚麽。
　　然而如果要电脑也遵照这个方向，先了解字的意义，再了解文章的意义，然後在做出结论，这篇文章的重要关键字，反而困难，因为要了解字的意义，电脑需要先有一个语意网路 (Semantic Network)，或是知识的分类关系树 (Ontology)，把字句依照语意分门别类，有如生物里面的「界门纲目科属种」一般的关系分类，才有办法了解一个字和其他字的关系。之後要了解一篇文章，又必须要了解一个句子，牵涉到自然语言处理 (NLP: Natural language Processing) 的问题，像是从句子里面找出主词、动词、和受词，以及补语，分辨出子句和主句，代名词的指称，以及前後文判断产生不同的剖析 (parsing)。了解完一句，才能了解整篇文章。

因此，TF * IDF 对於电脑来说，计算速度快，工程也不浩大，不用大型计算机就可以计算。这边也可以顺便提到 strong AI 和 weak AI 的关系。如果就工程的角度，TF * IDF 是个好方法，it works! 节省我们的时间，或是解决大问题中的一个小环节。然而 strong AI 在这边会提出「中文房间」(Chinese Room) 的论证，也就是说，电脑能够找出重要关键字，是否就代表电脑真的「知道」(understand) 关键字的意义呢？
　　中文房间 (Chinese Room) 简单地说，就是一个人关在房间里面，只留两个窗口，一个地方会送纸条出来，另一个地方会送纸条出去。房间里面有一本手册，里面写满对照表，记载者看到甚麽英文字，就应该输出甚麽中文字，以及一些指令的对照，譬如说窗口送一个指令说 COMBINE，就把两个中文字写在一起才送出去。接着我们在外面就开始送英文句子进去这个房间，另一个窗口就会有这句话的中文翻译跑出来。然而这个论证想要坦讨的就是，虽然这个房间看起来像是会把英文翻译成中文，但是在房间里面的那个操作人员并不懂中文，他指是按照指令，还有手册里面的对照表，机械式地动作，可是外面看起来像是这个房间会英翻中，因此这个房间应该懂得中文才对。
　　在这边我的看法是，也许就近程来看，我们只要有可以解决问题的解答就可以，不管电脑是否真的懂 (understand) 字的意义。然而长期来说，如果我们真的需要具有人类的智力的电脑出现，能够真的懂而不是行为上看起来懂，那麽就要仔细探讨中文房间这种论证。也许生物的方法，像是计算神经科学的方法，是一个方向。
　　我们可能又会问，神经元只有动作电位和静止两个状态，怎麽能了解意义？但是只有一个神经元，或许没办法了解意义，全部大脑的神经元交互作用，意义可能就因此被了解了！其中的奥妙，就是计算神经科学?试要解答的问题之一。有兴趣的读者也可以一起从人脑开始，解决 strong AI 的问题。或是有数学的高手，也许某一个数学理论，可以很漂亮地解决意义了解的问题也说不定，像是 manifolds，具有一个集合使用不同面向来观看的特性，同时具有 Global 和 Local 的性质，是个不错的候选选项。从这个方向去解决 strong AI 也是另一个可能性。总之，继续努力研究就是了！

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
崩坏星穹铁道哪个角色值得培养崩坏星穹铁道新手角色优先级教学会飞滴鱼儿
崩坏星穹铁道新手角色培养攻略：哪些角色值得投资？在《崩坏星穹铁道》中，角色的强度和培养一直是玩家们关心的焦点。要想体验更爽快的游戏过程，选对角色至关重要。那么，哪些角色值得投资培养呢?本篇教学文章将针对新手玩家，从T0到T1强度的角色中为你做出详尽解析。游戏豹官网现在的手游平台很多，但是在游戏界有这么一个传说：“喜欢肝的玩家不如氪金玩家，氪金玩家不如内部福利玩家”，这就是游戏界可悲的生物链，很多平
2023-02-12 c95bd0dd66c9
补气吃什么中成药最好，四款春季宜服的中成药春天由于阳气升发，正是“推陈出新”的时期，温暖多风，因此非常适合细菌、病毒等微生物的生存和传播，由此而引发外感热病较多，所以要吃点能补充人体正气，提高免疫力的药物，不起吃什么中成药最好呢，可选用的中成药有以下几种。1、玉屏风散是小粒丸剂，由黄芪、白术、防风诸药组成，对于血气虚弱、体表不固、易患感冒伤风者为宜。风为春天之主气，最易侵袭人体，平时服此药，能有效
python获取子进程返回值_Python对进程Multiprocessing子进程返回值 weixin_39752157 python获取子进程返回值
在实际使用多进程的时候，可能需要获取到子进程运行的返回值。如果只是用来存储，则可以将返回值保存到一个数据结构中；如果需要判断此返回值，从而决定是否继续执行所有子进程，则会相对比较复杂。另外在Multiprocessing中，可以利用Process与Pool创建子进程，这两种用法在获取子进程返回值上的写法上也不相同。这篇中，我们直接上代码，分析多进程中获取子进程返回值的不同用法，以及优缺点。初级用法
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
我心归处是敦煌：第2季《文化参考》174 陌上花开wen
174樊锦诗和彭金章：敦煌为什么是一门学科昨天文化参考谈到的《荒野上的大师：中国考古百年纪》，介绍了一群敢为人先的地质学家、古生物学家、人类学家、考古学家、建筑学家，它们是各自领域的拓荒者，也是走出书斋、走向旷野的第一代中国人，他们上下求索，前赴后继，终于成就了蔚为大观的浩瀚风气。这节课的《樊锦诗自述》讲述了她在北京大学的求学往事，与终身伴侣、武汉大学考古系创始人彭金章相濡以沫的爱情诗篇，以及50
2021-01-06 如鱼饮水2020
中原焦点团队网络初23期坚持分享第186天，约练第36场，本周4，咨14（20210106）生物钟自然醒，一看有个九点的约练，只有半小时，风一样解决起床、早餐、买菜日常必修课。准点进入约练房间。聊点什么呢，还是聊点自己内心抵触当来访者的话题，想看看两位老师会怎样帮忙梳理，不想当来访者的来访者。诉说自己从小父母宠爱，老公溺宠，不知天高地厚，也不知人情世故，更不知道察言观色，一直活在自己的世界里。被宠
spring security中几大组件的作用和执行顺序阿信在这里 java spring
springsecurity中几大组件的作用和执行顺序在SpringSecurity中，AuthenticationProvider、GroupPermissionEvaluator、PermissionEvaluator、AbstractAuthenticationProcessingFilter、DefaultMethodSecurityExpressionHandler和ManageSecu
像在棉花糖上的憧憬楹枝笔
“上了大学你们就轻松了！”又是一年高考季，耳边突然回响着，在那段与时间拼命的时光里，老师为我们打下的这句鸡血。在多考一分就干掉一千人的高三，不得不佩服这句话所散发的诱惑力。我对于高三最难以忘怀的记忆，就是每天傍晚在天空中那一幅令人目不暇接的夕阳画。高三窗外的天空永远是那么的美丽。夕阳的晚霞渲染了周边洁白的云彩，与之相映衬的紫色霞光相互缭绕，飞机飞过的轨迹，无形中勾勒了一只小生物，像是醉在了碧海蓝天
【人生感悟】真正厉害的人，抽象思维都很强大加百力生活工作感悟大数据科技数据分析
我们都身处信息爆炸的时代，各种资讯蜂拥而至，很难保证所接收的信息都是准确的。在这样的情况下，拥有“穿透迷雾，直击核心”的能力非常关键。虽然钻研各个领域的专业知识可以帮助我们避免信息误导，但这个过程可能超出我们想象地漫长。事实上，真正厉害的人都有一个共同点——他们善于抽象思维。这也是我在读《科技群星闪耀时：15个创新传奇》这本书是意识到的。什么是抽象思维？抽象思维是一种超越细节、直指事物本质的思维方
2022-07-06 榜一大哥啊
非洲猪瘟检测流程要点1、进入实验室按照要求穿好装备进入实验室，病原稀释及制备，将实验用假阳性按照倍数稀释，最高稀释到一万倍。所有操作流程都在生物安全柜进行，按照流程进行编号，编写检测编号。在每个实验室都要将白大褂以及手套进行更换。2、到试剂准备区进行试剂准备，按照样品数量加阴阳对照进行配备，该项目在超净工作台进行。将制备好的试剂放入传递窗，进入核酸提取环节。3、核酸提取区，进行核酸提纯，用磁吸法核
Scanpy源码浅析之pp.normalize_total 何物昂
版本导入Scanpy,其版本为'1.9.1'，如果你看到的源码和下文有差异，其可能是由于版本差异。importscanpyasscsc.__version__#'1.9.1'例子函数pp.normalize_total用于Normalizecountspercell，其源代码在scanpy/preprocessing/_normalization.py我们通过一个简单例子来了解该函数主要功能:将一
第九章肿瘤放射治疗晨翕
放射物理学：主要研究各种放射源的性能特点、治疗剂量学、质量控制、质量保证及辐射防护等放射生物学：主要研究机体正常组织和肿瘤组织对射线对反应及如何人为地改变这些反应对质和量。放射技术学：主要研究具体运用各种放射源及设备治疗肿瘤患者，包括射野设置、体位固定、定位、摆位操作等技术实施。临床放射肿瘤学：在临床肿瘤学的基础上，研究肿瘤放射治疗的适应证，根据病理、分期、预后确定治疗策略，综合运用放射物理、放射
2021-10-21 宸人间日志
//：小心机的设计大户型看风格，小户型看心机把细节做呈现也会是很有趣的事_____雨不会一直下但一直会有雨下它的意思是？_____爸妈真的是奇怪且神奇的生物朋友圈的谣言一听就信可我编的瞎话没说完就被猜穿真的是毫无悬念_____再说一遍笑里藏刀的故事吧：哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈刀哈哈哈哈哈哈哈_____社畜上线，嘀从7：48分醒来就知道今天又是好值的一天呐
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
海的那边——2动物王国如是来
无论是哪里，都有存在的特殊意义，无论你遭遇了什么，都将是你人生的财富，独有的，无与伦比的。或许你现在还无法理解！高耸入云的山峰，品类丰盛的植被，甘甜滋润的湖水，养育了动物王国丰富的生物，在那片浅滩里，大象享受着自带的喷泉，快乐的猴子窜来跳去，高高的，长颈鹿，雪白的山羊，威风的犀牛，，，都在享受这快乐的时光！远处，富丽堂皇的宫殿里，威严的虎大王正和深邃的狮子国相对弈，公正的豹子队长在旁观战！这是神秘
送考与年度考核之痛康康的教育视野
今天下午初三中考结束了，轮到我们初二班主任送学生地理生物小中考了。下午一点半，我们班主任各就各位，因为我们要集中的大本营是高三5班，但我推门一看，都是在午休监考老师们，我又合上门，打电话问段长，原来过一会儿学生进来时监考老师们正好去集中了，不影响我们集中。待监考老师们走后，我走进去一看，三三两两的桌子拼成各式“睡床”，地上桌上抽屉里到处都是废纸、饮料瓶、口罩等垃圾，我赶紧叫隔壁班的峰哥帮忙一起整理
日常 | 工作室的院落林青澜
【日更第896天】把院子拾掇好感觉就差不多了觉得可以见人了特意花钱请人除过草的院子，又长满了野草，还开出一朵兰花，不知道哪里飘来的种子，还有缠缠绕绕的藤曼，看起来像是西瓜，会是西瓜吗？总之，可能会有各种小生物的院子，对我来说充满了需要冒险的可怕性，也就一直等待毛同学的帮忙。今天终于逮到了！搬开因为搬运大型家具而铺设的木板，他开始锄草，翻地，姐姐觉得好玩，也很是玩了一会。建议他穿手套，说是不用。姐姐
基于Python执行lua脚本 xu-jssy Python自动化脚本 python lua 自动化 rpa
一、依赖安装pipinstalllupa二、源码将lua文件存放在base_path路径，将lua文件名称（不包含后缀名）传递给lua_runner函数即可importmultiprocessingimportlupa#lua文件存放位置base_path='D:\\test\\lua'classLuaFuncion:#创建Lua运行时环境lua=lupa.LuaRuntime(unpack_re
阅读，一个人的避难所南南去
毛姆说道：阅读是一座随身携带的小型避难所。作者写一本书时，脑中数百亿神经细胞建立复杂奇妙的神经路线，并以字符串表达出来，并使读者脑海中建立相似的线路，通过这种生物学方面的理解，我们与古人相通了，这宛如一个奇迹，由此我们可以同样感受到那“牧人驱犊返，猎马带禽归”悠然自得；可以感受到“鸟向平芜远近，人随流水东西”的相思惆怅；也可感受到“星垂平野阔，月涌大江流”的气势夺虹。我们见了美景也不只会干巴巴地说
生物老师拖堂5分钟：不是我膨胀，你们没我这样的好老师赵主任故事会
文/赵主任每次出门，我都要墨迹至少5分钟以上：检查一下煤气、水电、门窗以及所有还亮着灯的插座。导致，媳妇儿和孩子都不愿意和我一起出门。早上送孩子，更不用想了，要是指着我，就是不堵车，都得迟到。有效的社交半径里，比我还墨迹的，几乎没有绝产。要是有，也应该是我初中的生物老师，生物老师是一个年龄大的老太太。脸盘子宽阔，身材宽厚，走路极为厚重。老太太是一个标准的80年代人民教师：整齐的的确良褂子，白里透着
个人在这个时代还有机会吗？斑竹江南
在这个极其快速变化的时代，我们的这些普通人还有机会吗？姑且不论这个问题是否问的正确，我们可以从不同的角度探讨一下。大部分的人受到的教育是专注于某一领域，例如文学、历史、生物工程、土木工程等专业，通识教育或者跨专业学习都是极少数个人能够完成的。完成专业领域的教育后，要么继续在领域内深造，要么到社会上就业了，在这层面上不能逃离这个窠臼。可是，社会上需要解决的问题不是按照专业来划分的，需要多专业人才的配
服务器状态监控php源码,服务器状态监控_监控Linux服务器网站状态的SHELL脚本温糯米服务器状态监控php源码
摘要腾兴网为您分享:监控Linux服务器网站状态的SHELL脚本，蜗牛集市，同花顺，探客宝，手柄助手等软件知识，以及日期倒计时插件，云南省教育资源公共，rui手机桌面，小屁孩桌面便签，合金装备崛起复仇，朝夕日历，photoshop图像处理软件,一年级学生每日计划表，悟空找房，饿了吗外卖商家版，逃生，中国民宿网，realpolitiks，交通安全知识竞赛，雅思流利说等软件it资讯，欢迎关注腾兴网。1
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

TF-IDF(term frequency–inverse document frequency)

原理

例子

在向量空间模型里的应用

你可能感兴趣的:(自然语言处理,自然语言处理,资讯,semantic,parsing,processing,生物)