KeyBERT和labse提取字符串中的关键词

KeyBERT是一种最小且易于使用的关键字提取技术,它利用BERT嵌入来创建与文档最相似的关键字和关键短语。

from keybert import KeyBERT
en_sentence = '' #这是你输入的字符串
kw_model = KeyBERT()
keywords = kw_model.extract_keywords(en_sentence)
print(kw_model.extract_keywords(en_sentence, keyphrase_ngram_range=(1, 5), stop_words=None))

tm2tb 是一个专注于双语数据的术语提取模块。

它使用 spaCy 的词性标签和句子转换器模型从成对的句子和双语文档中提取和匹配术语。

方法:为了从句子中提取术语,tm2tb 首先使用词性标签作为分隔符选择候选者。然后,使用模型语言来嵌入候选和句子。 最后,嵌入用于使用余弦相似度和最大边际相关性找到与句子更相似的术语。

对于成对的句子,对每个句子执行上述过程。 然后,使用余弦相似度比较生成的词嵌入,该余弦相似度返回每个源词最相似的目标词。对于双语文档,使用上述过程从每对句子中提取术语。 最后,计算相似度平均值以产生最终的术语选择。

labse是谷歌提出的用于生成语言无关的句子表示的BERT模型,该工作可以为跨语言的、相同含义的句子形成相似的句子表达,可以用于多种涉及跨语言匹配的下游任务,比如机器翻译的双语语料挖掘、跨语言句对检索等。

参考代码:

GitHub - luismond/tm2tb: Bilingual term extraction and matching with spaCy and sentence transformers.

你可能感兴趣的:(python,自然语言处理,人工智能)