语料第23页

tf-idf的原理及计算

termfrequencyidf;inversedocumentfrequencyTF=某个词在文章中出现的次数/文章的总次数或TF=某个词在文章中出现的次数/该问出现次数最多的词出现的次数IDF=log(语料库的文档总数

会发paper的学渣·2023-01-12 16:24

AISHELL-3: A MULTI-SPEAKER MANDARIN TTS CORPUS AND THE BASELINES 论文理解

0.说明很好的中文多说话人TTS语料,谢谢各位老师们~0.摘要在本文中，我们提出了AISHELL-3，一个大规模和高保真的多说话人普通话语音语料库，可用于训练多说话人文本到语音(TTS)系统。

ruclion·2023-01-12 13:15

机器学习：TF-IDF算法【词频-逆文本频率=TF×IDF】【用以评估一个词对于一个文档集中的其中一份文档的重要】【词频：词或短语在一篇文章中出现的概率】【逆文本频率：总文档数量/该词出现的文档数量】

一、什么是TF-IDFTF-IDF是一种统计方法，用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。可用于关键词提取。

u013250861·2023-01-12 08:44

来，带你从TF-IDF说起搞懂BM25

这篇文章中有一点理解，我么先搬过来：IDF表征的是区分度、稀缺性，用以评估一个单词在语料库中的重要程度，一个词在少数几篇文档中出现的次数越多，它的IDF值越高，如果这个词在大多数文档中都出现了，这个值就不大了

知了爱啃代码·2023-01-12 08:44

TF-IDF与BM25算法原理

1.TF-IDF原理TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的一份文件的重要程度。

orangerfun·2023-01-12 08:13

论文阅读：Dialogue Response Selection with Hierarchical Curriculum Learning（ACL2021）

学习框架包括两个互补课程：语料级的课程CC和实例级的课程IC。

小白之比白更白·2023-01-12 07:46

知识图谱学习笔记3

[北京]:地名2.术语抽取：从语料中发现多个单词组成的相关术语。3.关系抽取：王思聪是万达集团董事长王健林的独子。

Mrong1013967·2023-01-12 01:31

【NLP工具】hanLP2.1的使用（未完）

HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。借助世界上最大的多语种语料库，HanLP2.1支持包括简繁中英日俄法德在内的1

尊新必威·2023-01-11 18:56

HanLP的分词

importhanlphanlp.pretrained.tok.ALL#语种见名称最后一个字段或相应语料库调用hanlp.load进行加载，模型会自动下载到本地缓存。

Sonhhxg_柒·2023-01-11 18:54

Hanlp基本使用

HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

7258281014·2023-01-11 18:23

java分词工具hanlp介绍

HanLP是由一系列模型预算法组成的工具包，结合深度神经网络的分布式自然语言处理，具有功能完善、性能高效、架构清晰、语料时新、可自定义等特点，提供词法分析、句法分析、文本分析和情感分析等功能，是GitHub

adnb34g·2023-01-11 18:50

embedding之word2vec

Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理(NLP)中。那么它是如何帮助我们做自然语言处理呢？

不可能打工·2023-01-11 07:17

关系抽取--远程监督

在关系抽取这个领域有很多方法包括监督学习方法和半监督学习方法，本文介绍的远程监督是属于半监督学习的一种方法，远程监督是为了解决标注语料少这个问题而产生的，远程监督最早是由MMintz于ACL2009上提出

LoveAcFun·2023-01-10 16:23

知识图谱与明朝那些事儿

《明朝那些事儿》用现代语言描绘了明朝大部分史实，人物关系也比较明确与详细，正好可用作语料。后期会将构建过程展示出来。

qq_22244821·2023-01-10 14:47

【机器学习】贝叶斯算法详解 + 公式推导 + 垃圾邮件过滤实战 + Python代码实现

文章目录一、贝叶斯简介二、贝叶斯公式推导三、拼写纠正案例四、垃圾邮件过滤案例4.1问题描述4.2朴素贝叶斯引入五、基于朴素贝叶斯的垃圾邮件过滤实战5.1导入相关库5.2邮件数据读取5.3构建语料表（字典

WSKH0929·2023-01-09 14:13

一文看懂 NLP 中的情感分析任务

情感倾向分析的方法主要分为两类：基于情感词典的方法；基于机器学习的方法，如基于大规模语料库的机器学习。前者需要用到标注好的情

深度学习技术前沿·2023-01-09 12:33

想要学习NLP情感分析，你竟然没看过这篇文章！

情感倾向分析的方法主要分为两类：基于情感词典的方法；基于机器学习的方法，如基于大规模语料库的机器学习。前者需要用到标注好的情

csdn人工智能头条·2023-01-09 12:57

一、中文自然语言处理的完整机器处理流程 nlp笔记

中文自然语言处理的完整机器处理流程1.获取语料，读取原始数据：语言材料，文本集合。

酒窝写代码·2023-01-09 12:27

自带语料和实验报告。功能完整。 Develop 261万源代码下载- www.pudn.com...

自带分类语料和实验报告。功能完整。

李印乾·2023-01-09 11:02

【自然语言处理与文本分析】文本特征提取方法总结。关键词提取方法。公认效果较好的IDF，RCF。

关键词提取方法关键词是文章想表达的主要画图，能反映文本语料主题的词语或者短语。

晴天qt01·2023-01-09 10:33

自然语言处理（四）：文本预处理之文本数据分析

自然语言处理笔记总目录文本数据分析能够有效帮助我们理解数据语料,快速检查出语料可能存在的问题,并指导之后模型训练过程中一些超参数的选择常用的几种文本数据分析方法：标签数量分布句子长度分布词频统计与关键词词云标签数量分布

GeniusAng丶·2023-01-09 10:33

Bert实战之文本分类（附代码）

2.2featureextract（特征抽取）3、coding3.1基于fine-tune的文本分类3.2基于featureextract的文本分类1、概要Bert是Google在2018年10月提出的一种利用大规模语料进行训练的语言模型

明子哥哥·2023-01-09 09:04

【笔记】GPT

这种将结构带入下游任务中的模式，不一定对每个任务都适用，GPT主要还是针对分类任务和标注性任务，对于生成任务，比如机器翻译，则它的结构也没办法进行很好的迁移；介绍GPT在2018年由OpenAI提出，通过在大量的语料上预训

Finks_chen·2023-01-09 09:27

10.基于ML的中文短文本分类

整个过程分为以下几个步骤：语料加载分词去停用词抽取词向量特征分别进行算法建模和模型训练评估、计算AUC值模型对比基本流程：2.加载数据importrandomimportjiebaimportpandasaspdch_path

Tony Einstein·2023-01-09 06:23

Word2Vec之CBOW详解

举个例子，一个corpus（语料库）为“Idrinkcoffeeeveryday”。假设将单词放入数组str，则该数组str长度

Feather_74·2023-01-09 03:42

【技术博客】文本挖掘之LDA主题模型

在文本挖掘领域，大量的数据都是非结构化的，很难从信息中直接获取相关和期望的信息，一种文本挖掘的方法：主题模型（TopicModel）能够识别在文档里的主题，并且挖掘语料里隐藏信息，并且在主题聚合、从非结构化文本中提取信息

MoModel·2023-01-08 06:02

Quora Question Pairs整理 - 文本相似度计算(unfinished)

具体地，根据语料库获得一个单词集合，集合中保存着语

weixin_30399055·2023-01-08 06:01

基于Python+JavaScript的面向文本分析的交互式主题建模可视化分析系统

本课题的研究背景和意义21.1.1主题模型的发展及研究现状21.1.2目前存在的问题31.1.3本课题的研究意义31.2研究内容和主要工作31.3本文的组织结构3二、核心算法32.1文本预处理42.2大型语料库的内存优化

biyezuopin·2023-01-08 06:00

文本相似度和距离度量

具体地，根据语料库获得一个单

a flying bird·2023-01-08 06:28

bert生成句向量(python)

第一步：安装库pipinstallbert-serving-serverpipinstallbert-serving-client第二步：下载语料库bert中文模型链接：https://storage.googleapis.com

江湖夜雨十年灯丶·2023-01-08 00:40

NLP语料库构建（corpus）

1文本加载文本处理函数学习：re.sub():正则表达式替换函数，对于输入的一个字符串，利用正则表达式（的强大的字符串处理功能），去实现（相对复杂的）字符串替换处理，然后返回被替换后的字符串，实现比普通字符串的replace更加强大的替换功能。importres="大家好，我是一个小白。I'msogladtointroducemyself,andI’m18yearsold.Todayis2020/

自在犹仙·2023-01-07 21:26

python 文本挖掘 TF-IDF 的jieba与sklearn实现

TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文件频率).TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度

English Chan·2023-01-07 15:10

关键词提取-基于python实现tf-idf

关键词提取代码实现：#encoding:utf-8importjiebaimportreimportosimportnumpyasnpclassMyTfIdf:def__init__(self):#语料库中所有文档的每个词的词频的统计

Jason_Honey2·2023-01-07 15:03

文本相似度算法：文本向量化+距离公式

1.1.1词袋模型的步骤第一步：构造词典根据语料库，把所有的词都提取出来，编上序号第二步：独热编码，D维向量记词典大小为D，那么每个文章就是一个D维向量：每个位置上的数字表示对应编号的词在该文章中出现的次数

==樛木==·2023-01-07 07:34

One_hot和Word2Vec两种词向量方法的原理及比较

再众多词向量表示方法中，尤其以One_hot和word2vec两种方法最常用，下面也针对这俩方法进行阐述One_hot方法One_hot方法是最简单的一种方法，也是出现最早的一种方法，其原理就比如一个语料有

阴天了·2023-01-07 07:01

simhash的py实现

初始化首先我们要明确我们需要的是什么，给定了一个大语料，我们希望得到的是每个词的编码以及对应的权重，那么我们可以将目标拆分为以下几

IGV丶明非·2023-01-06 15:37

Python分析国家领导人新春贺词建立主题模型

主题建模可以帮助开发人员直观地理解和探索数据，以便更好地挖掘语料库中的主题。成功的主题建模需要多次迭代：清洗数据、读取结果、相应地调整预处理并重试。

今天喝奶茶了嗎·2023-01-06 10:10

基于顺承关系的事理图谱的构建

一.数据获取通过从旅游网站爬取博主的旅游经验及心得作为原始语料。该爬虫基于scrapy实现，爬取数据存储在mongo数据库中。

cuguanren·2023-01-05 22:17

解决nltk download(‘brown’)连接尝试失败问题

连接尝试失败1、去下载官方包（http://www.nltk.org/nltk_data/）2、选择其中一个路径，将解压后的文件按照该路径放好再运行一下代码#nltk库提供了直接生成N-gram的方法#以布朗语料库的单词

小白*进阶ing·2023-01-05 21:33

python nltk 安装失败以及download()出错

1、什么是nltk一个完整的⾃然语⾔处理框架⾃带语料库，词性分类库⾃带分类，分词，等等功能有强⼤的社区⽀持框架设计上没有考虑中文使用安装语句pipinstallnltknltk.download()#下载

是鱼儿啊～·2023-01-05 21:33

NLTK语料库nltk.download()安装失败及下载很慢的解决方法

一.解决nltk.download()安装失败importnltknltk.download()下载nltk语料库出现getaddrinfofailed如下错误：这里只需将ServerIndex路径改成

深度学习菜鸟·2023-01-05 21:32

python成语接龙代码_实现成语接龙（Python）

字相同拼音也要相同模式2：字相同拼音不要求相同模式3：字不要相同拼音要求相同，即谐音就可以接龙的成语必须是四字成语已使用过的成语双方均不得再次使用一方不按照规则接龙或接不下去时判定失败数据获取和清洗本文语料来自于

weixin_39756273·2023-01-05 20:34

我用 Python 自制成语接龙小游戏，刺激

在https://github.com/pwxcoo/chinese-xinhua项目中可以下载到中华成语的语料库，该项目收录包括14032条歇后语，16142个汉字，264434个词语，31648个成语

程序员婷崽·2023-01-05 20:31

用 Python 自制成语接龙小游戏！

作者：小小明来源：杰哥的IT之旅在https://github.com/pwxcoo/chinese-xinhua项目中可以下载到中华成语的语料库，该项目收录包括14032条歇后语，16142个汉字，264434

Python数据之道·2023-01-05 20:31

用Python 做成语接龙，超简单，有语音，过年和孩子玩

过年和孩子玩成语需要准备的资料：idiom.json文件python3.6安装pyttsx3pandasnumpy在https://github.com/pwxcoo/chinese-xinhua项目中可以下载到中华成语的语料库

搬码工琪老师·2023-01-05 20:29

基于mrpc的文本分类任务Bert源码分析（一）：特征提取

他们主要的工作是预训练出了一个模型，即对一个很大的语料库进行训练，得到相应的词向量。这一步，主要用到mask，transformer等机制。

丹妮与铁王座·2023-01-05 19:10

wiki维基百科各种语料数据下载

wiki维基百科常用语料下载路径英文语料路径：https://dumps.wikimedia.org/enwiki/中文语料路径：https://dumps.wikimedia.org/zhwiki/西班牙语料路径

mtj66·2023-01-05 16:50

论文阅读笔记---《TransferNet: An Effective and Transparent Framework for Multi-hop Question Answering over》

这些关系可以用知识图谱中的标签（例如，配偶）或文本语料库中的文本（例如，他们已经结婚26年）来表示。现有模型通常通过预测顺序关系路径或聚合隐藏图特征来推断答案。前者难以优化，后者缺乏可解释性。

Ray.1998·2023-01-05 14:13

语音识别入门第一节：语音识别概述

目录语音识别的定义语音识别的重要性语音交互语音识别的挑战性语音识别的发展历史语音识别的深度学习时代现代语音识别框架语料库与工具包语音识别的定义语音识别：AutomaticSpeechRecognition

安静_xju·2023-01-05 11:49

【Gensim + TSNE使用】word2vec词向量处理中文小说（词嵌入、高维数据降维）

调用gensim.models.word2vec对语料建立词向量。词嵌入，使用TSNE进行数据降维，使用plt可视化词嵌入结果。

FUTUREEEEEE·2023-01-05 10:51

推荐频道

语料