corpus

[论文笔记] LLM数据集——LongData-Corpus

https://huggingface.co/datasets/yuyijiong/LongData-Corpus1、hf的数据在开发机上要设置sshkey，然后cat复制之后在设置在hf上2、中文小说数据在云盘上清华大学云盘下载

心心喵·2024-08-29 10:17

NLP_Bag-Of-Words(词袋模型)

它将文本中的词看作一个个独立的个体，不考虑它们在句子中的顺序，只关心每个词出现的频次，如下图所示用词袋模型计算文本相似度1.构建实验语料库#构建一个数据集corpus=["我

you_are_my_sunshine*·2024-02-06 10:48

一些概念

1.一个文本集合称为语料库（Corpus），当有几个这样的文本集合的时候，我们称之为语料库集合(Corpora)。2.中文汉语有搜狗语料、人民日报语料。

半大人·2024-02-04 11:01

2018-7-28 托福基础写作

Corpus:BNCCOCA百度搜索语料库的用法，用处特别多TheRightWordOrganization组织统一第一段：直接支持第二段：直接支持用用加粗字体表示间接支持为正常字体递进1.段与段之间过渡词

L7_526d·2024-02-02 05:04

sklearn 计算 tfidf 得到每个词分数

fromsklearn.feature_extraction.textimportTfidfVectorizer#语料库可以换为其它同样形式的单词corpus=[list(range(-5,5)),list

小何才露尖尖角·2024-01-31 16:58

分布式智能控制-示例

fromcn.ijingxi.corpuscle.pythonimportlogicfromcn.ijingxi.corpuscle.pythonimportactivefromcn.ijingxi.corpuscle.pythonimportconditionfromcn.ijingxi.corpus

jxandrew·2024-01-21 10:02

pyLDAvis实现LDA结果可视化时报错OSError:invalid argument

放一下可视化部分的源码：importpyLDAvis.gensimimportpyLDAvisfromLDAimportneg_lda,neg_corpus,neg_dict,pos_lda,pos_corpus

dingbangchu·2024-01-18 11:01

stanfordcorenlp 提示RuntimeError: Java not found.

遇到问题：/anaconda3/envs/tensorflow/bin/python3/anaconda3/demo/demo/gcn_eca/gcn_model_tf/get_w2v_corpus.pyTraceback

liqiang12689·2024-01-17 15:18

2024年1月16日Arxiv热门NLP大模型论文：Improved Learned Sparse Retrieval with Corpus-Specific Vocabularies

亚马逊颠覆搜索技术：自定义词汇库提升检索性能，效率提高50%，准确度飙升12%！引言：搜索引擎中的词汇选择与检索效率在搜索引擎的世界中，词汇的选择对于检索效率至关重要。传统的搜索引擎技术，如BM25，依赖于对文档中词汇的频率统计来估计词汇的重要性。然而，随着预训练语言模型（如BERT）的兴起，我们现在可以通过直接优化检索任务来学习文档中词汇的重要性。这些学习到的词汇重要性分数是许多学习型稀疏检索技

夕小瑶·2024-01-17 10:14

优化｜PLSA理论与实践

本文将对包含物理学、计算机科学、统计学、数学四个领域的15000条文献摘要的数据集（保存在Task-Corpus.csv中）使用PLSA算法进行处理。

运筹OR帷幄·2024-01-08 04:11

Resource cmudict not found. Please use the NLTK Downloader to obtain the resource:

Traceback(mostrecentcalllast):File“/home/oxwod/anaconda3/envs/python35/lib/python3.5/site-packages/nltk/corpus

风吹落叶花飘荡·2024-01-07 06:07

解决gensim训练时出现killed问题

具体代码如下：importgensimimporttimeimportosimportglob#将语料库分成多个文件corpus_path='/mnt/e/ProLearn/NLP/wiki_nlp_data

一个爱折腾的小人物·2023-12-27 06:18

language_model

Importnecessarypackages.importtorchimporttorch.nnasnnimportnumpyasnpfromtorch.nn.utilsimportclip_grad_norm_fromdata_utilsimportDictionary,Corpus

AIHUBEI·2023-12-04 10:33

sklearn中tfidf的计算与手工计算不同详解

sklearn中tfidf的计算与手工计算不同详解引言：本周数据仓库与数据挖掘课程布置了word2vec的课程作业，要求是手动计算corpus中各个词的tfidf，并用sklearn验证自己计算的结果。

stay_foolish12·2023-12-02 02:17

WSJ0中的wv文件如何转换为wav文件

平台准备：python3.6os包WSJ0corpus———csr_1_sennsph2pipe包csr_1_senn，sph2pipe包和wv_convert_wav.py在同一个目录下代码：wv_convert_wav.pyimportos

fa928464158·2023-11-29 21:20

Gensim

官网基本概念语料Corpus向量Vector稀疏向量SparseVector模型Model安装安装环境Ubuntu18.04Anaconda3-5.3.1!pipinstallgensim!

喝醉酒的小白·2023-11-24 06:25

LDA模型参数设置，训练效果较好

为了写出小论文做了很多次实验，达到了实验中最好的效果，故贴出代码：fromgensim.modelsimportLdaModellda=LdaModel(corpus=corpus,id2word=dictionary

喔就是哦噢喔·2023-11-13 16:16

LDA模型，获取所有的文档-主题分布（即得到文档对于每个主题的概率分布）并保存

现有的只是为文档输出前几个概率大的主题代码：importnumpyasnpfromgensim.modelsimportLdaModel#训练lda模型lda=LdaModel(corpus=corpus

喔就是哦噢喔·2023-11-13 16:16

【关于Python中两个相等字符串is判断出来是false的问题】

今天在写cs224n的作业时，在判断words中的单词和corpus中的单词进行判断单词是否相等时，采用了is进行逻辑判断。但是出现了相同的单词进行判断结果为false的情况。

李不卷·2023-11-12 11:11

《用Python进行自然语言处理》第2章获得文本语料和词汇资源

2.1获取文本语料库古腾堡语料库importnltkprint(nltk.corpus.gutenberg.fileids()[:5])#挑选这些文本的第一个——简·奥斯丁的《爱玛》——并给它一个简短的名称

剑九黄·2023-11-05 04:11

CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model

整篇文章，很好理解，建议大家读一下。0摘要主要是使用CLUECorpus2020，100G语料预训练模型。他们在小数据及以及大数据集上做了实验，表明这个语料训练的模型，更适合中文。他们使用的vcoba_clue是8k,是google的ChineseBert的1/3。他们发布了这个语料训练的小模型和大模型。大模型能达到最高的水平,小模型在保留大部分精度的情况下加速了训练,并且预测速度是bert-ba

candy134834·2023-11-02 22:29

怎么让英文大语言模型支持中文？--构建中文tokenization--继续预训练--指令微调

保存为语料corpus1.3如何构建中文的词库？一般的，目前比较主流

zhurui_xiaozhuzaizai·2023-10-19 13:27

语料库与术语库

yulk.org/BCC语料库：http://bcc.blcu.edu.cn/语料库在线：http://www.cncorpus.org/北京大学中国语言学研究中心：http://ccl.pku.edu.cn/corpus.asp

windfunkey·2023-10-19 02:31

MongoDB常用脚本汇总

实战新增新增集合：db.getSiblingDB("corpus").createCollection('message');删除删除一条数据：db.getSiblingDB("cx_user").userAccount.deleteOne

johnny233·2023-10-18 15:43

语料库应用入门讲座

一、语料库的定义语料库(Corpus)是一种存放语料材料的仓库，是一种按照一定的规则收集的大规模的真实文本数据集合。它包括书面文本、口语对话、网页新闻、视频、音频等多种形式的

PythonFun·2023-10-15 18:52

word2vec的参数选择及原理简介

://radimrehurek.com/gensim/models/word2vec.htmlclassgensim.models.word2vec.Word2Vec( sentences=None,corpus_file

Rover Ramble·2023-09-25 22:26

task2

pythonclassVocab(object):def__init__(self,tokens,min_freq=0,use_special_tokens=False):counter=count_corpus

欧飞红·2023-09-24 23:52

WordNet

wordNetwordNet是普林斯顿大学开发的英语语料库，可以理解为就是一个词典，在python中的nltk.corpus可以直接获得，它良好的组织结构使得它在nlp中可以帮助我们更好的理解语义。

Athenaearl·2023-09-22 11:49

Gensim库的使用——Gensim库的核心概念介绍

核心概念在gensim中有一些核心的概念，这里简要介绍一下：1、Document（文档）：主要是指一些文本2、Corpus（语料库）：文档的一个集合3、Vecto

桉夏与猫·2023-09-16 08:47

文心大模型使用——文心一言API

前置操作API_KEY、SECRET_KEY自行购买importrequestsimportjsonimportloggingAPI_KEY="api_key"SECRET_KEY="secret_key"CORPUS_DIR

热爱旅行的小李同学·2023-09-12 23:14

LDA 实战技巧

减少corpus数量，减少词数量。

吹洞箫饮酒杏花下·2023-09-11 00:02

windows上用VSCODE运行python文件不加 if name == ‘main‘报错

importnumpyasnpimportpandasaspdfromgensim.corporaimportDictionaryfromgensim.modelsimportCoherenceModeldefCalcTopicsCoherence(topics,texts,dictionary,corpus

ElienC·2023-08-29 02:06

gensim.models.word2vec() 参数详解

2.Word2vec参数详解classgensim.models.word2vec.Word2Vec(sentences=None,corpus_file=None,vector_s

独影月下酌酒·2023-08-17 10:46

Python3， 33行代码搞了一个聊天机器人，这下再也不怕没人说话了。

引言小屌丝：鱼哥，看这段代码fromchatterbotimportChatBot#创建聊天机器人chatbot=ChatBot('MyBot')#加载语料库withopen('chatterbot.corpus

Carl_奕然·2023-07-31 15:59

1. 中文NLP笔记：中文自然语言处理的一般流程

图片发自App今天开始一起学习中文自然语言处理中文NLP一般流程1.获取语料语料，是NLP任务所研究的内容通常用一个文本集合作为语料库（Corpus）来源：已有语料积累的文档下载语料搜狗语料、人民日报语料抓取语料

不会停的蜗牛·2023-07-29 17:14

2021-04-28

关于Python中版本冲突的问题chatterbot1.1.0requirespyyaml=5.3,butyou……问题：chatterbot-corpus1.2.0requiresPyYAML=3.12

Edison Yin·2023-06-22 05:49

自然语言处理

语料库语料库(corpus)：指收集和整理的一组文本数据，用于训练和评估自然语言处理模型，就是存放语言材料的仓库(语言数据库)语料库类型：异质的、同质的、系统的、专用的知识库：指存储和组织的结构化知识数据

银晗·2023-06-17 06:38

NLP（1）：Introduction

文章目录WhyprocesstextChallengesTextprocessingword,sentence,document,corpus,tokenProcessingstepsSentencesegmentationWordTokenizationMaxMatchAlgorithmSubwordTokenization

暖仔会飞·2023-06-12 19:56

CBOW模型的数据预处理

实现代码如下，其中corpus是单词ID列表，word_to_id是单词到单词ID的字典，id_to_word是单词ID到单词的字典。defpreproces

算法技术博客·2023-04-19 18:31

d2l语言模型--生成小批量序列

之间连续3.封装1.k元语法1.1一元tokens=d2l.tokenize(d2l.read_time_machine())#因为每个⽂本⾏不⼀定是⼀个句⼦或⼀个段落，因此我们把所有⽂本⾏拼接到⼀起corpus

我想吃鱼了，·2023-04-16 09:13

d2l 文本预处理textDataset

目录1.要实现的函数2.读取数据集3.词元化4.Vocab类4.1count_corpus(tokens)4.2class中的各种self4.2.1_token_freqs是经过sorted排序后的list4.2.2token_to_idx

我想吃鱼了，·2023-04-16 09:11

TF-IDF

这时，需要一个语料库（corpus），用来模拟语言的使用环境。如果一个词越常见，那么

放开那个BUG·2023-04-13 03:55

用chatterbot从零开始创建一个聊天机器人(一)

安装pipinstallchatterbotpipinstallchatterbot-corpus原理chatterbot是以搜索匹配的方式来找寻训练库中最接近的回答；它不会进行分词，因此支持任何语言的训练

文知道·2023-04-12 06:31

基于条件随机场(CRF)对中文案件语料进行命名实体识别(NER)

0.20.1scipy==1.1.0six==1.11.0sklearn==0.0sklearn-crfsuite==0.3.6tabulate==0.8.2tqdm==4.28.1##文件组织-**corpus.py

小樊努力努力再努力·2023-04-10 17:38

wiki语料库训练检索式聊天机器人

环境：python3.7~9，chatterbot库语料库：中文语料库github.com/brightmart/nlp_chinese_corpus可以从我的网盘下:trained_txt:(我训练时踩坑然后去掉每一步遇到的非法

飞鸟malred·2023-04-10 06:39

RNN(2)词性标注POS

importnltkimportnumpyasnpsents=nltk.corpus.treebank.tagged_sents()fedata=open('treebank_sents.txt',

Seeker_zz·2023-04-08 03:19

python 文本分析库_Python数据挖掘——文本分析

一、语料库（Corpus）语料库是我们要分析的所有文档的集合。二、中文分词2.1概念：中文分词（ChineseWordSegmentation）：将一个汉字序列切分成一个一个单独的词。

weixin_39611382·2023-04-06 19:13

LAVA的编译与使用

lava论文链接lava下载地址下载后，lava_corpus目录下有两组benchmark，即LAVA-1,LAVA-M。本文主要介绍LAVA-M的编译。

YW23·2023-03-18 18:12

使用k-means对文本进行聚类

1、数据说明corpus为一个list，每一项代表一个文本，每个文本为分词后的数据。

小夏_3f26·2023-02-05 13:03

论文笔记 | RecSys2019 | Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations

youtube-two-tower-title.jpg论文地址：https://dl.acm.org/doi/abs/10.1145/3298689.3346996一为什么读这篇很早之前就收藏的，除了16年那篇YouTubeDNN，本篇应该是YouTube首次明确的指出用双塔结构做召回，从这篇中参考一下G家用双塔的工程技巧。二截止阅读时这篇论文的引用次数2020.2.213次三相关背景介绍同样没往

ktulu7·2023-02-05 00:55

推荐频道