E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
汉语句法树库标注体系(TCT)
语料
库的句法标注是
语料
库语言学研究的前沿课题,它的处理目标是对
语料
文本进行句法分析和标注,形成树库(treebank)
语料
。
qiqiaiairen
·
2020-08-24 15:37
语言学
deeplearn学习笔记 cs224n lecture3
Lecture3随机梯度下降skip-gram负采样word2vec总结1.游览
语料
库的每个单词2.预测每个单词周围的单词3.同时捕捉一个单词Windowbasedco-occurrencematrixProblemswithsimpleco-occurrencevectors
lyc1635566ty
·
2020-08-24 09:40
deeolearning学习
数据挖掘 文本分类(二)搜集中文
语料
库与ICTCLAS分词
第一步,下载搜狗中文
语料
库。链接:http://www.sogou.com/labs/dl/c.html我们下载24M大小的精简版(tar.gz格式)下载完了,解压缩,放到做本次实验的目录里存好。
Carry_yang
·
2020-08-24 05:17
大数据
向量余弦夹角
,常用的加权技术TF意思是词频(TermFrequency);IDF意思是逆向文件频率(InverseDocumentFrequency);TF-IDF是一种统计方法,用以评估字词对于一个文件集或一个
语料
库中的重要程度
SilenYoung
·
2020-08-24 04:20
自然语言处理实践(新闻文本分类)——task03
基于机器学习的文本分类TF-IDFTF-IDF算法是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在
语料
库中的重要程度。
M.〽
·
2020-08-24 04:18
NLP文本分类
TF-IDF原理及python实战
TF-IDF是一种统计方法,用来评估一个字词对于一个文本集或者一个
语料
库中的的其中一份文件的重要程度。
习惯有你qk
·
2020-08-24 04:25
学习笔记
hmm分词
HMM分词理论至https://blog.csdn.net/weixin_42498517/article/details/102659784训练
语料
为人民日报#-*-coding:utf-8-*-#@
Chase_Ray
·
2020-08-24 04:54
NLP
《A Deep Generative Framework for Paraphrase Generation》-- 总结
一、研究背景1.应用复述生成可以应用很很多场景,像机器翻译、生成摘要等等都涉及到复述生成;而且复述生成还可以扩充
语料
,更好的进行训练;不仅如此,还可以应用于智能对话等场景,eg:用户的提问方式不可能都是符合预期设定的同种方式
修改资料-昵称
·
2020-08-24 04:58
Paraphrase
Generation
人工智能
使用HMM进行中文分词
一、代码#%loadhmm_segment.py#(1)通过对
语料
库进行统计,建立隐马尔科夫链模型(初始概率,转移概率,观测概率)#(2)通过维特比算法(动态规划),确立某具体语句按其顺序出现每个字时,
sysu_zzd
·
2020-08-24 04:49
python
ai
机器学习
HMM中文分词_CodingPark编程公园
作为新手起步,我们尝试了最简单的序列标注模型----隐马尔可夫模型HMM中文分词流程映射标注集:将标注集{B,M,E,S}映射为连续的整形id词表:将字符映射为另一套id,
语料
转换我们必须把
语料
库转换为
TEAM-AG
·
2020-08-24 03:49
NLP学习之路
自制基于HMM的python中文分词器
主流中文分词方法包括基于规则的分词,基于大规模
语料
库的统计学习方法以及在实践中应用最多的规则与统计综合方法。隐马尔科夫模型(HMM)是中文分词中一类常用的统计模型,本文将使用该模型构造分词器。
weixin_33924220
·
2020-08-24 03:06
高阶HMM中文分词
举例:希/B腊/E的/S经/B济/M结/M构/E较/S特/B殊/E文本的预处理
语料
库用的是使用msr_train
weixin_33851177
·
2020-08-24 03:57
python自然语言处理——2.1 获取文本
语料
库
第二章获取文本预料和词汇资源2.1获取文本
语料
库古腾堡
语料
库网络和聊天文本布朗
语料
库路透社
语料
库就职演说
语料
库标注文本
语料
库其他文本
语料
库文本
语料
库结构2.1获取文本
语料
库一个文本
语料
库是一大段文本,许多
语料
库的设计都要考虑一个或多个文本间的平衡
weixin_30952103
·
2020-08-24 03:35
flair embedding--《Contextual String Embeddings for Sequence Labeling》阅读笔记
首先作者介绍了现有sota的embedding方法:classicalwordembedding,在超大
语料
上预训练;character-levelfeatures,在领域内的数据集上训练,以捕捉任务相关的
芋艿ashes
·
2020-08-24 03:48
NLP
机器学习学习笔记 第十六章 基于贝叶斯的新闻分类
利用贝叶斯分类器进行文本分类考虑情况1对于文本分析,首先我们应该先利用停用词
语料
库对部分大量出现的停用词进行屏蔽,可以百度直接搜停用词进行下载我们对于经常出现的词,有可能是一个不太重要的词,比如《中国蜜蜂养殖
BenkoZhao
·
2020-08-24 02:08
机器学习笔记
情感分析︱网络公开的免费文本
语料
训练数据集汇总
每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~———————————————————————————包括:一些免费的
语料
库+一些有效分词软件还有一些利用遗传算法大规模生成预料库的方法
悟乙己
·
2020-08-24 02:05
NLP︱R+python
文本摘要(text summarization)一:
语料
简介概述综述与工具
一、文本摘要(DocumentSummarization,Toolkit工具)文本摘要是指通过各种技术,对文本或者是文本集合,抽取、总结或是精炼其中的要点信息,用以概括和展示原始文本(集合)的主要内容或大意。作为文本生成任务的主要方向之一,从本质上而言,这是一种信息压缩技术。文本摘要的目的是为了让用户在当今世界海量的互联网数据中找到有效的信息。实现这一点的有两种不同的方式,一是以百度为代表的搜索引
Macropodus
·
2020-08-24 02:47
文本摘要
用Python进行自然语言处理-2. Accessing Text Corpora and Lexical Resources
1.处理文本
语料
库1.1古腾堡
语料
库这是一个电子书
语料
库,目前提供49,000本免费电子书。
rebellion51
·
2020-08-24 02:15
nlp
用Python进行自然语言处理-1. Language Processing and Python
附上书籍原地址链接:《用Python进行自然语言处理》安装过程和
语料
下载就不说了,这里直接开始实战:1.查找文本1.1用文本的concordance方法查找某个词。
rebellion51
·
2020-08-24 02:15
nlp
(二)Python3 网页正文提取的各种方法和技巧
newspaper功能非常丰富的一个包,不仅仅支持正文提取,也支持翻译(无字符限制),关键词获取,正确率较高,还有NLP相关的
语料
库。并且有Python2和Python3两个版本。
小包子呀
·
2020-08-24 02:09
python
Python3
网页正文提取
Python文本数据分析——新闻分类任务
)如果某个词比较少,但是它在这篇文章中多次出现,那么它可能就反映了这篇文章的特性正是我们需要的关键词词频(TF)=某个词在文章中的出现次数/该文出现次数最多的词出现的次数逆文档频率(IDF)=log(
语料
库的文档总数
乐亦亦乐
·
2020-08-24 02:44
机器学习笔记
笔记
基于监督学习的隐马尔科夫模型(HMM)实现中文分词
因为
语料
是分好词来训练的,所以代码写起来还算简单,HMM的参数pi,A,B训练只是做一个简单的统计工作反倒是写维特比算法时出了一些问题,因为之前都是纸上谈兵,真正写这个算法才发现之前有的地方没有搞明白!
outsider0007
·
2020-08-24 01:57
ML&DL原理
自然语言处理
【BERT中文改进版】预训练ALBERT模型:参数更少,效果更好,拿下13项NLP任务
阅读大概需要5分钟跟随小博主,每天进步一丢丢编辑:zenRRan作者:brightmartgithub:https://github.com/brightmart/albert_zhalbert_zh海量中文
语料
上预训练
zenRRan
·
2020-08-24 01:00
python自然语言处理:第4章 (自己动手的小例子)
借鉴3.3.2节的实现,尝试自己实现HMM进行词性标注(
语料
可选用1998年人民日报饲性标注集(注意没有
语料
库//download.csdn.net/download/qq_26954059/12185434
nkenen
·
2020-08-24 01:54
自然语言处理
搜狗实验室文本分类
语料
库
语料
库介绍文本分类
语料
库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻
语料
与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。
sina微博_SNS程飞
·
2020-08-24 01:25
自然语言处理
零基础入门NLP_Task5_基于深度学习的文本分类2_Word2vec
因此,word2vec模型可以方便地从新增
语料
中学习到新增词的向量表达,是一
2tong杂货铺
·
2020-08-24 01:47
NLP
建立一个与词性标注问题相关联的HMM模型
1.必须确定HMM模型中的隐藏状态和观察符号,也可以说成观察状态,由于我们是根据输入句子输出词性序列,因此可以将词性标记序列作为隐藏状态,而把句子中的单词作为观察符号,那么对于Brown
语料
库来说,就有
nannanxiami
·
2020-08-24 01:30
自然语言处理
【2019-CS224n】Assignment1
NLTK下载数据遇到的坑Reuters:路透社
语料
库(商业和金融新闻)。包括10788篇新闻文献,共计130万字,分为90个主题,按照“训练”和“测试
小毛驴爱吃肉
·
2020-08-24 01:35
CS224n训练营
中文自然语言处理测评数据集、基准模型、
语料
库、排行榜整理分享
本资源整理了中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、
语料
库、排行榜。本文选择一系列有一定代表性的任务对应的数据集,做为测试基准的数据集。
lqfarmer
·
2020-08-24 01:46
深度学习
tensorflow原理
深度学习优化策略汇总
隐含马尔可夫模型HMM的中文分词器 入门-1
在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词
语料
库。所以想研究中文分词,第
hzdxw
·
2020-08-24 00:25
nlp
hmm
fasttext介绍
1、字符级别的n-gramword2vec把
语料
库中的每个单词当成原子的,它会为每个单词生成一个向量。
guohui_0907
·
2020-08-24 00:06
深度学习
东北大碴子英语的伤
“无法辨识”的错觉大脑根本无法三秒内处理这些信息因为平时习惯了那些错误的声音Yona建议「晨读section4」每日一篇红色信号笔答案标志词黄色信号笔反应时间超过三秒的单词词组蓝色笔可以用于口语素材的
语料
黑色笔于听力原文下整理同意改写图片发自
YonaJ
·
2020-08-24 00:41
【论文解析】如何将Bert更好地用于文本分类(How to Fine-Tune BERT for Text Classification?)
基于Bert模型,在6份英文
语料
和1份中文预料上(包括情感分析、问题分类和主题分类),进行了翔实的文本分类效果对比实验结果,虽然fine-tune的最终效果取决于具体的task,但文中采用的思路和策略仍值得学习和尝试
guofei_fly
·
2020-08-24 00:35
自然语言处理
albert-chinese-ner使用预训练语言模型ALBERT做中文NER
AI项目体验地址https://loveai.techalbert_zh海量中文
语料
上预训练ALBE
demm868
·
2020-08-24 00:15
DL4J中文文档/语言处理/Word2Vec
它的输入是一个文本
语料
库,它的输出是一组向量:
语料
库中的单词的特征向量。
bewithme
·
2020-08-23 23:01
AI
自然语言处理之HMM
使用HMM进行分词根据
语料
计算参数。我是中国人。
FIXLS
·
2020-08-23 23:47
NLP
HMM
gensim word2vec实践
语料
下载地址#-*-coding:utf-8-*-importjiebaimportjieba.analyse#suggest_freq调节单个词语的词频,使其能(或不能)被分出来jieba.suggest_freq
aliexie2869
·
2020-08-23 23:59
keras实战(二)--imdb影评分类/路透社
语料
多分类
ReferenceN-gram模型Keras深度神经网络训练IMDB情感分类的四种方法DeeplearningwithPython1.
语料
来源由于下载太慢,可以使用以下链接下载,并将其拷贝到~/.keras
yumi_huang
·
2020-08-23 23:58
深度学习
理解 Word2Vec 之 Skip-Gram 模型
Word2Vec是从大量文本
语料
中以无监督的方式学习语义知识的一种模型,它被大量地用在自然语言处理(NLP)中。那么它是如何帮助我们做自然
豆豆将
·
2020-08-23 23:18
网络表示学习
Task5 基于深度学习的文本分类2
因此,word2vec模型可以方便地从新增
语料
中学习
光烟
·
2020-08-23 23:33
深度学习
自然语言处理
算法
python
机器学习
【吴恩达团队】TensorFlow2.0中的自然语言处理
视频地址:【吴恩达团队Tensorflow2.0实践系列课程第三课】TensorFlow2.0中的自然语言处理Tokenizer本阶段完成的工作:构建
语料
库词典:{word:integer}\{word
一只干巴巴的海绵
·
2020-08-23 23:44
自然语言处理
深度学习框架
NLP之新闻文本分类——Task5
因此word2vec模型可以方便地从新增
语料
中学习到新增词的向量表达,是一种高效的在线学习算法(onlinelearningwor
Jone.D
·
2020-08-23 23:17
NLP
NLP --- 隐马尔可夫HMM(第三个问题详解及HMM的应用)
简单来说就是数据如果是完整的则可以通过均值来估计参数,因为在数据完整的情况下即有发射符号概率也有状态转移概率,通过估计就可以很容易求出隐马尔可夫模型的参数,但是如果只有发射符号概率而没有状态转移概率(即对于的汉字),这样的
语料
就不能使用最大释然估计了
zsffuture
·
2020-08-23 23:17
自然语言处理
隐马尔科夫实现中文分词(Python3实现)
首先是
语料
库的训练部分:#!
芋艿ashes
·
2020-08-23 22:10
NLP
使用Bert获得句向量,用于下游任务
处理文本分类任务时,除了语义信息可能还可以使用一些其他结构化特征(如
语料
来源,说话人信息等等)。此时可以使用Bert获取原始
语料
的句向量,再结合已知的结构化特征,训练适用于下游任务的分类器。
Bunkicao
·
2020-08-23 22:05
机器学习
Bert
如何使用bert
2.bert的使用uer-pyUER-py全称是UniversalEncoderRepresentations,UER-py是一个在通用
语料
预训练以及对下游任务进行微调的工具包。github项目地址。
thinking慢羊羊
·
2020-08-23 22:02
深度学习
【NLP】Pytorch中文语言模型bert预训练代码
有几个主要结论:在目标领域的数据集上继续预训练(DAPT)可以提升效果;目标领域的
语料
与RoBERTa的原始预训练
语料
越不相关,DAPT效果则
风度78
·
2020-08-23 22:15
人工智能
机器学习
python
深度学习
编程语言
新闻文本分类之旅 Word2Vec_Corpus
天池-零基础入门NLP新闻文本分类预训练Word2vec
语料
导入相关库读取数据加载
语料
训练
语料
保存模型新闻文本分类预训练Word2vec
语料
导入相关库importnumpyasnpimportpandasaspdfromgensim.modelsimportword2vec
目光所及
·
2020-08-23 22:35
自然语言处理
自然语言处理
2018-07-24
起床:7:05跟读:(7:30-7:50)吃早餐:(7:50-8:10)口语独立题
语料
库savemoney/environmentalprotection/confidence(8:10-8:30)大漠点词
斐然Xxx
·
2020-08-23 15:10
唐小茴の日常(165)
这是当年的英语老师让他们整理
语料
库时所说的话,“当眼界很高的时候,手也低不到哪里去。”唐小茴愈发明白,那些
唐小茴
·
2020-08-23 10:53
上一页
36
37
38
39
40
41
42
43
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他