E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
stardict取词
搜狗词库爬虫(2):基础爬虫框架的运行流程
系列目录:搜狗词库爬虫(1):基础爬虫架构和爬
取词
库分类项目Github地址:https://github.com/padluo/sogouSpider各模块对应的内容如下:getCategory.py
padluo
·
2017-09-24 16:58
Python爬虫
Python
搜狗词库爬虫(1):基础爬虫架构和爬
取词
库分类
基础爬虫架构基础爬虫框架主要包括五大模块:爬虫调度器、URL管理器、网页下载器、网页解析器、数据存储器。爬虫调度器:启动、执行、停止爬虫,统筹其他模块的协调工作。URL管理器:管理已爬取的URL和未爬取的URL这两个数据,提供获取新URL链接的接口。网页下载器:将URL管理器提供的一个URL对应的网页下载下来,存储为字符串,这个字符串传送给网页解析器进行解析。网页解析器:从网页下载器中获取已经下载
padluo
·
2017-09-22 20:56
Python爬虫
Python
使用jieba进行数据预处理(分词,过滤停用词及标点,获
取词
频、关键词等)
整理停用词去空行和两边的空格#encoding=utf-8filename="stop_words.txt"f=open(filename,"r",encoding='utf-8')result=list()forlineinf.readlines():line=line.strip()ifnotlen(line):continueresult.append(line)f.closewithope
ezreal is easy
·
2017-09-13 21:25
读论文《A Neural Probabilistic Language Model》
词嵌入对后面深度学习在自然语言处理方面有很大的贡献,也是获
取词
的语义特征的有效方
Doit_
·
2017-08-22 16:01
深度学习
论文
PHP实现将汉字转换为拼音及获
取词
语首字母的方法
本文实例讲述了PHP实现将汉字转换为拼音及获
取词
语首字母的方法。
ms_X0828
·
2017-08-22 08:24
python jieba分词(结巴分词)、提
取词
,加载词,修改词频,定义词库
文章目录添加自定义词加载自定义词库转载请注明出处欢迎加入Python快速进阶QQ群:867300100“结巴”中文分词:做最好的Python中文分词组件,分词模块jieba,它是python比较好用的分词模块,支持中文简体,繁体分词,还支持自定义词库。jieba的分词,提取关键词,自定义词语。结巴分词的原理这里写链接内容#一、基于结巴分词进行分词与关键词提取##1、jieba.cut分词三种模式j
IT界的小小小学生
·
2017-08-02 17:10
python
个人笔记
NIP
文本分析
自然语言处理(NLP)专栏
Java HOOK - 钩子机制扫盲
所以说,我们可以在系统中自定义钩子,用来监视系统中特定事件的发生,完成特定功能,如屏幕
取词
,监视日志,截获键盘、鼠标输入等等。钩子的种类很多,每种钩子可以截获相应的
打不死的小欣
·
2017-07-25 14:46
推荐十款java开源中文分词组件
原生IK中文分词是从文件系统中读
取词
典,es-ik本身可扩展成从不同的源读
取词
典。目前提供从sqlite3数据库中读取。
hguchen
·
2017-07-02 00:00
java
中文分词
Chrome谷歌浏览器第三方扩展程序已停用怎么办?
最近发现灵格斯翻译软件在谷歌浏览器上不能
取词
翻译,按照官方说明,下载安装插件,还是不行,出现如下图问题。
佚名
·
2017-06-13 10:01
tf-idf相关
TF-IDF1、思路TF-IDF用词频和逆向文件频率的统计信息来获
取词
语的得分。总的来说,TF-IDF是一种统计函数方法,用来评估查询词对于一个文件集或一个语料库中的其中一份文件的重要程度。
邵烽
·
2017-04-12 14:45
文本处理
自然语言处理基于java实现(1) 之 中文分词
下一篇程序源码下载一.题目如下:1、针对人民日报语料,编写程序:抽
取词
表统计总词数、不同的词及其次数。输出文件格式:第一行是语料库中的总词数,之后每行一个词及其次数,按照词频从小到大排序。
2017不平凡的一年
·
2017-04-05 19:27
自然语言处理
基于word2vec和Elasticsearch实现个性化搜索
在word2vec学习小记一文中我们曾经学习了word2vec这个工具,它基于神经网络语言模型并在其基础上进行优化,最终能获
取词
向量和语言模型。
·
2017-03-28 15:00
Elasticsearch
Elasticsearch
word2vec
个性化
搜索
个人作业2-英语学习APP案例分析
1)词典的
取词
功能存在问题。仅
zhuangjp
·
2017-03-21 21:00
word2vec学习小记
word2vec是Google于2013年开源推出的一个用于获
取词
向量的工具包,它简单、高效,因此引起了很多人的关注。
ginobefun
·
2017-03-19 16:20
欧路词典进阶使用指南
解决这个问题的办法就是设置一个快捷键,快速切换是否
取词
,在这里设置Paste_Image.png接着最重要的就是找一个好的字典Paste_Image.png分享一本剑桥字典链接:http://pan.baidu.com
鸭梨山大哎
·
2017-03-01 00:16
Linux Mint 17.2 安装软件推荐
电子辞典首推GoldenDict,自定义辞典,支持屏幕
取词
等。思维导图首推XMind。2.图形软件流程图绘制软件Dia,替代Viso。图片编辑首选GIMP图片编辑器,替代Photoshop。
猫髦卯貌_linuxer
·
2017-01-23 21:22
linux之路
利用nltk提
取词
组
当然了,以下的前提是你已经安装好了nltk这个包!按照注释改变相关参数就可以了!#!/usr/bin/envpython#-*-coding:utf-8-*-importnltkfromnltkimport*fromnltk.corpusimportPlaintextCorpusReaderdefgetcizu():corpus_root='/Users/noneback/protoncorpus
鸭梨山大哎
·
2017-01-18 23:45
java解析搜狗词库scel文件到txt
SougouScelReader读
取词
库文件类importjava.io.
Nirvana--
·
2016-11-03 11:17
Word2Vec源码详细解析(上)
Word2Vec源码最详细解析(下)Word2Vec源码最详细解析(上)在这一部分中,主要介绍的是Word2Vec源码中的主要数据结构、各个变量的含义与作用,以及所有算法之外的辅助函数,包括如何从训练文件中获
取词
汇
EnochX
·
2016-10-18 11:32
自然语言处理
jieba分词、自定义词典提取高频词、词性标注及获
取词
的位置
准备工作安装anaconda环境,anaconda环境是一个强大的科学计算环境,自带python2.7和3.4两个版本以及很多科学计算库安装完成后配置环境变量,然后在终端用pipinstalljieba安装结巴分词库jieba介绍支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的
Ezrealmore
·
2016-10-12 16:01
Ubuntu 16.04安装星际译王
Ubuntu16.04安装星际译王1、sudoaptinstall
stardict
.安装星际译王IDE。2、打开dash搜索星际译王,打开。
miaoqiucheng
·
2016-09-29 14:52
ubuntu
NLTK学习总结(一)
它提供了超过50多个素材库和词库资源的易用接口,其中有很多文本处理库,可以用来给文本分类,符号化,提
取词
根,贴标签,解析,语义推理,或者打包成工业级的自然语言处理库。
fengkuang
·
2016-09-28 06:58
python
自然语言处理
机器学习
Qt之字典划词
简述实现效果源码更多参考实现原理:鼠标移至某单词之上,获取鼠标位置,然后在对应位置进行
取词
,翻译!基于此原理,下面我们实现为每一个单词显示QToolTip。
u011012932
·
2016-07-01 20:00
qt
QTextEdit
Qt富文本
QCursor
Qt取词
[Ubuntu] 安装翻译软件星际译王
stardict
安装sudoaptinstall
stardict
添加词库默认是没有词库的,需要自己添加http://abloz.com/huzheng/
stardict
-dic/zh_CN/在这个地方下载常用的有两个,
Younix脏羊
·
2016-05-31 09:30
Linux机制
Ubuntu
apple dictionary 词典
介绍https://www.douban.com/group/topic/9591106/词典下载http://abloz.com/huzheng/
stardict
-dic/zh_CN/其二http:/
swingcoder
·
2016-04-26 10:00
几种常见的中文分词包的分析与比较
3:庖丁分词简介4:IK中文分词简介一:中文分词简介1:分词算法分类-----基于字符串匹配的中文分词方法eg:句子:我来自沈阳航空航天大学词典:沈阳航空航天大学沈阳航空航天大学匹配字段:匹配结果:选
取词
典中最长字段作为分词起始的最长步伐
Thinkgamer_
·
2016-04-17 09:30
Java基础知识
几种常见的中文分词包的分析与比较
eg:句子:我来自沈阳航空航天大学 词典:沈阳 航空 航天 大学 沈阳航空航天大学 匹配字段: 匹配结果: 选
取词
典中最长字段作为分词起始的最
Gamer_gyt
·
2016-04-17 09:00
java
中文分词
Citrix API Hooking
APIHooking是一项实用的Windows的系统编程技术,应用领域十分广泛,在桌面虚拟化技术兴起之前,主要应用于屏幕
取词
、网络防火墙以及病毒***等安全领域。
tasnrh
·
2016-04-16 19:36
Windows
源代码
编程技术
虚拟化云计算
大数据驱动的云客服
例如,在微信公众号平台回复一些关键字词,获取某篇文章或活动入口第二代:支持多个词模糊查询第三代:在关键词匹配的基础上引入了自然语言处理(NLP)技术,先数据清洗然后分词,提
取词
权重,基于词权重综合算法匹
长空飞鹰
·
2016-04-15 00:00
人工智能
金山词霸2016无法
取词
怎么办 金山词霸无法
取词
以及屏幕
取词
不出现的解决办法
狠多朋友安装使用金山词霸2016后出现金山词霸2016无法
取词
怎么办?今天小编就为大家介绍金山词霸无法
取词
以及屏幕
取词
不出现的解决办法,一起看看吧。
佚名
·
2016-04-13 09:50
R语言︱文本挖掘套餐包之——XML+SnowballC+tm包
一般来说一个完整的文本挖掘解决流程是:网页爬取数据——数据格式转化(分隔)——建立语料库——词频去噪——提
取词
干——创建文档-词频矩阵——后续分析(聚类、词云等)XML包可以实现:网页爬取(还有Rcurl
sinat_26917383
·
2016-04-04 11:00
xml
r
文本挖掘
tm包
SnowballC
Win32环境下代码注入与API钩子的实现
API钩子是一种高级编程技巧,常常用来完成一些特别的功能,比如词典软件的屏幕
取词
,游戏修改软件的数据修改等。当然,此技术更多的是被黑客或是病毒用来攻击其它程序,截获需要的数据或改变目
·
2016-04-02 12:00
编程
Win32
windows
进程注入
安装星际译王
id=19892&ResourceID=99241.输入
stardict
,搜索2.下载1:
stardict
-cdict-gb2:
stardict
-cedict-gb3:
stardict
-langdao-ec-gb4
ztguang
·
2016-03-30 10:00
temp
安装星际译王
stardict
-oxford-gb-2.4.2.tar.bz2http://download.chinaunix.net/download.php?
ztguang
·
2016-03-30 09:00
MyEclipse常用快捷键+插件大全
F6单步调试不进入函数内部,如果装了金山词霸2006则要把“
取词
开关”的快捷键改成其他的。 F7由
帅的不像男的
·
2016-03-28 11:00
查看分词器分词结果
newWhitespaceAnalyzer();try{//第一个参数只是标识性没有实际作用TokenStreamstream=analyzer.tokenStream("",newStringReader("我爱北京天安门"));//获
取词
与词之间的位置增量
zheng_pat
·
2016-03-22 20:00
科研路上的拦路虎英文翻译
外文文献翻译过程中的三大利器:-Google“翻译”频道-金山词霸(完整版)-CNI“翻译助手”先打开金山词霸自动
取词
功能,然后阅读文献;遇到无法理解的长句时,可以交给Google处理,处理后的结果猛一看
parker1234
·
2016-03-18 11:00
论文
英文翻译
解码百度输入法词库
声明:下述没有处理拼音,只是简单的提
取词
库中的中文词。 需要处理词库,前提条件是了解词库文件内部存放方式。
ZHOU YANG
·
2016-03-17 17:00
动态注入技术
在Windows平台下开发电子词典的光标
取词
功能,这项功能就是利用HookAPI的技术把系统的字符串输出函数替换成了电子词典中的函数,从而能得到屏幕上任何位置的字符串。
hncscwc
·
2016-03-16 16:00
Linux平台上最常用的翻译工具—
StarDict
(星际译王)。
1、打开终端,输入命令$sudoapt-getinstall
stardict
,开始下载安装。2、安装完成后,打开后选择左下角
取词
选项,即可完成屏幕
取词
功能。
loadrunn
·
2016-03-14 17:05
linux
Linux平台上最常用的翻译工具—
StarDict
(星际译王)。
1、打开终端,输入命令$sudoapt-getinstall
stardict
,开始下载安装。2、安装完成后,打开后选择左下角
取词
选项,即可完成屏幕
取词
功能。
Loadrunn
·
2016-03-14 17:00
Android仿英语流利说
取词
放大控件的实现方法(附demo源码下载)
本文实例讲述了Android仿英语流利说
取词
放大控件的实现方法。
bigconvience
·
2016-02-15 11:51
使用
Stardict
命令行版本sdcv
sdcv命令的常用选项如下:-l:列出安装的词典 -u:指定查词所用的词典在我的电脑上列出的词典有:Dictionary'snameWordcountMerrianWebster10thdictionary20517朗道英汉字典5.0435468Dictionnairedel’AcadémieFrançaise,8èmeédition(1935).31216牛津英汉双解美化版39429Ameri
Quantumman
·
2016-02-11 11:00
Linux平台上最常用的翻译工具—
StarDict
(星际译王)。
Linux平台上最常用的翻译工具—
StarDict
(星际译王)。
HAI__嗨I起来
·
2016-01-22 19:05
软件使用技巧
Linux平台上最常用的翻译工具—
StarDict
(星际译王)。
Linux平台上最常用的翻译工具—
StarDict
(星际译王)。
became_a_wolf
·
2016-01-22 19:00
linux(所有版本)下安装有道词典
所以,我这里用的方法是间接安装~而且可以同时使用不仅仅是有道词典step1:安装Goldendict在2011年以前,有个很火很好用的词典叫
stardict
,后来这个词典的作者不知所踪,词典无人维护。
Nicoder
·
2016-01-22 09:06
linux
词典
有道词典
linux
Ubuntu常用翻译工具——星际译王
StarDict
星际译王具有全文翻译、屏幕
取词
及单词朗读功能,支持本地和网络词典及模糊查找功能。
liyuru4
·
2016-01-19 14:50
linux下的工具
Mac 词典工具推荐:Youdao Alfred Workflow(可同步单词本)
想必大家都有用过Mac下常见的几款词典工具:特性系统Dictionary欧路词典Mac版有道词典Mac版在线搜索✗✔✔屏幕
取词
☆☆☆★★☆★☆☆划词搜索★★★★★★★☆☆单词本同步✗✔✗价格免费¥98.00
猫哥_kaiye
·
2016-01-08 21:00
VMware中鼠标键盘偶尔失灵的原因
最近VMware的Ubuntu中,鼠标键盘总是奇怪的失灵,卸载、安装折腾了好长时间都没找到原因......近乎崩溃的边缘终于找到了罪魁祸首,竟然是Windows里开的金山词霸屏幕
取词
功能冲突造成的,关掉金山词霸完美解决
lyc_stronger
·
2015-12-23 21:00
vmware
ubuntu
鼠标
cp的用法
)只拷贝链接文件到一个新的位置,不拷贝实际链接的文件#cp-dlibc.so.6/只拷贝符号连接,不拷贝实际的文件(或-P,--preserve=links这三种都可以)#sudocp-P~/opt/
stardict
chenxiaopang
·
2015-12-20 10:00
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他