E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
分词器
编译原理(1)---c语言
分词器
概述 环境:linux&win 语言:标准C 解析对象:c89 工程工具:vs2008,codeblocks 参考书籍:《K&R C Language》《编译原理(紫龙书)》 工程下载地址:我的新浪共享,http://ishare.iask.sina.com.cn/f/11837686.html 其他:供学习参考交流 要识别的C语言Ascii字符表
·
2015-11-02 11:44
编译原理
python中文
分词器
pymmseg的安装实录
最近在用python做爬虫项目,感受到了python的强大,这期间要试试python的文本处理,要用到中文分词,故把我安装使用pymmseg的过程记录下来,作为备忘。 pymmseg的项目下载地址是https://code.google.com/p/pymmseg-cpp/downloads/list 选择下载源码包,自己编译,省的出现不兼容的情况。我选择的是pymmseg-cpp-src-1
·
2015-11-02 11:27
python
Lucene索引
从中提取出所需的文本,其作用于物理文件;2、分析器用来分析文本内容(文字),其作用于解析器处理物理文件之后生成的文本;Lucene没有自己开发语言分析程序,JavaCC来生成分析器;分析器(analyzer)主要包含
分词器
和过滤器
·
2015-11-02 10:18
Lucene
Lucene.net 搜索引擎中中文词组分词的实现
Lucene.net标准
分词器
在英文分词中有非常好的体验。比喻说:在邮件,IP地址,符号处理方面,它都处理得非常好。只是很遗憾,它不支持中文词组分词。
·
2015-11-02 09:56
Lucene
Solr中文分词配置(2)
1、下载
分词器
:http://code.google.com/p/mmseg4j/ 2、将解压后的mmseg4j-1.8.2目录下的mmseg4j-all
·
2015-11-01 14:45
Solr
Windows下面安装和配置Solr 4.9(三)支持中文
分词器
首先将下载解压后的solr-4.9.0的目录里面F:\tools\开发工具\Lucene\solr-4.9.0\contrib\analysis-extras\lucene-libs找到lucene-analyzers-smartcn-4.9.0.jar文件, 将它复制到solr的Web应用程序里面D:\apache-tomcat-7.0.54\webapps\solr\WEB-INF\li
·
2015-11-01 13:30
windows
重写lucene.net的
分词器
支持3.0.3.0版本
lucene.net中每个
分词器
都是一个类,同时有一个辅助类,这个辅助类完成分词的大部分逻辑。分词类以Analyzer结尾,辅助类通常以Tokenizer结尾。
·
2015-11-01 13:28
Lucene
文本分类(一)封装
分词器
我自己简易封装了一个
分词器
,使用Lucene.Net.类图如下: 使用测试如下: Code 1namespace Waemz.ChnGlobal.Test
·
2015-11-01 10:28
分词器
文本分类(二)特征权重量化器(文档转向量表示)
上一节做了
分词器
的实现,并实现了Simple、Standar、Cn、ICTCLAS几个分词算法。
·
2015-11-01 10:27
文档
Lucene.Net 2.3.1开发介绍 —— 二、分词(六)
这样改变,导致了2.3.1版本不得不修改2.1版以前的所有
分词器
。带来的另外一个问题的是,以前的一些现有
分词器
,拿到这里可能就不能用了。  
·
2015-11-01 09:02
Lucene
Lucene.Net 2.3.1开发介绍 —— 二、分词(三)
原文: Lucene.Net 2.3.1开发介绍 —— 二、分词(三) 1.3
分词器
结构 1.3.1
分词器
整体结构 从1.2节的分析,终于做到了管中窥豹,现在在Lucene.Net
·
2015-11-01 09:00
Lucene
Lucene.Net 2.3.1开发介绍 —— 二、分词(二)
原文: Lucene.Net 2.3.1开发介绍 —— 二、分词(二) 1.2、分词的过程 1.2.1、
分词器
工作的过程 内置的
分词器
效果都不好,那怎么办?只能自己写了!
·
2015-11-01 09:59
Lucene
sqlite中的hash算法实现
sqlite的
分词器
模块需要对输入的字符串映射为系统中的标示符,其对关键字映射使用了hash算法,其对hash冲突的解决十分巧妙。
·
2015-10-31 16:04
sqlite
基于.Net Framework 3.5的Lucene.Net 中文词组匹配
分词器
可以自己看看是不是很高效。为了加快速度,尽量精简了算法。测试表明,精确度还可以。 由于没有实现完整的一套字典机制,而是普通的文本字典,所以就不提供完整源码下载了,贴出核心的源码。从版本完整度上来说只能算是0.6版。 另外,本分词系统使用的词库是ShootAnalyzer的词库。 使用方法: 参考以下代码 1 &n
·
2015-10-31 16:54
framework
Lucene为不同字段指定不同
分词器
在lucene使用过程中,如果要对同一IndexWriter中不同 Document,不同Field中使用不同的analyzer,我们该如何实现呢? 通过对《lucene in action》的阅读,发现是可以解决这一问题的。lucene可以正对整个IndexWriter对象或者每一个document对象或者特定 Field使用不同的分析器。 Java代码 复制代码
·
2015-10-31 15:46
Lucene
编程点滴.LUCENE.常用
分词器
在LUCENE中
分词器
可是非常重要的一环.它把一个整句经过提取,去标点,转换成小写,还原,去除停止词等操作后,形成若干个有意义的Term.
·
2015-10-31 14:16
Lucene
中文字符串的编码转换(c实现)
中文字符串在c/c++中表示为字节序列,在分词的时候需要根据不同的编码方式进行分词,一般
分词器
需要转换成统一的编码方式再进行转换,有些
分词器
如ICTCLAS在分词的时候可以不显示定义编码方式
·
2015-10-31 14:42
编码转换
lucene整理3 -- 排序、过滤、
分词器
1. 排序 1.1. Sort类 public Sort() public Sort(String field) public Sort(String field,Boolean reverse) //默认为false,降序排序 public Sort(String[] fields) public Sort(SortField field
·
2015-10-31 12:42
Lucene
Lucene.NET打造站内搜索引擎
我使用的是lucene.net的最新版(Lucene.Net-2.9.2),
分词器
采用了盘古分词,效果还不错。用lucene.net做站内搜索无非就是两步:创建索引和对在索引中搜索。
·
2015-10-31 11:19
Lucene
lucene集成IK实现中文分词检索
这里采用IK
分词器
。
·
2015-10-31 10:23
Lucene
搜索引擎中中文词组分词的实现
实现方式:通过扩展Lucene.net中标准的
分词器
来实现。
·
2015-10-31 09:08
搜索引擎
Lucene使用IKAnalyzer分词实例 及 IKAnalyzer扩展词库
方案一: 基于配置的词典扩充 项目结构图如下:IK
分词器
还支持通过配置IKAnalyzer.cfg.xml文件来扩充您的专有词典。
·
2015-10-31 08:11
IKAnalyzer
【Lucene3.6.2入门系列】第05节_自定义停用词
分词器
和同义词
分词器
首先是用于显示分词信息的HelloCustomAnalyzer.java package com.jadyer.lucene; import java.io.IOException; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.
·
2015-10-30 15:07
Lucene
【Lucene3.6.2入门系列】第04节_中文
分词器
package com.jadyer.lucene; import java.io.IOException; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.SimpleAnalyzer; import org.ap
·
2015-10-30 15:07
Lucene
当前几个主要的Lucene中文
分词器
的比较
http://blog.fulin.org/2009/08/lucene_chinese_analyzer_compare.html 1. 基本介绍: paoding :Lucene中文分词“庖丁解牛” Paoding Analysisimdict :imdict智能词典所采用的智能中文分词程序mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文
·
2015-10-30 14:28
Lucene
利用SOLR搭建企业搜索平台之十三 (solr
分词器
、过滤器、分析器)
昨天晚上详细的说了说lucene的分析器,
分词器
,过滤器。今天我们来说说solr中的这三者吧。他是怎么基于lucene来写的。
·
2015-10-30 13:27
Solr
利用SOLR搭建企业搜索平台 之二(中文分词)
我用的是paoding
分词器
! 1》请下好paoding
分词器
,下载地址:
·
2015-10-30 13:15
Solr
RavenDb进行全文检索实现及数据统计
实现目标:项目中使用到了ravendb进行数据的保存,而ravendb对字段的检索是经过lucene进行处理的,而默认的
分词器
是小写
分词器
,查找网上的资料看中了中科院的ictclas
分词器
和盘古分词。
·
2015-10-30 13:20
全文检索
Lucene.Net 2.3.1开发介绍 —— 二、分词(六)
这样改变,导致了2.3.1版本不得不修改2.1版以前的所有
分词器
。带来的另外一个问题的是,以前的一些现有
分词器
,拿到这里可能就不能用了。
·
2015-10-30 11:06
Lucene
Lucene.Net 2.3.1开发介绍 —— 二、分词(二)
1.2、分词的过程 1.2.1、
分词器
工作的过程 内置的
分词器
效果都不好,那怎么办?只能自己写了!在写之前当然是要先看看内置的
分词器
是怎么实现的了。
·
2015-10-30 11:05
Lucene
Lucene.Net 2.3.1开发介绍 —— 二、分词(三)
1.3
分词器
结构 1.3.1
分词器
整体结构 从1.2节的分析,终于做到了管中窥豹,现在在Lucene.Net项目中添加一个类关系图,把TokenStream和他的儿孙们统统拉上去
·
2015-10-30 11:05
Lucene
Lucene的中文
分词器
IKAnalyzer
分词器
对英文的支持是非常好的。
·
2015-10-28 09:25
IKAnalyzer
Lucene学习-深入Lucene
分词器
,TokenStream获取分词详细信息
Lucene学习-深入Lucene
分词器
,TokenStream获取分词详细信息在此回复牛妞的关于程序中
分词器
的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从TokenStream
lucien_zzy
·
2015-10-27 15:00
Lucene
analyzer
tokenizer
tokenstream
TokenFilter.
Lucene学习-深入Lucene
分词器
,TokenStream获取分词详细信息
阅读更多Lucene学习-深入Lucene
分词器
,TokenStream获取分词详细信息在此回复牛妞的关于程序中
分词器
的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从
lucien_zzy
·
2015-10-27 15:00
lucene
Analyzer
TokenStream
Tokenizer
TokenFilter.
Lucene学习-深入Lucene
分词器
,TokenStream获取分词详细信息
阅读更多Lucene学习-深入Lucene
分词器
,TokenStream获取分词详细信息在此回复牛妞的关于程序中
分词器
的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从
lucien_zzy
·
2015-10-27 15:00
lucene
Analyzer
TokenStream
Tokenizer
TokenFilter.
Lucene篇-D1
原理:简单的说就是我们在添加文章的时候,除了在对数据库进行插入数据,Lucene还会把数据“另存一份”,到以后需要对整个站点的信息资料进行查询的时候,便不会检索数据库里的记录,而是先通过Lucene的
分词器
把用户想要搜索的内容进行自动拆分
·
2015-10-27 14:21
Lucene
Solr调研总结
开发类型 全文检索相关开发 Solr版本 4.2 文件内容 本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试、两个核心配置文件介绍、中文
分词器
配置
·
2015-10-27 13:01
Solr
Lucene学习-深入Lucene
分词器
,TokenStream获取分词详细信息
在此回复牛妞的关于程序中
分词器
的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从TokenStream流中获取.
·
2015-10-27 12:06
Lucene
Solr调研总结
开发类型 全文检索相关开发 Solr版本 4.2 文件内容 本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试、两个核心配置文件介绍、中文
分词器
配置
·
2015-10-27 12:40
Solr
[分词]Java开源中文
分词器
ANSJ_SEG初次试用
近日需要对大众点评网60万+的景点评论进行语义分析,所以必须使用分词工具,刚刚开始时我是选择使用NLPIR汉语分词系统(又名ICTCLAS2014),NLPIR的教程在[分词]NLPIR/ICTCLAS2014分词系统的C++ API 在Windows下初次使用,但是直观上感觉分词效果不怎么理想,所以就选用了另一个工具,同学推荐我用一下ANSJ的中文分词,近来也是在学Java,所以对于java
·
2015-10-27 11:26
开源中文分词
Elasticsearch 中文分词插件 jcseg 安装 (Ubuntu 14.04 下)
这次就尝试使用Elasticsearch+Jcseg,因为在文档检索方面elasticsearch做的相当不错,但是对中文环境来说就差一个很好的中文
分词器
,还好,国内好的中文
分词器
也有蛮多,但是
Koma
·
2015-10-23 18:00
也谈贝叶斯分类二
源码我已经上传至http://finallyliuyu.download.csdn.net/ 里面包括按洞庭散人的算法实现的Bayes,以及我改进的bayes.还有birdshiver写的二元
分词器
,
·
2015-10-23 08:56
分类
通过 Solr 取得分词
FieldAnalysisRequestHandler 可以对某个字段或字段类型的
分词器
对查询串取到分词数据。 用 s
·
2015-10-21 13:24
Solr
PY++ 自动将你的C++程序接口封装供python调用
一个简单的应用我写了一个
分词器
,我希望能通过网页形式展示给别人,我觉得用django做这这件事情比用C++些XML更灵活方
·
2015-10-21 12:45
python
写了一个基于MMSeg分词算法的中文
分词器
(C++)
MMSEG恐怕是最简单易实现而且效果还可以的基于字典的机械分词算法。http://nzinfo.spaces.live.com/Blog/cns!67694E0B61E3E8D2!344.entry 当前我的程序放在http://code.google.com/p/chinese-word-segmentaion/ 网上有一个C++版本的源代码,但是我运行老是字典载入不成功。我看了下他的代码内
·
2015-10-21 12:43
中文分词器
Lucene学习总结之十:Lucene的
分词器
Analyzer
1、抽象类Analyzer 其主要包含两个接口,用于生成TokenStream: TokenStream tokenStream(String fieldName, Reader reader); TokenStream reusableTokenStream(String fieldName, Reader reader) ; 所谓TokenStream,后面我们会讲到,
·
2015-10-21 12:24
Lucene
Lucene 3.0 原理与代码分析
本系列文章尚在撰写之中,将会有
分词器
,段合并,QueryParser,查询语句与查询
·
2015-10-21 12:21
Lucene
Lucene学习总结之七:Lucene搜索过程解析
本系列文章尚在撰写之中,将会有Java CC,
分词器
,QueryParser,查询语句
·
2015-10-21 12:21
Lucene
Hubble.net 0.7.1.0 版本发布
0.7.1.0 版本 1.修改了若干 bug 2.优化了性能 3.增加了 EnglishAnalyzer
分词器
4.增加了两个存储过程 SP_TestAnalyzer SP_GetWordsPositions
·
2015-10-21 12:13
.net
Lucene.Net 2.3.1开发介绍 —— 阅读索引
2.3.1开发介绍 —— 简介 Lucene.Net 2.3.1开发介绍 —— 一、接触Lucene.Net Lucene.Net 2.3.1开发介绍 —— 二、分词(一) 本篇介绍了如何测试
分词器
的效果
·
2015-10-21 12:48
Lucene
上一页
51
52
53
54
55
56
57
58
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他