索引由原先的128位的跳跃表,更改为二分法查找

引用
 交谈中请勿轻信汇款、中奖信息、陌生电话,勿使用外挂软件。

 开心延年-alipay<[email protected]>  10:18:56
风车车(54343885)  10:18:36
用多台内存服务器不行么


肯定可以啦  
风车车(54343885)  10:19:14
现在内存这么便宜
开心延年-alipay<[email protected]>  10:19:21
不是啦 存储的就是ID的值   
风车车(54343885)  10:19:26
放内存,效率应该很快咯
lykke.lm(715356603)  10:19:32
你对id 进行md5?
lykke.lm(715356603)  10:19:41
然后呢 索引??
开心延年-alipay<[email protected]>  10:19:47
很多网站ID的值存储的就是 MD5  所以尽量模拟真实情景啦 
开心延年-alipay<[email protected]>  10:20:02
你可以存储任何值
lykke.lm(715356603)  10:20:18
很多网站的id 是url 的md5 不错大多数是 content的md5 
bruce_yang(782506462)  10:20:27
lucene
bruce_yang(782506462)  10:20:42
一亿索引才8G 多啊?
lykke.lm(715356603)  10:20:52
你这个 能开源一下么  开心
bruce_yang(782506462)  10:21:06
开心你做的搜索引擎?
bruce_yang(782506462)  10:21:21
 会员魔法表情:《无聊》播放  回复  收藏
lykke.lm(715356603)  10:21:21
我现在数据量 上亿条 但是 搜索速度很慢
开心延年-alipay<[email protected]>  10:21:27
当然可以啦 
开心延年-alipay<[email protected]>  10:21:30
业余爱好而已 
bruce_yang(782506462)  10:21:32
开心 说说
bruce_yang(782506462)  10:21:33
这个 
bruce_yang(782506462)  10:21:38
是啥啊
bruce_yang(782506462)  10:21:42
改写lucene的?
高调-失业中(13574798)  10:21:42
开心NC
xiaolong(312210901)  10:21:58
每条数据有多大呢?   
开心延年-alipay<[email protected]>  10:22:14
每条数据有多大呢?      MD5 32长度
xiaolong(312210901)  10:22:57
。。。很多   
开心延年-alipay<[email protected]>  10:23:23
呵呵  要源码的 留email
风车车(54343885)  10:23:38
[email protected]
kwee(836232886)  10:23:41
[email protected]
kwee(836232886)  10:23:48
 
风(51263)  10:23:51
[email protected]
lykke.lm(715356603)  10:23:56
[email protected]

bruce_yang(782506462)  10:23:59
[email protected]
bruce_yang(782506462)  10:24:02
开心 
bruce_yang(782506462)  10:24:10
感恩节 记得发源码
越测越开心(19730953)  10:24:14
[email protected]
bruce_yang(782506462)  10:24:14
 
kwee(836232886)  10:24:16
 
越测越开心(19730953)  10:24:21
感恩 哈哈
伟大的小白(439297317)  10:24:20
什么东西 
伟大的小白(439297317)  10:24:25
那么多人留有向
kelo_北京(13581754)  10:24:30
[email protected]
lykke.lm(715356603)  10:24:32
你们也不搞搜索 凑设呢们热闹呢
匿-新媒(670906880)  10:24:34
[email protected]
开心延年-alipay<[email protected]>  10:24:38
其实源码改动量很小啦 
bruce_yang(782506462)  10:24:54
先说说吧
bruce_yang(782506462)  10:24:58
你这个是啥
bruce_yang(782506462)  10:25:01
改的lucene?
bruce_yang(782506462)  10:25:04
改的哪儿

zzy - Anchora(251547518)  10:25:06
同求 [email protected]
开心延年-alipay<[email protected]>  10:25:19
索引更改点
1. 索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)
2. Term压缩方式由原先,存储上一条记录的差异,存储关键点的差异(这样会照成压缩比降低,但是二分法必须这样做)
3.如果索引二分查找文档差异<128则,保留原先链表顺序查找,调用scan方法(这样做尽管读的次数增多,但考虑磁盘的物理特点,结合文件缓冲区,速度会比不断的seek快,物理硬盘适合读取连续的数据)(深入阅读缓冲区源码后,发现lucene对seek有优化,这步优化多余)
4. 由于norms同样非常消耗内存,这里创建索引的时候禁用norms,待以后改进此处

开心延年-alipay<[email protected]>  10:25:57
 
伟大的小白(439297317)  10:25:57
lucene?
开心延年-alipay<[email protected]>  10:26:05
只改动了这几个类
lykke.lm(715356603)  10:26:25
发源码吧 开心
伟大的小白(439297317)  10:26:34
跳跃表的性能 > 二分法吧
kelo_北京(13581754)  10:26:41
是呀,开心
云 - 华(46249327)  10:26:50
单机 lucene能够支持十亿级别索引的查询   
lykke.lm(715356603)  10:27:05
 

我也觉得不可能 
开心延年-alipay<[email protected]>  10:27:18
代码给你  自己测试下就知道啦 
bruce_yang(782506462)  10:27:23
改了建立索引的 java代码?
lykke.lm(715356603)  10:27:23
我现在的索引大约10个g 单机 根本不行 
伟大的小白(439297317)  10:27:34
难 追求速度 需要内存全加载
bruce_yang(782506462)  10:27:42
10G 多少条数据啊
bruce_yang(782506462)  10:27:44
lm
伟大的小白(439297317)  10:27:46
那多坑跌阿
bruce_yang(782506462)  10:27:47
luykke
lykke.lm(715356603)  10:27:55
我那个 是网页
翟光亚(304428768)  10:28:01
索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)
这个会占用多大内存?
翟光亚(304428768)  10:28:09
感觉没有必要这样的
伟大的小白(439297317)  10:28:30
我一直没搞明白
伟大的小白(439297317)  10:28:41
跳跃表就是为了节约内存设计的
lykke.lm(715356603)  10:28:52
单机可以查10g的搜索并且速度上可以改进的一点就是 将10g的索引 分开目录存储 
lykke.lm(715356603)  10:28:59
用MulitSearch 
伟大的小白(439297317)  10:29:01
怎么二分法反而内存小 。。。。?why?
伟大的小白(439297317)  10:29:08
ss
开心延年-alipay<[email protected]>  10:29:09
[email protected];[email protected];[email protected];[email protected];
开心延年-alipay<[email protected]>  10:29:14
文件二分法啊 
开心延年-alipay<[email protected]>  10:29:18
文件是定长的 
lykke.lm(715356603)  10:29:21
715356603@qq,com
lykke.lm(715356603)  10:29:33
g给我发啊 哥们 
kwee(836232886)  10:29:52
[email protected]
越测越开心(19730953)  10:29:53
还有[email protected]  支持下阿里兄弟
kelo_北京(13581754)  10:30:02
发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事
332106123(332106123)  10:30:20
[email protected]  
bruce_yang(782506462)  10:30:46
kelo 你眼睛分布式?
在路上(386728737)  10:30:47
同求,[email protected], 
bruce_yang(782506462)  10:30:48
研究
bruce_yang(782506462)  10:30:52
单机 ?
bruce_yang(782506462)  10:30:56
还搞啥分布式
开心延年-alipay<[email protected]>  10:31:01
我业余时间搞着玩的哈   就修改了几天
bruce_yang(782506462)  10:31:01
知道sensei没
bruce_yang(782506462)  10:31:16
正需要做搜索呢
bruce_yang(782506462)  10:31:20
你那个不是会bug吧?
开心延年-alipay<[email protected]>  10:31:35
你测试下 
开心延年-alipay<[email protected]>  10:31:45
验证下结果是否正确就知道了 
开心延年-alipay<[email protected]>  10:31:56
邮件中我给出了测试代码
在路上(386728737)  10:32:25
强烈建议开心把源码共享到群
kelo_北京(13581754)  10:32:39
是呀
开心延年-alipay<[email protected]>  10:33:11
都发给大家了 
风(51263)  10:33:50
[email protected],我也要一份


 交谈中请勿轻信汇款、中奖信息、陌生电话,勿使用外挂软件。

 lykke.lm(715356603)  10:28:59
用MulitSearch 
伟大的小白(439297317)  10:29:01
怎么二分法反而内存小 。。。。?why?
伟大的小白(439297317)  10:29:08
ss
开心延年-alipay<[email protected]>  10:29:09
[email protected];[email protected];[email protected];[email protected];
开心延年-alipay<[email protected]>  10:29:14
文件二分法啊 
开心延年-alipay<[email protected]>  10:29:18
文件是定长的 
lykke.lm(715356603)  10:29:21
715356603@qq,com
lykke.lm(715356603)  10:29:33
g给我发啊 哥们 
kwee(836232886)  10:29:52
[email protected]
越测越开心(19730953)  10:29:53
还有[email protected]  支持下阿里兄弟
kelo_北京(13581754)  10:30:02
发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事
332106123(332106123)  10:30:20
[email protected]  
bruce_yang(782506462)  10:30:46
kelo 你眼睛分布式?
在路上(386728737)  10:30:47
同求,[email protected], 
bruce_yang(782506462)  10:30:48
研究
bruce_yang(782506462)  10:30:52
单机 ?
bruce_yang(782506462)  10:30:56
还搞啥分布式
开心延年-alipay<[email protected]>  10:31:01
我业余时间搞着玩的哈   就修改了几天
bruce_yang(782506462)  10:31:01
知道sensei没
bruce_yang(782506462)  10:31:16
正需要做搜索呢
bruce_yang(782506462)  10:31:20
你那个不是会bug吧?
开心延年-alipay<[email protected]>  10:31:35
你测试下 
开心延年-alipay<[email protected]>  10:31:45
验证下结果是否正确就知道了 
开心延年-alipay<[email protected]>  10:31:56
邮件中我给出了测试代码
在路上(386728737)  10:32:25
强烈建议开心把源码共享到群
kelo_北京(13581754)  10:32:39
是呀
开心延年-alipay<[email protected]>  10:33:11
都发给大家了 
风(51263)  10:33:50
[email protected],我也要一份
广州-ZBIRD(258987928)  10:34:56
[email protected]
广州-ZBIRD(258987928)  10:35:07
 
在路上(386728737)  10:35:59
开心,都改了哪些类?
开心延年-alipay<[email protected]>  10:36:12
 
在路上(386728737)  10:36:28
能否兼容lucene3.3~3.4版本?
开心延年-alipay<[email protected]>  10:36:40
TermInfosReader与TermInfosWriter
开心延年-alipay<[email protected]>  10:36:46
肯定不兼容了 
开心延年-alipay<[email protected]>  10:36:51
索引都变了 
bruce_yang(782506462)  10:36:51
找不到啊
开心延年-alipay<[email protected]>  10:36:56
你以为我是作者啊 
bruce_yang(782506462)  10:36:57
叫啥名字
lykke.lm(715356603)  10:37:06
呵呵
开心延年-alipay<[email protected]>  10:37:07
你邮箱多少

bruce_yang(782506462)  10:37:14
[email protected]
bruce_yang(782506462)  10:37:28
不兼容?
bruce_yang(782506462)  10:37:41
擦
kwee(836232886)  10:37:43
[email protected]
开心延年-alipay<[email protected]>  10:37:47
就三天晚上 还兼容啊 呵呵
在路上(386728737)  10:38:14
我的意思是说,代码能否工作在3.4下,索引重建
bruce_yang(782506462)  10:38:30
北京一家牛逼个欧诺公司
bruce_yang(782506462)  10:38:33
公司
bruce_yang(782506462)  10:38:36
又要不去的没
bruce_yang(782506462)  10:38:42
乐荐网络( www.joyrec.com)
开心延年-alipay<[email protected]>  10:40:44
没测试过呀 
bruce_yang(782506462)  10:42:41
还是没收到呢
bruce_yang(782506462)  10:42:42
开心 
开心延年-alipay<[email protected]>  10:43:33
你的邮箱不让发吧 
高调-失业中(13574798)  10:43:33
群共享源码
bruce_yang(782506462)  10:43:46
[email protected]
bruce_yang(782506462)  10:43:48
这个吧
kwee(836232886)  10:44:00
[email protected].  
bruce_yang(782506462)  10:46:23
收到了 tks
高调-失业中(13574798)  10:46:30
[email protected]
kwee(836232886)  10:46:53
谢谢 收到。
伟大的小白(439297317)  10:47:03
变那么多人研究luncene了?
开心延年-alipay<[email protected]>  10:47:12
空间不足 无法上传 汗 
高调-失业中(13574798)  10:47:35
上传到零时空间
bruce_yang(782506462)  10:48:16
lucene4 听说改动很大
kelo_北京(13581754)  10:48:25
邮件收到,忙这阵,好好研究一下,怎样在单机上多上个几亿数据
bruce_yang(782506462)  10:48:26
性能提升 非常大
bruce_yang(782506462)  10:48:41
kelo。北京
开心延年-alipay<[email protected]>  10:48:43
lucene4  都出来啦 
开心延年-alipay<[email protected]>  10:48:47
改动了啥呀 
bruce_yang(782506462)  10:48:47
你现在数据多少
bruce_yang(782506462)  10:48:57
lucene4  已经 测试了
bruce_yang(782506462)  10:48:58
开始
bruce_yang(782506462)  10:49:08
算法改动很大
伟大的小白(439297317)  10:50:30
lucene4把api接口都换了
伟大的小白(439297317)  10:50:41
实现策略也是
伟大的小白(439297317)  10:50:48
基本不能过度
kelo_北京(13581754)  10:51:16
没看到呀
kelo_北京(13581754)  10:51:25
看看svn里头的
kelo_北京(13581754)  10:51:48
呵呵,自玩的
清澈高远(305412982)  10:51:55
lucene更新很快
bruce_yang(782506462)  10:52:19
 
bruce_yang(782506462)  10:52:27
 http://paris8.org/a/bbs/viewthread.php?tid=6098
伟大的小白(439297317)  10:53:37
真心累啊 我在看osgi md 发现唯一的文档竟然和现在版本差距那么多  才多久阿
bruce_yang(782506462)  10:53:45
 http://ostatic.com/blog/guest-post-under-the-hood-in-apache-lucene-4-0
bruce_yang(782506462)  10:53:47
原文 
bruce_yang(782506462)  10:54:31
哪位研究过sensei
开心延年-alipay<[email protected]>  10:55:10
不行了  得干活了 如果还有人想要源码 发邮件给[email protected]  我定期回复  
伟大的小白(439297317)  10:55:11
上次也是 去年弄得cas 今年发现版本更新
bruce_yang(782506462)  10:55:40
搞这么大 更新太快了
bruce_yang(782506462)  10:55:52
lucene3 变化很大
bruce_yang(782506462)  10:55:59
现在4也很大
广州-ZBIRD(258987928)  10:56:17
谁转发一份给偶。呵呵。谢谢
伟大的小白(439297317)  10:56:41
lucene2 -> 3 不兼容 -> 4 不一定兼容
bruce_yang(782506462)  10:58:17
linkedin 公司的分布式搜索
bruce_yang(782506462)  10:58:23
哪位研究过
源远流长(117405390)  10:58:30
zoie? 
bruce_yang(782506462)  10:58:34
不是
bruce_yang(782506462)  10:58:38
sensei
日期:2011/11/24
开心延年-alipay<[email protected]> 10:37:07 
你邮箱多少

bruce_yang(782506462) 10:37:14 
[email protected]
bruce_yang(782506462) 10:37:28 
不兼容?
bruce_yang(782506462) 10:37:41 
擦
kwee(836232886) 10:37:43 
[email protected]
开心延年-alipay<[email protected]> 10:37:47 
就三天晚上 还兼容啊 呵呵
在路上(386728737) 10:38:14 
我的意思是说,代码能否工作在3.4下,索引重建
bruce_yang(782506462) 10:38:30 
北京一家牛逼个欧诺公司
bruce_yang(782506462) 10:38:33 
公司
bruce_yang(782506462) 10:38:36 
又要不去的没
bruce_yang(782506462) 10:38:42 
乐荐网络(www.joyrec.com)
开心延年-alipay<[email protected]> 10:40:44 
没测试过呀 
bruce_yang(782506462) 10:42:41 
还是没收到呢
bruce_yang(782506462) 10:42:42 
开心 
开心延年-alipay<[email protected]> 10:43:33 
你的邮箱不让发吧 
高调-失业中(13574798) 10:43:33 
群共享源码
bruce_yang(782506462) 10:43:46 
[email protected]
bruce_yang(782506462) 10:43:48 
这个吧
kwee(836232886) 10:44:00 
[email protected].  
bruce_yang(782506462) 10:46:23 
收到了 tks
高调-失业中(13574798) 10:46:30 
[email protected]
kwee(836232886) 10:46:53 
谢谢 收到。
伟大的小白(439297317) 10:47:03 
变那么多人研究luncene了?
开心延年-alipay<[email protected]> 10:47:12 
空间不足 无法上传 汗 
高调-失业中(13574798) 10:47:35 
上传到零时空间
bruce_yang(782506462) 10:48:16 
lucene4 听说改动很大
kelo_北京(13581754) 10:48:25 
邮件收到,忙这阵,好好研究一下,怎样在单机上多上个几亿数据
bruce_yang(782506462) 10:48:26 
性能提升 非常大
bruce_yang(782506462) 10:48:41 
kelo。北京
开心延年-alipay<[email protected]> 10:48:43 
lucene4  都出来啦 
开心延年-alipay<[email protected]> 10:48:47 
改动了啥呀 
bruce_yang(782506462) 10:48:47 
你现在数据多少
bruce_yang(782506462) 10:48:57 
lucene4  已经 测试了
bruce_yang(782506462) 10:48:58 
开始
bruce_yang(782506462) 10:49:08 
算法改动很大
伟大的小白(439297317) 10:50:30 
lucene4把api接口都换了
伟大的小白(439297317) 10:50:41 
实现策略也是
伟大的小白(439297317) 10:50:48 
基本不能过度
kelo_北京(13581754) 10:51:16 
没看到呀
kelo_北京(13581754) 10:51:25 
看看svn里头的
kelo_北京(13581754) 10:51:48 
呵呵,自玩的
清澈高远(305412982) 10:51:55 
lucene更新很快
bruce_yang(782506462) 10:52:19 
 
bruce_yang(782506462) 10:52:27 
http://paris8.org/a/bbs/viewthread.php?tid=6098
伟大的小白(439297317) 10:53:37 
真心累啊 我在看osgi md 发现唯一的文档竟然和现在版本差距那么多  才多久阿
bruce_yang(782506462) 10:53:45 
http://ostatic.com/blog/guest-post-under-the-hood-in-apache-lucene-4-0
bruce_yang(782506462) 10:53:47 
原文 
bruce_yang(782506462) 10:54:31 
哪位研究过sensei
开心延年-alipay<[email protected]> 10:55:10 
不行了  得干活了 如果还有人想要源码 发邮件给[email protected]  我定期回复  
伟大的小白(439297317) 10:55:11 
上次也是 去年弄得cas 今年发现版本更新
bruce_yang(782506462) 10:55:40 
搞这么大 更新太快了
bruce_yang(782506462) 10:55:52 
lucene3 变化很大
bruce_yang(782506462) 10:55:59 
现在4也很大
广州-ZBIRD(258987928) 10:56:17 
谁转发一份给偶。呵呵。谢谢
伟大的小白(439297317) 10:56:41 
lucene2 -> 3 不兼容 -> 4 不一定兼容
bruce_yang(782506462) 10:58:17 
linkedin 公司的分布式搜索
bruce_yang(782506462) 10:58:23 
哪位研究过
源远流长(117405390) 10:58:30 
zoie? 
bruce_yang(782506462) 10:58:34 
不是
bruce_yang(782506462) 10:58:38 
sensei

你可能感兴趣的:(java)