solr

http://lucene.apache.org/solr/

Solr Features

Solr是一个提供类似REST的API的独立的企业级检索服务器。你可以通过XML、JSON、CVS或者HTTP的二进制来存储文档(或者称为索引)。你可以通过HTTP GET方法查询并且接受XML、JSON、CVS或者二进制数据。

  • 先进的全文检索功能
  • 为高吞量的网略流量进行优化
  • 基于开放接口标准-XML、JSON和HTTP
  • 全面的HTML管理接口
  • 服务器统计信息暴露,可以通过JMX来监控
  • 线性可扩展,自动索引复制,自动故障转移和恢复
  • 近乎实时索引
  • 基于XML配置的灵活性和适应性
  • 可扩展的插件架构

Solr使用Lucene检索库并扩展它

  • 一个真实的数据模式,包括数字类型、动态字段、唯一键
  • 对Lucene查询语言强大的扩展功能
  • 方面检索和过滤
  • 支持每个文档中多点和地理多边形的地理空间检索
  • 先进的,可配置的文本分析器
  • 高度可配置性和用户可扩展缓存
  • 性能优化
  • 基于XML的可扩展配置
  • 基于AJAX的管理接口
  • 可监视的日志
  • 快速接近实时的增量索引和索引复制
  • 基于跨多个主机的索引分片的高度可扩展的分布式检索
  • JSON、XML、CVS/delimited-text,和二进制更新格式
  • 简单的方式拉取数据,从数据库、本地磁盘上的XML文件,或者HTTP资源
  • 使用Apache Tika来解析和索引富文本(PDF、Word、HTML等)
  • 基于Apache UIMA集成配置的元数据提取
  • 多检索索引

Schema

  • 定义文档字段并指定字段类型
  • 可以驱动更智能的处理
  • 申明lucene 分词器
  • 动态字段是能够即时的添加新的字段
  • 字段复制功能允许索引单个字段多种方式,或多个字段合并成一个单一的搜索领域
  • 显式类型,排序了猜测字段类型的必要
  • 基于扩展(外部文件)文件的配置停用词列表、同义词列表、保护词列表
  • 许多额外的文本分析组件,包括单词分割,正则表达式和sounds-like过滤器
  • 每个字段都有可插拔的类似模型

Query

  • HTTP接口提供可配置的响应格式(XML/XSLT、JSON、Python、Ruby、PHP、Velocity、CSV、二进制)
  • 可通过任意数量的字段或者对于任意数量字段的复杂函数来排序
  • 高级的DisMax查询分析器从用户输入的查询中获得高度相关的结果
  • 高亮上下文片段
  • 基于唯一字段值、明确的查询、日期范围、数字范围或者点的方面检索
  • 通过标签或者可选择的执行过滤来实现多方面检索
  • 对用户查询进行拼写建议
  • 给定文档的相似性建议
  • 函数查询-影响用户指定复杂的数值字段或查询相关度分值函数的得分
  • 通过函数查询对结果范围进行过滤
  • Range filter over Function Query results
  • Date Math - specify dates relative to “NOW” in queries and updates
  • 通过carrot2进行动态检索结果聚类
  • 数字字段统计,如最小值,最大值,平均值,标准偏差
  • Combine queries derived from different syntaxes
  • 自动建议功能完成用户查询
  • 允许配置一个查询的最优先的结果,这些结果可以覆盖正常的得分和排序
  • 简单连接两个文档类型功能
  • 性能优化

Core

  • 动态的创建或者删除文档集合而不用重启服务
  • 可插拔的查询处理器和可扩展的XML数据格式
  • 可插拔的用户函数供函数查询
  • 可定制的基于组建的请求处理器并且支持分布式检索
  • 基于unique key 字段的文档唯一性加强
  • 重复文件检测,包括 fuzzy near duplicates
  • 可定制的索引处理链,允许索引前对文档处理
  • User configurable commands triggered on index changes
  • Ability to control where docs with the sort field missing will be placed
  • “Luke” request handler for corpus information

SolrCloud

  • 基于Apache ZooKeeper 的集中式的配置
  • 自动分布式索引/分片,发送文档到任意节点并且文档会被转发到正确的分片
  • 基于立即推模型(同时也支持缓慢拉模型复制)复制的近实时索引
  • 事务日志确保即使更新文档没有索引到磁盘也不会丢失
  • 如果失败时的自动索引故障转移、索引leader选举和故障恢复
  • 无单点故障

Admin Interface

  • 对于缓存利用、更新和查询的综合统计
  • 包括索引统计的交互模式浏览
  • 复制监控
  • 图形化集群节点状态的SolrCloud仪表盘
  • 全日志控制
  • 文本分析调试,显示一个分析器每个阶段的分析结果
  • Web查询接口,w/ 调式输出
  • 解析的查询输出
  • 基于Lecene explain()的文档得分详细设计
  • Explain score for documents outside of the requested range to debug why a given document wasn't ranked highe

你可能感兴趣的:(solr)