Sharepoint2010中如何全文搜索.pdf文件类型的内容

一,首先摘了一段觉得很必要的,需理解下爬网程序如何运行。

爬网程序按如下方式使用协议处理程序和 IFilter:

  1. 爬网程序检索内容源的开始地址,并根据 URL 的前缀调用协议处理程序。

  2. 协议处理程序连接到内容源,并提取系统级元数据和访问控制列表信息。

  3. 协议处理程序根据文件扩展名识别每个内容项的文件类型,并调用与该文件类型关联的相应 IFilter。

  4. IFilter 提取内容,并移除任何嵌入的格式设置,然后检索内容项元数据。

  5. 内容由一个或多个相应语言的分词系统进行分析,并添加到内容索引(也称为全文检索)中。元数据和访问控制列表将添加到搜索数据库中。

原文可参考 IFilter 和协议处理程序 (Office SharePoint Server 2007) 


二,因为Sharepoint2010在没装其他东西情况下是没法搜到.pdf文件类型的内容的,所以看下文

使用SharePoint Server 2010搜索PDF文档

基本步骤如下:

1. 从这里下载PDF iFilter 9.0 (for 64bit),并安装

2. 下载PDF文件图标(pdf16.gif),并复制到C:\Program Files\Common Files\Microsoft Shared\Web Server Extensions\14\TEMPLATE\IMAGES

3. 在C:\Program Files\Common Files\Microsoft Shared\Web Server Extensions\14\TEMPLATE\XML文件夹中,找到文件docIcon.xml文件,并把如下标记添加到ByExtension节点下 面:

<Mapping Key="pdf" Value="pdf16.gif" />

4. 打开注册表编辑器,找到如下配置节:\\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office Server\14.0\Search\Setup\ContentIndexCommon\Filters\Extension

Sharepoint2010中如何全文搜索.pdf文件类型的内容_第1张图片

5. 在Extension中添加一个新项,命名为“.pdf”,并给默认值输入“{E8978DA6-047F-4E3D-9C78-CDBE46041603}”

Sharepoint2010中如何全文搜索.pdf文件类型的内容_第2张图片

3

6. 配置搜索【管理文件类型】:

打开【管理中心】--【一般应用程序设置】--【Search Service Application】--【文件类型】;如下图:

Sharepoint2010中如何全文搜索.pdf文件类型的内容_第3张图片

点【新建文件类型】,如下图:

5

最后显示:

7. 打开Windows Services管理器,重启“SharePoint Server Search 14 ”服务

命令行:

Net stop osearch14

Net start osearch14

Sharepoint2010中如何全文搜索.pdf文件类型的内容_第4张图片

8. 执行完全爬网搜索(或,之前进行过完全爬网的,可以执行增量爬网)

9. 现在就可以搜索到包含在pdf文档中关键字了。

Sharepoint2010中如何全文搜索.pdf文件类型的内容_第5张图片

原文:http://www.cnblogs.com/ITBoy-lv/archive/2012/06/07/2540421.html

另外,Sharepoint搜索PDF内容的几种软件

最后,一个比较怪的问题就是 Sharepoint的划词系统有点摸不着头脑,例如一个doc文档叫做"中文测试",那么搜索"中文测试"是搜不到的,搜"中文"或者"测试"可能搜到。

你可能感兴趣的:(pdf,全文搜索,协议处理程序,爬网,IFilter)