HttpHandler解析并展示PDF文档内容

HttpHandler解析并展示PDF文档内容 

如果我们想将服务端的PDF文档内容展示给客户端,往往会通过URL直接访问的方式。这样一来,PDF文档就会毫无保留的保存到客户端去,通过浏览器的PDF插件,客户端可以随意拷贝PDF的副本。本文通过HttpHandler和开源控件PDFBox来对PDF文档进行访问控制,只向客户端解析并展示PDF的内容而非PDF文件本身。

PDF解析


目前有许多PDF解析组件,国内比较常用的是iTextSharp,该控件早期从JAVA移植过来,完全支持.NET平台,在创建PDF文档方面非常灵活易用。然而在读取解析PDF时却显得力不从心,只有少数复杂难用的类可以让我们读取PDF。故不适合本案。


PDFBox在此方面表现却非常突出,同样,它也是从java平台移植过来的, 常用来作为Lucene的PDF索引器。目前,它的开源项目中已经包含了通过IKVM.NET(IKVM.NET is an implementation of Java for Mono and the Microsoft .NET Framework.)封装,而支持.NET的组件。


PDFBox对PDF的读取解析非常简单,只用如下代码即可完成:

private static string parseUsingPDFBox(string filename)

{

  PDDocument doc = PDDocument.load(filename);

  PDFTextStripper stripper = new PDFTextStripper();

  return stripper.getText(doc);

}


故我们选取PDFBox作为PDF解析器。

编写HttpHandler


接下来,我们新建一个类库项目,在其中创建PDFHandler类,实现IHttpHandler接口,用来作为.pdf文件的handler。


主要完成的步骤如下:

1. 为类库和网站添加如下引用:

PDFBox-0.7.2.dll 

IKVM.GNU.Classpath.dll 


  并将下面两个类库也复制到网站的Bin文件夹中:

FontBox-0.1.0-dev.dll 

IKVM.Runtime.dll 

2. 编写PDFHandler类:

using System;

using System.Collections.Generic;

using System.Text;

using System.Web;

using org.pdfbox.pdmodel;

using org.pdfbox.util;

using System.Web.UI.WebControls;

using System.Web.UI;

using System.IO;


namespace LanceZhang.HTTP

{

  public class PDFHandler:IHttpHandler

  {

  #region IHttpHandler Members


  public bool IsReusable

  {

  get { return true; }

  }


  public void ProcessRequest(HttpContext context)

  {

  //获取请求的文件路径,如C:/www/a.pdf

  string path = context.Request.MapPath(context.Request.Path);


  //创建PDF实体和文字解析器

  PDDocument doc = PDDocument.load(path);

  PDFTextStripper stripper = new PDFTextStripper();


  //创建一个TextBox用来显示PDF内容

  TextBox tb = new TextBox();


  tb.Style.Add("width","100%");

  tb.Style.Add("height", "100%");


  tb.TextMode = TextBoxMode.MultiLine;

  tb.Text=stripper.getText(doc);


  //将TextBox render出来

  context.Response.Write(RenderControlAsString(tb));

  }


  public string RenderControlAsString(Control ctl)

  {

  StringWriter sw = new StringWriter();

  HtmlTextWriter writer = new HtmlTextWriter(sw);

  ctl.RenderControl(writer);

  return sw.ToString();

  }



  #endregion

  }

}


部署HttpHandler


1. 编码完成后,我们编译Handler类库项目,并添加网站对该项目的引用。


2. 要使客户端对*.pdf文件的请求被handler处理,我们还需要在web.config中配置刚刚编写好的handler:

<system.web>

  <httpHandlers>

  <add verb="*" path="*.pdf" type="LanceZhang.HTTP.PDFHandler,LanceZhang.HTTP"/>

  </httpHandlers>

</system.web>


3. 这时,使用Visual Studio自带的ASP.NET Deployment Server已经可以成功运行程序了。

你可能感兴趣的:(HttpHandler解析并展示PDF文档内容)