asp.net pdf转化为word(and直接提取内容)

1.首先我们需要一个 Spire.Pdf.

打开vs的Nuget,下载
asp.net pdf转化为word(and直接提取内容)_第1张图片
image.png

然后就是


asp.net pdf转化为word(and直接提取内容)_第2张图片
image.png

引入
using Spire.Pdf;
using Spire.License;

这个例子的作用是将pdf转化为word,并直接打开。
经过测试,如果电脑是micsorft的word可以直接打开,WPS是打开了,但是文件打不开。

PdfDocument doc = new PdfDocument();
        //加载PDF
        doc.LoadFromFile(@"D:\WebApplication2\WebApplication2\123.pdf");
        //调用SaveToFile方法将PDF文档转换为word格式;
        doc.SaveToFile(@"D:\WebApplication2\WebApplication2\123.pdf", FileFormat.DOC);
        System.Diagnostics.Process.Start(@"D:\WebApplication2\WebApplication2\123.pdf");

还有就是注意路径的问题,我的pDF是放到根目录的。

2如何创建一个pdf


asp.net pdf转化为word(and直接提取内容)_第3张图片
image.png
        //Create a pdf document.
        PdfDocument doc = new PdfDocument();
        // Create one page
        PdfPageBase page = doc.Pages.Add();
        //Draw the text
        page.Canvas.DrawString("Hello, I'm Created By SPIRE.PDF!",
        new PdfFont(PdfFontFamily.TimesRoman, 30f),
        new PdfSolidBrush(Color.Black), 10, 10);
        //保存PDF路径
        doc.SaveToFile(@"D:\WebApplication2\WebApplication2\pdf\456.pdf");
        doc.Close();
        Response.Write("成功");

然后用word打开
asp.net pdf转化为word(and直接提取内容)_第4张图片
image.png
asp.net pdf转化为word(and直接提取内容)_第5张图片
image.png

然后就打印出来了,画框的是dll带出来的文字。

3.然后我们创建一个将Html转化为pdf的


asp.net pdf转化为word(and直接提取内容)_第6张图片
image.png

这样就转化好了

4.从PDF中撷取文本


asp.net pdf转化为word(and直接提取内容)_第7张图片
image.png

源码:

protected void Page_Load(object sender, EventArgs e)
{
//复制代码
//Create a pdf document.
PdfDocument doc = new PdfDocument();
// Load the PDF Document
doc.LoadFromFile(@"E:\2018-4-28\2018-4-27\WebApplication2\WebApplication2\45678.pdf");
// String for hold the extracted text
StringBuilder buffer = new StringBuilder();
foreach (PdfPageBase page in doc.Pages)
{
buffer.Append(page.ExtractText().Replace("Evaluation Warning : The document was created with Spire.PDF for .NET.",""));
Response.Write(buffer);
}
doc.Close();
//save text
//String fileName = @"D:\WebApplication2\WebApplication2\pdf\TextInPdf.txt";
//File.WriteAllText(fileName, buffer.ToString());
//buffer = null;
}

buffer.Append(page.ExtractText().Replace("Evaluation Warning : The document was created with Spire.PDF for .NET.",""));

这段代码,是因为我转化的文字每次独有这段话,所以替换了下,替换成空格。


asp.net pdf转化为word(and直接提取内容)_第8张图片
image.png

5.相对路径转化。

asp.net pdf转化为word(and直接提取内容)_第9张图片
image.png

源码:
protected void Page_Load(object sender, EventArgs e)
{
//复制代码
//Create a pdf document.
PdfDocument doc = new PdfDocument();
// Load the PDF Document
string url = System.Web.HttpContext.Current.Server.MapPath(@"~/45678.pdf");
doc.LoadFromFile(url);
StringBuilder buffer = new StringBuilder();
foreach (PdfPageBase page in doc.Pages)
{
buffer.Append(page.ExtractText().Replace("Evaluation Warning : The document was created with Spire.PDF for .NET.",""));
Response.Write(buffer);
}
doc.Close();
}
转化成的效果图。
原文链接: https://www.cnblogs.com/Yesi/p/4289981.html

你可能感兴趣的:(asp.net pdf转化为word(and直接提取内容))