PDF开发工具Aspose.PDF功能推荐——在.NET中将PDF转换为HTML

PDF是当今最流行的文档格式之一,各种应用程序将其用作最终输出。由于支持多种数据类型和可移植性,因此它是创建和共享内容的首选格式。作为对开发文档管理应用程序感兴趣的.NET应用程序开发人员,可能希望嵌入处理功能,以读取PDF文档并将其转换为其他文件格式,例如HTML。

下面,来探索并演示一下Aspose.PDF for .NET API的强大转换功能,以使用多种选项读取PDF文件并将其转换为HTML。

 

将HTML转换到PDF

只需使用几行代码和资源加载回调就可以以非常基本的方式将HTML转换为PDF,以下是使您达到目的的代码段:

// The path to the documents directory.
string dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();

HtmlLoadOptions options = new HtmlLoadOptions();
options.CustomLoaderOfExternalResources = new LoadOptions.ResourceLoadingStrategy(SamePictureLoader);

Document pdfDocument = new Document(dataDir + "HTMLToPDF.html", options);
pdfDocument.Save("HTMLToPDF_out.pdf");

将PDF转换为多页HTML

可以使用以下示例代码在将PDF转换为HTML的过程中,将上述步骤中的HTML分为多个页面。

// The path to the documents directory.
string dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();

// Open the source PDF document
Document pdfDocument = new Document(dataDir + "PDFToHTML.pdf");

// Instantiate HTML SaveOptions object
HtmlSaveOptions htmlOptions = new HtmlSaveOptions();

// Specify to split the output into multiple pages
htmlOptions.SplitIntoPages = true;

// Save the document
pdfDocument.Save(@"MultiPageHTML_out.html", htmlOptions);

将SplitIntoPages标志设置为true可以为您完成所有工作,并且输出HTML由多个页面而不是单个页面组成。

将图像保存到特定文件夹

PDF文档除了文本详细信息外还可以包含图像。HTML可以包含HTML内基于64位编码的图像,也可以引用这些图像所在的文件夹中的图像。Aspose.PDF API具有丰富的功能,可以将图像保存到光盘上用户指定的文件夹中。以下代码示例显示了在将PDF转换为HTML的过程中如何将图像保存到特定文件夹。

// Create HtmlSaveOption with tested feature
HtmlSaveOptions newOptions = new HtmlSaveOptions();

// Specify the separate folder to save images
newOptions.SpecialFolderForAllImages = dataDir;

 

你可能感兴趣的:(PDF开发工具Aspose.PDF功能推荐——在.NET中将PDF转换为HTML)