此方法适用最新的道客巴巴网站,使用html5的canvas元素进行文档内容显示的情况。其实canvas元素显示的就是图片,所有的文档pdf,ppt,doc等都是通过这些网站的后台转为图片后显示在网站上的,所以此方法只是拿到网站显示的图片,不能拿到原始格式的文件。
道客巴巴
豆丁文档目前是使用swf+canvas的方式,在页面没法直观看到canvas元素,所以此方法不能保存豆丁文档。
在谷歌浏览器中,F12打开开发者工具,切换到console控制台输出页签,运行如下js代码,输出canvas文件转为图片base64编码格式的长文本,如下图
document.getElementById('page_1').toDataURL()
点击copy,然后粘贴到文本编辑器软件中,此处使用Notepad++。
把这一长串canvas图片的base64编码文本,最开始的标识字符去掉,即去掉尖括号内部分
点击 “还原生成的Base64编码为图片”
在解码后生成的图片上邮件,另存为图片即可。
此种方式,针对多页的文档,只能一页页的手工处理,除了使用图片base64解码的网站解码外,还可以编写代码解码,但是同样的要注意把文本格式的图片base64编码的最开始部分要去掉,java解码代码如下
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import sun.misc.BASE64Decoder;
import sun.misc.BASE64Encoder;
public class Data2ImgTest {
public static void main(String[] args) {
Data2ImgTest.GenerateImage(Data2ImgTest.readFileByLines("imagedata.txt"));
}
//图片转化成base64字符串
public static String GetImageStr(String path) {//将图片文件转化为字节数组字符串,并对其进行Base64编码处理
String imgFile = path;//待处理的图片
InputStream in = null;
byte[] data = null;
//读取图片字节数组
try {
in = new FileInputStream(imgFile);
data = new byte[in.available()];
in.read(data);
in.close();
} catch (IOException e) {
e.printStackTrace();
}
//对字节数组Base64编码
BASE64Encoder encoder = new BASE64Encoder();
return encoder.encode(data);//返回Base64编码过的字节数组字符串
}
//base64字符串转化成图片
public static boolean GenerateImage(String imgStr) {
System.out.print("已经收到了把字节码转化为图片的方法");
//对字节数组字符串进行Base64解码并生成图片
if (imgStr == null) //图像数据为空
return false;
BASE64Decoder decoder = new BASE64Decoder();
try {
//Base64解码
byte[] b = decoder.decodeBuffer(imgStr);
for (int i = 0; i < b.length; ++i) {
if (b[i] < 0) {//调整异常数据
b[i] += 256;
}
}
//生成jpeg图片
//System.currentTimeMillis()
String imgFilePath = "C:\\Java\\school_mart.jpg";//新生成的图片
OutputStream out = new FileOutputStream(imgFilePath);
out.write(b);
out.flush();
out.close();
return true;
} catch (Exception e) {
return false;
}
}
}
如果有哪位大神可以把这个过程写成自动化处理程序,那么就完美了。可惜下载的始终是文档的页面转换后的图片,在进行多次放大后会失真,并且最终生成的文件大小也会比原始文档大很多。
参考博客:
1.https://blog.csdn.net/hb707934728/article/details/68945763
2.https://blog.csdn.net/shb2058/article/details/77523330