2010-2-24 PDF抽取与XBRL研究日志

之前花了点时间搞PDF 抽取器,它是曹老师一个项目‘基于学术文献的学科知识结构与学术人际关系挖掘研究’,在里边用来实现第一步,即元数据抽取的接口。目前可以抽取作者、标题、关键词、摘要、参考文献,并将正文分段,还没真正测试过,而且,接下去怎么做,曹老师没下文了。。。所以,今天开始,要凭一己之力,在此基础上做点什么,要真正研究点东西,并作为毕业设计,我给自己定下的原则是:

第一,   不追求大,实实在在的做,所涉及概念要问自己,自己来实现的话多少可能性,不要追求虚名。

第二,   在实在的基础上,尽可能深。即所有概念不要涉及皮毛,而要深入

第三,   效率要高,因为我的时间不多了,本次研究的结果除了毕业设计之外,还要作为参加招聘一个亮点。

第四,   做好每一步的整理工作,充分利用网络免费硬盘,并利用博客共享。

 

今天主要做了,第一,主要向外文网站搜索了有关PDF元数据提取的信息,发现返回结果大多是成型的软件,之前已经试了很多种,今天又下了一种叫 PDF-A 的软件,它的亮点是,可以用户自定义规则,规则可以保存、修改,实际抽取的时候,选择规则进行抽取,我只对它进行了初步测试,发现中文文档几乎是无法处理的,(打开中文文档进行自定义规则时打开不了),可见,其对中文的支持不行。我感兴趣的是,它的自定义这一块是如何实现的,因为实现PDF抽取,必然要克服不同期刊和出版商的PDF 格式不同的问题,之前我采用最傻的方法,即在程序中穷举各种格式,它的依据是,科技文献的格式相对集中。但事实上,格式的多样决定了穷举方法无法‘穷举’,你照顾了这种格式,对那种格式的照顾必然受影响。

所以,抽取规则自定义的实现,要做一下研究了。但是,在查找资料过程中,发现了以前没发现的一种东西:XBRL,可扩展商业报告语言。这东西进入中国才3,4年,2010-5月中国正式宣布加入其国际组织:http://www.xbrl-cn.org/content.do?method=cnlist&pid=29 XBRL,简单讲,是用XML的格式描述财务报表,我们知道,之前各大公司的财务报表一般是静态的,如word , excel , PDF 的格式,一家公司常常要人工准备多钟报表,(内部使用、给证劵交易所使用、网络公布使用),美国一位会计师就想出这种后来被标准组织称为 XBRL 的东西,用它描述财务信息,由于本质是一种XML,所以,动态性非常好,只要有对应应用软件,想作为公布可以直接公布,想生成什么格式就生成什么格式,最重要的是,还可以进行深度分析,之前财务人员对比十家公司的财务数据,必须找到10PDF,现在,如果他们都是以 XBRL 格式存储,那么可以用软件直接比较分析。正是这种好处,中国政府选择它做为会计信息化的先锋。深交所和上交所已经有部分企业实现了这种应用:http://listxbrl.sse.com.cn/ssexbrl/companyInfoAction.do http://xbrl.cninfo.com.cn/XBRL/index.jsp

具本人了解,(参考论文:http://www.lunwentianxia.com/product.free.9448929.1/ ),目前对XBRL的使用是这样的,之前企业的ERP系统生成的业务还是以之前的excel pdf word等方式,如果是excel等格式,深交所和上交所都是请软件公司做接口软件,将excel word 等自动转化为 XBRL,对于PDF这种无法直接编辑的格式,采取人工采集数据,录入一个界面然后生成XBRL,只要生成了第一次,以后就不用再生成了。理想化的使用是,在原来的ERP系统中集成进一个模块,直接就以XBRL作为业务数据输出,不过目前这种方式是不可行的,很少有公司可以有那么大资金、时间和风险的情况下,进行这种尝试。

我最关心的是,

第一,   PDF直接转化为XBRL的可行性有多少?因为我本身做的就是,中文PDF的转化,当然,财务报表应该是比科技文献格式更复杂的一种,否则,与深交所和上交所合作的公司不会没有想到这一点。

第二,   PDF直接转化为XBRL的好处有多少?首先,它应该只是过渡时期起作用,因为今后如果ERP都实现了直接输出XBRL,那么这一块就不存在了。它的意义,好像只是取代了人工录入这一块

第三,   PDF直接转化为XBRL的准确性由多少?财务数据对准确性要求极高,而PDF转化软件,以本人的搜集来看,都达不到财务数据要求的那种准确性。

你可能感兴趣的:(数据挖掘,网络应用,Excel,软件测试,企业应用)