任务列表

需单独开发一个应用,实现知识抓取功能:

1) 可以配置抓取的路径,可以为本地路径、网络路径,ftp路径。对应网络路径和ftp路径,需配置相应的用户名和口令。

2) 路径可以配置多个。每个路径的抓取开始时间可配置,可配置提取间隔。可以指定每个路径抓取到的知识起始路径。

3) 对于配置抓取路径下的文件:

Ø         支持对txt,rtf,htm,html,mht,doc,xls,ppt,pps,pdf,gif,bmp,jpg,rar,zip,docx 类型的文件进行抓取。以附件作为正文的方式进行抓取。

Ø         如果存在除后缀(后缀名为.files)之外与文件名完全相同的文件夹,则文件夹中的文件为正文所依赖文件。比如 文件 天天向上.htm” 文件夹“天天向上.files 

Ø         如果存在除后缀(后缀名不为.files)之外与文件名完全相同的文件夹,则文件夹中的文件作为知识点的附件。比如文件 天天向上.htm” 文件夹“天天向上”

Ø         如果文件夹的名称(除去后缀)不与同级目录下的任何文件名(去除后缀),则进入文件夹中,按照上述规则进行抓取。

4) 抓取时,需要进行关键词自动生成,并进行自动分类。分类规则为:

Ø         每个知识目录上可以设置多个关键词。有界面。

Ø         分类时,按照自动生成的关键词与目录上设置的关键词进行比对,抓取后的知识点放在关键词重合度高的目录下。

1)        知识点地区:抓取时指定,一个抓取路径只对应一个地区。

 

文件源设定:管理界面,配置到表。

框架:两组线程:获取文件、后续处理

获取文件==任务队列==抽取文本==生成关键词==自动匹配目录or预先设定目录==形成待入库知识点列表(采编状态,可修改删除)===审核发布。

保存:原始文档路径和最终知识点id的关系。是否和正常知识有区分。

获取文件:每个线程对应一个文档路径;异常处理;第二次遍历时,发现原始文件是否修改过,对修改过的,形成知识点更新及后续处理,待采编和审核。大小限制。对采编时删除了的,记录,下次是否过滤?ftp断点续传。屏蔽哪些文件不要。

形成知识点:处理不了的文件类型都当做附件。转码。如果现有的已经在流程中,废弃。

最好单独机器部署,共享磁阵。

你可能感兴趣的:(html,框架,配置管理,网络应用)