爬取系统的代码

note first:从学长那里接过来的代码混乱不堪,变量命名随意,直接从网上copy的代码导致大量冗余代码,外加没有文档,论文写的不详细,看了一晚上,代码反推功能,唉...

几个已经猜到或者改造的功能

1.爬取知识卡片(aaa.java)=从博客里爬取+存储了12个性质作为知识卡片

  • 勘误!不是博客是相同网站...原来注释也是从网上copy的我也是醉醉醉醉醉了

2.同花顺爬取(webspider.java)=目前已改成问财爬取,定向爬取股票名称作为父节点,爬取股票行业作为上下位属性提取(treedata数据库).爬取其他各项性质来作为知识卡片..
3.文本提取(checkservice)=语义学爬取(..是..,...为...)
4.分类树(写死的)+提取叶子节点(将treedata的树展示出来,还不知道展示效果如何,理论上应该在可视化的地方展示)

烂代码坑人!

很好,现在tm的发现问财返回的数据都是加密过来的js变量我bi了狗了

你可能感兴趣的:(爬取系统的代码)