记录一下本周的主要工作及遇到的问题

本周首先是将上一周遗留的tf-idf的工作做完,提取了高词频,并且首次输入到google中试了一试,但是出现了很多问题,难以解决,最大的问题就是google会出验证码,这样的话严重限制了每天的访问量导致工作很慢,搜索了一款MagicGoogle的项目,但是依然绕不过这个问题,但是却很好用。

另外就是继续精简词汇库,层层的抽丝剥茧,把语料滤了一遍又一遍,从两千多个变成一千多个,最后剩了几百个,并且建立了图,首次观察了里面的特征,下周的工作就是分析图,并且把代码搞懂。代码真是个难题。看来需要熬个夜搞这个了。


经验及教训:

首先是选择图分析的库的时候,首先看到的是igraph导致,装都装好了,跑也跑出来,但是上标签,上颜色太麻烦,最后经过网上推荐毅然砖头networkx的怀抱,即使是毅然,也浪费了一个上午的时间。

第二个就是google搜索,要找好工具,抓结果的时候,把该调的要调一下,避免出现这么多幺蛾子

第三个是语料库的整理,一定要从整套作业的视角去处理数据,要不然真的有的忙的。

零零碎碎说了很多。

你可能感兴趣的:(文件处理方法)