GoldMap项目笔记(四)

目前的进度是爬虫系统刚刚完成了雏形,正在进行代码的优化。之后需要做的事情就是学习、学习,学习!
在早先的项目设计中,第二个子系统会用于将搜集来的文本做情感分析,然后根据分析的结果再做一定的运算。在Python的各个库中,除了nltk以外,使用起来比较简单的库我找到了两个,一个是针对中文的snownlp,还有一个是textblob。
这两个库使用起来都比较简单。而文档方面,snownlp比较简单,只知道没有使用nltk,自己设计了算法,而且由于是针对购买商品的评价做分析,用于其他方面的话,用作者自己的话来说就是准确率可能不是很理想。textblob的稍微详尽一点,这个库使用了nltk,或许准确率会更高一点。但是一方面不是针对中文,另一方面文档中也没有提及如何进行训练,从而提高准确率。或许是我还没有找到更详细的说明使用文档吧。
不过相比较而言,我可能更加中意的是参考snownlp,然后自己来设计更合适的算法吧。不过这条路走起来,或许学习曲线会比较陡峭。现在正在看think bayes,机器学习实战,还有spark快速大数据分析,这些书上面也有一些现成的示例代码可以供参考。希望可以降低一点学习的难度。
当然,在一开始的阶段,整个项目还不需要使用spark的更多功能,目前已知会涉及到的库也就是spark其中的mllib。后面更复杂部署、调度、管理等等功能,我想,针对一台单独的小机器还是用不上的吧,当然,做为知识储备,进行一定的了解和学习,也是未尝不可的。只是,这种学习可能暂时不会投入太多的精力,今天有大致浏览了spark的官方文档,仅仅部署方式就有好几种:mesos,yarn,一时之间也不知道如何取舍。希望新买的书里面可以提供一些指导和线索吧。
说起来,新买的《程序员的数学》也刚刚看了开头,一套三本书也不知道要看多久,希望可以加快一点点速度吧。

你可能感兴趣的:(GoldMap项目笔记(四))