深交所实习的日子

说说最近的学习吧!
目前在深交所实习了3个多月了,感受到了一个金融公司的庞大,和宝哥(导师)也学习到了很多的东西,也临时去其他公司学习了一次,感受颇深。当然也体会到了金融公司的宽松的工作氛围和人性化的工作时间,这里相比软件IT公司的确不失为一个养生之地。
在这三个月里,我首先跟着一个哈工大深圳研究院的一个学长做了一个公告分类项目,具体说就是把拓尔思数据公司送来的公告数据进行分类,判断是股票相关还是不相关。我们先后将公告分句,人工标注为股票相关还是不相关,然后提取相关特征,再用SVM、决策树、逻辑回归、随机森林等分类器进行分类,最后效果能达到百分之九十几,还不错,除了一些的确很难判别的容易歧义的公告,例如三棵树、熊博士等等。这是我学习的东西比较多的一个项目,特别是特征提取,这里要感谢我的学长,听说他已经拿到深交所offer,真让人羡慕不已。
在这三个月里我先后学习了一下东西:
- 看完了周志华《机器学习》,对机器学习有一个初步的了解,不过我觉得部分地方数学太深,不易懂,缺少实践,但是作为打开我机器学习之路的启蒙书,真的非常推荐,周老师也是我很崇拜的一个人。
- 看完了《信息检索实战:搜索引擎》,对搜索引擎有了一个初步的了解,不过还需要在实践中加以理解运用,目前想学一个开源搜索引擎。
- 看完了《统计自然语言处理基础》,了解了自然语言处理领域的一些基本概念和问题,特别是经典的n-gram语言模型,也了解了前人怎么处理这些基本的自然语言处理任务的。这是我进入自然语言处理领域的启蒙书,强烈推荐,不过初读时,有些地方不太好理解比如马尔科夫链那块有点难,我觉得如果看书的同时写点相关算法代码可能会有助于理解。另外这个书也有个缺点,部分思路方法泛泛而谈,然后就让你去看论文,很烦!
- 看完了Stanford Manning的NLP基础公开课,主要看的是ppt,不懂得再在Youtub上看,这个是站在一个很基础的角度来讲解NLP,从基本的文本处理、语言模型、信息抽取、最大熵模型、词法、语法分析到情感分析、问答等,这个让我在一个大的层面上认识了NLP,确实是一个很好的课程,很基础。不过我觉得,来电实际项目或者任务能更好的加深理解。
- 学完了有名的在线电子书《Neural networks and deep learning》,这本书为我解开了深度学习的神秘面纱,这是我迄今为止见过的将理论和实际结合的最好的一本书,不仅详细的讲解了神经网络的相关理论知识,还使用python针对手写数字识别任务做了一个很好地实现,而且还教我们怎么去调神经网络的参数,这个是经验但很重要。这个作为深度学习的入门书籍我觉得是非常好的,理论与实践同时教授,更有助于理解。美中不足的是只讲解了深度学习最基础的一部分,讲了一些CNN,如果再讲一些AutoEncoders 、RBM、DBN、RNN就更好了。
- 学完了《Theano tutorial》,这个主要是用Theano 来实现一些基本的神经网络,还顺便讲解了一些深度学习相关的一些理论知识,针对手写数字识别任务,tutorials还推荐了很多相关资料,很不错的一个教程,让我了解了rbm、autoencoders 、gibbs sampling、cnn、rnn、 dbn等等。
- Standford cs224n 看了前几章,个人觉得不适合初学者,而且课上讲的其实也不是很多,不如看论文!不过学完了NLP、DL的内容再来看这个会容易一些,后面有时间还是准备看完这个经典课程的。

学的东西不算少,不过很多还需要消化,希望通过具体的项目来消化所学的东西。
这段时间一直在忙着确定毕设题目,目前大致确定为金融知识图谱,我和导师商量了下,最后决定做基于金融领域知识图谱的智能问答系统。这个得找找相关论文、期刊、报告等再具体确定。


                       2017年11月9日 晚10:52

你可能感兴趣的:(实习工作)