2016上半年科研日志

2016年2-3

17-

17 单词,建立主页,interspeech文字,阅读技巧;

18 英语OG(阅读),interspeech实验部分以及文章整体框架的修改,github和git怎么关联以及搭建(搞懂但没做,具体是因为个人用途不大,就当扩充视野了);

19 听力单词,Interspeech改完一遍

20 滑雪运动(周六),继续改interspeech第二遍

21 英语单词 interspeech第二遍改完 单位推荐函

22 英语单词 (组内调动)interspeech第三遍结束 在线客服和聊天机器人调研(智齿,图灵机器人,小黄鸭(simsimi)深度搜索算法规则库,ALML语言的Alice Tornado搭建网站)

23 听力答题技巧+2篇训练 想方向;学习代码(numpy, pandas, pickle)PCA

24 英语单词 交接项目(有备注)拜读Arjun的博士毕业论文 讨论论文改动(argmax)

25  Arjun论文 修改专利 

26 英语写作(知乎)总结, 修改专利最终版

27 看课外书(周六)学习语法,准备报告to ZC

************************************************************(做论文baseline,中移动,论文的细节,specifize)

28 讲报告toZC(外围可视化Angularjs,交互呈现可以用SpingMVC,交互层自己用java写;如果想要存储消息化序列采用kafka,部署在大数据平台spark,(Handoop, Hbase,ES)相当于顺序是kafka-spark/java-Hbase(kafka)/Hadoop/ES;论文查重-聊天机器人-智能客服--SSaS)

29去移动通信研究院出差

30 接手**之前在移动研究院的项目工作,熟悉他们的工程环境和数据获取方式等。

3月

本周工作总结如下:
1、刚接手项目,了解并熟悉数据格式以及数据获取方式。
2、写了一个脚本,可以在服务器上根据不同的比例(负面:正面)获取数据列表和具体的数据
3、熟悉并修改中文分词工具包,使其适应不同的数据格式。
4、在客服语料上训练词矢量
5、准备CNN训练集和测试集数据, 修改 CNN代码。
6、调研基于海量文本的主题聚类及其倾向性分析的研究方法,整理PPT。
下周工作计划:
1、继续跟进移动项目
2、阅读关于情感分析及倾向性分析的论文。
近两周主要工作如下:
1、 针对中移动项目, 修改CNN代码,截取一部分数据分别做训练、开发和测试集进行实验。
2、 针对客观内容分析,根据对方提供的动作和业务词表,先对对话进行呼叫类型分类和信息提取再进行话题的抽取。
3、学习theano里面的深度学习教程。
4、配合中移动那边完成声学层与文本层融合PR曲线实验所需的数据
5、重新设计关于客服客观内容分析的实验部分,定义评价标准,做实验修改论文。

21-25

计划:

21 自:论文实验部分数据整理(评价标准),写作;实验室:主题发现系统思路

21实际:做分角色的情感与不分角色情感实验,经过实验表明分角色的情感性能会更高;确定评分方案(评分方案选择仍像MultiLing上说的有待进一步研究),但做了几组对比实验;基于海量文本的主题发现及其倾向性分析方案,其中在对种子主题词汇扩充上写了一个基于PMI的脚本。

22自:论文修补写作。学习机器学习。实验室:继续尝试新方法

22实际:论文模板移植,学习机器学习实战里的numpy的用法;方法.shape,.dtype .sum(axis=1)函数tile

23 实验室:看论文尝试新方法,修改论文加入实验结果。

23实际:看论文找到在微博上主题发现的方法,并在微博数据上做了预处理训练了个词矢量。CNN与声学模型融合(移动研究院)

24实验室:工程搭建。 自:论文抽时间改改

24实际:根据阅兵为种子主题,扩充主题列表。然后根据主题列表过滤海量文本,提取出跟阅兵主题相关的微博。

25实际:移植在Pure_Weibo上

28-31

28:关于中国移动项目做文本层模型与声学层模型融合实验,应对方要求整理模型融合后加规则的实验并添加完整注释以及操作流程说明。

29:整理CSC材料,修改论文,把之前的实验数据结果补充

30:修改论文并提交论文。(表达的核心是逻辑)

31:英文(动、名、形容词积累)(3)、论文/考试 套路(5)、总结与复习(2)

2016 4月

4/5 英语听力,如何写代码(整体设计,数据结构,算法) 了解链表、树、栈、队列、哈希表;查找(二分查找)、排序(归并、快速)NLTK157;整理和上次代码;下载项目数据。
4/6 学习代码NLTK书中的前三章,主要有正则的使用以及编代码的trick。SeededLDA流程
4/7 在微博数据下跑出个seededLDA初步的结果,并写清使用流程,实验结果有待分析。注意python编程时候经常遇到的错误:写文件忘记关掉。 上午听了会儿听力看了会儿知乎上的如何写作,并记录在CSDN博客上。
4/8 听力总结;移动代码总结;gitLab

你可能感兴趣的:(日记log)