最近做评论分析碰到一些瓶颈,阅读了众多论文,还是觉得刘兵老师靠谱,实用派的翘楚。于是了解了他近年来发的论文,发现了一个很新颖的词”lifelong”,而且还在KDD 2016做tutorial,题为《Lifelong Machine Learning》 [1] 。
传统的ML(他们叫做ML 1.0)都是单独地对一个任务进行学习,也就是给定一个数据集,运行一个ML算法,并没有考虑到以前学习过的知识,可以说是隔离(isolated)地学习。
ML 1.0的局限也很显而易见:
1. 学习的知识是不可积累的
2. 没有存储,即没有保留学习过的知识
3. 缺乏先验知识
4. 没有知识积累和自学习(self-learning):构建一个真正智能的系统是不可能的,因为不可想象每个任务都需要大量的标注工作。
而回头看我们人类是如何学习的:
1. 人类从不隔离式地学习
2. 我们能在过去知识的帮助下从少量样本中有效地学习(没有人给我1000个正向和1000个负向文档,来叫我人工构建一个分类器)
3. 当我们看到一个新例子的时候,大部分都是已知的,极少是未知的
由此提出LML:
Lifelong Machine Learning(LML)(还不知道中文怎么翻译)
* 像人类那样学习
* 从过去任务中保留知识,并用它帮助未来的学习
他们叫这个LML为ML 2.0。
情感分析很适合LML:
1. 跨领域/任务的大量知识共享
2. 情感表达(情感词),如good, bad, expensive, great
3. 情感对象(sentiment targets),如”The screen is great but the battery dies fast”
目标:将文档或句子分为+或-
困难:需要对每个领域人工标注大量的训练数据
我们可以不对每个领域进行标注或者至少不标注那么多吗?
利用过去的信息
大家都知道一个A领域的情感分类器不能用于B领域,那怎么办?
但这可能不是最好的方法。
Lifelong情感分类(Chen, Ma and Liu 2015)
想象我们已经在大量的领域/任务用它们各自的训练数据D学习了知识。
那我们需要新领域T的数据吗?
“The battery life is long, but pictures are poor.”
它的aspect为:battery life, picture
观察:
Lifelong machine learning跟传统ML一样,也分有监督、半监督、无监督和强化学习,后续会在博客中选择性更新。
[1] Zhiyuan Chen, Estevam Hruschka, and Bing Liu. Lifelong Machine Learning Tutorial. KDD-2016
[2] Daniel L. Silver and Robert Mercer. 1996. The parallel transfer of task knowledge using dynamic learning rates based on a measure of relatedness. Connection Science, 8(2), 277–294.
[3] Zhiyuan Chen, Nianzu Ma and Bing Liu. Lifelong Learning for Sentiment Classification. Proceedings of the 53st Annual Meeting of the Association for Computational Linguistics (ACL-2015, short paper), 26-31, July 2015, Beijing, China.
[4] Shuai Wang, Zhiyuan Chen, and Bing Liu. Mining Aspect-Specific Opinion using a Holistic Lifelong Topic Model. Proceedings of the International World Wide Web Conference (WWW-2016), April 11-15, 2016, Montreal, Canada.
[5] Qian Liu, Bing Liu, Yuanlin Zhang, Doo Soon Kim and Zhiqiang Gao. Improving Opinion Aspect Extraction using Semantic Similarity and Aspect Associations. Proceedings of Thirtieth AAAI Conference on Artificial Intelligence (AAAI-2016), February 12–17, 2016, Phoenix, Arizona, USA.
[6] Zhiyuan Chen, Arjun Mukherjee, and Bing Liu. 2014. Aspect Extraction with Automated Prior Knowledge Learning. In Proceedings of ACL, pages 347–358.
[7] Zhiyuan Chen and Bing Liu. 2014. Mining Topics in Documents : Standing on
the Shoulders of Big Data. In Proceedings of KDD, pages 1116–1125.