cs224u作业 :基于远程监督的关系抽取-3

cs224u作业 :基于远程监督的关系抽取-3 hw_rel_ext.ipynb

__author__ = "Bill MacCartney and Christopher Potts"
__version__ = "CS224u, Stanford, Spring 2020"

目录

    • 原型系统

原型系统

这里有许多选择,这个作业可以很容易地发展成一个项目。以下是一些建议:

  • 尝试不同的分类器模型,从sklearn及其他模型构建 。
  • 增加一个特征来表示中间词的长度。
  • 增加词袋的表示形式,包括bigrams或者trigrams(而不仅仅是unigrams)。
  • 基于实体的特征。
  • 根据两个实体提到的上下文(不是中间词)——也就是第一次提到之前或第二次提到之后的单词——来试验特征。
  • 尝试增加捕获语法信息的特征,比如Mintz等人使用的依赖路径特征,NLTK工具包包含各种可能有帮助的解析算法。
  • 词袋表示法不允许跨单词类别(如人名、地点或公司名称)进行泛化。可以使用GloVe单词嵌入。

#1. try on stacking existing featurizer 
featurizers_1 

你可能感兴趣的:(cs224u作业 :基于远程监督的关系抽取-3)