The job

1 汉语词语对应的英文词,如果汉语词语是变量,则英文词只存储该词语的词性|对应汉语变量的编号;

~~~~~~~~~~~~~~~~在preprocess中实现
2 如果这个实例的汉语部分只含有变量没有现实词语,删;
3 如果这个实例中有汉语标点符号(根据词性?),删。

~~~~~~~~~~~~~~~~~~~~~~在SegmentExtraction中做

附:
标点符号标记如下:
标点符号:

(43)wd
顿号
i.e. 、

(44)wo
标点逗号
i.e. ,

(45)wj
标点句号
i.e. 。 ! ? ; :……

(46)wp
标点破折号
i.e.——

(47)wkl
左括号
i.e. (

(48)wkr
右括号
i.e. )

(49)wsl
左书名号
i.e.《

(50)wsr
右书名号
i.e.》

(51)wyl
左引号
i.e.“

(52)wyr
右引号
i.e. ”

你可能感兴趣的:(job)