VocabularyProcessor 使用注意事项

import codecs
from tensorflow.contrib import learn 
import numpy as np
raw1=[
"A person on a horse jumps over a broken down airplane.",
"A person is outdoors, on a horse."]
raw2=["The boy does a skateboarding trick."]
vocab_processor=learn.preprocessing.VocabularyProcessor(max_document_length=10)
#vocab_processor.fit(raw1)   # vocabprocessor是去区分大小写的 
print(np.array(list(vocab_processor.fit_transform(raw2))))  #前面fit一次了 就不要再fit_transform了,没有任何效果了  这一点很奇怪   
#transform_Text=np.array(list(vocab_processor.fit_transform(raw1)))
#transform_text2=np.array(list(vocab_processor.fit_transform(raw2)))
#print(transform_Text)
print(np.array(list(vocab_processor.transform(raw1))))# fit_transform和 fit(raw1)  再 transform(raw1)  的效果是一样的 

#也就是 创建词汇表,创建后不能更改
print(np.array(list(vocab_processor.transform(raw2))))#[0,0,0,4,0,0]
#print(np.array(list(vocab_processor.fit_transform(raw2))))# [13,14,15,4,16,17,0000]
#[[ 1  2  3  4  5  6  7  4  8  9]
 #[ 1  2 11 12  3  4  5  0  0  0]]   

默认的VocabularyProcessor 只适合英文 

raw2=[
    "2017清明节放假安排",
    "2018年清明节休市安排",
    "您好,2017年清明节股市休市安排如下有哪些",
    "清明股市放假吗"    
   "清明节"        ]
vocab_processor=learn.preprocessing.VocabularyProcessor(max_document_length=15)
print(np.array(list(vocab_processor.fit_transform(raw2))))
 #[[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 #[2 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 #[3 4 0 0 0 0 0 0 0 0 0 0 0 0 0]
 #[5 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]
print(vocab_processor.vocabulary_._mapping)
# {'': 0, '2017清明节放假安排': 1, '2018年清明节休市安排': 2, '您好': 3, '2017年清明节股市休市安排如下有哪些': 4, '清明股市放假吗清明节': 5}
所以如果 想要用在中文上面 必须自定义分词器 

https://zhuanlan.zhihu.com/p/43385871 vocabprocessor使用自定义的字典        

你可能感兴趣的:(tensorflow)