英语教材提取单词制作生词表
教材分解成单词
vim下:
- 以非英语字符为界,切割所有文本
:%s/\W/\r/g
- 删除重复单词,并排序
:sort u
- 删除含有数字的“单词”部分
:g/\d/d
查英语字典生成单词表
- Python
import pandas as pd
#读入单词和字典
words = pd.read_csv('words.txt',encoding='UTF-8',names=['word'])
dicts = pd.read_csv('dicts.txt',encoding='ANSI',names=['word','paraphrase'],sep='\t')
#单词和字典以单词为Key 求inner集
wordlist = pd.merge(dicts,words,on='word',how='inner')
wordlist.set_index('word',inplace=True)
#保存为生词表
wordlist.to_csv('wordlist.txt',sep=' ')