英语教材提取单词制作生词表

英语教材提取单词制作生词表

教材分解成单词

vim下:

  • 以非英语字符为界,切割所有文本

:%s/\W/\r/g
  • 删除重复单词,并排序

:sort u
  • 删除含有数字的“单词”部分

:g/\d/d

查英语字典生成单词表

  • Python

import pandas as pd

#读入单词和字典

words = pd.read_csv('words.txt',encoding='UTF-8',names=['word'])

dicts = pd.read_csv('dicts.txt',encoding='ANSI',names=['word','paraphrase'],sep='\t')

#单词和字典以单词为Key 求inner集

wordlist = pd.merge(dicts,words,on='word',how='inner')

wordlist.set_index('word',inplace=True)

#保存为生词表

wordlist.to_csv('wordlist.txt',sep=' ')

你可能感兴趣的:(python,vim)