要学好英语,词汇是基础,词汇量的大小和掌握程度是一门语言的基石。而任何知识的学习,都包含学习材料和学习方法这是两个最核心因素。
这篇文章主要介绍学习材料。关于英语词汇的学习材料。
一、大型词汇集(英文语料库)
顾名思义,语料库就是集合了英语书面和口语等各类英文表述方式的语言材料集合。它收集的英语词汇包罗万象,亘古棉今。是英文词汇的一个大全集合。
目前最知名的一些大型语料库主要有:GBC,BNC, COCA 等,下面分别介绍:
GBC, Google Book's Corpus 1980-2008, 官网:https://googlebooks.byu.edu/,拥有 1550 亿美国英语词汇。
BNC - British National Corpus,是有同等影响力的权威语料库,只不过它的选词是来自于英国英语,主要取自 1980 年的各类英文材料。
COHA, Corpus of Historical American English
COCA, Corpus os Contenporary American English
二、N-GRAM 连词文法模型
N-GRAM 是一种连词分类法(模型),它表示一个词组或句子中连续出现的几个词。在人工智能领域,可以通过马尔可夫的概率模型来预测后续出现这些词的概率。 根据连词的数量,可以细分为 unigram, bigram ( or digram), trigram, four-gram, five-gram, etc.
Google 中的 N-GRAMS 模型采用的选词原则是:由连续的三到四个词组成的一串词(string,可以是句子也可以是一个句子的一部分)在语料库中出现的次数超过 40 次。这个原则又叫 “40 Token Threshold”。这样的好处就是,即使 GBC 的词汇量是 COCA 的 400 倍,但是 N-GRAMS 选出来的 N-GRAMS 数量则几乎一致。
下面通过几个例子来理解 Google 的 N-GRAMS 模型。 我们搜索 [j*
] groan(注:这里的 j*
表示形容词),可以搜到如下的结果:
下面是 Google 官网给出的 Google N-GRAMS 和 COHA N-GRAMS 的对比,
解释下 tokens 和 types 的涵义,前者表示 token 总的出现次数,后者表示词组或句子的类型(the number of unique string)。
可以看到,COHA N-GRAMS 给出的结果中,types 数量要比 Google N-GRAMS 的数量要多。
简单来说就是,Google 集中,heavy groan 出现了很多次,但是 low groan + heavy groan hollow groan + muffled groan + ... 出现的种类没有 COHA 集合中出现的多。
这种现象在更长的词组或句子中更明显,比如长度增加到 4 grams 或 5 grams,如图:
在 2 中,COHA 给出的 types 远远超过 Google 的数量,达到 6 倍之多。可见,Google N-GRAMS 使用的 “40-token-threshold” 这个取词原则也有一些弊端。
三、更多语料库:
- Brown Corpus 100 万词汇。美国英语,1961 年全年,选词来自 15 个类别。
- LOB Corpus - Lancaster-Oslo-Bergen Corpus 100万词汇。英国英语,与 Brown Corpus 选词方式类似,1970 年编撰。
- ARCHER, A Representative Corpus of Historical English Registers(http://www.manchester.ac.uk/archer/),约 100 多万词汇,包含美国英语和英国英语,选词来自 1600-1999 年期间。
总结:
我们可以看到,GBC 的词汇数量是宇宙级的,是 COCA 体量的 400 倍,它包含古今几乎所有出现过的词汇。从这个词汇集里面,我们可以了解几乎所有词根的变迁史。当然,这个天量的语料库对第二语言的学习者而言意义并不大,因为有些词在整个历史中仅出现过 1 词。GBC 官方自己甚至都没法确认这些词是不是完全是拼写错误造成,但是,它也指出,通过这个体量的词汇集与其它流行语料库比如 COCA 的对比,可以排除许多出现频率非常地的词。也就是通过对比比较,可以更加清晰词汇的主流使用范围。
四、其它词库(SCOWL)
SCOWL,Spell Checker Oriented Word Lists
这个词库主要是基于主流的英语词典制作,主要是用来作为各种英文输入工具的拼写检查的。
因此它的词库量相对上述动则几百万甚至上亿的语料库要小很多(词典大多是在 20 万左右的词汇数量)。但是,相对的,它也更加精细和准确,取词更加考究和流行。非常适合母语为非英语的人来进行学习和使用。
之所以介绍这个词库,主要是因为它可以作为辅助词库来帮助我们更好的理解词频和词汇分类,结合其它词频表,我们可以设计出更加合理词汇表来进行学习。
SCOWL 提供了几个制作好的词库供用户免费使用,其中比较流行的是 12Dict 词库以及它的一些衍生版本,下面简单介绍一下它们。
12Dict 来源于 n-Dict 项目,目的是以美式英语(American-English)为基础创建一个核心词汇列表。其中,n 是一个变量,表示来源的词库(权威词典)数量,最终被确定为 12。这 12 个词典由 8 本 ESL词典 和 4 本桌面词典组成。最小的包含 20000 条词目,最大的包含 46000 条词目。
6of12 和 2of12
6of12 是作者从 12 本中选择了其中 6 本来生成的词汇列表,这个列表大约包含 32000 条单词和短语。
2of12 是作者从 12 本中选择其中 2 本来生成的词汇列表,它包含了约 41000 条词目。它的特点是:剔除了多词词组(multiword phrases),专有名词(proper names)和缩略语(abbreviations)。
关于这两个列表的详细介绍请查看 readme 文件,具体链接是:
Release 4 of the 12dicts word listswordlist.aspell.net
lemmatize
把单词按“同源异形”进行归类,具体意思就是:把(文中的词)按屈折变化形式(或异体形式)进行归类。
比如:"take" : ["taken", "taking", "took", "takes"]。这些单词是“同源异形” 的,可以归为同一类,并且只用一个单词来表示。
在制作 list 时的具体做法就是:把文本文件处理成一个单词序列,对其中每一个单词,查找字典得到本体,加入到一个 dictionary 里,条目形式是:word: frequency ,单词每出现一次,frequency 加 1。
12Dict Release 5 增加了 2+2lemma 和 2+2gfreq 两个 List。按照上述方式分类计算词频之后,每个文件包含的词汇条目约 5 万左右。
五、核心词频库
这一部分是我要介绍的重点,因为,这一部分列出的几个词库收集的词汇量更加核心与精简,因此更加适合学习。
(1)柯林斯五星词频”(含 14600 词)
柯林斯五星词频来自于“柯林斯高阶双解学习词典”,即 Collins COBUILD Advanced Learner's English-Chinese Dictionary。
这本词典对每个单词都进行了标记,从 0 到 5 共六个星级别。
- 五星 680 词
- 四星 1040 词(累计 1720 词)
- 三星 1580 词(累计3300词)
- 二星 3200 词(累计6500词)
- 一星 8100 词(累计14600词)
- 0 星 22480 词
(2)“麦克米伦 7500 高频”
取词来源于“麦克米伦高阶英汉双解词典”,即 Macmillan English Dictionary for Advanced Learners。
这本词典收录了大约10万左右的单词量,并对这些词汇做了分级处理。属于7500核心词汇的统一以红色字体呈现,并继续分为三个等级,每个级别 2500 个词:一级是最最常用的词,标注三个非常醒目的星号★★★;二级常用词标注两个红星★★;三级标注一个红星★。并没有把它们作为一个单独的词汇表给出。
(3) 专门类别的报刊期刊词频
- “纽约时报高频词汇”
- “经济学人高频词汇”
它们都是由民间英语爱好者对历年来的英文期刊文章进行统计而总结的出的词频词汇集,收词数也在 2 万左右。
对于这类词频词汇集,有兴趣的同学可以参考下面两篇文章:
https://zhuanlan.zhihu.com/p/24718056
https://zhuanlan.zhihu.com/p/24854424
六、应试词表
这里列出的应试词表大多是对应相应的英文考试的,它们包括:中考,高考,四级,六级,考研,专四,专八,托福,雅思,GMAT/GRE 一共 10 个类别的分类词汇。
所谓的应试词表,其实也是按照一定规则来进行提取和分类的。比如最高阶的 GRE 词汇表,其取词主要就来源于比较学术类的文章及资料,如果不是应试需要,通常情况下并不需要对这些词汇进行专门记忆。
七、词典
介绍完了词汇(频)集,最后有必要来介绍一下主流的六大英语词典。
这些词典都是双解(包括英汉双解和英英双解)、学习型的词典,非常适与非英语母语的人使用和学习。它们最大的特点就是既可以作为词典进行翻查释义,又可以进行学习。
这六大词典主要是:
- [OALD] Oxford Advanced Learner's Dictionary 牛津高阶英汉双解词典
- [LDOCE] Longman Dictionary of Contemporary English 朗文当代高级英语辞典(英英·英汉双解)
- [MWALED] Merriam-Webster Advanced Learner's English Dictionary 韦氏高阶英汉双解词典
- [CCALD] Collins COBUILD Advanced Learner's Dictionary 柯林斯 COBUILD 高阶英汉双解学习词典
- [CALD] Cambridge Advanced Learner's Dictionary 剑桥高阶英汉双解词典
- [MED] Macmillan English Dictionary for Advanced Learners 麦克米伦高阶英汉双解词典
在如今的网络时代,很多人都喜欢利用手机来进行英语学习,这些词典也都有移动端 App,不过多数是收费的。很多英语学习爱好者,对这些词库进行了提取,制作了 .mdx 离线词库文件,可以供我们离线下载使用。通常,我们会用到一些第三方词典软件,比如(Mdict,欧陆,Goldendict 等),他们可以支持导入各种离线词库。比如我在欧陆移动端的 App 中导入各种离线词库后,如下:
单词的查询效果如下:
可见,释义非常详尽。如果不是非词典研究者,这六本词典足以应付几乎所有英语学习场景。在我看来,选用其中任意 2 到 3 本作为主要词典来使用就已经足够。
如果你对我的文章感兴趣,欢迎留言或者关注我的专栏或者微信公众号(ID:知辉)。