COCA 词频表使用

无意中看到一篇 COCA 语料库的介绍文章，然后自己就去 http://testyourvocab.com/ 测了下词汇，大约是 2 万多。

神奇的是，我在以前的英语学习时从没接触过这个目前可以说是最知名的英语词汇词频统计库，虽然目测词汇量尚可，但是这个也不是绝对准确的，因为我测的时候感觉差不多认识的单词我就勾了，所以结果肯定有不少水分，而且统计方法还因人而异吧，我感觉我目前的词汇应该在 2 万左右。根据网上的论断，这个量貌似也挺大的。虽然我从小对英语学习就非常感兴趣，但是我印象最深的集中大量词汇输入还是在准备出国的时候，当然，这之前我也都是爱背单词的，只不过都是些笨方法，主要是我比较爱看英语相关的东西，而遇到生词了也会刻意去记忆，以前更是爱拿着生词本各种记。

所以，没接触过这个语料库我还是觉得挺惊讶的，它最有意思的一点就在于它的词频统计，如果我们能很好的利用这个词频表所统计出来的词汇，那对于英语的学习是非常高效的（我现在就在通过这个词频表进行复习和查漏）。

所以，下面先简单介绍一下这个库

COCA, 全称 Corpus of Contemporary American English，网站是 https://corpus.byu.edu/ 它总结了英语国家使用频率最高的词汇，使用大数据的方法把 1990-2012 年美国最有代表性的报纸，杂志，小说，学术，口语（口语可能是用的电视剧或者脱口秀之类的节目转录的）汇集起来，每部分各占 1/5，生成 4.5 亿单词量语料库。billions of words of data: free online accessCOCA, 全称 Corpus of Contemporary American English，网站是 https://corpus.byu.edu/ 它总结了英语国家使用频率最高的词汇，使用大数据的方法把 1990-2012 年美国最有代表性的报纸，杂志，小说，学术，口语（口语可能是用的电视剧或者脱口秀之类的节目转录的）汇集起来，每部分各占 1/5，生成 4.5 亿单词量语料库。

COCA词频表，是从众多语料库（corpus）中提取，用大数据的方法从各种文体中提取单词，并按照单词出现次数高低进行排序的一个词频表。

来看一下这个数据：

掌握前 500 单词，现实生活中能认识 72% 的单词；
掌握前 1000 单词，现实生活中能认识 79% 的单词；
掌握前 2000 单词，现实生活中能认识 87% 的单词；
掌握前 3000 单词，现实生活中能认识 90% 的单词；
掌握前 4000 单词，现实生活中能认识 93% 的单词；
掌握前 5000单词，现实生活中能认识 94% 的单词；
掌握前 10000单词，现实生活中能认识 97% 的单词；
掌握前 17634 单词，现实生活中能认识 99% 的单词。

为什么学了那么多仍然不能达到 99.99%？因为英语实际使用中存在大量专有名词，比如Trump 这个单词，在其竞选前后出现频率相差极大，COCA 中除了媒体来源外的语料中出现很少，而这两年看报纸则是想绕都绕不开。掌握这 17634 词后，学习一个新领域的英文，只要多剩下的 1% 的专有名词，基本就不存在生词障碍了。

其实，不用完全把表背完，掌握频率最高的一万多词汇就已经非常够用了，在网上，背单词的边际效益是递减的（当然使用词频表来背就可以使边际效益最大化），所以，对于那些迫切希望可以看懂更多英语文章的人来说，利用词频表来进行学习就可以最大化效率。

好了，这篇文章不是来详细介绍 COCA 到底怎么用的，而是怎么利用它的词频表的。

首先，需要下载词频表，COCA 官网提供了免费的前 5000 个单词，但是再往后，还提供了 20000 和 60000 词汇量的版本，均是收费的，不过可以在淘宝上购买，或者在网上找到免费的下载链接。

下面就基于最全的 60000 词汇量的文件，也就是 coca60000full.xlsx 这个 EXCEL 文件。它包含了所有的单词，以及词频统计，分类库等信，是信息最全的一个文件，其他所有衍生版本（比如 coca20000, coca口语等）均可由该文件生成。