读懂英文文章所需的单词量

简介

备考托福,GRE需要背上万单词,除去考试通关的因素,就想看看是不是真有必要花时间去背那么多单词。
实验使用从初中到GRE不同等级考试要求的单词表,代入Brown文本数据集,评估背会各等级单词后,能看懂多大比例的文本。比如:高中毕业要求4000左右单词量,背会后对于取自不同领域的各种文本,能看懂句中单词的比例是多少。
从实验结果可以看到,即使背会了GRE要求的15000+以上,还会有很多词不认识,如一些专业领域的词汇。当然,如果就认识200个词,那也确实太少了。因此,本文将讨论对于不同学习阶段,背多少词,背哪些词性价比最高。

数据和方法

资源数据集

使用初中,高中,大学四六级,专八,雅思,托福,GRE的单词表。另外,加入了初一上半学期(这个学期基本都在复习小学内容,可近似地视为小学毕业水平),以及Brown数据集中的高频单词。

评价数据集

使用自然语言处理NLTK自带的Brown语料库,它创建于1961年,包含来自五百多个不同来源的文本,包含新闻,社论等类型。是一个覆盖类型相对全面的语料库,其中包含5万多句子,116万多单词。

方法

  • 语料库以句为单位,评价认识单词的比例。
  • 将句子切分成单词,并做简单标准化处理,去掉标点符号,将'ing','ed','er','es','s','d','ment','ly'结尾的单词转换成其原型。
  • 针对每一个句子评价每个等级应该认识的词占所有词的比例。

结果

对比不同频率的单词

图中横轴是句子,纵轴是认识的词所占句中单词的比例,比如图中蓝色线在30000的位置表示:如果只认识出现高频最高的500个单词,对于难度适中的句子(30000/50000),能看懂其中70%的单词。

对比不同考试等级

从图中黄线可以看到,如果是初一第一学期水平,几乎没什么句子是完全认识的(左上角),背完初中阶段所有单词(蓝色线),句中词全认识的也不多。

讨论

学会多少词性价比最高

  • 个人觉得图-1的绿线(top2000)到红线(top3000)对于多数学生是性价比最高的选择,后面每多学1000个单词,进步空间都越来越有限,这也符合二八法则(即:最重要的只占少数)。
  • 从图-2中可以看出,top2000(浅蓝)的水平和大学英语四级差不多,但是可以少背多半单词。
  • 背高频单词可能是更高效的选择。

按书学习有什么问题

教科书,尤其是低年级的教科书往往是成体系的学习,比如某节课学衣服,就把上衣,裤子,鞋,袜子,短裤都给学了,但是在文本阅读中,“袜子”出现的概率很低。另外,如果某课出现了一个很少用的词,但是为了保持课程的完整性,也加入了单词表。比如初中第一学期单词表400多个,与高频2000词重合的只有200出头。所以此时,娃的常用单词量只有200多。

局限性

  • Brown语料库虽然包含各种类型的文本,但并不能代表所有数据,结果可能有失公平,但它是目前我能找到的覆盖最广的数据集,且能展示相对关系。
  • 高频词取自Brown,又参与到评测中来,可能有失公平,但是也在路透社数据集上做过评测,结果差不多。
  • 您可能觉得更高等级考试的词汇也非常值得学习,其中包含的关键词汇,虽然只占句子内容的1/10,如果这个词不认识,句子意思就理解不了;另外高级别考试中虽然单词多,但很多是简单单词的组合,实际学习起来工作量并没那么大,还能学习一些规律;开卷有益…… 以上观点我都同意,暂不在这里讨论。

其它启发

  • 如果把词根词缀考虑进去效果可能更好。
  • 最好把词放在句子中背,不能只靠默写。比如学习字典中的例句(例句往往不包含其它难词,简短,意思明确且有翻译)。
  • 每天背完要复习前N天的,每周复习,否则忘得很快。
  • 无论大人小孩,名词动词形容词相对容易记忆,连词抽象词记了就忘,小技巧是:如果一个词有多个意思,第一次只记最容易记住或者最基础的意思;抽象词可以和其它词一起记忆,记住短例子(比如since记不住,记例句:I have't eaten since breakfast),或者已知的近义词(比如however记不住,就记它比but意思弱一点)。

结论

以娃为例:学习最高频的前2000个单词是个学习的捷径,从中再去掉本来就会的单词,每天背10个,200天背完,除去周末,加上复习时间,一年怎么也背完了;这时候就能看一些简单的英文书;最后就可能进入一个自我进化的良性循环。

个人看法,仅供参考,至于实际效果如何,请关注我家大宝一年后的英语水平。以此送给刚上初中的宝宝和宝爸宝妈们~

你可能感兴趣的:(读懂英文文章所需的单词量)