sql sever如何进行英文词频统计_英语语料库及词频表介绍

sql sever如何进行英文词频统计_英语语料库及词频表介绍_第1张图片

要学好英语,词汇是基础,词汇量的大小和掌握程度是一门语言的基石。而任何知识的学习,都包含学习材料学习方法这是两个最核心因素。当然,学习工具对于提高学习的效率也起了非常重要的作用。

这篇文章主要介绍学习材料。关于英语词汇的学习材料。

一、英文语料库介绍

顾名思义,语料库就是集合了英语书面和口语等各类英文表述方式的语言材料集合。它收集的英语词汇包罗万象,亘古棉今。是英文词汇的一个大全集合。

下面是目前主流的一些语料库列表:

sql sever如何进行英文词频统计_英语语料库及词频表介绍_第2张图片

图片来源:billions of words of data: free online access

下面主要介绍有:GBC,BNC, COCA 这三个语料库。

GBC, Google Book's Corpus, 官网:https://googlebooks.byu.edu/,拥有 1550 亿美国英语词汇。

sql sever如何进行英文词频统计_英语语料库及词频表介绍_第3张图片

BNC - British National Corpus,是有同等影响力的权威语料库,只不过它的选词是来自于英国英语,主要取自 1980 年的各类英文材料。

COHA, Corpus of Historical American English

COCA, Corpus os Contenporary American English

COHA/COCA 作为美国当代英语语料库,于 2008年 2月 20日推出,起初包含的词汇量在 3.2 亿左右,并且每年以 2000 万的速度增加,2017 年已达到 4.5 亿甚至更多。

二、N-GRAM 连词文法模型
N-GRAM 是一种连词分类法(模型),它表示一个词组或句子中连续出现的几个词。在人工智能领域,可以通过马尔可夫的概率模型来预测后续出现这些词的概率。

根据连词的数量,可以细分为 unigram, bigram ( or digram), trigram, four-gram, five-gram, etc.
Google 中的 N-GRAMS 模型采用的选词原则是:由连续的三到四个词组成的一串词(string,可以是句子也可以是一个句子的一部分)在语料库出现的次数超过 40 次。这个原则又叫 “40 Token Threshold”。这样的好处就是,即使 GBC 的词汇量是 COCA 的 400 倍,但是它们选出来的 N-GRAMS 数量则几乎一致。
下面通过几个例子来理解 Google 的 N-GRAMS 模型。
我们搜索 [j*] groan(注:这里前面的 j* 表示可以搭配的形容词),可以搜到如下的结果:

sql sever如何进行英文词频统计_英语语料库及词频表介绍_第4张图片

下面是 Google 官网给出的 Google N-GRAMS 和 COHA N-GRAMS 的对比,

sql sever如何进行英文词频统计_英语语料库及词频表介绍_第5张图片

解释下 tokens 和 types 的涵义,前者表示 token 出现的总次数,后者表示词组或句子类型的的数量(the number of unique string)。

可以看到,COHA N-GRAMS 给出的结果中,types 数量要比 Google N-GRAMS 的数量更多。

简单来说就是,在 Google 词汇集中,heavy groan 出现了很多次,但是 low groan + heavy groan hollow groan + muffled groan + ... 加在一起出现的种类的数量没有 COHA 集合中出现的多。

这种现象在更长的词组或句子中更明显,比如长度增加到 4 grams 或 5 grams,如图:

sql sever如何进行英文词频统计_英语语料库及词频表介绍_第6张图片

在 2 中,COHA 给出的 types 远远超过 Google 的数量,达到 6 倍之多。可见,Google N-GRAMS 使用的 “40-token-threshold” 这个取词原则也有一些弊端。

三、其他语料库:

相比上述语料库,下面几个语料库词汇量较小,只有百万级。

  • Brown Corpus 100 万词汇。美国英语,1961 年全年,选词来自 15 个类别。
  • LOB Corpus - Lancaster-Oslo-Bergen Corpus,100万词汇。英国英语,与 Brown Corpus 选词方式类似,1970 年编撰。
  • ARCHER, A Representative Corpus of Historical English Registers(http://www.manchester.ac.uk/archer/),约 100 多万词汇,包含美国英语和英国英语,选词来自 1600-1999 年期间。

总结:

我们可以看到,GBC 的词汇数量是宇宙级的,是 COCA 体量的 400 倍,它包含古今几乎所有出现过的词汇。从这个词汇集里面,我们可以了解几乎所有词根的变迁史。当然,这个天量的语料库对第二语言的学习者而言意义并不大,因为有些词在整个历史中仅出现过 1 词。GBC 官方自己甚至都没法确认这些词是不是完全是拼写错误造成,但是,它也指出,通过这个体量的词汇集与其它流行语料库比如 COCA 的对比,可以排除许多出现频率非常地的词。也就是通过对比比较,可以更加清晰词汇的主流使用范围。

四、其它词库(SCOWL)

SCOWL,Spell Checker Oriented Word Lists
这个词库主要是基于主流的英语词典制作,主要是用来作为各种英文输入工具的拼写检查的。

因此它的词库量相对上述动则几百万甚至上亿的语料库要小很多(词典大多是在 20 万左右的词汇数量)。但是,相对的,它也更加精细和准确,取词更加考究和流行。非常适合母语为非英语的人来进行学习和使用。

之所以介绍这个词库,主要是因为它可以作为辅助词库来帮助我们更好的理解词频和词汇分类,结合其它词频表,我们可以设计出更加合理词汇表来进行学习。

SCOWL 提供了几个制作好的词库供用户免费使用,其中比较流行的是 12Dict 词库以及它的一些衍生版本,下面简单介绍一下它们。

12Dict 来源于 n-Dict 项目,目的是以美式英语(American-English)为基础创建一个核心词汇列表。(其中,n 是一个变量,表示来源的词库(权威词典)数量,最终被确定为 12。)这 12 个词典由 8 本 ESL词典 和 4 本桌面词典组成。最小的包含 20000 条词目,最大的包含 46000 条词目。

6of12 和 2of12

  • 6of12 是作者从 12 本中选择了其中 6 本来生成的词汇列表,这个列表大约包含 32000 条单词和短语。
  • 2of12 是作者从 12 本中选择其中 2 本来生成的词汇列表,它包含了约 41000 条词目。它的特点是:剔除了多词词组(multiword phrases),专有名词(proper names)和缩略语(abbreviations)。


关于这两个列表的详细介绍请查看 readme 文件,具体链接是:

Release 4 of the 12dicts word lists​wordlist.aspell.net

Lemmatize

把单词按“同源异形”进行归类,具体意思就是:把(文中的词)按屈折变化形式(或异体形式)进行归类。比如:"take" : ["taken", "taking", "took", "takes"]。 这些单词是“同源异形” 的,可以归为同一类,并且只用一个单词来表示。

在制作 list 时的具体做法就是:把文本文件处理成一个单词序列,对其中每一个单词,查找字典得到本体,加入到一个 dictionary 里,条目形式是:word: frequency ,单词每出现一次,frequency 加 1。

12Dict Release 5 增加了 2+2lemma 和 2+2gfreq 两个 List。按照上述方式分类计算词频之后,每个文件包含的词汇条目约 5 万左右。

6729efd346be6217af1caa1539f080bf.png

sql sever如何进行英文词频统计_英语语料库及词频表介绍_第7张图片

五、核心词频库

这一部分是我要介绍的重点,因为,这一部分列出的几个词库收集的词汇量更加核心与精简,因此极具学习价值。

(1)COCA 词频

COCA 是目前最具权威、流行最广,也最具实用价值的一份英语词汇学习库(billions of words of data: free online access)。我们来看一下它提供哪些东西:

一、Wordlist + genre frequency 词汇表。

这份词汇表是依据 spoken, fiction, popular magazine, newspaper, academic 这 5 大类别进行分频统计的,其中每个类别还包含子类(共约 40 个类别)。

COCA 最终依据这些分类进行提供了 3 个量级的词汇表,分别包含 5000,20000 和 60000 个单词。

二、Collocates 词组搭配

不仅如此提供词汇表,COCA 还提供了总计约 480 万个词组搭配(Collocates),详见 based on 450 million word COCA corpus。特别地,为使用频率最高的前两到三万个词汇每个均提供了 200 到 300 个词组搭配,极具学习价值。

三、N-GRAMS

N-GRAMS 体现的是某个单词最常与哪些词(前后)搭配在一起,比如根据统计,free 最经常与 of the 放在一起,而 takes 则最常与 place in 或 care of 放在一起使用。

我们可以直接在 https://www.ngrams.info/ 中查看详细使用方法。

(1)柯林斯五星词频”(含 14600 词)

柯林斯五星词频来自于“柯林斯高阶双解学习词典”,即 Collins COBUILD Advanced Learner's English-Chinese Dictionary。

这本词典对每个单词都进行了标记,从 0 到 5 共六个星级别。

sql sever如何进行英文词频统计_英语语料库及词频表介绍_第8张图片
  • 五星 680 词
  • 四星 1040 词(累计 1720 词)
  • 三星 1580 词(累计3300词)
  • 二星 3200 词(累计6500词)
  • 一星 8100 词(累计14600词)
  • 0 星 22480 词

(2)“麦克米伦 7500 高频”

取词来源于“麦克米伦高阶英汉双解词典”,即 Macmillan English Dictionary for Advanced Learners。

这本词典收录了大约 10 万左右的词汇量,并对这些词汇做了分级处理。属于7500核心词汇的统一以红色字体呈现,并继续分为三个等级,每个级别 2500 个词:一级是最最常用的词,标注三个非常醒目的星号 ★★★;二级常用词标注两个红星 ★★;三级标注一个红星 ★。

虽然本词典并没有把它们作为一个单独的词汇表给出,但是有英语爱好者把这部分星级词汇提取出来制作了单独的词汇表,我们可以根据需要去搜索并下载这个词表进行学习。

sql sever如何进行英文词频统计_英语语料库及词频表介绍_第9张图片

sql sever如何进行英文词频统计_英语语料库及词频表介绍_第10张图片

(3) 专门类别的报刊期刊词频

  • “纽约时报高频词汇”
  • “经济学人高频词汇”


它们都是由民间英语爱好者对历年来的英文期刊文章进行统计而总结的出的词频词汇集,收词数也在 2 万左右。

对于这类词频词汇集,有兴趣的同学可以参考下面两篇文章:

赛门喵Simon:2016年全年《纽约时报》超5千万单词词频统计(附高频词下载)​zhuanlan.zhihu.com
sql sever如何进行英文词频统计_英语语料库及词频表介绍_第11张图片
赛门喵Simon:2016年全年《经济学人》超3百万词汇词频统计(附高频词下载)​zhuanlan.zhihu.com
sql sever如何进行英文词频统计_英语语料库及词频表介绍_第12张图片

六、应试词表

这里列出的应试词表大多是对应相应的英文考试的,它们包括:中考,高考,四级,六级,考研,专四,专八,托福,雅思,GMAT/GRE 一共 10 个类别的分类词汇。

所谓的应试词表,其实也是按照一定规则来进行提取和分类的。比如最高阶的 GRE 词汇表,其取词主要就来源于比较学术类的文章及资料,如果不是应试需要,通常情况下并不需要对这些词汇进行专门记忆。

七、词典

介绍完了词汇(频)集,最后有必要来介绍一下主流的六大英语词典。

这些词典都是双解(包括英汉双解和英英双解)、学习型的词典,非常适与非英语母语的人使用和学习。

它们最大的特点就是既可以作为词典进行翻查释义,又可以进行学习。

这六大词典主要是:

  • [OALD] Oxford Advanced Learner's Dictionary 牛津高阶英汉双解词典
  • [LDOCE] Longman Dictionary of Contemporary English 朗文当代高级英语辞典(英英·英汉双解)
  • [MWALED] Merriam-Webster Advanced Learner's English Dictionary 韦氏高阶英汉双解词典
  • [CCALD] Collins COBUILD Advanced Learner's Dictionary 柯林斯 COBUILD 高阶英汉双解学习词典
  • [CALD] Cambridge Advanced Learner's Dictionary 剑桥高阶英汉双解词典
  • [MED] Macmillan English Dictionary for Advanced Learners 麦克米伦高阶英汉双解词典

sql sever如何进行英文词频统计_英语语料库及词频表介绍_第13张图片

在如今的网络时代,很多人都喜欢利用手机来进行英语学习,这些词典也都有移动端 App,不过多数是收费的。很多英语学习爱好者,对这些词库进行了提取,制作了 .mdx 离线词库文件,可以供我们离线下载使用。通常,我们会用到一些第三方词典软件,比如(Mdict,欧陆,Goldendict 等),他们可以支持导入各种离线词库。比如我在欧陆移动端的 App 中导入各种离线词库后,如下:

sql sever如何进行英文词频统计_英语语料库及词频表介绍_第14张图片

单词的查询效果如下:

sql sever如何进行英文词频统计_英语语料库及词频表介绍_第15张图片

可见,释义非常详尽。如果不是非词典研究者,这六本词典足以应付几乎所有英语学习场景。在我看来,选用其中任意 2 到 3 本作为主要词典来使用就已经足够。

如果你对我的文章感兴趣,欢迎留言或者关注我的专栏。

微信公众号(ID:知辉)

sql sever如何进行英文词频统计_英语语料库及词频表介绍_第16张图片

你可能感兴趣的:(sql,sever如何进行英文词频统计)