(2020.6.23)领域BERT

ACL2020的有两篇论文都是关于专业领域BERT的,看来发论文确实要跟进时代啊,同样的想法就看谁做的快,撞idea或者被scoop都是很有可能的。

SciBERT: Pretrained Language Model for Scientific Text
链接:https://github.com/allenai/scibert

S2ORC: The Semantic Scholar Open Research Corpus
链接:https://github.com/allenai/s2orc

看完以后不禁感慨,没有计算力、没有数据真的是搞不定啊,但是再仔细想想,即使有计算力、有数据,要处理这么大的数据,科研人员自身的能力和毅力(以及体力?)都得是一流的,不然真的是肝不动啊。

就拿第二篇来说,光数据就有几百个G,能不能下载下来、下载下来有没有地方存、存下来有没有能力算,都是很大的问题……这年头小个体做科研真的太难了。

你可能感兴趣的:((2020.6.23)领域BERT)