Brezina, V., & Gablasova, D. (2015). Is There a Core General Vocabulary? Introducing the New General Service List. Applied Linguistics, 36(1), 1–22. https://doi.org/10.1093/applin/amt018
Abstract
本研究では,New General Service List (new-GSL)を紹介する。このリストは,合計で120億語の語彙tなる4つの言語コーパス(LOB, BNC, BE06, and EnTenTen12)の厳密な比較の結果としてできたものである。コーパスサイズ,そして,代表性やサンプルへのアプローチの違いを示すために4つのコーパスが選ばれた。特に,本研究では,語彙項目の頻度と分布を考慮に入れたAverage Reduced Frequency (ARF)を基にした上位3000語において,コーパス間の語彙的重なりを調査した。結果として,4つのコーパスの間で,2,122 items (70.7%)の安定した核となる語彙(vocabulary core)が存在することが分かった。さらに,これらの語彙は個々の語彙リストにおいて同じような順位で出現している,new-GSLを作成する中で,核となる語彙は,現在的な言語使用を反映したコーパス(BE06 and EnTenTen12)にみられる新しい語彙と組み合わされた。最終的な成果物として,new-GSLは2,494のレマにより構成され,元となったコーパス内のテキストにおいて,80.1~81.7%のカバー率を示した。
The current study presents a New General Service List (new-GSL), which is a result of robust comparison of four language corpora (LOB, BNC, BE06, and EnTenTen12) of the total size of over 12 billion running words. The four corpora were selected to represent a variety of corpus sizes and approaches to representativeness and sampling. In particular, the study investigates the lexical overlap among the corpora in the top 3,000 words based on the average reduced frequency (ARF), which is a measure that takes into consideration both frequency and dispersion of lexical items. The results show that there exists a stable vocabulary core of 2,122 items (70.7%) among the four corpora. Moreover, these vocabulary items occur with comparable ranks in the individual wordlists. In producing the new-GSL, the core vocabulary items were combined with new items frequently occurring in the corpora representing current language use (BE06 and EnTenTen12). The final product of the study, the new-GSL, consists of 2,494 lemmas and covers between 80.1 and 81.7 per cent of the text in the source corpora.