Webb (2021)

Webb, S. (2021). the Lemma Dilemma. Studies in Second Language Acquisition, 43(5), 941–949. https://doi.org/10.1017/s0272263121000784

最近、教育や研究において、異なる語彙単位の適切性について議論がなされている(例えば、Brown et al, 2020; Dang & Webb, 2016a; Kremmel, 2016; Laufer & Cobb, 2020; McLean, 2018; Nation, 2016; Nation & Webb, 2011; Vilkaitė-Lozdienė & Schmitt, 2020)。語彙単位(語種、レンマ、フレマ、ワードファミリー)は、単語帳、語彙テスト、語彙学習プログラムの開発時に考慮する必要がある。また、テキストやコーパスの語彙プロファイルの中心であり、異なるタイプのディスコースの理解に関連する語彙学習目標を示すものである。また、最も重要なことは、単語リストやテストなどの語彙学習教材に含まれる単語の語彙単位が、その教育的価値に影響を与える可能性があるということである。本稿の目的は、語彙単位によって影響を受ける研究や教育の側面に焦点を当て、語彙や学習リソースの研究において単語を運用する際に考慮すべき問題について述べることである。

Cobb and Laufer (2021)

ACobb, T., & Laufer, B. (2021). The Nuclear Word Family List: A List of the Most Frequent Family Members, Including Base and Affixed Words. Language Learning, 71(3), 834–871. https://doi.org/10.1111/lang.12452

本稿では、最も頻度の高い「核」の語族、すなわち、最も頻度の高いword familyだけを含み、word familyの出現率が7%未満のものを除いた2,887の語族のリストであるNFL7(Nuclear Family List 7)を紹介する。NFL7は、専用のコンピュータプログラム「Nuclear List Builder」(ユーザーが自由に利用できる)を使って作成した。リストを構築するために、そのツールを使って、3,000の最頻出語族の完全なBNC/COCAリストを、19,062のword typeから7,293のword typeに、9,132のlemmaから5,610のlemmaに削減しました。このように削減されたにもかかわらず、NFL7はテキストカバー率の点で他のリストと比較して良好であり、最も頻繁に使用される派生接辞の数も少なくありません。NFL7は核化されているため、上級者以外の学習者、受容的知識と生産的知識の両方を教えたりテストしたりするのに適しており、また基本的な形態論の指導にも適している。

Brezina, V., & Gablasova, D. (2015). Is There a Core General Vocabulary? Introducing the New General Service List.

Brezina, V., & Gablasova, D. (2015). Is There a Core General Vocabulary? Introducing the New General Service List. Applied Linguistics, 36(1), 1–22. https://doi.org/10.1093/applin/amt018


本研究では,New General Service List (new-GSL)を紹介する。このリストは,合計で120億語の語彙tなる4つの言語コーパス(LOB, BNC, BE06, and EnTenTen12)の厳密な比較の結果としてできたものである。コーパスサイズ,そして,代表性やサンプルへのアプローチの違いを示すために4つのコーパスが選ばれた。特に,本研究では,語彙項目の頻度と分布を考慮に入れたAverage Reduced Frequency (ARF)を基にした上位3000語において,コーパス間の語彙的重なりを調査した。結果として,4つのコーパスの間で,2,122 items (70.7%)の安定した核となる語彙(vocabulary core)が存在することが分かった。さらに,これらの語彙は個々の語彙リストにおいて同じような順位で出現している,new-GSLを作成する中で,核となる語彙は,現在的な言語使用を反映したコーパス(BE06 and EnTenTen12)にみられる新しい語彙と組み合わされた。最終的な成果物として,new-GSLは2,494のレマにより構成され,元となったコーパス内のテキストにおいて,80.1~81.7%のカバー率を示した。

The current study presents a New General Service List (new-GSL), which is a result of robust comparison of four language corpora (LOB, BNC, BE06, and EnTenTen12) of the total size of over 12 billion running words. The four corpora were selected to represent a variety of corpus sizes and approaches to representativeness and sampling. In particular, the study investigates the lexical overlap among the corpora in the top 3,000 words based on the average reduced frequency (ARF), which is a measure that takes into consideration both frequency and dispersion of lexical items. The results show that there exists a stable vocabulary core of 2,122 items (70.7%) among the four corpora. Moreover, these vocabulary items occur with comparable ranks in the individual wordlists. In producing the new-GSL, the core vocabulary items were combined with new items frequently occurring in the corpora representing current language use (BE06 and EnTenTen12). The final product of the study, the new-GSL, consists of 2,494 lemmas and covers between 80.1 and 81.7 per cent of the text in the source corpora.