영어 단어를 외울 때 가장 흔한 실수가 있다. 단어장 첫 페이지부터 순서대로 외우는 것이다. A로 시작하는 단어부터 Z까지, 혹은 교재에 나온 순서 그대로. 성실한 방법처럼 보이지만 효율은 낮다. 영어를 접하는 시간이 하루 한두 시간뿐인 사람이라면 더 그렇다.
단어에도 우선순위가 있다. 어떤 단어는 하루에 수십 번 마주치고, 어떤 단어는 1년에 한 번 나올까 말까다. 대부분의 학습자가 이 차이를 체감하지 못한 채 단어를 외운다. 빈도라는 개념을 이해하면, 같은 시간을 들여도 이해력이 올라가는 속도 자체가 달라진다.
1. 왜 고빈도 단어부터 외워야 하는가
자연어에서 단어의 출현 빈도는 균등하지 않다. 극소수의 단어가 전체 텍스트의 대부분을 차지하고, 나머지 수만 개는 아주 드물게 등장한다. 언어학에서 이걸 Zipf 분포라고 부른다.
영어에서 가장 많이 쓰이는 단어 100개만 알아도 일반 텍스트의 약 50%를 커버할 수 있다. 상위 1,000개를 알면 75~80%. 3,000개 수준이면 90%를 넘긴다. 단어를 하나 더 외울 때마다 얻는 이득이 초반에는 크고, 후반으로 갈수록 줄어드는 구조다.
처음 1,000단어를 외울 때의 효율과, 10,001번째부터 11,000번째까지를 외울 때의 효율은 비교가 안 된다. 빈도 기반 영어 단어 학습의 핵심이 여기에 있다. 같은 노력을 쏟는다면, 가장 자주 등장하는 단어부터 잡는 쪽이 시간 대비 효과가 크다.
2. 몇 퍼센트를 알아야 '읽히는가': 커버리지의 기준
빈도순으로 외우면 좋다는 건 알겠는데, 대체 몇 개를 알아야 영어가 편해질까.
커버리지는 내가 아는 단어가 전체 텍스트에서 차지하는 비율이다. 90%라면 100단어짜리 문장에서 10개를 모른다는 뜻인데, 감으로는 충분해 보여도 실제로는 그렇지 않다. 모르는 단어가 열 줄에 하나꼴로 나오면 대략의 흐름은 잡히지만 정확한 의미 파악은 어렵다.
읽기 이해에 필요한 어휘 커버리지 임계치는 95~98%로 보는 연구가 많다. Cambridge University Press에서 2015년에 발표한 분석도 같은 범위를 제시한다. 이를 단어 수로 환산하면, 95% 수준에 대략 3,000개 word families와 고유명사, 98%에는 약 5,000개 word families가 필요하다.
이 숫자보다 더 의미 있는 건 관점의 전환이다. '단어 5,000개 외우기'가 아니라 '내가 읽는 텍스트를 95% 이상 이해하기'로 목표를 바꿀 수 있다. 목표가 커버리지 기준으로 전환되면, 어떤 영어 단어를 먼저 외워야 하는지는 자동으로 정해진다. 가장 자주 나오는 것부터.
3. NGSL이란 무엇인가: 2,809개 lemma의 설계 원리
NGSL(New General Service List)은 영어의 일반적인 용도에서 가장 자주 쓰이는 단어를 정리한 빈도 기반 단어장이다. 1.2 버전 기준으로 2,809개의 lemma가 수록되어 있다.
근거가 되는 데이터는 Cambridge English Corpus에서 추출한 2억 7,300만 단어 규모의 텍스트다. 학술 논문, 뉴스, 소설, 일상 대화, 온라인 글 등 여러 장르를 포함한다. 코퍼스가 크고 장르가 다양할수록, 상위에 오른 단어가 실제 생활에서도 정말 자주 마주치는 단어일 가능성이 높다. 2016년과 2023년에 업데이트를 거쳤고, 설계 목표는 명확하다. 이 2,809개 단어만 알면 일반 영어 텍스트의 92% 이상을 커버하는 것.
NGSL은 word family가 아니라 lemma 단위로 구성되어 있다. word family는 하나의 어근에서 파생되는 모든 형태를 묶은 것이다. 'develop'의 word family에는 develops, developing, developed는 물론 development, developer, developmental까지 전부 들어간다. lemma는 좀 더 좁다. 동사 'develop'의 lemma에는 develops, developing, developed 같은 굴절형만 포함되고, development나 developer는 별도 lemma로 잡힌다.
학습자에게 이 차이가 의미하는 건 이것이다. 2,809라는 숫자는 word family로 세면 더 적어지고, 실제 외워야 할 개별 형태로 세면 더 많아진다. 다만 lemma 단위로 익히면, 기본형과 굴절형을 묶어서 학습하기 때문에 문장 속에서 형태가 바뀌어도 바로 알아볼 수 있다. 실전 텍스트를 읽을 때 체감되는 장점이다.
4. NGSL과 Oxford 3000, 무엇이 다른가
고빈도 영어 단어 리스트는 NGSL만 있는 게 아니다. Oxford 3000도 널리 알려져 있다.
Oxford 3000은 A1~B2 CEFR 레벨에서 학습자에게 가장 중요한 3,000개 단어를 선별한 리스트다. 순수한 빈도만으로 뽑은 것이 아니라, 학습 목적에 맞게 전문가 판단이 반영되어 있다. 반면 NGSL은 코퍼스 데이터에서 통계적으로 추출한 리스트다. 접근 방식이 다르고, 결과물에도 미묘한 차이가 있다.
어느 쪽이 더 낫다고 단정하기는 어렵다. 두 리스트의 겹치는 부분이 상당히 크고, 차이나는 부분은 각각의 설계 철학을 반영한다. 중요한 건 하나를 기준으로 삼고, 빠진 단어를 다른 리스트에서 보완하는 전략이다. Oxford 3000의 특성과 활용법은 별도 글에서 다루고 있다.
5. 92% 커버리지, 그 다음은
NGSL 2,809개 단어로 92%를 커버한다는 건 뒤집어 말하면 8%는 모르는 상태다. 100단어 중 8개를 모른다. 일상 대화나 간단한 이메일은 이 수준으로 충분히 된다. 하지만 학술 텍스트, 뉴스 기사, 시험 지문을 읽으려면 95% 이상이 필요하다.
92%에서 95%로 가는 길은 어떻게 될까. NGSL 프로젝트는 핵심 리스트 외에도 학술 단어, 비즈니스 단어 같은 장르별 보충 리스트를 함께 제공한다. 텍스트에 포함된 단어가 NGSL의 어느 범위에 속하는지 분석해주는 도구도 있어서, 현재 자신의 어휘 수준을 객관적으로 파악하고 부족한 영역을 구체적으로 채울 수 있다.
'NGSL 2,809개 완료 → 목적별 보충 → 95% 커버리지 달성'으로 단계를 나누면 장기 로드맵이 그려진다. NGSL을 활용한 구체적인 학습 순서와 실행 방법은 로드맵 글에서 상세히 다루고 있으니, 계획을 세우고 싶다면 그쪽을 먼저 보는 것도 좋다.
6. 순서를 바꾸면 체감이 바뀐다
영어 단어 공부에서 가장 큰 좌절은 '외워도 외워도 늘지 않는 느낌'이다. 이 느낌의 상당 부분은, 자주 쓰이지 않는 단어를 자주 쓰이는 단어보다 먼저 외우고 있기 때문에 생긴다. 매일 마주치는 단어를 모르는 채로 두고, 시험에나 나올 법한 단어를 암기하고 있으면 체감 실력은 제자리다.
빈도 기반으로 순서를 뒤집으면 달라진다. 가장 자주 마주치는 단어를 먼저 잡기 때문에, 초반부터 영어를 접할 때마다 '이건 아는 단어다'라는 경험이 쌓인다. 그게 읽기 속도를 끌어올리고, 듣기에서 핵심 단어를 잡아내는 확률도 높여준다.
NGSL의 2,809개 lemma는 그 출발선이다. 단어 우선순위를 빈도 기준으로 잡고, 커버리지라는 측정 가능한 목표를 세운다. 같은 학습 시간에서 체감하는 변화가 확연히 달라진다. 외우는 방법이 궁금하다면 간격 반복과 망각곡선을 활용한 암기 전략을 참고하고, 빈도 리스트를 CEFR 기준으로 확장하고 싶다면 레벨별 어휘 로드맵도 살펴보면 된다.