황소보카:: NGSL 2,809단어 로드맵: 92% 커버리지로 기초 어휘 완성하기

영어 단어를 외우는 사람은 많다. 그런데 "지금 내가 몇 퍼센트의 영어를 이해할 수 있는 상태인가"를 아는 사람은 드물다.

단어 수만 세는 학습은 방향이 없다. 1,000개를 외웠는데 정작 자주 쓰이는 단어를 빠뜨렸다면, 3,000개를 외운 사람보다 실전 이해력이 떨어질 수 있다. 반대로 빈도 순으로 정렬된 2,809개만 확실히 잡으면, 일반 영어 텍스트의 92% 이상을 커버할 수 있다. 이 숫자가 바로 NGSL(New General Service List) 1.2가 제시하는 기준이다.

NGSL이 무엇인지, 왜 빈도 기반 학습이 효율적인지는 NGSL 고빈도 단어 전략에서 다룬 바 있다. 이 글은 거기서 한 걸음 더 들어간다. "그래서 어떻게 실행하느냐." 현재 어휘 수준을 진단하고, 목표 커버리지를 정하고, 8주 안에 기초 영어 단어를 완성하는 구체적인 영어 어휘 로드맵을 짠다.

1. 단어 수가 아니라 커버리지를 봐야 한다

커버리지(coverage)는 특정 텍스트에서 내가 아는 단어가 차지하는 비율이다. 100단어짜리 문장에서 92개를 알면 커버리지 92%.

이 비율이 학습 전략의 핵심 지표가 되는 이유가 있다. Cambridge University Press(2015)에 게재된 어휘 연구에 따르면, 텍스트를 편안하게 이해하려면 95~98%의 영어 단어 커버리지가 필요하다. 95%면 20단어에 1개꼴로 모르는 단어가 나오고, 98%면 50단어에 1개. 95% 아래로 내려가면 문맥 추론이 흔들리면서 사전 없이는 읽기 자체가 버거워진다.

그러면 95%까지 올리려면 단어를 얼마나 알아야 할까. ERIC(2010)에 발표된 코퍼스 분석이 구체적인 수치를 제시한다. 고유명사를 포함해 약 3,000 word families면 95% 커버리지, 약 5,000 word families면 98% 커버리지에 도달한다. Word family는 하나의 기본형에서 파생된 단어 묶음이다. decide, decision, decisive가 하나의 word family에 속한다.

NGSL은 word family가 아니라 lemma 단위를 쓴다는 점에서 학습 부담이 다르다. Lemma는 굴절 형태(run, runs, running, ran)를 하나로 묶되, 파생어(runner, rerun)는 별도로 센다. run을 알면 runs와 running은 자동으로 아는 셈이니, 외워야 할 실질 단위가 word family보다 가볍다.

2. NGSL 2,809단어의 실전 커버리지

NGSL 1.2는 Cambridge English Corpus의 2억 7,300만 단어를 기반으로 추출된 2,809개 lemma 리스트다. 2023년 4월에 공개된 최신 버전으로, 이전 버전(1.01)의 2,801개에서 8개가 추가되었다.

이 리스트 하나면 일반 영어 텍스트의 약 92% 커버리지가 나온다. 다만 92%는 평균값이다. 장르별로 편차가 있다.

해리포터 시리즈: 약 93%
토익 시험 지문: 약 94%
영미 TV 드라마: 약 95%

토익 학습자에게는 94%라는 숫자가 특히 의미 있다. NGSL 2,809단어를 확실히 알면 토익 지문 100단어 중 94개를 알고 들어간다는 뜻이다. 나머지 6개는 문맥 추론이나 토익 특화 어휘 학습으로 채우면 된다.

원서 읽기가 목표인 사람도 마찬가지다. 해리포터라면 93%에서 출발해, 판타지 장르 특유의 어휘(wand, muggle, potion 같은 단어)만 보충하면 읽기가 돌아간다. TV 드라마는 95%까지 커버되니 일상 회화 이해에 꽤 가까운 수준이다.

3. 현재 수준 진단: 나는 지금 몇 퍼센트인가

로드맵을 세우려면 출발점을 알아야 한다. NGSL 프로젝트에서 제공하는 텍스트 분석 도구를 활용하면, 자신이 읽고 있는 영어 텍스트에서 NGSL 단어가 몇 퍼센트를 차지하는지 확인할 수 있다.

더 직접적인 방법도 있다. NGSL 단어장을 빈도순으로 열어서 처음부터 훑어본다. 상위 500개에서 모르는 단어가 거의 없으면 초급은 넘긴 것이다. 1,000개까지 대부분 알면 중급 초입이고, 2,000개 이상이면 마무리 단계다.

대략의 기준을 표로 보면 이해가 빠르다.

| 현재 수준 | 아는 NGSL 단어 (추정) | 현재 커버리지 (추정) | 남은 학습량 | |-----------|---------------------|-------------------|-----------| | 완전 초보 | ~500개 | ~70% | ~2,300개 | | 초급 | ~1,000개 | ~80% | ~1,800개 | | 중급 초입 | ~1,500개 | ~85% | ~1,300개 | | 중급 | ~2,000개 | ~88% | ~800개 | | 중급 이상 | ~2,500개 | ~91% | ~300개 |

이 표에서 자신의 위치를 파악했다면, 남은 학습량이 곧 로드맵의 범위가 된다.

4. 8주 로드맵: NGSL 기초 어휘 완성 플랜

아래 로드맵은 중급 초입 학습자(약 1,500개 기지 단어)를 기준으로 설계했다. 하루 학습 시간은 30~40분, 주 6일 기준이다. 완전 초보라면 기간을 12주로 늘리고, 이미 2,000개 이상을 아는 학습자라면 5~6주로 줄일 수 있다.

4-1. 1~2주차: 빈도 상위 집중 구간 (목표: +350개)

NGSL 빈도 순위 1,501~1,850번 구간을 집중적으로 잡는다. 하루 30개씩, 주 6일이면 주당 180개 페이스. 이 구간에는 일상에서 자주 마주치는 단어가 많아서 체감 난이도가 낮은 편이다.

일일 루틴: 새 단어 30개 학습(15분) + 전날 복습(10분) + 주간 누적 복습(10분)
주말: 해당 주 전체 단어 테스트. 정답률 80% 미만인 단어만 별도 표시

4-2. 3~4주차: 확장 구간 (목표: +350개)

빈도 순위 1,851~2,200번 구간으로 넘어간다. 학술적이거나 약간 전문적인 단어가 슬슬 섞인다. 단어 하나에 들이는 시간을 조금 늘려야 하는 구간이다.

일일 루틴: 새 단어 25개 학습(15분) + 복습 2세트(15분) + 오답 재확인(5분)
주말: 1~4주차 누적 테스트. 커버리지 추정치를 다시 계산해본다

4-3. 5~6주차: 심화 구간 (목표: +300개)

빈도 순위 2,201~2,500번 구간이다. 이 영역의 단어들은 일상에서 자연스럽게 마주칠 기회가 줄어든다. 의도적으로 영어 읽기 자료 속에서 해당 단어를 찾아내는 훈련을 병행하면 정착률이 올라간다.

일일 루틴: 새 단어 25개(15분) + 복습(15분) + 영어 기사나 소설에서 해당 단어 찾기(10분)
주말: 5~6주차 구간 테스트, 1~4주차 약점 단어 재복습

4-4. 7~8주차: 마무리 구간 (목표: +309개, 2,809 완성)

마지막 구간, 빈도 순위 2,501~2,809번. 빈도는 상대적으로 낮지만, 이 309개를 빠뜨리면 92% 커버리지가 완성되지 않는다.

일일 루틴: 새 단어 25개(10분) + 전체 약점 단어 복습(20분) + 실전 텍스트 읽기(10분)
주말: NGSL 전체 2,809개 중 모르는 단어 최종 점검. 텍스트 분석 도구로 실제 커버리지 측정

8주가 끝나면 NGSL 2,809개 전체를 최소 한 번은 학습한 상태다. 물론 "본 적 있다"와 "안다"는 다른 문제다. 8주 완주 후에도 4주 정도의 복습 기간을 따로 잡기를 권한다. 간격 반복 원리로 약점 단어를 집중 보강하면, 단기 기억에 머물던 단어들이 장기 기억으로 넘어간다. 복습 간격을 잡는 구체적인 방법은 망각곡선과 단어 암기법에서 다뤘다.

5. 92%에서 멈추지 않는다: 목적별 확장 리스트

NGSL 2,809개로 92%를 달성한 다음에는 "나머지 8%를 어떻게 채울 것인가"가 과제가 된다. NGSL 프로젝트는 이 지점을 위해 목적별 확장 리스트를 함께 운영하고 있다.

TSL 1.2 (TOEIC Service List)는 토익 시험에 특화된 고빈도 단어 리스트다. NGSL로 94%를 확보한 상태에서 TSL을 추가하면 토익 지문의 커버리지가 96~97%까지 올라간다. 토익 단어 우선순위를 고민하는 학습자에게 가장 먼저 권할 리스트다.

BSL 1.2 (Business Service List)는 비즈니스 영어에 특화된 리스트다. 이메일, 보고서, 회의 등 업무 환경에서 자주 등장하는 단어를 모았다. 취업 후 실전 영어가 목표라면 TSL보다 BSL이 더 실용적일 수 있다.

NAWL 1.2 (New Academic Word List)는 학술 텍스트에 특화된 리스트다. 대학원 진학이나 영어 논문 읽기가 목표인 학습자에게 적합하다. NGSL + NAWL 조합이면 학술 텍스트의 커버리지가 크게 올라간다. 학술 어휘 학습 전략은 AWL 570 단어 공부법에서 별도로 다루고 있다.

FEL 1.2 (Fitness English List)는 건강·운동 분야에 특화된 리스트다. 범용성은 떨어지지만, 해당 분야에 관심 있는 학습자에게는 유용하다.

목표별 확장 경로를 한눈에 보면 이렇게 된다.

| 학습 목표 | NGSL (기본) | + 확장 리스트 | 예상 커버리지 | |----------|-----------|-------------|------------| | 토익 고득점 | 2,809개 (92%) | + TSL | 96~97% | | 비즈니스 영어 | 2,809개 (92%) | + BSL | 95~96% | | 학술 영어 | 2,809개 (92%) | + NAWL | 95~96% | | 일반 읽기·듣기 | 2,809개 (92%) | + 다독/다청 | 95%+ |

어느 방향으로 가든 NGSL 기초 어휘가 깔려 있어야 확장 리스트의 효과가 살아난다. 기초 없이 확장 리스트만 외우면 빈도 높은 단어를 모르는 채로 전문 어휘만 아는 기형적인 어휘력이 만들어진다.

6. NGSL 학습에 활용할 수 있는 도구들

NGSL 프로젝트는 단어 리스트 외에 학습과 분석을 돕는 도구도 함께 제공한다.

텍스트 분석기를 쓰면 영어 텍스트를 붙여넣었을 때 NGSL 단어 비율을 바로 확인할 수 있다. 지금 읽고 있는 교재나 기사의 NGSL 커버리지가 90% 미만이면 아직 내 수준보다 어려운 자료다. 95% 이상이면 사전 없이도 편하게 읽을 수 있는 수준이다.

빈도순 단어 리스트는 NGSL 전체 2,809개를 빈도 순서대로 정렬한 파일이다. 스프레드시트로 열어서 "아는 단어 / 모르는 단어" 칼럼을 추가하면 자신만의 학습 트래커가 된다. 진도율을 숫자로 보는 것만으로도 동기 부여 효과가 크다.

이 도구들은 NGSL 공식 사이트에서 무료로 쓸 수 있다. 2주마다 텍스트 분석기에 자신이 읽는 영어 자료를 넣어보는 습관을 들이면, 커버리지가 실제로 올라가는 과정을 눈으로 확인할 수 있다.

빈도 검증이 더 궁금한 학습자를 위해 한 가지 더. BYU에서 운영하는 COCA(11억 단어 규모 미국 영어 코퍼스)나 iWeb(140억 단어 규모 웹 코퍼스)에서는 특정 단어가 실제로 얼마나 자주 쓰이는지 직접 확인할 수 있다.

7. Oxford 3000과 뭐가 다른가

기초 영어 단어 리스트로 Oxford 3000을 먼저 접한 학습자도 있을 것이다. 두 리스트는 목표는 비슷하지만 만든 방식이 다르다.

Oxford 3000은 학습자 사전 편찬 과정에서 교육적 판단을 거쳐 선별된 3,000개 단어다. NGSL 2,809개는 코퍼스 빈도 분석이라는 통계적 방법으로 추출된 lemma다. 전자는 "알아야 할 단어", 후자는 "실제로 가장 많이 쓰이는 단어"라는 접근 차이가 있다.

실질적으로는 핵심 단어의 80% 이상이 겹친다. 고빈도 영역이 같기 때문이다. 이미 하나를 학습 중이라면 굳이 갈아탈 필요 없다. 현재 리스트를 끝까지 완주하는 쪽이 훨씬 효율적이다.

8. 92%를 넘어서는 시점

NGSL 2,809개를 잡고 목적별 확장 리스트까지 더하면, 대부분의 영어 상황에서 95% 이상의 커버리지를 확보하게 된다. 98%까지 올리려면 약 5,000 word families 수준의 어휘력이 필요한데, 이 단계부터는 단어장 중심 학습의 효율이 떨어진다. 다독과 다청으로 자연스럽게 어휘를 흡수하는 편이 낫다.

95%는 모르는 단어가 나와도 문맥으로 추론하며 읽어나가는 수준이다. 98%는 거의 막힘 없이 원어민 콘텐츠를 소화하는 수준이다. 목표가 어디든 출발점은 같다. 가장 많이 쓰이는 단어부터 빈도순으로 확실히 잡는 것.

지금 NGSL 사이트에서 텍스트 분석기를 열고, 최근에 읽은 영어 자료 하나를 넣어보자. 나오는 커버리지 숫자가 오늘의 출발선이고, 8주 뒤에 같은 텍스트를 다시 분석했을 때 올라간 숫자가 그간의 성과다.

NGSL 2,809단어 로드맵: 92% 커버리지로 기초 어휘 완성하기