황소보카:: CEFR 레벨별 독해 자료 고르는 법: 텍스트 복잡도와 어휘 커버리지 기준

영어 독해 공부를 시작하려고 자료를 찾다 보면, 금방 막다른 길에 부딪힌다. 서점에 가면 초급, 중급, 고급이라고 적혀 있는데, 그 기준이 출판사마다 다르다. 온라인 리딩 자료는 더 혼란스럽다. 영자 신문을 읽으라는 조언부터 그레이디드 리더를 쓰라는 조언까지, 방향이 제각각이다.

자기 레벨보다 한참 어려운 지문을 붙들고 사전만 찾다가 포기하는 사람. 반대로 너무 쉬운 자료를 반복해서 실력이 제자리인 사람. 둘 다 문제는 같다. 자료 선택 기준이 없다.

1. 왜 적당한 자료를 못 고르는가

자기 레벨을 정확히 모르는 게 가장 큰 원인이다. "나는 중급 정도?"라는 막연한 감각으로 자료를 고른다. 그런데 중급이 어디서부터 어디까지인지, 어떤 텍스트를 읽을 수 있어야 중급인지를 모르면 그 감각은 기준이 될 수 없다.

난이도의 구성 요소를 구분하지 못하는 것도 문제다. 텍스트가 어렵다고 느낄 때, 그게 단어 때문인지 문장 구조 때문인지 배경지식 때문인지를 따져봐야 한다. 원인이 다르면 처방도 달라야 하는데, 그냥 "어렵다"로 뭉뚱그린다.

객관적 기준 자체를 모르는 경우도 많다. CEFR(유럽공통참조기준)이 A1부터 C2까지 6단계로 언어 능력을 나누는 국제 표준이라는 건 들어봤어도, 그걸 실제 리딩 자료 선택에 어떻게 적용하는지는 아는 사람이 드물다.

이 세 가지를 풀어야 "내 레벨에 맞는 자료"를 정확하게 고를 수 있다.

2. CEFR, 독해 자료 선택의 좌표계

CEFR는 A1~C2 6단계를 크게 세 그룹으로 묶는다. Basic User(A1-A2), Independent User(B1-B2), Proficient User(C1-C2). 이 구분이 독해 자료 선택에서 왜 중요한가.

2025년 SSLA(Studies in Second Language Acquisition)에 발표된 연구가 명확한 근거를 제공한다. 연구팀은 CLEAR 코퍼스에 수록된 1,181개 텍스트를 분석하여 CEFR 난이도와 텍스트 복잡도 지표 간의 관계를 검증했다. 결과는 분명했다. elementary, intermediate, advanced 세 수준 사이에서 복잡도 지표의 차이가 통계적으로 유의했다. 이건 "느낌"이 아니라 데이터로 확인된 구분이다.

연구팀이 특히 주목한 점이 있다. 텍스트 난이도를 정확하게 판별하려면 전통적인 구문/어휘 복잡도 지표와 언어모델(LM) 기반 특징을 함께 활용해야 한다는 것이다. 단어 난이도만 보거나 문장 길이만 보면 절반밖에 못 잡는다. 이 두 축을 동시에 보는 습관이 자료 선택의 핵심이다.

이 연구의 의미를 독해 학습자 입장으로 번역하면 이렇다. CEFR 레벨은 실제로 텍스트의 객관적 특성과 연결되어 있고, 학습자가 그 특성을 판별하는 눈을 기르면 자료 선택 실패를 크게 줄일 수 있다.

3. 어휘 커버리지: 첫 번째 필터

독해 자료를 고를 때 가장 먼저 확인해야 할 것은 어휘 커버리지다. 지문에 나오는 단어 중 내가 아는 단어의 비율이다. 이 숫자가 독해 성패를 가르는 일차 관문이 된다.

기준선은 연구를 통해 꽤 명확하게 잡혀 있다.

95% 이상이면 편안한 다독 구간이다. 모르는 단어가 20단어 중 1개 이하다. 속도를 높이면서 읽는 유창성을 기르기에 적합하다. 문맥으로 모르는 단어의 의미를 추론하는 연습도 자연스럽게 된다.

90~95% 구간은 학습적 독해에 적당하다. 10~20단어 중 1개꼴로 모르는 단어가 나온다. 사전을 가끔 찾으면서 어휘를 확장하기에 좋다. 다만 집중력이 필요하고, 긴 시간 읽기는 피로해질 수 있다.

90% 미만은 좌절 구간이다. 이 수준에서는 문장 단위의 이해 자체가 무너진다. 어휘 커버리지 95~98% 구간을 관리하면 난이도 실패 확률이 눈에 띄게 줄어든다는 연구 결과가 있는데, 90% 미만은 그 관리 범위를 벗어난 것이다. 한 단계 쉬운 자료로 바꾸는 게 시간을 아끼는 길이다.

그렇다면 이 95%를 달성하려면 어떤 어휘 기반이 필요한가. NGSL 고빈도 단어에서 다뤘듯이, NGSL 2,809단어만으로도 일반 영어 텍스트의 약 92%를 커버할 수 있다. 여기에 고유명사와 투명한 합성어를 더하면 95%에 근접한다. 이 리스트가 CEFR 기반 독해의 어휘 기초선이 되는 셈이다. 레벨별로 어휘 목표를 구체적으로 설계하는 방법은 CEFR 어휘 로드맵에 정리해두었다.

확인법은 간단하다. 읽으려는 지문의 첫 페이지에서 모르는 단어 수를 세본다. 200단어 텍스트에서 모르는 단어가 10개 이상이면 커버리지 95% 미만이다. 이 자료는 아직 이르다고 판단하면 된다.

4. 구문 복잡도: 두 번째 필터

단어를 다 아는데 문장이 안 읽히는 경우가 있다. 이게 구문 복잡도 문제다. 어휘 커버리지가 첫 번째 필터라면, 구문 복잡도는 두 번째 필터다.

CEFR 레벨별로 텍스트의 구문 특성이 확연히 다르다.

A1~A2 단계 텍스트는 문장이 짧고 단순하다. 주어-동사-목적어 순서가 지켜지고, 접속사는 and, but, because 수준이다. 종속절이 거의 없다. 메뉴판, 안내문, 짧은 이메일이 이 범위의 전형적인 텍스트다.

B1~B2로 넘어가면 관계대명사절, 분사구문이 본격적으로 등장한다. 한 문장에 두세 개의 절이 중첩되는 구조가 나타나고, 가정법이나 수동태도 자주 쓰인다. 뉴스 기사, 일반 에세이, 비즈니스 보고서가 이 구간에 해당한다. 대부분의 시험 준비생이 가장 오래 머무는 구간이기도 하다.

C1~C2 텍스트에서는 도치, 생략, 삽입절이 빈번하다. 한 문장 안에서 주어를 찾기 어려운 구조가 나오고, 추상적 개념이 문법적으로도 복잡한 형태로 표현된다. 학술 논문, 문학 비평, 사설이 이 수준이다.

CEFR 텍스트 복잡도에서 문법/구문 복잡도를 레벨별로 더 깊이 분석해두었으니, 문장 구조 판별에 대해 더 자세한 기준이 필요하다면 참고하면 된다.

구문 복잡도를 체크하는 방법도 어렵지 않다. 한 단락을 소리 내어 읽어본다. 각 문장에서 주어와 동사를 즉시 찾을 수 있는가. 종속절의 시작과 끝이 눈에 들어오는가. 주어를 찾는 데 10초 이상 걸리는 문장이 단락마다 둘 이상이면, 그 텍스트는 구문 측면에서 현재 레벨을 넘어선 것이다.

5. 레벨별 자료 선택 가이드

두 필터를 합치면, CEFR 레벨별로 어떤 자료가 적절한지 윤곽이 잡힌다.

A2~B1 학습자에게는 그레이디드 리더(Graded Reader)가 가장 효율적이다. 출판사별로 CEFR 레벨이 표기되어 있고, 어휘와 구문이 해당 레벨에 맞춰 통제되어 있다. 커버리지 95% 이상을 자연스럽게 확보할 수 있다. 이 단계에서 영자 신문을 읽겠다는 건, B2 이상의 어휘와 구문에 부딪히겠다는 뜻이다. 아직 이르다.

B1~B2 학습자는 뉴스 기반 학습 자료가 유용해지는 구간이다. 다만 원문 뉴스가 아니라 학습자용으로 다듬어진 자료를 고르는 게 핵심이다. 어휘 3,000~5,000 수준이면 학습용 뉴스의 95% 이상을 커버할 수 있다. 일반 에세이, 블로그 글, 비즈니스 서신도 이 구간에서 점차 읽어나갈 수 있다.

B2~C1 학습자는 원문 뉴스, 잡지 기사, 학술 초록(abstract)까지 범위가 넓어진다. 이 단계에서는 주제에 따라 체감 난이도가 크게 갈린다. 익숙한 분야의 기사는 편하게 읽히지만, 낯선 분야는 B1 수준으로 후퇴할 수 있다. 이건 정상이다. 분야별로 자료 난이도를 다르게 설정하는 게 오히려 정확한 접근이다.

6. 자료 선택 5분 체크리스트

리딩 자료를 앞에 두고 다음 다섯 가지를 확인한다. 5분이면 끝난다.

어휘 커버리지부터 확인한다. 첫 페이지 200단어 중 모르는 단어가 몇 개인지 센다. 10개 미만이면 95% 이상이다. 학습 목적이라면 적절하다. 5개 미만이면 다독용으로 좋다. 10개를 넘으면 한 단계 쉬운 자료를 찾는다.

구문 복잡도를 체크한다. 아무 단락이나 하나 골라서 읽는다. 문장의 주어-동사를 바로 잡을 수 있는가. 절의 경계가 눈에 보이는가. 막히는 문장이 단락당 두 개 이상이면 구문 난이도가 높은 것이다.

CEFR 레벨 표기가 있는지 본다. 교재나 온라인 자료에 CEFR 레벨이 표기되어 있다면, 그걸 참고하되 맹신하지 않는다. 위 두 가지 체크와 교차 확인해서 체감과 일치하는지 본다.

한 단락의 핵심을 한 문장으로 말해본다. 어휘도 알겠고 구문도 읽히는데, 단락의 요지를 정리하지 못한다면 배경지식이나 논리 구조에서 막히는 것이다. 이 경우 같은 주제의 한국어 자료로 배경지식을 먼저 쌓은 뒤에 다시 도전하는 게 낫다.

흥미를 느끼는지 확인한다. 난이도가 딱 맞아도 내용이 지루하면 지속하기 어렵다. 독해 실력은 꾸준히 읽는 양에 비례한다. 읽고 싶은 주제의 자료를 고르는 게 장기적으로 더 중요하다.

다섯 항목 중 첫 세 개에서 두 개 이상 "아니오"가 나오면, 그 자료는 현재 레벨에 맞지 않는다. 과감하게 바꾸는 게 시간을 아끼는 방법이다.

7. 메타인지: 자료 선택 너머의 기술

레벨에 맞는 자료를 골랐다고 끝이 아니다. 읽는 과정에서 자기 이해도를 모니터링하는 능력, 즉 메타인지 전략이 독해 성취도에 큰 영향을 미친다는 연구 결과가 있다.

메타인지는 거창한 게 아니다. "지금 이 단락을 이해하고 있는가?"를 읽으면서 스스로 점검하는 것이다. 이해가 안 되면 속도를 줄이거나 다시 읽고, 이해가 잘 되면 속도를 높인다. 이 조절 능력이 같은 자료를 읽어도 학습 효과에 차이를 만든다.

자료 선택 단계에서도 메타인지가 작동한다. 체크리스트를 쓰는 행위 자체가 "이 자료가 나에게 맞는지"를 의식적으로 판단하는 과정이기 때문이다. 기계적으로 자료를 집어드는 대신 5분을 투자해서 점검하는 습관이, 몇 시간의 비효율적 독해를 막아준다.

독해 레벨을 종합적으로 끌어올리는 전략이 필요하다면 독해 레벨업 가이드를, 어휘 기초를 탄탄히 다지고 싶다면 영어 독해 기초: 어휘 커버리지를 함께 읽어보면 좋다.

8. 레벨은 하나의 숫자가 아니다

많은 학습자가 "나는 B1이야" 하고 자기 레벨을 하나로 고정하려 한다. 하지만 현실은 다르다. 관심 있는 분야의 글은 B2 수준으로 읽히는 사람이, 법률 기사 앞에서는 A2처럼 막힐 수 있다. 영어 독해 레벨은 주제와 장르에 따라 출렁인다.

그래서 자료 선택도 "내 평균 레벨"이 아니라 "이 분야에서의 내 레벨"을 기준으로 해야 한다. 익숙한 분야에서는 살짝 도전적인 자료를, 낯선 분야에서는 한 단계 낮은 자료를 고른다. 이렇게 분야별로 난이도를 조절하면, 전체적인 독해 능력이 고르게 올라간다.

어휘 커버리지와 구문 복잡도, 이 두 축으로 자료를 거르고, CEFR 레벨 표기와 교차 확인하는 습관을 들이면 "또 잘못 골랐다"는 경험이 줄어든다. 5분짜리 체크리스트 하나가, 몇 주치 독해 학습의 방향을 바꿀 수 있다. 어려운 자료에 도전하다 포기하는 사이클을 반복하는 것보다, 자기 레벨에 딱 맞는 자료를 꾸준히 읽는 사람이 결국 더 빨리 올라간다.

CEFR 레벨별 독해 자료 고르는 법: 텍스트 복잡도와 어휘 커버리지 기준

1. 왜 적당한 자료를 못 고르는가

2. CEFR, 독해 자료 선택의 좌표계

3. 어휘 커버리지: 첫 번째 필터

4. 구문 복잡도: 두 번째 필터

5. 레벨별 자료 선택 가이드

6. 자료 선택 5분 체크리스트

7. 메타인지: 자료 선택 너머의 기술

8. 레벨은 하나의 숫자가 아니다

관련 글

토플 리딩 시간관리: 35분·2지문 구조에서 점수 올리는 법

영어 독해가 어려운 이유: 95~98% 어휘 커버리지로 지문 난이도 맞추기

독해 레벨업 가이드: CEFR·텍스트 복잡도·어휘 커버리지 3축 전략