황소보카:: CEFR 난이도별 문법/텍스트 복잡도: 내 레벨에 맞는 지문 고르는 법

영어 공부를 어느 정도 해온 사람이라면 한 번쯤 이런 경험이 있다. 서점에서, 혹은 온라인에서 리딩 교재를 골랐는데 너무 쉽거나 너무 어렵다. 몇 페이지 읽다가 덮는다. 시간과 돈이 낭비된다. 문제는 대부분의 학습자가 "내 레벨에 맞는 지문"을 고르는 기준 자체를 모른다는 데 있다.

"중급이면 이 정도 읽을 수 있겠지"라는 감이 기준의 전부다. 그런데 그 감은 대체로 틀린다.

1. 왜 지문 선택이 이렇게 어려울까

영어 지문 난이도를 결정하는 요소는 한두 가지가 아니다. 단어가 어려운 글, 문장이 복잡한 글, 배경지식이 필요한 글은 각각 다른 방식으로 어렵다. 그래서 단순히 "중급용"이라고 적힌 교재를 사도 실제 체감 난이도는 천차만별이다.

CEFR(유럽공통참조기준)은 A1부터 C2까지 6단계로 언어 능력을 나누는 국제 표준이다. 전 세계 교육기관, 시험, 채용에서 널리 쓰이는 기준인 만큼 리딩 자료를 고를 때도 이 프레임워크를 활용하면 실패 확률을 크게 줄일 수 있다. 다만 핵심은 CEFR 레벨 표시만 믿는 게 아니라, 텍스트 복잡도를 직접 판별하는 눈을 기르는 것이다.

2. 텍스트 복잡도, 무엇이 난이도를 만드는가

2025년 SSLA(Studies in Second Language Acquisition) 학술지에 실린 연구가 흥미로운 결과를 보여준다. 연구팀은 CLEAR 코퍼스에 포함된 1,181개 텍스트를 대상으로 언어적 복잡도 지표와 CEFR 난이도 간의 관계를 분석했다. 결론부터 말하면, CEFR 그룹별로 추출된 복잡도 지표에 통계적으로 유의한 차이가 존재했다.

텍스트 복잡도를 구성하는 축은 크게 두 가지다.

첫째는 어휘 복잡도다. 얼마나 어려운 단어가 쓰였는지를 본다. 고빈도 어휘 목록(NGSL 고빈도 단어 참고)으로 텍스트의 몇 퍼센트를 커버할 수 있는지가 핵심 지표다. 3,000 word families와 고유명사만으로 약 95%를 커버할 수 있고, 5,000 word families와 고유명사를 합치면 약 98%까지 올라간다. 이 수치가 왜 중요한지는 뒤에서 다시 다룬다.

둘째는 구문 복잡도다. 문장이 얼마나 길고 복잡하게 구성되어 있는가를 측정한다. 종속절의 수, 구문 길이, 절 간의 중첩 정도가 여기에 해당한다. 같은 단어를 써도 문장 구조가 달라지면 체감 난이도는 완전히 바뀐다.

다만 이 연구에서 주목할 점이 하나 더 있다. 어휘 지표만으로는 난이도 설명이 불충분하다는 것이다. 구문 복잡도와 언어 모델(LM) 기반 특징이 추가적인 설명력을 제공한다. 단어 수준만 보고 "이건 내 레벨이다"라고 판단하면 절반만 맞는 셈이다.

3. CEFR 레벨별 텍스트는 이렇게 다르다

구체적으로 어떤 차이가 있는지 살펴보자. 각 레벨에서 학습해야 할 문법 항목이 궁금하다면 CEFR 문법 레벨 가이드를 참고하면 된다. 여기서는 지문 자체의 특성에 집중한다.

A1~A2 단계, 그러니까 기초 수준에서는 문장이 짧다. 한 문장에 절이 하나, 많아야 두 개다. 현재시제와 과거시제가 주를 이루고, 접속사도 and, but, because 정도가 전부다. 어휘는 1,000~2,000 word families 수준이면 대부분 읽힌다. 메뉴판, 짧은 공지, 간단한 이메일 같은 텍스트가 이 범위에 들어온다.

B1~B2는 중급이다. 종속절이 본격적으로 등장한다. 관계대명사절, 분사구문, 가정법이 섞이기 시작하고, 한 문장 안에 두세 개의 절이 중첩되는 구조도 나타난다. 어휘 범위는 3,000~5,000 word families로 확장된다. 뉴스 기사, 에세이, 비즈니스 서신이 여기에 해당한다. 중급 학습자가 가장 오래 머무는 구간이기도 하다.

C1~C2, 고급 단계가 되면 문장 구조가 한층 정교해진다. 도치, 생략, 삽입절이 빈번하고, 추상적 어휘와 전문 용어가 자연스럽게 섞인다. 학술 논문, 법률 문서, 문학 작품의 텍스트 복잡도가 이 수준이다. 5,000 word families 이상의 어휘력이 필요하며, 구문 해석 능력 없이는 문장 단위에서 막힌다.

앞서 언급한 연구에서는 이 세 그룹(elementary, intermediate, advanced)을 구분하는 분류기(classifier)를 개발해 CEFR 정렬을 검증했다. 분류기가 유의미하게 작동했다는 건, 레벨 간 텍스트 특성 차이가 실제로 측정 가능하다는 뜻이다.

4. 내 레벨에 맞는 지문, 이렇게 고른다

이론을 알았으니 실전 적용법으로 넘어가자. 리딩 자료를 고를 때 아래 세 단계를 거치면 "너무 쉽거나 너무 어려운" 자료를 피할 수 있다.

1단계로 어휘 커버리지부터 확인한다.

지문 첫 한두 페이지를 읽으면서 모르는 단어의 비율을 체크한다. 경험적으로 가장 효과적인 기준은 이렇다.

95% 이상 이해한다면 편안한 다독(extensive reading)에 적합하다. 속도와 유창성 향상용으로 쓴다. 90~95% 이해는 학습적 리딩에 적합하다. 문맥 추론 연습과 어휘 확장이 동시에 가능한 범위다. 90% 미만이면 좌절감이 클 가능성이 높다. 한 단계 낮추는 게 낫다.

Oxford 3000 커버리지에서 다뤘듯이 3,000단어로 일반 텍스트의 약 95%를 커버할 수 있다. 자신의 어휘 수준과 목표 텍스트의 어휘 범위를 맞춰보는 것이 첫 번째 필터다. CEFR 어휘 로드맵에서 레벨별 어휘 목표를 구체적으로 확인할 수 있다.

2단계로 구문 복잡도를 체크한다.

단어를 다 알아도 문장이 안 읽히는 경우가 있다. 그건 구문 복잡도가 자신의 문법 이해도를 넘어서기 때문이다. 체크 방법은 간단하다.

한 단락을 소리 내어 읽어본다. 문장의 주어와 동사를 바로 찾을 수 있는가? 종속절의 경계가 눈에 들어오는가? 주어를 찾는 데 10초 이상 걸리는 문장이 단락마다 두 개 이상이라면, 그 지문은 현재 레벨보다 높은 것이다.

연구에서도 특징 추출 과정에서 전통적 구문/어휘 복잡도 지표와 언어 모델 기반 특징을 함께 사용했을 때 가장 정확한 난이도 판별이 가능했다. 학습자 입장에서도 어휘와 구문을 따로따로 보는 게 아니라 함께 판단해야 한다.

3단계로 CEFR 레벨 표기와 교차 확인한다.

요즘은 교재나 온라인 리딩 자료에 CEFR 레벨이 표기되어 있는 경우가 많다. 이 연구에서 개발된 복잡도 분석 도구처럼, 교수/학습 현장에서 레벨에 맞는 읽기 자료 선택을 지원하는 도구들도 점차 늘어나는 추세다. 레벨 표기를 참고하되, 위 1~2단계를 직접 거쳐서 자신의 체감과 일치하는지 확인하는 습관이 중요하다.

CEFR 난이도와 어휘 커버리지(95~98%) 기준을 함께 쓰면, 자료 선택 실패 확률이 눈에 띄게 줄어든다. 둘 중 하나만 쓰면 빈틈이 생긴다.

5. 실전에서 바로 쓰는 판별 체크리스트

정리하면 이렇다. 리딩 자료를 앞에 놓고 아래 질문에 답해보자.

첫째, 첫 페이지에서 모르는 단어가 한 줄에 한 개 이하인가? 그렇다면 어휘 커버리지 95% 이상이다. 학습 목적이라면 적절하고, 다독용이라면 조금 더 도전적인 자료를 골라도 좋다.

둘째, 문장의 주어-동사 구조를 한 번에 파악할 수 있는가? 종속절이 많더라도 구조가 눈에 들어온다면 구문 복잡도가 자신의 레벨과 맞는 것이다.

셋째, 한 단락을 읽고 핵심 메시지를 한 문장으로 말할 수 있는가? 이건 어휘와 구문을 넘어선 종합적 이해도 테스트다. 여기서 막힌다면 배경지식 부족일 수도 있고, 텍스트 자체가 레벨을 넘어선 것일 수도 있다.

세 질문 중 두 개 이상에 "아니오"가 나오면 한 단계 낮은 자료로 바꾸는 게 효율적이다.

6. 레벨은 고정이 아니라 범위다

한 가지 더 짚어두고 싶은 점이 있다. 많은 학습자가 "나는 B2야"라고 자기 레벨을 하나로 고정하려 한다. 그런데 실제로는 주제에 따라 레벨이 달라진다. 일상 주제의 텍스트는 B2로 편하게 읽는 사람이 경제 뉴스에서는 B1 수준으로 떨어질 수 있다. 이건 정상이다.

그래서 지문 선택도 "내 평균 레벨"이 아니라 "이 분야에서의 내 레벨"을 기준으로 해야 한다. 익숙한 분야에서는 살짝 도전적인 자료를, 낯선 분야에서는 한 단계 낮은 자료를 고르는 게 학습 효율을 높이는 방법이다.

영어 지문 난이도는 어휘와 구문이라는 두 축으로 움직인다. 둘 다 체크하고, CEFR 기준과 교차 확인하고, 자신의 체감과 맞는지 점검하는 습관을 들이면 "또 잘못 골랐다"는 경험은 점점 줄어들 것이다. 자기 레벨에 딱 맞는 자료를 꾸준히 읽는 사람이, 어려운 자료에 도전했다 포기하는 사람보다 훨씬 빨리 올라간다.

CEFR 난이도별 문법/텍스트 복잡도: 내 레벨에 맞는 지문 고르는 법

1. 왜 지문 선택이 이렇게 어려울까

2. 텍스트 복잡도, 무엇이 난이도를 만드는가

3. CEFR 레벨별 텍스트는 이렇게 다르다

4. 내 레벨에 맞는 지문, 이렇게 고른다

5. 실전에서 바로 쓰는 판별 체크리스트

6. 레벨은 고정이 아니라 범위다

관련 글

영문법 실수 TOP 체크리스트: 시제·관사 오류를 빠르게 고치는 법

영문법 공부 순서 완벽 가이드: 기초부터 고급까지 체계적 로드맵

a/the 관사 실수 줄이기: definiteness·specificity로 끝내는 관사 문법