You are on page 1of 32

한국어능력시험(TOPIK) 어휘 분석 연구 7

특집 논문

한국어능력시험(TOPIK) 어휘 분석 연구

강현화 | 연세대학교 |

홍혜란 | 연세대학교 |

1. 서론

어휘는 언어 교육에서 중요한 쟁점이다. 그간 어휘에 대한 관심은


학습자에게 필요한 어휘를 선정하는 것과 이를 효율적으로 가르치는
데에 초점을 두어 왔다. 하지만 이러한 연구들이 교육 현장에 적용되
기 위해서는 이론적 고찰에만 그칠 것이 아니라 실제 사용되고 있는
어휘에 대한 귀납적 분석도 필수적으로 요구된다. 이러한 측면에서
볼 때, 한국어 교육 현장에서 사용되고 있는 어휘에 대한 분석 연구는
활발하지 않았다. 최근 강현화(2014ㄱ)에서는 국내 주요 한국어 교
육 기관의 교재를 중심으로 숙달도별 사용/회귀 어휘량을 분석하여
실제 학습자가 교재를 통해 학습하게 되는 어휘의 양적 규모를 산출
한 바 있다. 유사한 측면에서 기출 한국어능력시험에서의 어휘량을
분석할 필요가 있다. 최근 도구적 동기를 가진 학습자가 급증하고 있
는 것을 고려한다면 한국어 학습자에게 미치는 한국어능력시험의 역
류 효과는 매우 크기 때문이다.
한국어능력시험은 한국어를 모국어로 하지 않는 재외동포와 외국

www.dbpia.co.kr
8 한국사전학 제25호

인의 한국어 숙달도를 평가하기 위한 시험이다. 최근 개편된 시험 체


제는 이전의 초급 단계에 해당하는 한국어능력시험Ⅰ과 중 · 고급 단
계를 아우르는 한국어능력시험Ⅱ로 구분이 되면서, 지금까지 끊임없
는 논란의 대상이 되어 왔던 어휘 · 문법 영역을 제외하면서 기능 중
심의 통합 평가 체제로 전환되었다고 볼 수 있다.
이러한 체제의 변화 속에 숙달도 단계 또는 등급 간, 회차 간, 영역
간의 시험 유형과 난이도에 크고 작은 변화들이 있었을 것이며, 시험
문항 텍스트를 구성하는 어휘의 사용 양상을 통해 그 모습을 살펴볼
수 있을 것이다. 왜냐하면 어휘는 문법과 함께 언어의 형태를 이루고
의미를 전달하는 주요 구성 요소로 시험 문항의 텍스트에 포함된 정
보의 양과 질을 투영해 볼 수 있는 매체가 될 수 있기 때문이다. 또한
평가의 측면에서 어휘는 언어 능력의 측정을 위한 직접적 평가 항목
으로서 분리 평가 대상이면서도, 이해 영역이나 표현 영역에서 언어
기능을 평가하면서 다시 직간접적인 평가의 대상이 될 만큼 중요한
요소이기 때문이다.
이에 본 연구는 제1회∼제36회의 한국어능력시험 기출문제에 사
용된 어휘의 양적 분포를 분석하여 어휘 사용 양상을 살펴보는 것을
목적으로 한다. 아울러 한국어능력시험과 한국어 교재 사용 어휘를
비교하여 교육과정과의 차이를 점검해 보고자 한다. 한국어능력시험
어휘의 양적 분포를 살핌으로써 구체적으로 살펴보고자 하는 연구
문제는 다음과 같다.

첫째, 숙달도 단계별, 회차별, 영역별, 품사별 어휘 분포의 차이는


어떻게 나타나며 그것이 함의하는 바는 무엇일까?
둘째, 한국어능력시험과 한국어 교재의 어휘량의 차이는 얼마나
되며 그것이 시사하는 바는 무엇일까?
셋째, 한국어능력시험과 일반 말뭉치 텍스트에서 사용된 어휘는
어느 정도 중복될까? 중복도의 차이가 의미하는 것은 무엇
일까?

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 9

이러한 연구 문제를 탐색하는 과정과 결과는 한국어능력시험의 현


단계를 진단해 보고 향후 지향해야 할 방향을 모색해 볼 수 있다는 점
에서 의의가 있을 것이다.

2. 선행 연구 및 이론적 배경

한국어능력시험은 유일한 국가 공인 한국어 숙달도 평가 시험으로


서 수험자에게는 학습자 자신의 실력 측정이나 취업, 유학 자격 취득
등을 위한 목적으로 광범위하게 활용되어 왔다. 이와 같은 한국어능
력시험의 효율적인 시행과 관리를 위해 주관 기관에서는 시험 모형
개발(김하수 외, 1996, 1997), 시험 체제나 등급 기준 개발 및 조정(남
명호, 외 1999; 김왕규 외, 2002; 김정숙 외, 2005; 윤희원 외, 2010;
김정숙 2011)에 관한 연구를 시험 시행 초기부터 꾸준히 지속해 왔
다. 또한 수험자와 출제자, 채점자를 위한 시험 참조 어휘 목록을 개
발하여 한국어 학습의 방향을 제시하고 체계적이고 공신력 있는 시
험 운영을 위해 노력해 왔다(김중섭 외, 2009, 2010; 강현화 2014).
한편, 한국어능력시험과 관련된 선행 연구들은 주로 영역별 문항
분석(이상린, 2011; 유해준, 2012; 김정은 외, 2013)이나 난이도 분석
(김유정, 2006; 함정식 외, 2014; 양길석 외 2014), 문항 타당도 분석
(전은주, 2006; 양길석 외, 2012; 서수현, 2013) 등을 중심으로 이루어
져 왔다. 또한 회차를 반복하며 축적되어 가는 한국어능력시험 자료
를 바탕으로 하여 한국어능력시험 텍스트의 특성이나 주제, 장르(김
장식, 2012; 송지혜, 2010; 심미현, 2014; 이은희 2014) 등을 논의의
대상으로 삼기도 하였다.
본고와 연계되는 한국어능력시험 어휘에 대해서도 다양한 논의가
있었다. 먼저 박석준(2011)에서는 독립적 평가 영역으로서 어휘 · 문
법 영역, 평가의 범위와 난이도, 문항 유형, 배점과 문항 수, 문항의
질적 평가 등과 관련한 쟁점들을 짚어 보고 발전 방향을 제안하였다.
조현용(2011)은 한국어능력시험 어휘 평가의 분리 평가의 필요성,

www.dbpia.co.kr
10 한국사전학 제25호

어휘 평가의 내용, 어휘 평가의 방법, 어휘 표현 능력 측정을 위한 평


가 방법, 등급별 문항 유형에 대한 어휘 평가의 쟁점들을 분석하였다.
리-스미스 안젤라 · 변우영(2011)에서는 초급 어휘 · 문법 영역의 문
제와 답 항에 제시된 어휘 항목 700여 개를 분석하여 교과 운영 및 수
험 대비 자료로 제시하고 있는데, 기출 어휘를 분석했다는 점에서는
본고의 논의와 가장 밀접한 관련이 있어 보인다. 정은주(2013)는 한
국어능력시험 어휘 · 문법 영역에 나타난 동사 ‘가다’의 쓰임과 한국
어 문어 말뭉치에서의 쓰임을 비교하여 한국어능력시험에서 실생활
에서 고빈도로 사용되는 의미 항목이 한국어능력시험에도 잘 반영되
어 있음을 밝히고 중 · 고급 단계에서도 확장 의미의 제시에 조금 더
주목해야 함을 제언하였다. 이외에도 한국어능력시험 어휘에 관한
연구는 주로 연구 범위에서 어휘를 직접적인 평가의 대상으로 하는
어휘 · 문법 영역에 한정되어 있고, 연구 내용에서 어휘 평가와 관련
한 쟁점을 중심으로 한 현황 진단과 발전 방향의 모색, 개별 어휘 또
는 제한된 범위의 목록 제시를 중심으로 이루어져 왔다.
하지만 선행 연구에서 기출문제 전체를 대상으로 한 어휘 분석 연
구는 이루어지지 않았으며, 교재 어휘와의 비교 연구도 이루어지지
않았다는 점에서 본 연구를 통해 그간의 한국어능력시험의 어휘를
분석해 보는 것은 의미를 가진다고 하겠다. 아울러 어휘는 의사소통
기능의 실현을 위한 도구로서 직·간접적인 평가 대상이 된다는 점에
서 어휘 · 문법 영역에 한정하지 않고 한국어능력시험 전반에 사용된
어휘의 특성을 분석해 본다는 점은 큰 의미가 있다.

3. 연구 방법 및 절차

3.1. 분석 대상 및 범위

본 연구의 분석 대상은 한국어능력시험 1회에서 36회까지의 기출


문제에서 사용된 어휘로 조사, 어미, 문장부호, 기호 70만 2,993개를

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 11

표 1. 분석 자료

1∼34회 35∼36회
합계
초급 중급 고급 Ⅰ Ⅱ

합계 129,178 219,872 278,496 4,835 13,127 645,508

회당 평균 3,799 6,467 8,191 2,418 6,564 17,931

제외한 실질 어휘 62만 2,970개(2만 1,602종)이다.1) 분석 자료로 사


용한 1∼36회까지의 전체 텍스트의 규모는 총 64만 5,510어절로 회
당 평균 1만 7,931어절로 이루어졌으며 매회 반복적으로 출현되는
대문항의 지시문과 <보기>로 제시되는 문항은 제외하였다. 다음은
이를 제외한 숙달도 단계별 어절 수를 나타낸 것이다.2)

3.2. 분석 방법 및 절차

자료의 분석은 한국어능력시험 기출문제 텍스트를 수집하여 전산


화한 후 품사 주석을 부착한 말뭉치로 구축하여 분석 대상 어휘를 추
출하는 방법에 따랐다. 구체적인 분석 절차는 다음과 같으며, 각 단계
에서 필요한 자료의 전처리 과정과 오류 수정을 위한 검수 과정이 이
루어졌다.

1) 분석 대상 자료 중 1회의 듣기 지문은 공개된 자료가 없어 제외되었다.


2) 한국어능력시험은 1∼9회까지 6급 체제, 10∼34회까지 초급 · 중급 · 고급의 3단계
체제로 시행되었으며, 최근 35회 시험부터 이전의 초급 단계에 해당하는 한국어능력
시험 Ⅰ과 중급 · 고급을 아우르는 한국어능력시험 Ⅱ로 체제가 바뀌었다. 본 연구에
서는 1∼34회까지는 초급(1, 2급), 중급, 고급으로 나누고, 35회부터는 Ⅰ, Ⅱ로 나누
어 어휘 사용 경향을 분석하였다.

www.dbpia.co.kr
12 한국사전학 제25호

그림 1. 분석 절차

텍스트 수집 및 입력

형태소 분석(지시문 제외)

품사 주석

기호, 기능어를 제외한 실질 어휘 추출

4. 한국어능력시험 어휘의 분포 분석

4.1. 숙달도 단계별 어휘 분포

한국어능력시험의 숙달도 단계별 어휘 분포를 살피는 것은 각 숙


달도 단계에서 목표로 하는 언어 사용 능력을 갖추기 위해 필요로 하
는 어휘량을 가늠해 볼 수 있다는 점에서 의의가 있다. 한국어능력시
험 제1회에서 제36회까지의 숙달도 단계별 어휘 분포를 분석한 결과
는 다음과 같다.

표 2. 숙달도 단계별 어휘 분포

1∼34회 35∼36회
합계
초급 중급 고급 Ⅰ Ⅱ

종수 3,529 9,942 18,566 823 3,085 21,602

누적 빈도 112,667 215,037 277,233 4,609 13,423 622,970

초급 단계는 3,529종(누적 빈도 11만 2,667개), 중급 단계 9,942종


(21만 5,037개), 고급 단계 1만 8,566종(27만 7,233)의 어휘가 사용되
었다. 시험 체제가 개편된 35회 이후는 한국어능력시험Ⅰ이 823종

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 13

(4,609개), 한국어능력시험Ⅱ가 3,085개(1만 3,423개)였다. 이러한


결과는 각 단계에서 중복 사용된 어휘를 고려하지 않은 절대적인 수
치이다. 따라서 숙달도 단계에 따른 실질적인 어휘량의 증가를 정확
하게 파악하기 위해서는 각 단계에서 회귀되어 사용되고 있는 중복
어휘의 수를 제외한 어휘의 수를 분석해 볼 필요가 있다. <표 3>은 1
∼34회에서 중복 사용된 어휘를 제외한 신규 어휘의 수만을 분석한
결과이다.

표 3. 숙달도 단계별 신규 어휘 종수 분포
신규 초급 중급 합계
초급 3,529 - - 3,529
중급 7,152 2,790 - 9,942
고급 10,680 2,758 7,655 18,566

초급 단계에서는 3,529종의 어휘가 사용되었으며, 중급 단계에서


는 초급 단계에서 사용된 어휘 2,790종이 다시 사용되었다. 고급 단
계에서는 초급 단계에서 사용된 어휘 종 2,758개와 중급 단계에서 사
용된 어휘 종 7,655개가 다시 사용되었다. 이로써 고급 단계에서 사
용된 어휘 종 1만 8,566개 중 새롭게 출현한 어휘의 수는 1만 680 종
임을 알 수 있다. 이상의 분석 결과를 통해 수험자가 필요로 하는 숙
달도 단계별 어휘량을 다음과 같이 유추해 볼 수 있다.

∙ [초급] 일상생활 영역에서 필요로 하는 언어 능력을 갖추기 위해


필요한 어휘 수: 약 3,500여 종
∙ [중급] 일상생활에서 보다 확장된 공공시설의 이용과 사회적 관
계 유지에 필요한 언어 능력을 갖추기 위해 필요한 어휘 수: 약 1
만여 종
∙ [고급] 전문 분야의 업무나 연구 수행에 필요한 언어 능력 갖추기
위해 필요한 어휘 수: 2만여 종

www.dbpia.co.kr
14 한국사전학 제25호

한편, 숙달도 단계가 올라가면서 증가하는 비율을 살펴보면 중급


에서 사용된 어휘 9,942개 중 7,152개의 어휘가 새롭게 출현하였고
(초급 대비 202.6% 증가), 고급에서 사용된 어휘 1만 8,566개 중 1만
680개가 새롭게 출현하였음(중급 대비 149.3% 증가)을 알 수 있는데,
이는 숙달도별로 2배, 1.5배의 증가가 이루어짐을 의미한다. 고급의
경우 새롭게 도입되는 어휘가 상대적으로 유추 가능한 복합어들이
많음을 감안한다면 중급 단계의 수험자에게 어휘 학습의 부담이 더
크게 작용할 수도 있다고 볼 수 있다.
이렇게 숙달도에 따라 급증하는 어휘를 환류 효과 면에서 살펴보
면 한국어 교육 현장에서는 특히 중급 이상의 학습자를 대상으로 하
여 보다 효율적인 어휘 교수 방안을 마련해야 한다는 것을 의미한다.

4.2. 회차별 어휘 분포

회차별 어휘 분포를 살피는 것은 매회의 시험에서 어휘가 양적으


로 얼마나 균형 있게 사용되고 있는가를 파악해 볼 수 있게 한다.
회차별 사용된 평균 어휘 수는 3,413종(1만 7,305개)이다. 평균을
기준으로 1∼9회는 평균보다 1,000여 종 가량 많은 어휘가 사용된 반
면, 10∼34회는 회차 간의 차이가 다소 있지만 평균 어휘량에 근접하
거나 적은 경향을 보였다. 반면, 시험 체제가 개편된 제35회와 제36
회에서는 평균보다 적은(1,000여 종 가량) 것으로 나타났다. 이는 시
험 체제와 관련된 것으로 판단된다. 급의 구분과 텍스트 양의 증가는
비례했는데, 6등급 체제로 시험이 시행되었던 1∼9회 > 10∼34회>
개편된 Ⅰ과 Ⅱ 체제의 순으로 나타난 것이다. <그림 2>는 제1회에
서 제36회까지의 어휘 종수 분포를 그래프로 나타낸 것이다. <그림
1>을 통해서도 설명한 바와 같이 시험 시행 초기에 다양한 어휘가 사
용되다가 시험 체제가 바뀌는 제10회를 기점으로 어휘의 종수가 현
저하게 줄어들고, 또 다시 시험 체제가 바뀌는 제35회를 기점으로 더
줄어드는 것을 볼 수 있다.
<그림 3>은 누적 빈도 대비 종수의 비율을 나타낸 것이다. 이 비율

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 15

표 4. 한국어능력시험 회차별 어휘량 분포

회차 1회 2회 3회 4회 5회 6회

종수 4,495 5,455 4,542 4,735 4,626 4,637

누적 빈도 23,207 32,140 30,511 29,315 28,417 29,390

회차 7회 8회 9회 10회 11회 12회

종수 4,885 4,236 4,189 2,778 2,874 2,956

누적 빈도 30,475 24,559 28,881 13,634 13,619 13,470

회차 13회 14회 15회 16회 17회 18회

종수 2,891 2,779 2,814 3,041 3,319 3,266

누적 빈도 13,727 13,434 13,332 14,032 14,220 13,953

회차 19회 20회 21회 22회 23회 24회

종수 3,306 3,359 3,232 3,039 3,201 3,196

누적 빈도 14,337 14,442 14,122 14,187 14,344 14,389

회차 25회 26회 27회 28회 29회 30회

종수 3,373 3,252 3,242 3,157 2,804 2,842

누적 빈도 14,938 14,529 14,832 14,637 13,185 13,205

회차 31회 32회 33회 34회 35회 36회

종수 3,142 3,087 2,884 2,789 2,164 2,267

누적 빈도 13,345 13,542 13,388 13,199 9,058 8,974

그림 2. 한국어능력시험 회차별 어휘 종수 분포
6,000

5,000

4,000

3,000

2,000

1,000

0
1회 3회 5회 7회 9회 11회 13회 15회 17회 19회 21회 23회 25회 27회 29회 31회 33회 35회

www.dbpia.co.kr
16 한국사전학 제25호

그림 3. 누적 빈도 대비 어휘 종수 비율
30.0

25.0

20.0

15.0

10.0

5.0

0.0
1회 3회 5회 7회 9회 11회 13회 15회 17회 19회 21회 23회 25회 27회 29회 31회 33회 35회

표 5. 한국어능력시험 시기별 어휘 종수 평균

회차 내 평균 1∼9회 10∼34회 35∼36회

종수 4,644 3,065 2,216

누적 빈도 28,544 13,922 9,016

은 한 회차 내에서 어휘들이 얼마나 반복적으로 사용되었는가를 보


여 주는데, 앞서 살펴본 종수의 분포와 반비례하는 양상을 보였다.
즉, 상대적으로 다양한 어휘가 사용된 1∼9회에서는(1회 제외) 회차
내 어휘의 중복 사용 빈도가 높지 않았음을 알 수 있다.
반면, 제10회 이후의 시험에서는 동일한 어휘의 중복 사용 빈도가
높아졌고, 이러한 현상은 제35회를 기점으로 더욱 증가하는 모습을
보였다. 평균 어휘량을 기준으로 하여 어휘 분포를 비교해 보면 회차
간 어휘의 균형성 여부를 조금 더 확실하게 파악할 수 있다.
1∼9회의 경우, 평균 어휘의 종수가 현저하게 많은데 각 급별 문항
의 변별을 위해 세분화된 주제의 지문과 어휘가 도입되면서 점점 많
은 어휘가 사용되었을 것으로 생각된다.3) 10∼34회에서는 최소 어휘
량 2,778종(1만 3,634개), 최대 어휘량 3,373종(1만 4,938개)으로 그

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 17

그림 4. 회차별-숙달도별 어휘 종수 분포

40.0

35.0

30.0

25.0

20.0

15.0

10.0

5.0

0.0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35

초급 중급 고급 I II

폭이 적지는 않지만 일부 구간을 제외하고는 직전 회차와의 어휘량


증감의 폭은 대략 ±100개 내외로 비교적 안정적인 것으로 나타났다.
35∼36회에서는 전체 누적 빈도는 약간 감소하고 어휘 종수는 증가
하였다. 그렇다면 회차 간에 나타난 숙달도 단계별 어휘 분포는 어떠
한 모습을 보일까?
위의 <그림 4>는 회차별 초급, 중급, 고급 단계의 어휘 종의 분포
를 그래프로 나타낸 것이다. 초급 단계에서는 전체 회차 내에서 비교
적 안정적인 분포를 보이는 반면, 중급과 고급 단계에서는 시험 체제
개편 시기를 기점으로 어휘의 종수가 큰 폭으로 변화하고 있음을 볼
수 있다. 이러한 경향은 고급 단계에서 더욱 뚜렷하게 나타나는데, 이
는 초급 단계에 비해 중급과 고급 단계에서 목표로 측정하고자 하는
언어 능력의 범위가 훨씬 더 포괄적이고 광범위해 다양한 어휘들이
지속적으로 도입되기 때문인 것으로 파악된다.
다음은 실질적으로 증가하는 어휘량을 살펴보기 위해 숙달도 단계

3) 제2회에서는 5,455종(3만 2,140개)의 어휘가 사용되어 평균보다 801종(3,596개)의


어휘가 더 사용되었는데, 이는 체제가 안정되지 않은 시험 시행 초기에 나타날 수 있
는 변화인 것으로 조심스럽게 짐작해 볼 수 있다.

www.dbpia.co.kr
18 한국사전학 제25호

표 6. 직전 회차 대비 회차별 신규 어휘 종수 평균(1∼36회)

회차별 직전 회차 대비 직전 회차 대비
회차 수준
어휘 평균 신규 어휘 평균4) 신규 어휘 비율 평균

초급 704 273 38.8%

1∼34회 중급 1,631 818 50.2%

고급 2,471 1,412 57.1%

Ⅰ 578 292 46.8%


35∼36회
Ⅱ 1,989 1,123 55.7%

합계 3,413 1,630 47.8%

에 따른 회차별 신규 어휘 종수를 직전 회차와 비교하여 분석한 결과


이다. 전 회에 걸쳐 회차별 평균 어휘 수에 비해 새롭게 도입되는 신
규 어휘 수가 증가했으며, 이를 숙달도별로 살펴보면 숙달도가 올라
갈수록 증가하고 있음을 확인할 수 있다. 이는 중급 단계와 고급 단계
에서 목표로 하는 언어 능력이 각각 일상생활을 넘어선 사회적인 영
역, 직업이나 학문 영역을 포함한 전문 분야에서의 의사소통 능력을
포함한 포괄적인 것이므로 출제를 거듭할수록 광범위한 주제가 지속
적으로 도입되기 때문인 것으로 파악된다.
평가의 측면에서 기출 어휘의 중복을 피하기 위해 소재와 주제의
지문, 그에 따른 새로운 어휘의 도입이 불가피한 면이 있지만, 기출
소재와 주제를 완전히 배제하기보다는 유사 영역에 속하는 소재와
주제를 세분화하고 다양화하면서 숙달도 단계별 필수 어휘들을 적절
하게 통제하여 활용하는 방안에 대한 고민도 필요할 것으로 보인다.

4) 이는 직전 회차 대비 신규 어휘를 산정한 뒤, 이들의 평균을 냈다는 의미다. 즉, ‘2회∼


1회’, ‘3회∼2회’ 등으로 죽 산정하여 이들의 평균을 낸 것이다.

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 19

4.3. 영역별 어휘 분포

이해 영역은 듣기와 읽기 능력을 측정하는 것을, 표현 영역은 말하


기와 쓰기 능력을 측정하는 것을 목표로 하므로, 이를 구분하여 이해
와 표현의 1차적 도구로서 어휘가 가지는 기능을 관찰할 수 있다. 영
역별 분포를 분석한 결과는 <표 7>과 같다.5)

표 7. 숙달도 단계별-영역별 어휘 종수 분포

이해 영역 표현 영역
회차 수준 소계 소계
듣기 읽기 쓰기 어휘·문법

초급 1,910 2,443 3,053 1,567 1,472 2,050

1∼34회 중급 6,069 6,557 8,775 3,866 3,702 5,333

고급 10,113 10,727 14,937 7,671 7,869 11,323

35∼36 Ⅰ 504 598 823 - - -



Ⅱ 1,788 2,046 3,041 180 - 180

합계 12,320 13,640 18,016 9,048 9,132 12,916

먼저 영역별 어휘 종수 분포에서는 이해 영역에서 총 1만 8,016종,


표현 영역에서 총 1만 2,916종의 어휘가 사용되어 이해 영역에서 보
다 다양한 어휘가 사용된 것으로 나타났다. 이해 영역 내에서는 듣기
에서 1만 2,320종, 읽기에서 1만 3,640종의 어휘가 사용되어 읽기 영
역이 듣기 영역보다 약 1,000여 종 가량 많은 어휘가 사용되었다. 표
현 영역 내에서는 쓰기 영역에서 9,048종, 어휘·문법 영역에서 9,132

5) 한국어능력시험의 경우 말하기 시험이 시행되고 있지 않는 대신 표현 영역에서 어휘·


문법을 분리하여 시행해 왔다. 그러나 듣기, 읽기, 쓰기의 언어 기능 영역과는 성격이
다른 언어 요소에 관한 영역이고 언어 기능 영역의 측정을 통해 직간접적으로 측정이
가능하다는 점에서 영역을 분리하여 평가하는 것의 타당성에 대한 이견이 있어 왔고,
최근 제35회부터 개편된 시험 체제 내에서는 제외되었다. 한편, 쓰기 영역의 경우 사
지선다형의 문항과 단답식, 서술식의 문항을 혼합하여 평가를 하게 되는데, 제35회의
시험에서는 중급과 고급 단계를 아우르는 한국어능력시험 Ⅱ 영역에만 포함된다.

www.dbpia.co.kr
20 한국사전학 제25호

표 8. 숙달도 단계별-영역별 누적 빈도 분포

이해 영역 표현 영역
회차 수준 소계 소계
듣기 읽기 쓰기 어휘·문법

초급 33,686 38,730 72,416 21,923 18,328 40,251

1∼34회 중급 77,099 74,597 151,696 35,426 27,916 63,342

고급 96,393 84,881 181,274 54,249 41,710 95,959

Ⅰ 2,034 2,575 4,609 - - -


35∼36회
Ⅱ 6,991 6,141 13,132 291 - 291

합계 216,203 206,924 423,127 111,889 87,954 199,843

종의 어휘가 사용되어 큰 차이가 없었다.


숙달도 단계별로 살펴보면 초급의 경우 이해 영역에서 3,053종, 표
현 영역에서 2,050종, 중급에서는 이해 영역에서 8,775종, 표현 영역
에서 5,333종, 고급에서는 이해 영역에서 1만 4,937종, 표현 영역에
서 1만 1,323종의 어휘가 사용되어 전반적으로 이해 영역이 높았으
며, 초급 단계에서 중급 단계로 올라갈 때보다 중급 단계에서 고급 단
계로 올라갈 때 크게 증가하는 것으로 나타났다. 영역 간에는 중급 단
계에서 고급 단계로 올라갈 때 이해 영역이 58.7%, 표현 영역이
47.00% 증가하여 이해 영역의 어휘 종수가 많이 증가하는 양상을 보
여 주었다. 한편, 제35회와 제36회의 경우는 한국어능력시험 Ⅰ에서
는 이해 영역에서 823종, 한국어능력시험 Ⅱ에서는 이해 영역에서
3,041종, 표현 영역에서 180종의 어휘가 사용되어 시험 체제와 문항
유형의 변화로 인한 표현 영역의 어휘 분포 양상이 크게 변화된 것을
볼 수 있었다. 이러한 양상은 영역별 누적 빈도 분포에서도 대체로 비
례하면서 비슷한 양상을 보였다. <표 8>은 영역별 누적 빈도를 나타
낸 것이다.
이해 영역의 경우 읽기 지문과 듣기 지문을 통한 정보의 이해와 적
용 능력을 측정하기 때문에 표현 영역에 비해 텍스트의 양이 많으며
그 결과 어휘 종수와 누적 빈도가 모두 많아지는 것은 당연한 결과라

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 21

그림 5. 회차별-영역별 어휘 종수 분포

3500

3000

2500

2000

1500

1000

500

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

듣기 읽기 쓰기 어휘·문법

고 할 수 있다. 표현 영역의 경우 이해 영역에 비해 텍스트 양이 적은


만큼 어휘 종수나 누적 빈도도 적게 나타난 데에다 누적 빈도 대비 어
휘 종수의 비율이 높게 나타나 동일한 어휘의 반복이 잦은 것이 특징
적이었다. 이는 표현 영역의 경우 어휘 지식 자체가 직접적인 평가 요
소가 되기 때문에 이해 영역에 비해 어휘 통제가 보다 엄격하게 이루
어지기 때문인 것으로 파악된다. 영역별 어휘 분포는 회차별로는 어
떤 양상을 보일까? <그림 5>는 영역별 어휘 분포를 회차별로 나타낸
그래프이다.
전체 회차에서 이해 영역이 표현 영역에 비해 어휘 종수가 월등하
게 높은 가운데 듣기 영역에서는 1,666종, 읽기 영역에서는 1,709종,
쓰기 영역에서는 995종, 어휘·문법 영역에서는 1,080종의 어휘가 평
균적으로 사용되고 있는 것으로 나타났다. 시험 체제의 변화에 따른
구간별 특성으로는 제1회에서 제9회까지의 시험에서의 변화가 제10
회 이후의 시험에 비해 큰 것을 볼 수 있다. <표 9>는 제1회에서 제9
회까지의 영역별 어휘 종수 분포를 나타낸 것이다.
제2회의 경우 듣기 영역에서 3,247종이 사용되어 다른 회차에 비

www.dbpia.co.kr
22 한국사전학 제25호

표 9. 제1회-제9회 한국어능력시험 영역별 어휘 분포

회차 듣기 읽기 쓰기 어휘·문법

1 2,118 1,782 1,638 1,715

2 3,247 2,017 1,835 1,773

3 1,996 2,389 1,685 1,575

4 2,145 2,367 1,724 1,660

5 2,135 2,194 1,698 1,588

6 2,128 2,413 1,817 1,402

7 2,327 2,297 1,790 1,696

8 2,029 2,462 1,824 1,550

9 1,831 2,313 1,606 1,379

해 월등하게 많은 어휘를 사용하였다가 제3회에서 다시 1,996종으로


큰 폭의 차이를 보이며 감소하는 것을 볼 수 있다. 읽기 영역의 경우
도 제1회 1,782종에서 제2회 2,017종으로 다소 큰 폭으로 증가하는
경향을 보이며, 제5회와 제7회, 제9회를 제외하고는 지속적인 증가
세를 보였다. 반면, 표현 영역의 경우는 제6회와 제8회에서 쓰기와
어휘 · 문법 영역 간의 차이가 다른 회차에 비해 큰 폭으로 벌어지면
서 쓰기 영역의 어휘가 많아지는 것을 제외하고는 이해 영역에 비해
비교적 완만하게 증감을 반복하였다. 이처럼 매회 이해 영역에서 꾸
준하게 새로운 어휘가 도입되는 것은 회차별로 다양한 주제의 지문
을 포함한 문항이 출제되며 동시에 텍스트의 양이 표현 영역에 비해
많기 때문인 것으로 보인다. 한편, 회차별 변화는 정보 입력을 위한
매개로 다량의 지문이 제시되는 이해 영역에 비해 어휘가 1차적인 평
가 대상이 되는 표현 영역의 변화가 크지 않음을 볼 수 있다. 이를 통
해 출제 과정에서 명시적인 또는 암묵적인 지침에 따른 어휘 통제가
이루어지고 있음을 짐작해 볼 수 있다. 제10회 이후에서는 다소간의
변화는 있지만 쓰기와 어휘 · 문법 영역이 듣기와 읽기 영역에 비해
어휘 종수가 현저하게 낮으며, 제35회를 기점으로 출제 영역에서 제

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 23

표 10. 숙달도 단계별-품사별 어휘 분포

보조
회차 수준 명사 대명사 수사 동사 형용사 관형사 부사 감탄사 접사
용언

초급 2,585 69 54 663 216 13 75 213 41 82


1∼
중급 6,658 78 59 2,063 617 23 95 535 63 153
34회
고급 12,599 85 74 3,710 1,200 25 116 947 84 279

35∼ Ⅰ 464 22 13 166 76 4 16 71 7 9


36회 Ⅱ 1,832 27 13 800 225 9 34 172 14 23

합계 15,196 128 92 4,169 1,328 30 172 1,081 121 377

외된 어휘 · 문법 영역에서는 어휘 분포가 표시되지 않고 문항 유형이


바뀐 쓰기 영역의 경우 어휘 종수가 현저하게 낮아지고 있는 것을 볼
수 있다.
이해 영역의 평가 목표가 지문을 통해 제시되는 정보에 대한 이해
능력을 측정하는 데에 있으므로 다양한 상황을 포함한 지문을 제시
함으로써 평가의 타당도를 높일 수 있으리라 파악된다. 그러나 언어
평가라는 점에서 대상 수험자를 염두에 둔 어휘의 양적 · 질적 통제
를 통한 표현 영역과의 균형을 맞추는 것도 필요하다.

4.4. 품사별 어휘 분포

품사는 흔히 단어를 문법적 성질의 공통성에 따라 몇 개의 갈래로


묶어 놓은 것으로 의미, 기능, 형식이 분류 기준이 된다. 이 중 기능은
‘문장 내에서 다른 단어와 맺는 관계’를 말하는데, 품사별 어휘 분포
를 살피는 것은 개별 단어의 문법적 기능을 통해 한국어능력시험 텍
스트를 이루고 있는 문장의 특성을 조망하게 된다는 의미를 가진다.
품사별 분포를 분석한 결과는 <표 10>과 같다.
전체 품사 분포 양상을 살펴보면 명사가 1만 5,196종(70.3%)으로
압도적으로 높아 매우 다양한 종류의 어휘가 사용되었음을 알 수 있

www.dbpia.co.kr
24 한국사전학 제25호

다. 명사 외의 품사로는 동사 4,169종(19.3%)>형용사 1,328종


(6.1%) > 부사 1,081종(5.0%)의 순으로 다양한 어휘들이 사용되었
다. 이들은 모두 문장을 이루는 핵심 성분으로 주요 문장 성분에 관여
하면서 명제의 의미를 나타내는 요소들이라는 점에서 쉽게 납득이
되는 결과라고 할 수 있다. 이러한 분포는 숙달도 단계 내에서도 유사
한 양상으로 나타났는데, 특히 개별 품사의 분포에서 명사, 동사, 형
용사, 관형사, 부사가 중급과 고급 단계로 갈수록 크게 증가하는 양상
이 눈에 띄었다. 이는 숙달도 단계가 높아지면서 단문에서 복문으로,
단순한 문장에서 수식 성분이 많은 복잡한 문장으로 그 구조가 복잡
해지고, 다양한 제제의 문장과 주제의 지문들이 등장하면서 품사별
어휘가 자연스럽게 증가한 것으로 볼 수 있다. 그 밖에도 접사도 유의
미한 양상으로 증가하였다. 이는 중급 이상의 단계로 갈수록 복합어
의 비중이 높아지는데 그 중에서도 파생어가 많아짐을 방증하는 것
이라고 하겠다. 이상에서 살펴본 품사별 분포의 양상은 누적 빈도 분
포에서도 동일하게 나타났다. <표 11>은 숙달도 단계별 품사의 누적
빈도 분포이다.
제1회에서 제36회까지의 전체 품사 분포에서 명사 30만 807개
(48.3%)로 가장 많았으며, 동사 14만 9,382개(24.0%)>형용사 6만
2,557개(10.0%) > 부사 3만 9,184개(6.3%)로 많은 어휘가 사용되었
다. 이때 명사의 비율이 가장 높기는 하지만 어휘 종수 분포와 비교할

표 11. 숙달도 단계별-품사별 누적 빈도 분포

보조
회차 수준 명사 대명사 수사 동사 형용사 관형사 부사 감탄사 접사
용언

초급 51,328 4,638 696 27,129 11,442 231 3,043 7,943 1,682 1,591
1∼
고급 10,0947 5,364 597 53,696 22,302 1,210 5,570 14,512 858 4,510
34회
중급 13,9298 5,614 760 6,4356 2,6943 1,476 6,895 1,5799 708 6,036

35∼
Ⅰ 2,311 161 19 989 504 13 136 269 43 66
36회
Ⅱ 6,923 240 33 3,212 1,366 91 290 661 30 237

합계 300,807 16,017 2,105 149,382 62,557 3,021 15,934 39,184 3,321 12,440

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 25

때 명사의 비중이 눈에 띄게 낮아지는 것을 볼 수 있다. 이는 개별 문


장의 서술어를 이루는 동사와 형용사의 비중이 높아지면서 명사의
비중이 상대적으로 줄어든 것이라고 볼 수 있다.

5. 교재 · 일반 말뭉치 어휘와의 분포 및 중복도 분석

5.1. 한국어능력시험 어휘와 한국어 교재 어휘의 분포6)

5.1.1. 전체 어휘량
한국어능력시험과 한국어 교재 어휘의 분포를 비교 분석해 보는
것은 평가와 교육과정 간의 상관성을 살펴볼 수 있도록 해 준다. 다음
은 한국어능력시험과 한국어 교재의 전체 어휘량 분포를 비교한 것
이다.
한국어능력시험에서는 2만 1,602종(누적 빈도 62만 2,970개)의 어
휘가 사용되었으며, 한국어 교재에서는 2만 8,551종(누적 빈도 128
만 7,068개)의 어휘가 사용되었다. 어휘 종수의 절대 수치만으로 비
교하자면 한국어 교재의 어휘가 한국어능력시험 어휘보다 6,942개
많다. 하지만 한국어 교재 말뭉치가 5종 교재의 텍스트를 수집한 자
료이므로, 1종 교재에서의 평균 어휘량과 비교한다면 1만 2,279종으
로 한국어능력시험의 어휘량이 훨씬 많다는 해석을 할 수 있다. 이는
특정 기관에서 한국어를 배운 학습자의 입장에서 보면 상당한 괴리

표 12. 한국어능력시험과 한국어 교재의 전체 어휘량 비교

구분 한국어능력시험 한국어 교재 비고

어휘 종수 21,602 28,551(5종 평균 12,279) 1∼36회

누적 빈도 622,970 1,287,068

6) 이 절에서 한국어능력시험과 비교 대상이 된 한국어 교재의 어휘 분포 분석 결과는 강


현화(2014ㄱ, ㄴ)를 위해 이루어진 기초 분석 자료를 기반으로 한 것이다.

www.dbpia.co.kr
26 한국사전학 제25호

표 13. 한국어능력시험과 한국어 교재의 숙달도 단계별 어휘량 비교

어휘 종수 누적 빈도
회차별 단계
한국어능력시험 한국어 교재 한국어능력시험 한국어 교재

6,966
초급 3,529 112,667 302,265
(5종 평균 3,004)

14,844
1∼34회 중급 9,942 215,037 499,676
(5종 평균 6,384)

22,405
고급 18,566 277,233 485,127
(5종 평균 9,053)

Ⅰ 823 - 13,423 -
35∼36회
Ⅱ 3,085 - 4,609 -

를 느끼게 되는 수치이다. 아울러 한국어 교재에서 제시된 1만 2,279


종의 어휘와 한국어능력시험에서 제시된 2만 1,602종의 어휘가 완전
히 일치하지는 않는다고 보면 부담은 더욱 크다. 한국어능력시험이
특정 교육과정에 종속되지 않는 숙달도 평가이기는 하나, 어휘의 측
면에서는 평가와 교육과정 간의 작지 않은 간극이 존재함을 확인할
수 있다. 현실적으로 제한된 시수의 교육과정에서 방대한 목록의 어
휘를 모두 다룰 수 없고, 일정 기간 동안 학습자가 추가적으로 학습할
수 있는 어휘의 양도 제한적일 수 있으므로 평가의 환류 효과를 고려
하여 한국어 교육과정과 한국어능력시험 간의 괴리를 좁히려는 노력
도 생각해 볼 수 있겠다.7)

5.1.2. 숙달도 단계별 어휘량


앞서 살펴보았던 전체 어휘량의 차이가 숙달도 단계별로는 어떻게
나타날까? <표 13>은 숙달도 단계별 어휘량 분포를 비교한 것이다.

7) 최근 국립국어원의 ‘한국어 교육 어휘 내용 개발(1∼3단계)’의 연구를 통해 초급, 중


급, 고급 단계의 어휘 목록 선정과 어휘 정보의 구축이 이루어졌으며, 국립국제교육원
의 ‘한국어능력시험 어휘 목록 개발 연구’를 통해 수험자를 위한 공개용 어휘 목록과
출제자 · 채점자를 위한 확장 목록이 개발된 바 있다.

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 27

<표 13>에서 보는 바와 같이 절대적인 어휘량에서는 초급, 중급,


고급 전 단계에서 한국어능력시험이 한국어 교재에 비해 매우 적었
다. 그러나 1종 교재에서 사용된 평균 어휘량과 비교했을 때에 한국
어능력시험이 더 많았다. 초급 단계의 경우 525종, 중급 단계는 3,558
종, 고급 단계도 9,503종이 더 많아서 숙달도 단계가 높아질수록 한
국어능력시험과 한국어 교재의 어휘량 차이가 커짐을 알 수 있었다.
이는 초급 단계와 달리 다양한 의사소통 상황에 마주하게 되는 중급
과 고급 단계의 언어 사용 맥락을 한정하기가 어렵기 때문인 것으로
보인다. 이는 숙달도 단계별로 새롭게 도입된 어휘량의 추이를 통해
서 다시 확인할 수 있다.

표 14. 한국어능력시험과 한국어 교재의 숙달도 단계별 신규 출현 어휘량 비교

신규 출현 어휘 초급 출현 어휘 중급 출현 어휘
단계 한국어 한국어 한국어 한국어 한국어
한국어 교재
능력시험 교재 능력시험 교재 능력시험

초급 6,966(평균 3,004) 3,529 - - - -

중급 9,854(평균 6,384) 7,152 4,990 2,790 - -

고급 11,731(평균8,993) 10,680 4,803 2,758 10,191 7,655

중급 단계에서 처음 출현한 어휘는 한국어 교재와 한국어능력시험


모두 초급 단계 대비 202%로 동일 수준이었던 것과 달리, 고급 단계
에서는 한국어 교재가 중급 단계 대비 119%, 한국어능력시험이
149%로 훨씬 많은 어휘가 새롭게 도입되었음을 볼 수 있다. 회차를
거듭하여 시행되는 숙달도 평가이므로 기출문제와의 중복을 최소화
하기 위해 다양한 주제와 어휘가 지속적으로 도입됨으로써 일어나는
불가피한 현상으로 보인다.

5.1.3. 품사별 어휘량


앞선 분석에서 한국어능력시험에서 명사 > 동사 > 형용사 > 부

www.dbpia.co.kr
28 한국사전학 제25호

사의 순으로 품사가 분포되어 있음을 살펴보았다. 평가와 교육과정,


일반 말뭉치의 품사 분포에는 어떤 차이가 있는지 살펴보기 위하여
한국어능력시험과 한국어 교재, 강범모 외(2009)의 분포를 비교해
보았다.

표 15. 한국어능력시험, 한국어 교재, 강범모 외(2009)의 품사별 분포 비교

품사 유형 한국어능력시험 한국어 교재 강범모 외(2009)

일반 어휘 종수 13,541 (62.68%) 17,656 (61.90%) 117,333 (54.10%)


명사 누적 빈도 25,7051 (41.26%) 484,362 (38.04%) 7,889,661 (47.63%)

고유 어휘 종수 1,776 (8.22%) 3,551 (12.45%) 80,789 (37.25%)


명사 누적 빈도 9,564 (1.54 %) 51,700 (4.06%) 731,766 (4.42%)

의존 어휘 종수 319 (1.48%) 247 (0.87%) 554 (0.26%)


명사 누적 빈도 34,192 (5.49%) 80,149 (6.30%) 1,065,798 (6.43%)
어휘 종수 128 (0.59%) 78 (0.27%) 241 (0.11%)
대명사
누적 빈도 16,017 (2.57%) 38,403 (3.02%) 522,209 (3.15%)
어휘 종수 4,169 (19.30%) 4,707 (16.50%) 7,363 (3.39%)
동사
누적 빈도 149,382 (23.98%) 277,765 (21.82%) 2,588,711 (15.45%)
어휘 종수 1,328 (6.15%) 1,371 (4.81%) 1,558 (0.72%)
형용사
누적 빈도 62,557 (10.04%) 113,076 (8.88%) 561,300 (3.39%)

보조 어휘 종수 30 (0.14%) 34 (0.12%) 86 (0.04%)


용언 누적 빈도 3,021 (0.48%) 52,006 (4.08%) 17,786 (0.11%)
어휘 종수 92 (0.43%) 78 (0.27%) 508 (0.23%)
수사
누적 빈도 2,105 (0.34%) 5,304 (0.42%) 113,712 (0.69%)
어휘 종수 172 (0.80%) 94 (0.33%) 208 (0.10%)
관형사
누적 빈도 15,934 (2.56%) 29,192 (2.29%) 450,507 (2.72%)

일반 어휘 종수 1,068 (4.94%) 1,093 (3.83%) 7,035 (3.24%)


부사 누적 빈도 34,776 (5.58%) 79,199 (6.22%) 920,669 (5.56%)

접속 어휘 종수 25 (0.12%) 19 (0.07%) 84 (0.04%)


부사 누적 빈도 4,408 (0.71%) 9,340 (0.73%) 112,684 (0.68%)
어휘 종수 121 (0.56%) 130 (0.46%) 1,141 (0.53%)
감탄사
누적 빈도 3,321 (0.53%) 9,959 (0.78%) 32,918 (0.20%)
어휘 종수 21,602 (100%) 28,522 (100%) 216,900 (100%)
합계
누적 빈도 622,970 (100%) 1,273,149 (100%) 16,564,822 (100%)

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 29

분석 결과 한국어능력시험과 한국어 교재는 일반명사>동사>고유


명사 > 형용사 > 일반부사 > 의존명사로 상위를 차지하는 어휘 종
수의 분포가 동일한 반면, 강범모 외(2009)는 일반명사 > 고유명사
> 동사 > 일반부사 > 형용사 > 감탄사의 순으로 일반 명사가 가
장 많은 것을 제외하고는 매우 다른 양상을 보였다. 그중에서도 강범
모 외(2009)에서 고유 명사와 감탄사의 종류가 다양한 것이 두드러
진 차이로 나타났는데, 일반 말뭉치에 고유 명사가 다양하게 사용된
것은 한국어능력시험이나 한국어 교재와 달리 다양한 장르로 구성된
많은 수의 텍스트가 포함되어 있기 때문인 것으로 볼 수 있다. 한편,
감탄사의 경우 평가나 교육을 위해 인위적으로 만들어진 한국어능력
시험과 한국어 교재의 텍스트에서 감탄사의 사용에 다소 소극적이었
던 것이 아니었을까 하는 추측을 해 볼 수 있다. 그 밖에도 일반 말뭉
치에서 의존명사, 수사, 대명사, 관형사, 보조 용언, 접속 부사 등의
모든 품사에서 많은 종류의 어휘가 사용된 것으로 분석되었다. 이러
한 현상은 말뭉치의 규모 차이에 의한 것이기도 하지만 평가나 교육
과정에서의 어휘에 많은 통제가 가해지고 있음을 보여 주는 것이라
고 하겠다.

5.2. 한국어능력시험과 일반 말뭉치 어휘의 중복도


이 절에서는 한국어능력시험과 일반 말뭉치 어휘 간의 중복도를
분석해 보고자 한다. 이는 한국어 숙달도 능력을 평가하는 시험에서
의 어휘가 다양한 장르의 한국어 텍스트와 얼마나 상관성을 가지는
지 살피기 위한 것이다. 일반 말뭉치의 어휘는 21세기 세종계획 균형
말뭉치 중 현대 문어 말뭉치에서 문학 작품 25만 8,201어절, 잡지 26
만 9,902어절, 신문 25만 1,196어절, 전문 도서 25만 4,883어절 분량
의 텍스트를 무작위로 추출하여 재구성한 후 추출하였다. 일반 말뭉
치의 어휘는 문학 작품 2만 4,342종(누적 빈도 31만 2,245개), 잡지 2
만 3,664종(누적 빈도 34만 1,290개), 신문 2만 4,736종(누적 빈도 30
만 5,824개), 전문 도서 2만 1,016종(누적 빈도 31만 4,447개)가 사용
되었다. <표 16>은 한국어능력시험과 일반 말뭉치의 어휘 종수 중복

www.dbpia.co.kr
30 한국사전학 제25호

표 16. 한국어능력시험과 일반 말뭉치 어휘의 어휘 종수 중복도

한국어능력시험
초급 중급 고급 전체
일반 말뭉치

중복 어휘 수 2,026 5,179 8,394 9,118


문학 작품
백분율 8.3% 21.3% 34.5% 37.5%

중복 어휘 수 2,155 5,518 8,751 9,568


잡지
백분율 9.1% 29.3% 37.0% 40.4%

중복 어휘 수 2,101 5,376 8,539 9,340


신문
백분율 8.5% 21.7% 34.5% 37.8%

중복 어휘 수 1,946 5,087 8,084 8,776


전문 도서
백분율 9.3% 24.2% 38.5% 41.8%

도를 분석한 결과이다.
한국어능력시험 초급 어휘는 문학 작품 텍스트의 어휘와 8.3%, 잡
지 텍스트의 어휘와 9.1%, 신문 텍스트의 어휘와 8.5%, 전문 도서 텍
스트의 어휘와 9.3%로 매우 낮은 중복도를 보이는 가운데, 근소한 차
이이지만 잡지와 전문 도서 텍스트 어휘와의 일치도가 조금 높았다.
한국어능력시험 중급 어휘와의 중복도 역시 각 장르의 텍스트에서
최대 20% 가량 증가하였으나 여전히 낮았다. 장르 간의 차이에서는
초급 단계에서 약간 높게 나타났던 잡지 텍스트 어휘와의 중복도가
현저하게 높아졌다. 이는 잡지 텍스트들이 여러 가지 분야의 실용문
을 주로 담고 있기 때문인 것으로 보인다. 한국어능력시험 고급 단계
에서는 다시 중급 단계와 비교해 10% 내외의 어휘가 더 중복되었으
며, 초급 단계에서와 같이 잡지와 전문 도서 텍스트 어휘와의 중복도
가 다소 높았다. 이러한 경향은 초·중·고급의 어휘를 모두 합친 전체
어휘에서도 비슷한 양상으로 나타났다. 이처럼 한국어능력시험 어휘
와 각 장르의 텍스트에서 사용된 어휘의 어휘 종수 중복도 차이는 말
뭉치의 규모 차이로 인한 어휘의 다양성 문제에서 우선적인 원인을
찾아볼 수 있다. 아울러 제한된 시간 내에서 이수해야 하는 교육과정

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 31

표 17. 한국어능력시험과 일반 말뭉치 어휘의 누적 빈도 중복도

한국어능력시험
초급 중급 고급 초·중·고급
일반 말뭉치

중복 어휘 수 133,423 194,720 203,054 227,538


문학 작품
백분율 42.7% 62.4% 65.0% 72.9%

중복 어휘 수 146,516 218,806 229,775 252,951


잡지
백분율 42.9% 64.1% 67.3% 74.1%

중복 어휘 수 116,885 180,738 197,691 216,091


신문
백분율 38.2% 59.1% 64.6% 70.7%

중복 어휘 수 128,730 197,287 206,847 229,737


전문 도서
백분율 40.9% 62.7% 65.8% 73.1%

에서 통제된 어휘와 열린 집합의 목록으로 광범위하게 사용된 어휘


간의 차이로도 설명할 수 있을 것이다.8) <표 17>은 네 가지 장르로
구성된 일반 말뭉치의 누적 빈도에 대한 한국어능력시험 어휘의 중
복도를 분석해 본 결과이다.
한국어능력시험 초급 어휘는 문학 작품 텍스트의 누적 빈도와
42.7%, 잡지 텍스트의 누적 빈도와 42.9%, 신문 텍스트의 누적 빈도
와 38.2%, 전문 도서 텍스트의 누적 빈도와 40.9%로 대체로 낮은 중
복도를 보이는 가운데, 근소한 차이였지만 신문 텍스트와의 중복도
가 가장 낮게 나타났다. 한국어능력시험 중급 어휘와의 중복도는 각
장르의 텍스트에서 약 20% 가량씩 증가하였으나 역시 신문과의 중
복도가 가장 낮았고, 이는 고급 어휘, 초 · 중 · 고급의 어휘를 모두 합
친 전체 어휘에서도 비슷한 양상으로 나타났다. 한국어능력시험 전

8) 본 연구에서는 21세기 세종 균형말뭉치에 포함된 현대 문어 말뭉치 중 의미 분석 말


뭉치를 사용하였다. 이 말뭉치는 ‘-하다/-되다’ 류의 용언 파생어를 어근 명사와 접사
로 분리하여 처리하였고, 말뭉치 구축 시기의 󰡔표준국어대사전󰡕의 동형어 번호 체계
에 따르고 있어 실제 처리에 적지 않은 오차가 있을 것으로 파악된다. 그럼에도 한국
어능력시험 어휘와 일반 말뭉치의 중복도에 관한 전반적인 경향을 파악해 보고자 이
절의 논의를 포함하였다.

www.dbpia.co.kr
32 한국사전학 제25호

체 어휘와 각 장르의 텍스트에서 사용된 어휘와의 중복도는 평균


70% 가량으로 일반 텍스트에서 사용된 어휘와의 중복도가 높지 않
았음을 볼 수 있었다. 하지만 이러한 수치는 한국어능력시험이 평가
라는 제한된 틀을 가졌다는 점과 학습자 수준의 평가라는 점을 고려
한다면 양자는 상대적으로 높은 중복도를 보이고 있다고 평가되며,
이는 일반 말뭉치에서 나타나는 어휘의 다양성을 잘 반영하고 있다
고 평가해야 할 것이다.9)

6. 결론

본 연구에서는 한국어능력시험 기출문제에 사용된 어휘를 분석하


여 어휘의 양적 분포가 보이는 특성과 함의를 살폈다. 연구 결과는 다
음과 같다.
첫째, 한국어능력시험 어휘 내의 숙달도 단계별, 회차별, 영역별,
품사별 분포의 차이와 그 함의를 분석한 결과는 ① 숙달도 단계가 올
라갈수록 어휘량도 급속하게 증가하는 것으로 나타났다. 각 단계에
서 출현한 신규 어휘의 수를 참고하여 숙달도 단계별로 추정되는 어
휘 학습량이 초급 3,500여 개, 중급 1만여 개, 고급 2만여 개임을 살펴
보았고, 이를 통해 중급 단계가 수험자에게 가장 부담이 큰 시험이 될
수 있음을 짐작해 볼 수 있었다. ② 회차별 어휘 분포에서는 시험 체
제의 개편에 따라 어휘량의 분포 추이가 크게 변화하는 양상을 볼 수
있었다. 제9회까지 시행된 초기의 체제에서는 제1회에서 36회까지
의 평균 어휘량에 비해 약 1,000여 종 가량이 많은 반면, 최근 개편된
시험 체제에서는 약 1,000여 종이 적은 것으로 나타났다. 이러한 차
이는 누적 빈도가 아닌 어휘 종수, 즉 어휘의 다양성과 관련된 지표라
는 점에서 주목할 만한데 시험이 각각 6종, 3종, 2종으로 출제되면서
제재 및 주제가 세분화되고 그만큼 어휘의 사용 범위도 다양해졌음

9) 단순히 어휘 종수의 중복도를 산출하는 것보다는 누적 빈도가 높은 어휘들의 중복도


를 산출하는 것이 의미 있는 일이나 차후를 기약한다.

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 33

을 짐작해 볼 수 있었다. 이러한 현상은 회차별로 도입되는 신규 어휘


의 분포를 통해서도 확인되었고, 이를 통해 어휘가 질적으로뿐만 아
니라 양적으로도 주제의 영향을 크게 받을 수 있음을 알 수 있었다.
③ 영역별 어휘 분포에서는 표현 영역에 비해서는 이해 영역에서 보
다 다양한 어휘가 사용되었으며, 숙달도 단계별로도 동일한 양상을
보였다. 그 이유는 다양한 장르와 주제의 텍스트를 통해 정보를 이해
하는 능력을 측정함으로서 직접 쓰기나 말하기가 아닌 간접적인 방
식의 평가 문항을 주로 포함하고 있는 표현 영역에 비해 다양한 어휘
가 제시된 것으로 추정되었다. ④ 품사별 어휘 분포에서는 명사 >
동사 > 형용사 > 부사의 순으로 다양한 어휘들이 분포되었으며, 고
급 단계로 갈수록 비중이 더욱 높아짐을 볼 수 있었다. 그 외에도 중·
고급 단계로 가면서 접사의 비중이 높아지는 것이 특징적으로 나타
났다.
이러한 결과들을 통해 향후 한국어능력시험에서 다음과 같은 점들
을 고려해야 한다는 것을 유추할 수 있다. ① 숙달도 단계별 평가 목
표와 수험자의 학습 부담을 고려한 적절한 어휘 통제가 보다 엄격하
게 이루어질 필요가 있다. ② 회차가 누적되면서 불가피하게 발생하
는 제재와 주제의 중복 문제를 새로운 제제와 주제의 도입이 아닌 다
른 방법으로 효과적으로 해결하기 위한 방안의 모색이 필요하다. ③
표현 영역과 이해 영역에서 사용되는 어휘량의 균형을 맞추기 위해
다양한 유형의 문항 개발 등이 필요하다. 이는 난이도에 직접적인 영
향을 미치는 요소이기 때문이다.
둘째, 한국어능력시험과 한국어 교재의 어휘량의 차이를 분석한
결과, 절대 수치상으로는 한국어능력시험 어휘가 한국어 교재의 어
휘가 보다 적었지만 한국어 교재의 평균 어휘량과 비교했을 때에는
반대로 훨씬 많은 것으로 나타났다. 이러한 결과를 통해 특정 기관 또
는 특정 교재를 접하는 경우가 많은 학습자에게 한국어 교육과정과
한국어능력시험 어휘 간의 괴리가 상당히 크게 느껴질 수 있음을 알
수 있었다. 또한 숙달도 단계가 높아질수록 한국어능력시험과 한국
어 교재의 어휘량 차이가 커져 그 괴리가 더욱 클 수 있다.

www.dbpia.co.kr
34 한국사전학 제25호

셋째, 한국어능력시험과 일반 말뭉치 텍스트(네 가지 장르)에서 사


용된 어휘의 중복도와 그 의미를 살펴본 결과, 일반 말뭉치의 경우 광
범위한 주제의 텍스트와 어휘가 사용되어서 한국어능력시험과 어휘
중복도가 70%에 그쳤다. 그러나 이는 학습자 수준의 평가라는 점을
고려할 때 낮지 않음 수치임을 확인할 수 있었으므로 현실의 어휘를
비교적 잘 반영하고 있다고 평가할 수 있다.

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 35

참고문헌

강현화(2014ㄱ), 󰡔국내 한국어교육기관 교재 어휘 분석 연구1-양적 분석을


중심으로-󰡕, 󰡔외국어로서의 한국어 교육󰡕41, 연세대학교
언어연구교육원 한국어학당, 37-60.
강현화(2014ㄴ), 󰡔토픽 어휘 목록 개발 및 활용 방안 연구󰡕, 국립국제교육원.
강현화(2015), 󰡔한국어 교재의 숙달도별 품사 분석 연구: 국내 교육기관 교재를
중심으로󰡕, 󰡔외국어교육󰡕22(1), 한국외국어교육학회, 327-344.
교육과정평가원(2000), 󰡔한국어능력시험 등급 기준 조정 및 문제은행 구축
방안 연구󰡕, 한국교육과정평가원 연구보고 CRO 2000-2.
김왕규 · 김정숙 · 정구향 ·조항록 · 조지민 · 김수정(2002), 󰡔한국어능력시험의
평가기준 개발연구󰡕, 한국교육과정평가원 연구 보고서.
김유정(2006), 󰡔한국어능력시험의 난이도 분석 연구-제6회∼제8회 시험을
중심으로-󰡕, 󰡔한국어 교육󰡕17(1), 국제한국어교육학회, 21-46.
김장식(2012), 󰡔한국어능력시험 읽기 영역 텍스트의 이독성 분석 연구󰡕,
󰡔한국언어문화교육󰡕6(1), 한국어문화교육학회, 1-24.
김정숙 외(2011), 󰡔한국어능력시험 체제 개선 연구󰡕, 정책연구개발사업
2010-위탁-02, 국립국제교육원.
김정숙 · 정구향 · 최은규 · 김유정 · 곽숙영(2005), 󰡔한국어능력시험의 등급 부여
방식 및 평가문항 유형 개선 방안 연구󰡕, 한국교육과정평가원.
남명호 외(1999), 󰡔한국어능력시험 개선 방안 연구󰡕, 한국교육과정평가원
정책연구과제 99-7-13-2.
남명호 외(2000), 󰡔한국어능력시험 등급 기준 조정 및 문제은행구축 방안
연구󰡕, 한국교육과정평가원.
리-스미스 안젤라 · 변우영(2011), 󰡔한국어능력시험 초급 어휘, 문법 영역의
문항 목록 분석󰡕, 󰡔한국어교육󰡕22(4), 국제한국어교육학회, 1-26.
박석준(2011), 󰡔한국어능력시험 “어휘 문법” 영역에 대한 논의󰡕, 󰡔문법
교육󰡕15, 한국문법교육학회, 51-71.
박지연(2013), 󰡔한국어 능력 시험 읽기 영역 분석과 효율적인 읽기 교육 방안:
중급 한국어 학습자를 대상으로󰡕, 청주대학교 석사학위 논문.
서수현(2013), 󰡔한국어능력시험 쓰기 영역 개선 방향에 대한 연구-구인 타당도
개념을 중심으로󰡕, 󰡔국어교육󰡕141, 한국어교육학회, 337-361.
송지혜(2010), 󰡔한국어능력시험 읽기 문항 유형 및 주제 분석: 한국어능력시험

www.dbpia.co.kr
36 한국사전학 제25호

초급 읽기 영역을 중심으로󰡕, 인하대학교 교육대학원 석사학위 논문.


양길석 · 민경석 · 박정진(2012), 󰡔한국어능력시험의 구인타당도 분석󰡕,
󰡔언어와 문화󰡕8(2), 한국언어문화교육학회, 187-212.
양길석 · 박정진(2014), 󰡔한국어능력시험 읽기 영역 난이도 분석: 외국인과 국내
초등학생 간 비교를 중심으로󰡕, 󰡔새국어교육󰡕99, 한국국어교육학회,
319-343.
유해준(2012), 󰡔한국어능력시험 문법 문항 유형 분석: TOPIK을 중심으로󰡕,
󰡔한국어정보학󰡕14(1), 한국어정보학회, 51-62.
윤희원 · 서혁(2010), 󰡔한국어능력시험(TOPIK) 개선 방안 연구󰡕,
한국교육과정평가원 연구보고서.
이상린(2011), 󰡔읽기 영역 오류문항 분석: 제21회∼제22회 한국어능력시험
문항을 중심으로󰡕, 󰡔언어와 문화󰡕7(3), 한국언어문화교육학회,
207-227.
이은희(2014), 󰡔한국어능력시험 평가 문항에 제시된 텍스트 특성 연구󰡕,
󰡔한중인문학 연구󰡕44, 한중인문학회, 447-468.
전은주(2008), 󰡔국가 수준 “국어/언어 능력 검사”의 비판적 검토: 한국어 능력
시험 평가 문항의 내용타당도 분석 -제12회 일반 한국어(S-TOPIK)의
쓰기,듣기,읽기 영역을 중심으로-󰡕, 󰡔국어교육학연구󰡕31,
국어교육학회, 129-165.
조현용(2011), 󰡔한국어능력시험 어휘 평가에 관한 연구󰡕, 󰡔국어교육󰡕101,
한국국어교육연구회, 1-20.
함정식·김명광(2014), 󰡔한국어능력시험 읽기 영역 난이도 설정에 대한 비판적
검토󰡕, 󰡔한민족어문학󰡕66, 한민족어문학회, 145-185.

강현화
[120-749] 서울시 서대문구 연세로 50 연세대학교 국어국문학과
전화번호: 02-2123-5270
전자우편: khang@yonsei.ac.kr

홍혜란
[120-749] 서울시 서대문구 연세로 50 연세대학교 국어국문학과
전화번호: 02-2123-5270
전자우편: anna98kr@empas.com

www.dbpia.co.kr
한국어능력시험(TOPIK) 어휘 분석 연구 37

원고 접수일 : 2015년 03월 25일


원고 수정일 : 2015년 05월 09일
게재 확정일 : 2015년 05월 22일

www.dbpia.co.kr
38 한국사전학 제25호

ABSTRACT

A Study on Vocabulary Analysis of the Test


of Proficiency in Korean(TOPIK)

Kang, Hyounhwa | Yonsei University |


Hong, Hyeran | Yonsei University |

In this study, we analyze vocabularies from previous TOPIK tests and


investigate the features appeared in the quantitative distribution of vocabulary and
their implications and attempt to draw conclusion as follows: First, the TOPIK test
needs to take the followings into further consideration. 1) It should more strictly
implement evaluation goals according to the level of proficiency and appropriate
vocabulary control considering testee’s academic pressure. 2) It should develop
methods to deal effectively with repetitive appearances of the same vocabularies
and themes while not turning to the introduction of new themes. 3) It needs to
develop various types of questions to keep a balance in vocabulary amounts used in
the areas of expression and understanding. Second, we compare the differences in
vocabulary amounts between the TOPIK test and Korean language teaching
materials and find that the number of vocabulary in the TOPIK is much larger than
the average number of Korean language teaching materials. Third, we examine the
overlapping frequencies of vocabularies used in the TOPIK test and general corpus
of texts (four genres) and their implications, and find that the overlapping
frequency is very low because a wide range of topics and vocabularies are covered
in the general corpus whereas the TOPIK test are very restricted in terms of topics
and vocabularies.

Keyword : TOPIK test, vocabulary, evaluation, corpus


핵심어 : 한국어능력시험, 어휘, 평가, 말뭉치

www.dbpia.co.kr

You might also like