You are on page 1of 75

한국어 학습자 말뭉치 아카데미

- 활용의 기초 과정 –
(모두의 말뭉치/한국어학습자말뭉치)

계명대학교

최정도
1. 한국어 말뭉치 활용의 개요

§ 한국어 학습자 말뭉치 아카데미의 목적1


§ 프로그래밍을 하지 않고 말뭉치를 활용하는 방법
§ 한계는 있지만, 어느 정도로는 말뭉치를 활용할 수 있음.
§ 생각보다 어렵지 않음.

말뭉치의 소재 확인, 다운로드

말뭉치의 구조(생김새) 확인

말뭉치의 가공 방법 - 형태(소) 분석기 사용 방법

- 텍스트 에디터 사용 방법

검색기 활용 방법
2023-09-15 KMU 2
2. 모두의 말뭉치의 개요
2.1. 말뭉치 신청: 모두의 말뭉치(https://corpus.korean.go.kr/)

2023-09-15 KMU 3
3. 모두의 말뭉치의 생김새
3.1. 모두의 말뭉치(샘플)

원시 말뭉치

형태 분석
말뭉치

2023-09-15 KMU 4
3. 모두의 말뭉치의 생김새
3.2. 원시 말뭉치2

2023-09-15 KMU 5
3. 모두의 말뭉치의 생김새
3.3. 형태 분석 말뭉치1

#주의#
- 형태 분석 말뭉치에서는 ‘form’을
2군데에서 사용하고 있음.

2023-09-15 KMU 6
3. 모두의 말뭉치의 생김새
3.3. 형태 분석 말뭉치2

#주의#
- 형태 분석 말뭉치에서는 ‘form’을
2군데에서 사용하고 있음.
- 필요한 것은 이 부분의 ‘form’

2023-09-15 KMU 7
4. 모두의 말뭉치의 활용
4.1. 준비물

§ 준비물
§ 모두의 말뭉치 샘플(원시, 형태 분석)
§ 형태소 분석기(UTagger 2011)
§ (http://klplab.ulsan.ac.kr/)
§ 텍스트에디터: 에디트플러스(시험 버전; trial version, 30일)
§ 검색기: AntConc(Windows 3.5.9 또는 4.2.2)
§ (https://www.laurenceanthony.net/software/antconc/)
§ 연습 방법
§ 프로그래밍을 하지 않는 방법으로!!
§ 원시 말뭉치 다루기(가공)
§ 형태 분석 말뭉치 다루기(가공)

2023-09-15 KMU 8
4. 모두의 말뭉치의 활용
4.1. 준비물 2 – 유태거(Utagger; http://klplab.ulsan.ac.kr/)

2023-09-15 KMU 9
4. 모두의 말뭉치의 활용
4.1. 준비물 3 – AntConc (https://www.laurenceanthony.net/software/antconc/)

2023-09-15 KMU 10
4. 모두의 말뭉치의 활용
4.2. 원시 말뭉치 다루기(가공)

§ 여기서 잠깐(에디터 설정 관련 Tip)

§ 기본 설정

§ 보기 > 공백 문자 > 모두 표시 View > White Spaces > All

§ 도구 > 기본설정 Tools > Preferences


§ 글꼴: Fonts
§ 파일 > 설정 & 구문강조 File > Settings & syntax
§ 탭/들여쓰기: 숫자 조정 Tap/Indent: 숫자 조정

§ 표식 관련
§ 편집: Edit 편집 > 클립보드: Edit > Clipboard

§ 검색: Search 검색 > 표식: Search > Markers

§ 지우기: 검색 > 표식: 모든 표식 해제 지우기: Search > Markers > Clear All Markers

§ 표식 있는 줄 잘라내기: Cut Marked Lines 표식 있는 줄 복사: Copy Marked Lines

2023-09-15 KMU 11
4. 모두의 말뭉치의 활용
4.2. 원시 말뭉치 다루기(가공)

§ 원시 말뭉치(모두의 말뭉치)의 가공 전략

§ 문장 라인만 추출하기
§ 문장 라인을 모두 추출하여 가공하기(손질하기)
§ 형태 분석 하기

§ 1) 문장 라인이 포함되어 있는 라인(줄)의 특징 파악하기


§ 2) 에디터에서 문장 라인만 추출·가공, 그리고 1파일로 저장
§ 3) 형태소 분석기 사용

2023-09-15 KMU 12
4. 모두의 말뭉치의 활용
4.2. 원시 말뭉치 다루기(가공)

2023-09-15 KMU 13
4. 모두의 말뭉치의 활용
4.2. 원시 말뭉치 다루기(가공)

§ 원시 말뭉치의 가공 1(‘에디트플러스’)
§ ‘검색(S) > 여러 파일 찾기’ (※ 파일이 1개라면 ‘찾기’ 활용)
§ 옵션 선택
§ ‘찾을 말(I)’: ‘ "form": "’ (왼쪽 공백 20개)
§ 또는 ‘ "original_form": "’ (왼쪽 공백 20개)
§ ‘폴더(O)’: 원시 말뭉치가 들어 있는 폴더 선택
§ ‘파일 종류’: ‘*.json’
§ ‘하위 폴더 포함(S)’ 체크: 현재는 안 해도 되지만, 습관적으로 체크
§ ‘결과 표시’: ‘출력 창에 표시’
§ ‘찾기(F)’ 클릭
§ 창 하단에서 검색 과정 확인. 말뭉치 양에 따라 시간이 조금 걸림.
§ 화면 아래 부분에 ‘출력 완료’가 보이면 검색 끝

2023-09-15 KMU 14
4. 모두의 말뭉치의 활용
4.2. 원시 말뭉치 다루기(가공)

§ 원시 말뭉치의 가공 2(‘에디트플러스’)
§ 하단의 화면 어느 곳에서 마우스 ‘우클릭’
§ ‘전체 복사(A)’ 클릭
§ 빈 문서(새 문서) 생성
§ 에디터 화면 왼쪽 상단의 하얀색 아이콘 클릭
§ ‘파일(F)’ > ‘새 파일(N)’
§ ‘ + ’
§ 첫 줄 삭제(‘ + ’), 마지막 두 줄(‘ + ’) 삭제
§ 패턴 찾아서 정규 표현식(정규식, regular expression)으로 정
리하기

2023-09-15 KMU 15
4. 모두의 말뭉치의 활용
4.2. 원시 말뭉치 다루기(가공)

§ 원시 말뭉치의 가공 3(‘에디트플러스’)
§ 검색 결과에서 공백과 왼쪽 경로 모두 지우기

§ 현재 자료는 공백(스페이스)이 여러 개 있는 부분을 중심으로 왼


쪽 부분과 오른쪽 부분으로 구분됨.
§ 현재 모두의 말뭉치의 공백(스페이스)는 20개

§ 필요한 부분은 ‘오른쪽’. 따라서 우선 왼쪽 부분을 삭제해야 함.

§ 이때 ‘정규 표현식’을 사용해야 함.

2023-09-15 KMU 16
4. 모두의 말뭉치의 활용
4.2. 원시 말뭉치 다루기(가공)

§ 원시 말뭉치의 가공 4(‘에디트플러스’)
§ ‘정규 표현식’: 아주 간단한 것만 익히고자 함. (\, ₩: )

§ 줄바꿈(엔터) 1개: ‘\n’, ‘₩n’ || 2개: ‘\n\n’, ‘₩n₩n’


§ 탭 1개: ‘\t’, ‘₩t’ || 2개: ‘\t\t’, ‘₩t₩t’
§ 모든 글자(문자) 1개: ‘.’ || 글자 2개: ‘..’ || 글자 3개: ‘…’
§ 숫자 1개: ‘[0-9]’
§ 알파벳 1개: ‘[a-z]’
§ 한글 1개: ‘[가-힣]’
§ 숫자 1개: ‘\d’
§ 스페이스, 탭 1개: ‘\s’
§ 반복: ‘{숫자}’: 왼쪽에 있는 문자(기호)가 숫자만큼 동일하게 반복
2023-09-15 KMU 17
4. 모두의 말뭉치의 활용
4.2. 원시 말뭉치 다루기(가공)

§ 원시 말뭉치의 가공 5(‘에디트플러스’)
§ ‘정규 표현식’: 아주 간단한 것만 익히고자 함.
§ 메타 문자: 키보드 각 키가 의미할 수 없는 것을 표현

§ ^ : 문자열(문자의 연속)의 시작(제일 앞; 왼쪽)


§ $ : 문자열(문자의 연속)의 끝(제일 뒤; 오른쪽)
§ * : 0 이상(바로 앞-왼쪽-의 문자가 없을 수도 있고, 한 개, 여러 개일
수도 있다.)
§ + : 1 이상(바로 앞-왼쪽-의 문자가 한 개, 여러 개일 수도 있다.)
§ ? : 0 또는 1(바로 앞-왼쪽-의 문자가 있을 수도 있고 없을 수도 있다.)
cf.) 최소 매칭(가장 적은 범위로 매칭): *?, +?
§ () : 집합(범위)로 묶어서 이후에 다시 사용하기. 역참조(나중에 다시 사
용하기 위한 것)
- 괄호로 묶은 것을 다시 사용할 때에는 괄호의 개수와 순서에 따라
‘₩1’, ‘₩2’, ‘₩3’과 같이 입력한다.
- 괄호를 계층적으로 사용할 수 없다. 괄호가 하나뿐이면 ‘₩1’만 사용.
2023-09-15 KMU 18
4. 모두의 말뭉치의 활용
4.2. 원시 말뭉치 다루기(가공)

§ 원시 말뭉치의 가공 7(‘에디트플러스’)
§ 왼쪽 부분을 지우기 위해서: 여러 가지 방법 사용 가능(이 방법 사용)
§ (2) ‘"form": "’을 찾아서 왼쪽을 모두 지우는 방법 등
§ ‘"form": "’ 이용
§ 정규식: ‘.+"form": "’
• 의미: ‘"form": "’의 왼쪽에 있는 문자(글자)가 1개 이상인 것
§ ‘검색(S)’ > ‘바꾸기(E)’: ‘ + ’
§ ‘찾을 말(I)’: ‘.+"form": "’ 입력
§ ‘바꿀 말(P)’: 아무 것도 입력하지 않음(‘삭제’한다는 의미)
§ ‘정규식(X)’ 반드시 체크(∨)

§ 정규식 입력했다면, 화면의 가장 위 부분으로 이동(‘ + ’)


§ ‘찾기(F)’ 클릭 *노트북(‘Fn’키)
§ 내가 찾는 것이 맞다면, ‘바꾸기(R)’ 클릭
§ ‘바꾸기(R)’를 몇 번 눌러서 확인하다가, ‘모두 바꿈(A)’ 클릭
§ 조금만 기다리면 왼쪽 부분이 삭제된 것을 확인할 수 있음.

2023-09-15 KMU 19
4. 모두의 말뭉치의 활용
4.2. 원시 말뭉치 다루기(가공)

§ 원시 말뭉치의 가공 8(‘에디트플러스’)
§ 오른쪽 끝에 있는 말뭉치 기호 ‘",’ 삭제하기(단순 찾아 바꾸기)
§ ‘검색(S)’ > ‘바꾸기(E)’: ‘ + ’
§ ‘찾을 말(I)’: ‘",’ 입력
§ ‘바꿀 말(P)’: 아무 것도 입력하지 않음(‘삭제’한다는 의미)
§ ‘정규식(X)’ 반드시 체크(∨) 풀기

§ 바꿀 내용을 입력했다면, 화면의 가장 위 부분으로 이동(‘ + ’)


§ ‘찾기(F)’ 클릭 *노트북(‘Fn’키)
§ 내가 찾는 것이 맞다면, ‘바꾸기(R)’ 클릭
§ ‘바꾸기(R)’를 몇 번 눌러서 확인하다가, ‘모두 바꿈(A)’ 클릭
§ 조금만 기다리면 남은 기호가 삭제된 것을 확인할 수 있음.

2023-09-15 KMU 20
4. 모두의 말뭉치의 활용
4.2. 원시 말뭉치 다루기(가공)

§ 대상 말뭉치가 유니코드(UTF-8, UTF-16)일 경우


§ ‘utf-8’로 인코딩된 말뭉치의 검색 결과를 ‘ANSI’로 저장할 경우
§ 위 그림과 같은 경고 창이 나타날 수 있음.
§ 이럴 경우 ‘아니요’를 선택함.

2023-09-15 KMU 21
4. 모두의 말뭉치의 활용
4.3. 형태 분석 말뭉치 다루기(가공)

#주의#
- 형태 분석 말뭉치에서는
‘form’을 2군데에서 사용하
고 있음.

2023-09-15 KMU 22
4. 모두의 말뭉치의 활용
4.3. 형태 분석 말뭉치 다루기(가공)

#주의#
- ‘form’과 ‘label’의 정보를 함께,
동시에(순차적으로) 추출해야 함.
- 파일이 1개일 때와 여러 개일 때의
추출 방법을 달리해야 함.
* 파일이 여러 개일 때: 파일 합치기

2023-09-15 KMU 23
4. 모두의 말뭉치의 활용
4.3. 형태 분석 말뭉치 다루기(가공)

§ 형태 분석 말뭉치의 가공 5(‘에디트플러스’)
§ ‘정규 표현식’: 아주 간단한 것만 익히고자 함.
§ 다음: 고차원 기능(역참조 기능)

§ (현재의 상태)
"form": "부분",(엔터)
"label": "NNG",
(왼쪽 공백 28개)

§ 위의 2줄을 1줄로 변환해야 함.


§ 대신 ‘부분/NNG’ 형태로
§ 패턴을 찾아 보자!

2023-09-15 KMU 24
4. 모두의 말뭉치의 활용
4.3. 형태 분석 말뭉치 다루기(가공)

§ 형태 분석 말뭉치의 가공 6(‘에디트플러스’)
§ ‘정규 표현식’: 아주 간단한 것만 익히고자 함.
§ 다음: 고차원 기능(역참조 기능)

§ (현재의 상태)
"form": "부분",(엔터)
"label": "NNG", (왼쪽 공백 28개)
☞ 내용이 바뀌는 부분: 2군데(1+1)
☞ 고정된 부분 찾기
§ ‘틀’과 같이 바뀌지 않는 부분과 내용이 계속 바뀌는 부분을 구분
"form": "부분",(엔터) "label": "NNG",
1 2
§ …………………………………부분………………………………NNG",
§ …………………………………부분…(엔터)………………………NNG",
§ ………………………"form": "부분",(엔터)……………"label": "NNG",
§ ( )’ 안에 있는 것은 이후에 다시 활용하는 부분
§ .+"from": "(.+)",\n.+"label": "(.+)", ← 추천(실제로 활용하는 부분은 2부분)
§ (.+)"from": "(.+)",\n(.+)"label": "(.+)",
2023-09-15 KMU 25
4. 모두의 말뭉치의 활용
4.3. 형태 분석 말뭉치 다루기(가공)

§ 형태 분석 말뭉치의 가공 7(‘에디트플러스’)
§ ‘정규 표현식’: 아주 간단한 것만 익히고자 함.
§ 다음: 고차원 기능(역참조 기능)

§ (현재의 상태)
"form": "부분",(엔터)
"label": "NNG", (왼쪽 공백 28개)

☞ ‘( )’ 안에 있는 것은 이후에 다시 활용하는 부분
§ ⓐ .+"from": "(.+)",\n.+"label": "(.+)", ← 추천(실제로 활용하는 부분은 2부분)
§ ⓑ (.+)"from": "(.+)",\n(.+)"label": "(.+)",
§ 괄호 부분을 다시 참조(사용)하는 방법: 순서대로 ‘\1, \2, \3, \4’ 방법으로 표현하여 사용
§ 복원해야 하는 부분: (순차적으로 괄호의 순서를 고려)
§ ⓐ ‘\1, \2’ ⓑ ‘\2, \4’
§ ‘검색(S)’ > ‘바꾸기(E)’: ‘ + ’

2023-09-15 KMU 26
4. 모두의 말뭉치의 활용
4.3. 형태 분석 말뭉치 다루기(가공)

§ 형태 분석 말뭉치의 가공 8(‘에디트플러스’)
§ ‘정규 표현식’: 아주 간단한 것만 익히고자 함.
§ 다음: 고차원 기능(역참조 기능)

§ ⓐ .+"from": "(.+)",\n.+"label": "(.+)", ← 추천(실제로 활용하는 부분은 2부분)


§ ⓑ (.+)"from": "(.+)",\n(.+)"label": "(.+)",
§ 복원해야 하는 부분(ⓐ): ‘\1, \2’ ⓑ를 사용할 경우에는 ‘\2, \4’

§ ‘검색(S)’ > ‘바꾸기(E)’: ‘ + ’


§ ‘찾을 말(I)’: ‘.+"from": "(.+)",\n.+"label": "(.+)",’ 입력
§ ‘바꿀 말(P)’: ‘\1/\2’ 입력(‘/’는 구분자)
§ ‘정규식(X)’ 반드시 체크(∨)

2023-09-15 KMU 27
5. 한국어 학습자 말뭉치 활용의 개요
5.1. 학습자 말뭉치와 학습자 말뭉치 나눔터

§ 학습자 말뭉치 나눔터


§ 국립국어원에서 구축하여 배포 중
§ 특징(장점)
§ 웹 검색 도구 제공
§ 원시, 형태 분석, 오류 분석 말뭉치 검색 가능
§ 다양한 조건에 따른 검색 가능
§ 검색 결과 다운로드 가능(엑셀, 텍스트 파일)
§ 상세한 사용 방법 안내
§ 일반적 검색 후 연구 진행할 때에는 ‘나눔터’의 검색기 강력 추천
§ 말뭉치 공개: 웹 신청 가능, 웹 다운로드 가능

2023-09-15 KMU 28
5. 한국어 학습자 말뭉치 활용의 개요
5.2. 말뭉치 신청: 한국어 학습자 말뭉치 나눔터(https://kcorpus.korean.go.kr/)

2023-09-15 KMU 29
5. 한국어 학습자 말뭉치 활용의 개요
5.4. 학습자 말뭉치 아카데미의 목표

§ 학습자 말뭉치 나눔터


§ 특징(아쉬운 점: 웹 검색기의 아쉬움)
§ 다양한 결합 정보의 검색 불가능(웹 검색기의 한계)
§ 연어, N그램 등
§ 검색 결과 다운로드의 한계(최대 200건, 웹 검색기의 한계)
§ 빈도가 높은 항목(키워드) → 여러 번 다운로드해서 결과를 합쳐야 함.
§ 해결책: 말뭉치를 직접 다루어야 함.
§ 학습자 말뭉치 아카데미의 목표
§ 학습자 말뭉치 나눔터의 사용 방법은 미루어 둠.
§ 말뭉치를 직접 다루어서 자신의 연구에 활용할 수 있는 기초 능력
함양(아주 기초적인 방법을 중심으로)
§ 텍스트에디터 사용법, 엑셀 사용법, AntConc(검색기) 등
2023-09-15 KMU 30
6. 한국어 학습자 말뭉치의 생김새
6.1. 원시 말뭉치 2(2021년 말뭉치)

2023-09-15 KMU 31
6. 한국어 학습자 말뭉치의 생김새
6.2. 형태 분석 말뭉치 2(2021년 말뭉치)

2023-09-15 KMU 32
6. 한국어 학습자 말뭉치의 생김새
6.2. 형태 분석 말뭉치 3(2021년 말뭉치)

2023-09-15 KMU 33
6. 한국어 학습자 말뭉치의 생김새
6.3. 오류 분석 말뭉치 1(2021년 말뭉치)

2023-09-15 KMU 34
6. 한국어 학습자 말뭉치의 생김새
2.3. 오류 분석 말뭉치 2(2021년 말뭉치)

2023-09-15 KMU 35
6. 한국어 학습자 말뭉치의 생김새
6.3. 오류 분석 말뭉치 3(2021년 말뭉치)

2023-09-15 KMU 36
7. 한국어 학습자 말뭉치의 활용
7.1. 준비물 1

§ 준비물
§ 모두의 말뭉치 샘플(원시, 형태 분석)
§ 형태소 분석기(UTagger 2011)
§ (http://klplab.ulsan.ac.kr/)
§ 텍스트에디터: 에디트플러스(시험 버전; trial version, 30일)
§ 검색기: AntConc(Windows 3.5.9 또는 4.2.2)
§ (https://www.laurenceanthony.net/software/antconc/)
§ 연습 방법
§ 프로그래밍을 하지 않는 방법으로!!
§ 원시 말뭉치 다루기
§ 형태 분석 말뭉치 다루기
§ 오류 분석 말뭉치 다루기(시간이 주어질 경우)
§ 연구 사례 따라하기(접사 연구)
2023-09-15 KMU 37
7. 한국어 학습자 말뭉치의 활용
7.1. 준비물 2 – 유태거(Utagger; http://klplab.ulsan.ac.kr/)

2023-09-15 KMU 38
7. 한국어 학습자 말뭉치의 가공 및 활용
7.1. 준비물 3 – AntConc (https://www.laurenceanthony.net/software/antconc/)

2023-09-15 KMU 39
7. 한국어 학습자 말뭉치의 활용
7.2. 원시 말뭉치 다루기 2

§ 원시 말뭉치의 활용
§ (고정된) 형태 중심의 검색:
§ 간단한 검색 결과, 빈도 확인
§ 분포 확인 가능: 수작업
§ (어절 단위의) 빈도 산출
§ (실습) AntConc
§ 세팅: 원시 말뭉치 검색 및 빈도 산출 시에는 ‘코딩’에만 유의
§ 형태(소) 분석용: 자신이 직접 형태 분석 진행
§ 공개 자료를 자신이 구성(디자인)하여 연구 진행
§ 공개된 모든 말뭉치를 다룰 필요가 없을 경우
§ 자신이 구축한 자료를 활용하여 연구 진행
§ 한국어 교재, TOPIK 기출 문제, 학습자 쓰기 자료 등
2023-09-15 KMU 40
7. 한국어 학습자 말뭉치의 가공 및 활용
7.2. 원시 말뭉치 다루기 3 - AntConc의 설정1

- 사용할 말뭉치의 인코딩 선택


Korean(euc-kr),
Korean(cp-949) 등

- 자료가 유티코드(UTF)일 경우
에는 ‘Standard Encodings’ 또
는 ‘Unicode Encodings’에서 선

2023-09-15 KMU 41
7. 한국어 학습자 말뭉치의 가공 및 활용
7.2. 원시 말뭉치 다루기 4 - AntConc의 설정2

- 사용할 말뭉치의 인코딩 선택


Korean(euc-kr),
Korean(cp-949) 등

- 자료가 유티코드(UTF)일 경우
에는 ‘Standard Encodings’ 또
는 ‘Unicode Encodings’에서 선

2023-09-15 KMU 42
7. 한국어 학습자 말뭉치의 가공 및 활용
7.2. 원시 말뭉치 다루기 4 - AntConc의 설정3

2023-09-15 KMU 43
7. 한국어 학습자 말뭉치의 활용
7.2. 원시 말뭉치 다루기 5 – AntConc 검색 1

§ 검색: ‘Concordance’ 탭
§ ‘빈칸’에 검색어(keyword) 입력 > ‘Start’ 클릭 > 검색 결과 확인
§ ‘Concordance’ 확인
§ 빈도: ‘Word List’ 탭
§ ‘Search Term’: ‘Words’ 체크
§ ‘Start’ 클릭 > 빈도 결과 확인
§ 연어: ‘Collocates’ 탭
§ ‘Search Term’: ‘Words’ 체크
§ ‘빈칸’에 중심어 입력 > 좌우 범위 설정(4L-4R) > ‘Start’ 클릭
§ N-그램: ‘Cluster/N-Grams’ 탭
§ ‘Search Term’: ‘N-Grams’ 체크
§ ‘Cluster Size’ 설정(보통 2 or 3) > ‘Start’ 클릭
2023-09-15 KMU 44
7. 한국어 학습자 말뭉치의 활용
7.3. 형태 분석 말뭉치 다루기 1

§ 형태 분석 말뭉치
§ 구조 확인
(sample_30518.xml)

2023-09-15 KMU 45
7. 한국어 학습자 말뭉치의 활용
7.3. 형태 분석 말뭉치 다루기 3

§ 형태 분석 말뭉치의 가공 1(‘에디트플러스’)
§ ‘검색(S) > 여러 파일 찾기’
§ 옵션 선택
§ ‘찾을 말(I)’: ‘<morph from=’ 또는 ‘</morph>’
§ ‘폴더(O)’: 형태 분석 말뭉치가 들어 있는 폴더 선택
§ ‘파일 종류’: ‘*.xml’
§ ‘하위 폴더 포함(S)’ 체크: 현재는 안 해도 되지만, 습관적으로 체크
§ ‘결과 표시’: ‘출력 창에 표시’ (실습 이후로 다른 옵션도 연습)
§ ‘찾기(F)’ 클릭
§ 창 하단에서 검색 과정 확인. 말뭉치 양에 따라 시간이 조금 걸림.
§ 화면 아래 부분에 ‘출력 완료’가 보이면 검색 끝

2023-09-15 KMU 46
7. 한국어 학습자 말뭉치의 활용
7.3. 형태 분석 말뭉치 다루기 4

§ 형태 분석 말뭉치의 가공 2(‘에디트플러스’)
§ 하단의 화면 어느 곳에서 마우스 ‘우클릭’
§ ‘전체 복사(A)’ 클릭
§ 빈 문서(새 문서) 생성
§ 에디터 화면 왼쪽 상단의 하얀색 아이콘 클릭
§ ‘파일(F)’ > ‘새 파일(N)’
§ ‘ + ’
§ 첫 줄 삭제(‘ + ’), 마지막 두 줄(‘ + ’) 삭제
§ 패턴 찾아서 정규 표현식(정규식, regular expression)으로 정
리하기

2023-09-15 KMU 47
7. 한국어 학습자 말뭉치의 활용
7.3. 형태 분석 말뭉치 다루기 5

§ 형태 분석 말뭉치의 가공 3(‘에디트플러스’)
§ (주의) 현재 자료는 편의상 베트남 학습자의 자료만 모아 놓은 것
§ (팁) 만약 학습자의 정보(국가, L1, 수준 등등 ← 폴더 제목)를 남
겨서 확인하고 싶다면, 말뭉치를 폴더 전체로 모아 놓아야 함.
§ 폴더 상태로 모아 놓은 말뭉치를 대상으로 ‘여러 파일 찾기’ 실행

§ 현재 자료는 공백(스페이스)가 여러 개 있는 부분을 중심으로 왼


쪽 부분과 오른쪽 부분으로 구분됨.
§ 필요한 부분은 ‘오른쪽’. 따라서 우선 왼쪽 부분을 삭제해야 함.
§ 이때 ‘정규 표현식’을 사용해야 함.

2023-09-15 KMU 48
7. 한국어 학습자 말뭉치의 활용
7.3. 형태 분석 말뭉치 다루기 10

§ 형태 분석 말뭉치의 가공 8(‘에디트플러스’)
§ ‘정규 표현식’: 아주 간단한 것만 익히고자 함.
§ 다시 말뭉치로

§ 왼쪽 부분을 지우기 위해서: 여러 가지 방법 사용 가능


§ (2) ‘<morph from=’을 찾아서 왼쪽을 모두 지우는 방법 등
§ ‘<morph from=’ 이용
§ 정규식: ‘.+<morph from=’
• 의미: ‘<morph form=’의 왼쪽에 있는 문자(글자)가 1개 이상인 것
§ ‘검색(S)’ > ‘바꾸기(E)’: ‘ + ’
§ ‘찾을 말(I)’: ‘.+<morph from=’ 입력
§ ‘바꿀 말(P)’: ‘<morph from=’ 입력
§ ‘정규식(X)’ 반드시 체크(∨)

2023-09-15 KMU 49
7. 한국어 학습자 말뭉치의 활용
7.3. 형태 분석 말뭉치 다루기 12

§ 형태 분석 말뭉치의 가공 10(‘에디트플러스’)
§ ‘정규 표현식’: 아주 간단한 것만 익히고자 함.
§ 다음: 고차원 기능(역참조 기능)

§ <morph from="11" to="15" analyzedType="Normal"


pos="NNG" subsequence="1">시작</morph>

§ 위에서 두 부분을 남겨야 함. 대신 반대로 ‘시작/NNG’ 형태로


§ 패턴을 찾아 보자!

2023-09-15 KMU 50
7. 한국어 학습자 말뭉치의 활용
7.3. 형태 분석 말뭉치 다루기 13

§ 형태 분석 말뭉치의 가공 11(‘에디트플러스’)
§ ‘정규 표현식’: 아주 간단한 것만 익히고자 함.
§ 다음: 고차원 기능(역참조 기능)

§ <morph from="11" to="15" analyzedType="Normal" pos="NNG"


subsequence="1">시작</morph>
☞ 내용이 바뀌는 부분: 6군데
☞ 고정된 부분 찾기
§ <morph from="(…)" to ="(…)" analyzedType="(…)" pos="NNG" subsequence="(…)">시작</morph>
1 2 3 4 5 6
§ <morph from=(………………………NNG……………)>시작</morph>
§ <morph from=(………)pos="(NNG)" subsequence="(…)">(시작)</morph>
§ <morph from=(………)pos="(…)" subsequence="(…)">(…)</morph>

☞ ‘( )’ 안에 있는 것은 이후에 다시 활용하는 부분
§ ⓐ <morph from=(.+)pos="(.+)" subsequence="(.+)">(.+)</morph>
§ ⓑ (.+)pos="(.+)" subsequence="(.+)">(.+)</morph> ← 추천

2023-09-15 KMU 51
7. 한국어 학습자 말뭉치의 활용
7.3. 형태 분석 말뭉치 다루기 15

§ 형태 분석 말뭉치의 가공 13(‘에디트플러스’)
§ ‘정규 표현식’: 아주 간단한 것만 익히고자 함.
§ 다음: 고차원 기능(역참조 기능)

§ ⓐ <morph from=(.+)pos="(.+)" subsequence="(.+)">(.+)</morph>


§ ⓑ (.+)pos="(.+)" subsequence="(.+)">(.+)</morph>
§ 복원해야 하는 부분(ⓑ): ‘\2, \4’ ⓐ를 사용할 경우에도 ‘\2, \4’

§ ‘검색(S)’ > ‘바꾸기(E)’: ‘ + ’


§ ‘찾을 말(I)’: ‘(.+)pos="(.+)" subsequence="(.+)">(.+)</morph>’ 입력
§ ‘바꿀 말(P)’: ‘\4/\2’ 입력(‘/’는 구분자, ‘\2와 ‘/4’는 반대로 복원)
§ ‘정규식(X)’ 반드시 체크(∨)
2023-09-15 KMU 52
7. 한국어 학습자 말뭉치의 활용
7.3. 형태 분석 말뭉치 다루기 16

§ 형태 분석 말뭉치의 가공 14(‘에디트플러스’)
§ ‘정규 표현식’: 아주 간단한 것만 익히고자 함.
§ 다음: 후처리
§ 구축 말뭉치의 특성상 지워야 할 몇 가지가 남아 있을 가능성

§ <morph from="14" to="19" analyzedType="Fail" pos="" subsequence="2">


§ <morph from="14" to="19" analyzedType="Fail" pos="" subsequence="3">

§ ‘찾기’(표식 설정)나 바꾸기’를 통해서 모두 삭제


§ ‘표식’ 기능 사용
§ ‘찾을 말(I)’: ‘<morph from=’ 입력
§ ‘표식 설정(M)’ 클릭
§ ‘편집(E)’ > ‘지우기(D)’ > ‘표식 있는 줄 지우기(M)’

§ (팁) ‘표식’ 기능은 ‘검색 및 용례 추출’로 사용


2023-09-15 KMU 53
7. 한국어 학습자 말뭉치의 활용
7.3. 형태 분석 말뭉치 다루기 17

§ 형태 분석 말뭉치의 활용(‘AntConc’)
§ 가공한 파일을 AntConc에서 활용하여 ‘검색’, ‘빈도 산출'

§ 검색 가능
§ 빈도 산출
§ 연어 추출
§ N-그램 추출

2023-09-15 KMU 54
7. 한국어 학습자 말뭉치의 활용
7.4. 오류 분석 말뭉치 다루기 1

§ 오류 분석 말뭉치
§ 구조 확인
§ 실제 오류 분석 말뭉치는 ‘학습자 말뭉치 나눔터’ 활용 추천

2023-09-15 KMU 55
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 1

§ 형태 분석은 ‘원시 말뭉치’를 대상으로 함.


§ 파일 1개 처리 가능
§ 폴더로 처리 가능(Utagger, KIWI)

§ 이용 가능한 형태(소) 분석기는?


§ 기초 과정에서는 명령프롬프트(DOS)로 사용하는 것보다 ‘GUI’
가 있는 프로그램 추천

§ 지능형형태소분석기(ANSI, cp949 , utf-8)


§ UTagger(울산대학교 한국어처리연구실) (ANSI, cp949, utf-8)
§ KIWI(https://github.com/bab2min/Kiwi), ‘Releases’ 버전
2023-09-15 KMU 56
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 2 (kiwi)

§ KIWI(https://github.com/bab2min/Kiwi), ‘Releases’ 버전
§ https://github.com/bab2min/Kiwi

2023-09-15 KMU 57
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 2 (kiwi)

§ KIWI(https://github.com/bab2min/Kiwi), ‘Releases’ 버전

2023-09-15 KMU 58
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 2 (kiwi)

§ KIWI(https://github.com/bab2min/Kiwi), ‘Releases’ 버전

2023-09-15 KMU 59
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 2 (kiwi)

§ KIWI(https://github.com/bab2min/Kiwi), ‘Releases’ 버전

2023-09-15 KMU 60
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 3-1 (UTagger)

2023-09-15 KMU 61
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 3-2 (UTagger)

- ‘UI 보이기’ 클릭
- 옵션 설정
- 파일 분석
2023-09-15 KMU 62
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 4 (UTagger)

- 유태거 세팅

2023-09-15 KMU 63
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 5 (UTagger)

- 유태거 세팅 방법
- 파일 형태: ‘원시 말뭉치’ 선택
- 서술형 명사 용언 분석:
· 통합:
공부하(다) → 공부하/VV
· 분리: ← 이번에는 이거 사용
공부하(다) → 공부/NNG+하/XSV
- 출력 형식
· 울산대: 한 문장을 한 줄로 ← 이번에는
· 한줄에 한어절:
한 어절을 한 줄로(세종 형식)
- 의미 매핑 정보 출력:
동형어 번호 출력 여부 선택 ← 이번 안 함
2023-09-15 KMU 64
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 6 (UTagger)

§ (1) 말뭉치 형태(소) 분석

§ ‘파일 분석’ 클릭(단일 파일 처리)


§ 말뭉치의 인코딩 확인
§ 말뭉치(텍스트 파일)의 인코딩은
§ ‘일반 텍스트 파일(ANSI, cp949, euc-kr, ascii)

§ ‘폴더 분석’ 클릭(복수 파일 처리) ← 이번 특강에서는 이거 사용


§ 말뭉치의 인코딩 확인
§ 말뭉치(텍스트 파일)의 인코딩은
§ ‘일반 텍스트 파일(cp949, euc-kr, ascii)’

§ 결과 → 확장자가 ‘.tag’인 파일 생성
§ ⇒ 더블클릭하면 안 열림. 텍스트 에디터로 연결해야 함.

2023-09-15 KMU 65
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 7 (UTagger)

§ (2) 분석 말뭉치의 후처리(텍스트 에디터에서)


§ ‘(찾아) 바꾸기’ 활용
§ 탭: \t(₩t)
§ 줄바꿈(엔터): \n(₩n)
§ 정규 표현식 등
§ 유태거 분석 결과물에서 ‘동형어 번호’ 삭제 방법
§ 정규 표현식 이용
§ 검색 패턴(문자 4개, ‘__숫자숫자’)
§ ‘__[0-9] [0-9]’ ← ‘정규식’ 체크
§ (주의) 유태거 분석 결과물의 활용 시
§ 파일 확장자: ‘*.tag’이므로 AntConc 사용 시 파일 확장자 조정
§ 파일 선택 시 조정 또는 ‘Global Settings’의 ‘Files’에서 ‘txt’ → ‘ALL’
§ 파일 인코딩: 유태거 분석 결과물의 코딩은 ‘cp949’이므로 AntConc의
인코딩 옵션 선택 시 유의
2023-09-15 KMU 66
7. 한국어 학습자 말뭉치의 가공 및 활용
7.5. 형태 분석 후 자료 활용 8 - AntConc의 설정 1

- 사용할 말뭉치의 인코딩 선택


Korean(euc-kr),
Korean(cp-949) 등

- 자료가 유티코드(UTF)일 경우
에는 ‘Standard Encodings’에서
선택

2023-09-15 KMU 67
7. 한국어 학습자 말뭉치의 가공 및 활용
7.5. 형태 분석 후 자료 활용 9 - AntConc의 설정 2

‘Tags’의 ‘Tag marker’


에서 ‘_’를 ‘/’로 변경하
거나, 말뭉치의 ‘/’를 ‘_’
로 변경해야 함.

2023-09-15 KMU 68
7. 한국어 학습자 말뭉치의 가공 및 활용
7.5. 형태 분석 후 자료 활용 10 - AntConc의 설정 3

검색이나 빈도에서 태그를 함


께 보기 위해서는
‘Punctuation Token Classes’
에서 ‘Punctuation’을 체크해
주어야 함.

동형어 번호를 함께 보기 위해
서는 ‘Number Token
Classes’에서 ‘Number’도 체
크해 주어야 함.

2023-09-15 KMU 69
7. 한국어 학습자 말뭉치의 가공 및 활용
7.5. 형태 분석 후 자료 활용 11 - AntConc의 설정 4

- 이용하고자 하는 말뭉치
로딩
- 이후, 검색(Concodance)
이나 검색어를 입력하고
‘Start’를 클릭
- 빈도(Word List)에서
‘Start’를 클릭

2023-09-15 KMU 70
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 12

§ 형태 분석한 말뭉치의 활용(‘AntConc’)


§ 분석한 파일을 AntConc에서 활용하여 ‘검색’, ‘빈도 산출'

§ 검색 가능
§ 빈도 산출
§ 연어 추출
§ N-그램 추출

2023-09-15 KMU 71
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 12

§ 형태 분석한 말뭉치의 활용(‘AntConc’)


§ 분석한 파일을 AntConc에서 활용하여 ‘검색’, ‘빈도 산출'

§ 검색 가능
§ 빈도 산출
§ 연어 추출
§ N-그램 추출
§ Keyword List

2023-09-15 KMU 72
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 13

§ 형태 분석한 말뭉치의 활용(‘AntConc’)


§ 분석한 파일을 AntConc에서 활용하여 ‘검색’, ‘빈도 산출'

§ Keyword List(옵션)
§ ‘Tool Preferences’
§ ‘Keyword List’
§ ‘Reference Corpus’
§ 참조 말뭉치 선택
§ 파일 혹은 폴더 선택
§ 선택 후 ‘Load’
§ ‘Apply’ 클릭

2023-09-15 KMU 73
7. 한국어 학습자 말뭉치의 활용
7.5. 형태 분석 후 자료 활용 14

§ 형태 분석한 말뭉치의 활용(‘AntConc’)


§ Keyword List
§ ‘Keyword List’를 활용하고자 한다면, 먼저 ‘Word List’ 실행하지
않아도, AntConc가 자동으로 해 줌.
§ ‘Keyword List’
§ ‘Start’ 클릭

2023-09-15 KMU 74

You might also like