You are on page 1of 7

부산대학교 맞춤법 검사 자동 처리

2022/2/16

1. 개인 PC 에 PYTHON 및 웹크롤링 관련 Library 를 설치

(기 설치 PC 는 해당사항 없음)

- \\192.168.3.8\언어서비스사업본부\설치프로그램\Python_n_WebScrapingDrivers
folder 에 있는

- “Python_WebScraping 관련 프로그램 설치_20220216.docx” 파일 참조

(상기 설명서의 1. ~ 5.번 작업까지 수행)

2. 맞춤법 검사를 수행할 프로그램 Folder 를 생성하고, 해당 프로그램을 COPY


- \\192.168.3.8\언어서비스사업본부\설치프로그램\Python_n_WebScrapingDrivers\
BusanUniv_Punctuation_Check

folder 에 있는

- "0.폴더생성_n_프로그램 COPY.BAT" 파일을 더블클릭

- 상기 작업 완료 시,

- 본인 PC 에 D:\부산대_맞춤법_Automation folder 및 다음 3 개 file 이 생성

3. 본인 PC 가 아닌 loc-nas folder 에서 작업할 경우(작업 파일 공유 등 필요 시)

- \\192.168.3.8\언어서비스사업본부\설치프로그램\부산대_맞춤법_Automation folder

- 본인 이름 folder(예: 홍길동) 생성 후,

- \\192.168.3.8\언어서비스사업본부\설치프로그램\부산대_맞춤법_Automation\
홍길동 folder 에 있는 3 개 .bat 파일을 본인 이름 folder 로 copy

- 본인 이름 folder 의 3 개 bat 파일을 Editor(예: notepad)로 열어서 홍길동->


본인이름으로 변경
1
4. 실행 방법

- 맞춤법 검사 대상 파일을 D:\부산대_맞춤법_Automation 또는 loc-nas 해당 본인이름


folder 로 copy

- 원하는 검증 대상 조건에 따라 3 개 .bat 파일 중 1 개를 더블클릭

 ★BusanUni_punct_0_101_check.BAT : ICE match 포함(0~101%) 모두 검사

 ★★BusanUni_punct_0_100_check.BAT : 0~100% 해당 사항만 검사(101% 제외)

 ★★★BusanUni_punct_0_99_check.BAT : fuzzy 0 ~ 99% 해당 사항만 검사

- 처리 결과 확인

 D:\부산대_맞춤법_Automation folder 에 3 개 .bat 및 Checked folder 만 있어야 함

 D:\부산대_맞춤법_Automation\Checked 결과 folder 에 개별 점검 파일 및 최종
Merged 결과가 있어야 함

2
 최종 처리 Merged 파일명 : 점검 결과 전체 Merged 분의 Unique 건만 추출

★★★Merged_checked_XX 개파일_YYY 건[전체 ZZZ 건].csv


이때, ★, ★★, ★★★는 원하는 검증 대상 조건(6. 참조)에 따름

XX 개 : Merged 파일 개수,

YYY 건 : Merged 파일 내 맞춤법 Unique 점검 건수

ZZZ 건 : 전체 처리 파일의 검사 대상 누적 라인 건수

『주 : 부산대 맞춤법 자동 검사 처리 오류로 인하여 미처리 건수가 있을 경우에는


“미처리오류있음“으로 파일명 표시함』

★★★Merged_checked_XX 개파일_YYY 건[전체 ZZZ 건]_미처리오류있음.csv

3
 미처리 오류 건이 있는 경우

 부산대 맞춤법 web site 오류, 번역 target 의 encoding 코드 오류, HTML 표기


오류 등 다양한 이유가 있을 수 있음

 정상 처리 분에 대해서는 “★Merged_checked_...” 파일에서 결과 확인

 미처리 오류건에 대해서는 “★★★★Not_Processed_확인요망.txt” 파일을


Editor 로 열어 확인, 또는 EXCEL 에서 2 번째(B) 컬럼을 부산대 검사기 web
site 에서 수작업 확인 재처리

 개별 파일 처리 결과 파일명 : file 명_checked_XX 건[전체 YYY 건].csv

이때, XX 건 : 개별 파일 내 맞춤법 Unique 점검 건수

YYY 건 : 개별 처리 파일의 검사 대상 라인 건수

 임시 작업용 파일명 : XX.YY_working

 결과 확인 후, 해당 folder 를 향후 작업을 위해 clear : folder 또는 파일 삭제

5. 결과 확인 : 최종 파일 더블클릭

- 결과 파일 구성

 교정 구분 : 맞춤법 결과에 대해, 프로그램에서 target 원본에 대해 다음과 같이


Group 함(* 협의하여 지속 수정 적용 필요; 아래 순서로 우선순위 적용)

 tag 관련 char 포함(< > { } gt lt) : 원본에 6 개 char 포함시

 숫자 only : 원본이 숫자로만 구성


4
 영문자 only : 원본이 영어 알파벳 문자로만 구성

 영문자 및 숫자 only : 원본이 영어 알파벳 문자 및 숫자로만 구성

 대치어 없음 : 부산대 검사기 결과, 대치어 없음으로 나온 경우

 띄어쓰기 : 부산대 검사기 결과, 원본과 대치어 1 간 띄어쓰기만 다름

 FP 처리 : 원본에 FP 단어(예: 스크린샷,..)를 포함하는 경우

 오탈자 또는 대치어 : 부산대 검사기 결과, 띄어쓰기 외 검사된 경우

 미처리오류있음 : 검사기 자체 오류 발생 건

(반드시 “★★★★Not_Processed_확인요망.txt” 파일 확인 및 재점검)

 부산대 맞춤법 검사기 교정 대상(원본)

 맞춤법 결과 교정 내용 : 대치어 반복 …….

5
6. 맞춤법 자동 처리 가능 파일

맞춤법 처리 대상
fuzzy 별 처리 구분
번호 CAT Tool 구분 파일 Type 파일명
파일명 . 확장자 0~101% 0~100% 0~99%

1 SDL Trados sdlxliff 임의 지정 . sdlxliff ★ ★★ ★★★

2 MEMSOURCE mxliff 임의 지정 . mxliff ★ ★★ ★★★

3 Wordfast txlf 임의 지정 . txlf ★ 또는 ★★ ★★★

4 GS Editor xlf 임의 지정 . xlf ★ 또는 ★★ ★★★


Idiom
exported TAB idiom 단어
5 Idiom . txt ★ ★★ ★★★
delimetered 포함
TXT
Passolo
exported TAB passolo Target 중에서 "Review"
6 Passolo . txt
delimetered 단어 포함 설정 Data 처리
TXT

XTM exported xtm 단어


7 XTM . xlsx Target Data 전체 처리
xlsx 포함

APSIC
임의 지정 . xlsx Target Data 전체 처리
exported xlsx

8 APSIC APSIC
exported TAB apsic 단어
. txt Target Data 전체 처리
delimetered 포함
TXT
LEAF exported leaf 단어
9 MS 팀 LEAF . xls Target Data 전체 처리
xlsx 포함
Editor(notepad
10 일반 TXT file 임의 지정 . txt 모든 text 처리
등) 작성

- 각 파일 처리 별 확인 사항

 Wordfast : gs4tr:score= 값에 따라 구분

 GS Editor : target state=”new”인 경우는 0~99%, “translated”는 100% 적용

 Idiom : 해당 txt 파일은 TAB delimeted .csv 파일 형식으로, 2 번째 항목


(delimeter=TAB)에 해당하는 target 대상

 ICE match : 0~101% 적용

 100% match : 0~100% 적용

 100% match propagated : 0~99% 적용

 manual translation : 0~99% 적용


6
 Passolo

 해당 txt 파일은 TAB delimeted .csv 파일 형식으로, 2 번째 항목


(delimeter=TAB)에 해당하는 target 대상

 마지막 구분자(8 번째) 값이 "Review"인 것에 대해서만 처리

 XTM : xlsx 파일의 3 번째 column 항목 전체를 체크

 APSIC : ICE excluded 상태로 .xlsx 나 .csv(TAB delimetered)로 생성

 xlsx 파일의 2 번째 column 항목 전체를 체크

 해당 txt 파일은 TAB delimeted .csv 파일 형식으로, 2 번째 항목


(delimeter=TAB)에 해당하는 target 대상

 MS 팀 LEAF : xlsx 파일의 6 번째 column 항목 전체를 체크

 일반 TXT 파일 : 파일 전체 내용을 맞춤법 체크 실행. 단, ANSI Encoding 만 가능

7. 유의 사항

- 가능하다면, 불필요한 파일 format 변환 작업을 하지않도록, xlsx file format 보다는 TAB
구분자를 사용한 CSV 또는 TXT file 을 INPUT 으로 사용하기를 권고

- INPUT 파일 자체에서 추출한 Target Data 중에서, TAG 또는 특이 코드 등으로 부산대


맞춤법 검사 Web 프로그램에서 자체 오류 발생 시

 이 경우, 오류 발생 건에 대해 “교정 구분”을 “부산대 맞춤법 검사오류(미처리)”로


표시하므로, 수작업으로 해당 건 점검 필요

- 최종 0 건으로 파일명이 표현된 경우, 입력 데이터 형식 오류 등으로 처리 건수 확인


필요. 특히, TAB 구분자를 사용한 CSV 또는 TXT 파일의 형식에 구분자가 TAB 이 아닐
경우의 확인 필요

- 예상 처리 대상 건수와 실제 처리 건수를 비교 점검 필요

- FP 명단 관리 : Reviewer 팀에서 자체 관리(관리자 담당 필요)

 폴더 위치 :

\\192.168.3.8\언어서비스사업본부\설치프로그램\Python_n_WebScrapingDrivers\
BusanUniv_Punctuation_Check

 파일명 : FP 명단.txt

8. 기타

- 프로그램 오류 시에는 개발 담당자에게 알려 프로그램의 완성도를 높이도록 함

- 개선사항 제안

You might also like