220216 - 부산대학교 맞춤법 자동검사 프로그램 설치

부산대학교 맞춤법 검사 자동 처리
2022/2/16
1. 개인 PC 에 PYTHON 및 웹크롤링 관련 Library 를 설치
(기 설치 PC 는 해당사항 없음)
- \\192.168.3.8\언어서비스사업본부\설치프로그램\Python_n_WebScrapingDrivers
folder 에 있는
- “Python_WebScraping 관련 프로그램 설치_20220216.docx” 파일 참조
(상기 설명서의 1. ~ 5.번 작업까지 수행)
2. 맞춤법 검사를 수행할 프로그램 Folder 를 생성하고, 해당 프로그램을 COPY

- \\192.168.3.8\언어서비스사업본부\설치프로그램\Python_n_WebScrapingDrivers\
BusanUniv_Punctuation_Check
folder 에 있는
- "0.폴더생성_n_프로그램 COPY.BAT" 파일을 더블클릭
- 상기 작업 완료 시,
- 본인 PC 에 D:\부산대_맞춤법_Automation folder 및 다음 3 개 file 이 생성
3. 본인 PC 가 아닌 loc-nas folder 에서 작업할 경우(작업 파일 공유 등 필요 시)
- \\192.168.3.8\언어서비스사업본부\설치프로그램\부산대_맞춤법_Automation folder
에
- 본인 이름 folder(예: 홍길동) 생성 후,
- \\192.168.3.8\언어서비스사업본부\설치프로그램\부산대_맞춤법_Automation\
홍길동 folder 에 있는 3 개 .bat 파일을 본인 이름 folder 로 copy
- 본인 이름 folder 의 3 개 bat 파일을 Editor(예: notepad)로 열어서 홍길동->

본인이름으로 변경
1
4. 실행 방법
- 맞춤법 검사 대상 파일을 D:\부산대_맞춤법_Automation 또는 loc-nas 해당 본인이름

folder 로 copy
- 원하는 검증 대상 조건에 따라 3 개 .bat 파일 중 1 개를 더블클릭
 ★BusanUni_punct_0_101_check.BAT : ICE match 포함(0~101%) 모두 검사
 ★★BusanUni_punct_0_100_check.BAT : 0~100% 해당 사항만 검사(101% 제외)
 ★★★BusanUni_punct_0_99_check.BAT : fuzzy 0 ~ 99% 해당 사항만 검사
- 처리 결과 확인
 D:\부산대_맞춤법_Automation folder 에 3 개 .bat 및 Checked folder 만 있어야 함
 D:\부산대_맞춤법_Automation\Checked 결과 folder 에 개별 점검 파일 및 최종
Merged 결과가 있어야 함
2
 최종 처리 Merged 파일명 : 점검 결과 전체 Merged 분의 Unique 건만 추출
★★★Merged_checked_XX 개파일_YYY 건[전체 ZZZ 건].csv

이때, ★, ★★, ★★★는 원하는 검증 대상 조건(6. 참조)에 따름
XX 개 : Merged 파일 개수,
YYY 건 : Merged 파일 내 맞춤법 Unique 점검 건수
ZZZ 건 : 전체 처리 파일의 검사 대상 누적 라인 건수
『주 : 부산대 맞춤법 자동 검사 처리 오류로 인하여 미처리 건수가 있을 경우에는

“미처리오류있음“으로 파일명 표시함』
★★★Merged_checked_XX 개파일_YYY 건[전체 ZZZ 건]_미처리오류있음.csv
3
 미처리 오류 건이 있는 경우
 부산대 맞춤법 web site 오류, 번역 target 의 encoding 코드 오류, HTML 표기

오류 등 다양한 이유가 있을 수 있음
 정상 처리 분에 대해서는 “★Merged_checked_...” 파일에서 결과 확인
 미처리 오류건에 대해서는 “★★★★Not_Processed_확인요망.txt” 파일을

Editor 로 열어 확인, 또는 EXCEL 에서 2 번째(B) 컬럼을 부산대 검사기 web
site 에서 수작업 확인 재처리
 개별 파일 처리 결과 파일명 : file 명_checked_XX 건[전체 YYY 건].csv
이때, XX 건 : 개별 파일 내 맞춤법 Unique 점검 건수
YYY 건 : 개별 처리 파일의 검사 대상 라인 건수
 임시 작업용 파일명 : XX.YY_working
 결과 확인 후, 해당 folder 를 향후 작업을 위해 clear : folder 또는 파일 삭제
5. 결과 확인 : 최종 파일 더블클릭
- 결과 파일 구성
 교정 구분 : 맞춤법 결과에 대해, 프로그램에서 target 원본에 대해 다음과 같이

Group 함(* 협의하여 지속 수정 적용 필요; 아래 순서로 우선순위 적용)
 tag 관련 char 포함(< > { } gt lt) : 원본에 6 개 char 포함시
 숫자 only : 원본이 숫자로만 구성

4
 영문자 only : 원본이 영어 알파벳 문자로만 구성
 영문자 및 숫자 only : 원본이 영어 알파벳 문자 및 숫자로만 구성
 대치어 없음 : 부산대 검사기 결과, 대치어 없음으로 나온 경우
 띄어쓰기 : 부산대 검사기 결과, 원본과 대치어 1 간 띄어쓰기만 다름
 FP 처리 : 원본에 FP 단어(예: 스크린샷,..)를 포함하는 경우
 오탈자 또는 대치어 : 부산대 검사기 결과, 띄어쓰기 외 검사된 경우
 미처리오류있음 : 검사기 자체 오류 발생 건
(반드시 “★★★★Not_Processed_확인요망.txt” 파일 확인 및 재점검)
 부산대 맞춤법 검사기 교정 대상(원본)
 맞춤법 결과 교정 내용 : 대치어 반복 …….
5
6. 맞춤법 자동 처리 가능 파일
맞춤법 처리 대상
fuzzy 별 처리 구분
번호 CAT Tool 구분 파일 Type 파일명
파일명 . 확장자 0~101% 0~100% 0~99%
1 SDL Trados sdlxliff 임의 지정 . sdlxliff ★ ★★ ★★★
2 MEMSOURCE mxliff 임의 지정 . mxliff ★ ★★ ★★★
3 Wordfast txlf 임의 지정 . txlf ★ 또는 ★★ ★★★
4 GS Editor xlf 임의 지정 . xlf ★ 또는 ★★ ★★★

Idiom
exported TAB idiom 단어
5 Idiom . txt ★ ★★ ★★★
delimetered 포함
TXT
Passolo
exported TAB passolo Target 중에서 "Review"
6 Passolo . txt
delimetered 단어 포함 설정 Data 처리
TXT
XTM exported xtm 단어

7 XTM . xlsx Target Data 전체 처리
xlsx 포함
APSIC
임의 지정 . xlsx Target Data 전체 처리
exported xlsx
8 APSIC APSIC
exported TAB apsic 단어
. txt Target Data 전체 처리
delimetered 포함
TXT
LEAF exported leaf 단어
9 MS 팀 LEAF . xls Target Data 전체 처리
xlsx 포함
Editor(notepad
10 일반 TXT file 임의 지정 . txt 모든 text 처리
등) 작성
- 각 파일 처리 별 확인 사항
 Wordfast : gs4tr:score= 값에 따라 구분
 GS Editor : target state=”new”인 경우는 0~99%, “translated”는 100% 적용
 Idiom : 해당 txt 파일은 TAB delimeted .csv 파일 형식으로, 2 번째 항목

(delimeter=TAB)에 해당하는 target 대상
 ICE match : 0~101% 적용
 100% match : 0~100% 적용
 100% match propagated : 0~99% 적용
 manual translation : 0~99% 적용

6
 Passolo
 해당 txt 파일은 TAB delimeted .csv 파일 형식으로, 2 번째 항목

 마지막 구분자(8 번째) 값이 "Review"인 것에 대해서만 처리
 XTM : xlsx 파일의 3 번째 column 항목 전체를 체크
 APSIC : ICE excluded 상태로 .xlsx 나 .csv(TAB delimetered)로 생성
 xlsx 파일의 2 번째 column 항목 전체를 체크
 해당 txt 파일은 TAB delimeted .csv 파일 형식으로, 2 번째 항목

 MS 팀 LEAF : xlsx 파일의 6 번째 column 항목 전체를 체크
 일반 TXT 파일 : 파일 전체 내용을 맞춤법 체크 실행. 단, ANSI Encoding 만 가능
7. 유의 사항
- 가능하다면, 불필요한 파일 format 변환 작업을 하지않도록, xlsx file format 보다는 TAB
구분자를 사용한 CSV 또는 TXT file 을 INPUT 으로 사용하기를 권고
- INPUT 파일 자체에서 추출한 Target Data 중에서, TAG 또는 특이 코드 등으로 부산대

맞춤법 검사 Web 프로그램에서 자체 오류 발생 시
 이 경우, 오류 발생 건에 대해 “교정 구분”을 “부산대 맞춤법 검사오류(미처리)”로

표시하므로, 수작업으로 해당 건 점검 필요
- 최종 0 건으로 파일명이 표현된 경우, 입력 데이터 형식 오류 등으로 처리 건수 확인

필요. 특히, TAB 구분자를 사용한 CSV 또는 TXT 파일의 형식에 구분자가 TAB 이 아닐
경우의 확인 필요
- 예상 처리 대상 건수와 실제 처리 건수를 비교 점검 필요
- FP 명단 관리 : Reviewer 팀에서 자체 관리(관리자 담당 필요)
 폴더 위치 :
\\192.168.3.8\언어서비스사업본부\설치프로그램\Python_n_WebScrapingDrivers\
BusanUniv_Punctuation_Check
 파일명 : FP 명단.txt
8. 기타
- 프로그램 오류 시에는 개발 담당자에게 알려 프로그램의 완성도를 높이도록 함
- 개선사항 제안

220216 - 부산대학교 맞춤법 자동검사 프로그램 설치

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

220216 - 부산대학교 맞춤법 자동검사 프로그램 설치

Uploaded by

Copyright:

Available Formats

부산대학교 맞춤법 검사 자동 처리

1. 개인 PC 에 PYTHON 및 웹크롤링 관련 Library 를 설치

- “Python_WebScraping 관련 프로그램 설치_20220216.docx” 파일 참조

(상기 설명서의 1. ~ 5.번 작업까지 수행)

2. 맞춤법 검사를 수행할 프로그램 Folder 를 생성하고, 해당 프로그램을 COPY

- "0.폴더생성_n_프로그램 COPY.BAT" 파일을 더블클릭

- 본인 PC 에 D:\부산대_맞춤법_Automation folder 및 다음 3 개 file 이 생성

3. 본인 PC 가 아닌 loc-nas folder 에서 작업할 경우(작업 파일 공유 등 필요 시)

- 본인 이름 folder 의 3 개 bat 파일을 Editor(예: notepad)로 열어서 홍길동->

- 맞춤법 검사 대상 파일을 D:\부산대_맞춤법_Automation 또는 loc-nas 해당 본인이름

- 원하는 검증 대상 조건에 따라 3 개 .bat 파일 중 1 개를 더블클릭

 ★BusanUni_punct_0_101_check.BAT : ICE match 포함(0~101%) 모두 검사

 ★★BusanUni_punct_0_100_check.BAT : 0~100% 해당 사항만 검사(101% 제외)

 ★★★BusanUni_punct_0_99_check.BAT : fuzzy 0 ~ 99% 해당 사항만 검사

 D:\부산대_맞춤법_Automation folder 에 3 개 .bat 및 Checked folder 만 있어야 함

★★★Merged_checked_XX 개파일_YYY 건[전체 ZZZ 건].csv

YYY 건 : Merged 파일 내 맞춤법 Unique 점검 건수

『주 : 부산대 맞춤법 자동 검사 처리 오류로 인하여 미처리 건수가 있을 경우에는

★★★Merged_checked_XX 개파일_YYY 건[전체 ZZZ 건]_미처리오류있음.csv

 부산대 맞춤법 web site 오류, 번역 target 의 encoding 코드 오류, HTML 표기

 정상 처리 분에 대해서는 “★Merged_checked_...” 파일에서 결과 확인

 미처리 오류건에 대해서는 “★★★★Not_Processed_확인요망.txt” 파일을

 개별 파일 처리 결과 파일명 : file 명_checked_XX 건[전체 YYY 건].csv

이때, XX 건 : 개별 파일 내 맞춤법 Unique 점검 건수

 임시 작업용 파일명 : XX.YY_working

 결과 확인 후, 해당 folder 를 향후 작업을 위해 clear : folder 또는 파일 삭제

 교정 구분 : 맞춤법 결과에 대해, 프로그램에서 target 원본에 대해 다음과 같이

 tag 관련 char 포함(< > { } gt lt) : 원본에 6 개 char 포함시

 숫자 only : 원본이 숫자로만 구성

 영문자 및 숫자 only : 원본이 영어 알파벳 문자 및 숫자로만 구성

 대치어 없음 : 부산대 검사기 결과, 대치어 없음으로 나온 경우

 띄어쓰기 : 부산대 검사기 결과, 원본과 대치어 1 간 띄어쓰기만 다름

 FP 처리 : 원본에 FP 단어(예: 스크린샷,..)를 포함하는 경우

 오탈자 또는 대치어 : 부산대 검사기 결과, 띄어쓰기 외 검사된 경우

(반드시 “★★★★Not_Processed_확인요망.txt” 파일 확인 및 재점검)

 부산대 맞춤법 검사기 교정 대상(원본)

 맞춤법 결과 교정 내용 : 대치어 반복 …….

1 SDL Trados sdlxliff 임의 지정 . sdlxliff ★ ★★ ★★★

2 MEMSOURCE mxliff 임의 지정 . mxliff ★ ★★ ★★★

3 Wordfast txlf 임의 지정 . txlf ★ 또는 ★★ ★★★

4 GS Editor xlf 임의 지정 . xlf ★ 또는 ★★ ★★★

XTM exported xtm 단어

 GS Editor : target state=”new”인 경우는 0~99%, “translated”는 100% 적용

 Idiom : 해당 txt 파일은 TAB delimeted .csv 파일 형식으로, 2 번째 항목

 ICE match : 0~101% 적용

 100% match : 0~100% 적용

 100% match propagated : 0~99% 적용

 manual translation : 0~99% 적용

 해당 txt 파일은 TAB delimeted .csv 파일 형식으로, 2 번째 항목

 마지막 구분자(8 번째) 값이 "Review"인 것에 대해서만 처리

 XTM : xlsx 파일의 3 번째 column 항목 전체를 체크

 APSIC : ICE excluded 상태로 .xlsx 나 .csv(TAB delimetered)로 생성

 xlsx 파일의 2 번째 column 항목 전체를 체크

 해당 txt 파일은 TAB delimeted .csv 파일 형식으로, 2 번째 항목

 MS 팀 LEAF : xlsx 파일의 6 번째 column 항목 전체를 체크

 일반 TXT 파일 : 파일 전체 내용을 맞춤법 체크 실행. 단, ANSI Encoding 만 가능

- INPUT 파일 자체에서 추출한 Target Data 중에서, TAG 또는 특이 코드 등으로 부산대

 이 경우, 오류 발생 건에 대해 “교정 구분”을 “부산대 맞춤법 검사오류(미처리)”로

- 최종 0 건으로 파일명이 표현된 경우, 입력 데이터 형식 오류 등으로 처리 건수 확인

- FP 명단 관리 : Reviewer 팀에서 자체 관리(관리자 담당 필요)

- 프로그램 오류 시에는 개발 담당자에게 알려 프로그램의 완성도를 높이도록 함

You might also like