You are on page 1of 18

인공지능 프로젝트

3301 권순성 3309 이상민


문제 인식
문제 인식
해결 방안
원하는 짤에 맞는 문장을 입력하면 그에 맞는 짤을 추천하는 인공지능 개발
해결 방안
원하는 짤에 맞는 문장을 입력하면 그에 맞는 짤을 추천하는 인공지능 개발

필요한 짤의 상황을 입력
ex) 집에 있을래 , 반갑습니다

인공지능
데이터 수집
웹 크롤링을 통해 사람들이 주로 사용하는 짤을 수집

이때 텍스트가 포함되어 있는 짤만을 수집


데이터 수집
웹 크롤링을 통해 사람들이 주로 사용하는 짤을 수집

이때 텍스트가 포함되어 있는 짤만을 수집


해결 방안에 사용할 인공지능 기술
1. 이미지에서 텍스트 인식 (OCR)

2. 자연어 처리 ( 전처리 , 임베딩 , 유사도 )


텍스트 인식 (OCR)
광학 문자 인식 (Optical Character Recognition)

컴퓨터의 2 진법으로 나타내어진 텍스트가 아닌 사람이 작성한 글을 인식하는 기술

과속 단속 카메라의 번호판 인식 , 번역기 등에서 주로 사용되는 기술


자연어 처리

텍스트 유사도
임베딩
전처리 구하기
자연어 처리
텍스트 전처리 : 용도에 맞게 텍스트를 사전에 처리하는 작업

크게 토큰화 , 정제 , 정규화 과정이 있음


자연어 처리
토큰화 : 주어진 코퍼스 ( 말뭉치 ) 에서 토큰이라 불리는 단위로 나누는 작업

예 ) 구두점 단순 제외 , 단어 기준 토큰화

입력 : Hello, world! Print your name.

출력 : “Hello”, “world”, “Print”, “your”, “name”

다양한 토큰화 도구 존재
자연어 처리
정제 : 코퍼스로부터 노이즈 데이터를 제거하는 과정

정제의 예 : 등장 빈도가 적은 단어 , 길이가 짧은 단어 (a, I, it, at 등 )

정규화 : 표현 방법이 다른 단어들을 통합시켜 같은 단어로 만들어줌

정규화의 예 : USA=US, 여자 = 여성 , 남자 = 남성
자연어 처리
임베딩 : 자연어를 컴퓨터가 이해할 수 있도록 벡터로 표현하는 방법

RNN 계열 신경망 -> 트랜스포머 계열 신경망

프로젝트에서는 BERT 라는 모델 사용 계획

대표적인 한국어 BERT: klue/bert-base


자연어 처리
유사도 구하기

코사인 유사도 : 두 벡터 간의 코사인 각도를 이용해 구하는 방법


사용자 인터페이스 개발
앱 또는 웹을 통해 다른 사람들이 사용할 수 있는 형태로 제공

사용자 특성 , 피드백을 고려하여 모델을 개선


역할 분담

권순성 : 데이터셋 수집 , 자연어 처리 모델 제작

이상민 : 데이터셋 수집 , 텍스트 인식 모델 제작 , 사용자 인터페이스 개발


일정
4/8 - 4/21 : 데이터셋 수집 및 텍스트 인식

4/22 - 5/5 : 텍스트 전처리

5/6 - 5/19 : 임베딩 및 유사도 구하기

5/20 - 6/2 : 사용자 인터페이스 개발

You might also like