You are on page 1of 11

한국체육학회지, 2023, 제62권 제5호, 377-387 The Korean Journal of Physical Education, 2023, 62(5), 377-387

https://doi.org/10.23949/kjpe.2023.9.62.5.25 ISSN 1738-964X(Print) / ISSN 2508-7029(Online)

국내 프로야구 경기력 지표 인식 조사*


An Analysis on Perception about Performance Indicators of the Korean
Professional Baseball League
오승욱 경희대학교 연구교수⋅한진욱** 경희대학교 교수
Oh, Seung Wook⋅Han, Jin-Wook Kyung Hee Univ.
요약
본 연구는 다양한 빅데이터의 형태 중에서 비정형 데이터인 소셜미디어 빅데이터를 활용하여 프로야구 경기력 지표에 대
해서 프로야구 팬이 어떠한 인식을 갖고 있는지 파악하는 데 그 목적이 있다. 이러한 연구 목적을 달성하기 위해 “python”
프로그래밍 언어를 활용하여 2022년 시즌에 대한 해당하는 2022년 3월 1일부터 2023년 2월 28일까지 약 1년간 포털사이트
(Naver, daum, google)와 SNS 채널(트위터, 페이스북, 인스타)에서 나타난 국내 프로야구 경기력 지표에 대한 텍스트를 수
집하였다. 본 연구에서는 빅데이터 분석 방법 중 텍스트마이닝, 의미연결망 분석(semantic network analysis), CONCOR 분
석 등을 실시하여 수집된 텍스트 문서를 기반으로 빈도가 높은 주요키워드, 동시 출현 키워드간의 네트워크 관계성, 유사
한 키워드 간의 군집 등을 확인하였다. 이러한 결과를 통해 국내 프로야구 경기력 지표에 대한 여론 및 인식을 파악하였으
며, 이를 통해 인사이트 및 제언을 제시하였다.

주요어: 프로야구, 경기기록, 경기력 지표, 세이버매트릭스, 빅데이터

Abstract
The purpose of this study was to find out what kind of perception people have about the performance indicators of
professional baseball by using the social text analysis method. In order to achieve this research purpose, the
programming language “python” was used to collect texts on the performance indicators of domestic professional
baseball that appeared on portal sites (Naver, daum, google) and SNS channels (Twitter, Facebook, Instagram). The
period was calculated as about one year from March 1, 2022 to February 28, 2023. Text mining, semantic network
analysis and concor analysis were adopted to find the main keywords with high frequency, network relationships
between co-occurring keywords and clusters between similar keywords etc. Based on these results, we found the
public opinion and perceptions on the Korean professional baseball performance index, and had a chance to suggest
insights and practical implications.

Key words: Korean professional baseball, Game stats, Saber matrix, Big data, Perception

* 이 논문은 2022년 대한민국 교육부와 한국연구재단의 지원을 받아 수행된 연구임 (NRF-2022S1A5B5A16055373)


** hjw5893@khu.ac.kr
Copyrightⓒ2023 KAHPERD
378 한국체육학회지 제62권 제5호

서론 영입을 시도하고 있다(Sawchik, 2015). 이에 MLB 구단


은 경기운영, 선수교체, 선수 훈련 등의 다양한 영역
에서 데이터 분석을 활용하고 있다(신호종, 2017). 국
국내 프로야구는 6개 구단으로 시작해 2013년 NC
내에서도 삼성 구단은 전력 분석팀장을 역임한 허삼
다이노스, 2015년 kt 위즈의 1군 리그 진입으로 10개
영 감독을 선임하였고, 롯데 구단은 MLB 경험을 한
의 프로야구 구단이 참여하는 프로리그로 확장되었다.
젊은 성민규 단장을 선임하였다. 이는 국내 프로야구
구단의 증가와 경기 수의 증가로 인하여 2016년에는
구단도 데이터 활용의 중요성을 인식하여 데이터 분
역대 최대인 약 830만 명의 관중 수를 기록하였으며,
석 전문가나 데이터 활용을 적극적으로 실천하는 인
2017년, 2018년에도 800만 명의 관중을 돌파하며 국
물을 지도자로 고용하고 있음을 알 수 있다(김도환,
내 프로스포츠 종목 중에서 최고의 프로스포츠로서
2020,04,20).
위상을 나타내고 있다.
프로야구에서 데이터의 중요성이 강조되면서 실제
야구라는 종목은 특성상 많은 데이터가 생산되고
로 구단 및 방송에서는 선수들의 기록에 대한 다양한
소비되고 있어, 해외뿐만 아니라 국내 프로야구에서도
경기력 지표를 다루고 있다. 경기력 지표는 선수의
데이터를 분석하기 위한 기술을 도입하고 있으며 이
가치를 확인할 수 있는 자료로서 타율, 안타 수, 평균
를 통해 구단들은 데이터를 기반으로 한 효율적인 운
자책점 등과 같은 프로야구 경기 기록을 계량화하는
영 및 경기력 향상까지도 실현하고 있다. 전 야구 감
것이다. 프로야구에서 나타나는 경기력 지표는 다양하
독인 선동열은 “야구를 통계적으로 나타내는 세이버
게 제시되고 있으며 점차 세분되어 가고 있다. 예를
매트릭스가 야구의 전부는 아니지만 분명히 배워야
들면, 출루율과 장타율을 합한 OPS, 장타율에서 타율
할 부분이다”라고 말하면서 야구에서 데이터 활용의
을 뺀 ISO, 수비력을 제외한 순수한 투수의 평균자책
중요성을 제시하고 있다(최민규, 2022,02,04). 실제로
점을 나타내는 FIP, 대체승리 기여도인 WAR 등과 같
프로야구 경기에서 나타나는 모든 데이터가 수치화되
은 경기력 지표들이 생겨나고 있다. 이렇듯 프로야구
고 가공되면서 산출된 경기력과 관련된 지표는 프로
에서 나타나는 통계적 경기력 지표는 데이터 기반의
야구 경기운영의 패러다임 변화를 가져왔고 경기전략
야구에서 자연스러운 현상이 되었으며, 프로야구의 전
전술의 다양성과 섬세함의 변화를 가져왔다(고동현,
략 전술 방향에 큰 기여를 하였다(Baumer &
박윤성, 배원호, 홍석만, 2019). 또한 프로야구에서 데
Zimbalist, 2014).
이터의 분석은 경기력의 향상뿐만 아니라 선수별 맞
이러한 프로야구 데이터의 통계적 가치를 평가하고
춤형 트레이닝 및 재활에도 활용하고 있으며, 국내
규명하는 일은 프로야구 산업뿐만 아니라 학계에서도
프로야구 구단인 한화와 LG는 스포츠 빅데이터 플랫
매우 활발히 이루어지고 있다. 국내 프로야구에서 경
폼 스타트 업 기업인 에스에스티컴퍼니(SSTC)와 협약
기력 지표와 관련한 선행연구를 살펴보면, 프로야구선
을 맺고 데이터를 활용하여 선수들의 동작을 분석하
수들의 경기력 지표와 연봉과의 상관관계 분석 연구
고 있다(권오은, 2022, 01,17). 이와 같이 야구에서 데
가 주를 이루고 있다(김응식, 2001; 박성배, 권태근,
이터 분석은 경기력 향상과 필수 불가결한 관계에 있
전종환, 2018; 박승현, 2008; 양도업, 2016). 즉 선수들
으며 그 중요성이 나날이 강조되고 있다(Sawchik,
의 다양한 경기력 지표를 바탕으로 선수들의 가치를
2015).
평가하고 이를 연봉과의 회귀분석을 통해서 어떠한
MLB(Major League Baseball: MLB)의 오클랜드 애
경기력 지표가 연봉에 가장 높은 영향을 미치는지를
슬레틱스 구단이 적은 예산으로 구단을 효율적으로
밝히는 연구이다. 프로야구에서 나타나는 선수들의 경
운영하여 좋은 성적을 기록한 것은 데이터 분석에 기
기력 지표를 바탕으로 투수와 타자의 지표를 제안하
반한 것이다(Lewis, 2004). 타 구단들도 데이터를 분석
는 연구도 다수 진행되었다(이장택, 2014; 이제영, 김
하기 위해 데이터시스템 도입 및 데이터 분석 전문가
현규, 2016; 조용주, 이광호, 2015; 홍종선, 김재영, 신
국내 프로야구 경기력 지표 인식 조사 379

동식, 2016). 효과성을 위해서는 프로야구 팬들의 VOC를 바탕으로


이처럼 선행연구에서 활용한 자료는 대표적인 야구 한 수요자 중심의 연구가 필요하다. 이를 통해 프로
통계량인 안타, 타수, 볼넷, 도루, 경기 수, 사구, 홈 야구 경기력 지표에 대한 실질적인 수요분석 및 트렌
런, 출루율, 희생번트, 희생플라이, 삼진, 고의사구 등 드를 파악해 새로운 경기력 지표에 적용해 볼 수 있
이 있으며 기본적인 통계량 수치를 바탕으로 새롭게 다. 오승욱, 한진욱, 김민수(2020)는 참여 스포츠에 대
조합한 OPS(출루율 + 장타율), 순장타율, BABIP 등과 한 정부의 정책이 국민의 수요를 정확히 반영했는지
같은 세이버매트릭스 지표들이다. 하지만 선행연구에 를 확인하기 위해서 소셜 빅데이터 분석을 활용하였
서 활용한 선수의 경기력 지표는 각 선수를 통합적이 으며, 이를 통해 정책에 대한 수요자 측면의 실질적
며 세밀하게 평가하기에는 그 한계가 명확하다. 가령 인 수요분석을 강조하였다. 따라서 본 연구는 실질적
단순하게 안타의 수가 높은 선수가 경기력이 높은 타 인 새로운 경기력 지표를 도출하기 위한 선행연구로
자라고 볼 수 있지만 실제로는 타석 수나 안타의 질 써 프로야구 경기력 지표에 대해 전문가와 같은 공급
도 분명히 살펴봐야 하기 때문이다. 프로야구선수의 자적 측면이 아닌 프로야구를 즐기는 수요자 측면에
보편적인 경기력 지표인 타율도 선수들이 상대한 팀 서 인식 분석을 실행하고자 한다. 이는 프로야구 경
의 수비능력, 투수력 등에 따라 다르게 나타나기 때 기력 지표에 대한 프로야구에 참여하는 팬들의 실질
문에 타율이 선수의 능력을 평가하는 통합적인 지표 적인 수요를 파악하여 향후 새로운 경기력 지표 도출
로서는 그 한계가 있다(조용주, 이광호, 2015). 에 대한 기초자료로 활용될 것으로 기대된다.
현재 국내 프로야구에서 많은 팬은 같은 성적을 기 현대사회의 사람들은 소셜 네트워크 서비스를 통해
록한 선수의 가치가 같다고 생각하지 않는다. 배중현 서 자기 생각을 표출하고 타인의 생각을 공유하며 커
(20019,12,06)은 박용택이 경기를 뛰지 않고 타율을 관 뮤니케이션하고 있다(송길영, 2011). 소셜 네트워크 서
리하여 타격왕에 오른 부분을 비판하는 팬을 지지하 비스에서는 자신의 의견을 솔직하고 자유롭게 노출하
며 프로선수로서의 정정당당한 모습을 보였어야 한다 는 경향이 강하게 나타나기 때문에 대중의 여론을 파
고 지적하였다. 또한 “선수가 타율을 조정한다”라는 악하기 위해서는 소셜 빅데이터 분석이 효과적인 방
말에서 알 수 있듯이 타자에 있어 타율이라는 경기지 법으로 제시되고 있다. 소셜 빅데이터 분석은 온라인
표는 다양한 경기 환경에 따라 출전을 조절함으로써 상에서 나타나는 방대한 양의 의견을 수집할 수 있기
타율을 높게 유지할 수 있다. 가령 경기의 승패가 거 때문에 사회적 현안 및 현상, 이슈에 대한 분석이 가
의 결정되면, 상대 팀에서는 팀 패배를 담당하는 실 능하다. 따라서 본 연구는 프로야구의 새로운 경기력
력이 저조한 투수를 등판시키게 되고 이는 타자들이 지표 도출을 위한 선행연구로써 다양한 빅데이터의
안타를 기록할 확률이 높아져 타율을 높일 수 있기 형태 중에서 비정형 데이터인 소셜미디어 빅데이터를
때문이다. 구단도 경기력 지표에 대한 상관관계에 매 활용하여 프로야구 경기력 지표에 대해 프로야구 팬
몰되어 잘못된 판단을 하는 경우가 있다(Law, 2020). 은 어떠한 인식을 갖고 있는지 파악하는 데 그 목적
이러한 결과는 국내 프로야구선수들의 경기력 지표가 이 있다. 이를 통해 향후에 새로운 프로야구 경기력
선수의 가치를 직접적으로 판단하기에 제한점이 있기 지표의 도출, 수정 및 보완하는데 기초자료로 활용할
때문으로 판단된다. 따라서 프로야구선수들의 통합적 수 있다는 점에서 그 의의가 있다.
이고 종합적인 가치를 산정하기 위한 새로운 경기력
지표 연구가 필요해 보인다.
이처럼 새로운 프로야구 경기력 지표에 대한 필요
성은 인지하고 있지만, 그에 대한 세부적인 노력은
미비한 실정이다. 프로야구는 팬과의 관계 및 유지가
매우 중요한 요인으로 새로운 경기력 지표 개발 및
380 한국체육학회지 제62권 제5호

연구방법 2. 분석절차 및 방법

본 연구는 빅데이터를 활용하여 프로야구 경기력


1. 자료수집
지표에 대해서 프로야구 팬은 어떠한 인식을 갖고 있
는지 파악하는 데 그 목적이 있다. 이러한 목적을 달
프로야구 경기력 지표에 대한 프로야구 팬들의 의
성하기 위해서 다음의 <그림 1>과 같은 절차에 따라
견 및 인식을 분석하기 위해 프로야구의 기록과 관련
서 연구를 수행하였다.
된 키워드를 선정하고 그에 대한 자료를 수집하였다.
첫째, 온라인에서 프로야구 경기력 지표에 대한 자
수집에 대한 구체적인 내용은 <표 1>과 같으며 프로
료를 수집하고자 프로그래밍 언어인 “python”을 활용
그래밍 언어인 “python”을 활용하여 수집하였다.
하였다. 포털사이트보다는 SNS에서 사용자들의 실질
수집 채널은 포털사이트와 SNS를 구분하여 진행하
적인 의견이나 선호도가 구체적이고 사실적으로 나타
였으며, 수집 기간은 2022년 3월 1일 - 2023년 2월 28
나기 때문에 채널은 포털사이트와 SNS로 구분하여 자
일까지로 프로야구의 시즌 시작부터 다음 시즌 전까
료를 수집하였다. 둘째, 키워드를 통해 수집된 데이터
지 1년으로 선정하였다. 수집키워드는 비용 혹은 기
는 다양한 광고성 데이터 및 다수의 불용어가 포함되
술적 측면에서 수집키워드의 양에 대한 한계가 존재
어 있기에 타당성 있는 분석을 위해 불용어 처리 및
한다. 이에 현재 프로야구에서 나타나는 경기력 지표
광고성 글을 제거하는 자료 정제작업을 수행하였다.
중, 타자에 대해서는 타격 3대 지표라고 할 수 있는
또한, 조사나 특수문자, 숫자 등과 같은 프로야구 경기
타율, 홈런, 타점을 키워드로 선정하였고, 투수에 대
력 지표와 관련 없는 단어들을 제거하였으며, Bi-gram,
해서는 삼진, 방어율을 키워드로 선정하여 해당 지표
tri-gram 등의 빅데이터 처리기술을 사용하여 키워드
에 대한 인식을 분석하고자 하였다. 선정된 키워드와
들을 통계적으로 처리하는 절차를 수행하였다. 셋째,
관련된 데이터 수집량은 포털사이트, SNS에서 각각
수집된 프로야구 경기력 지표에 대한 팬의 담론 및 인
11.26MB, 626KB를 기록했다.
식을 분석하기 위해 소셜네트워크 분석(social network
analysis)기법을 활용하였다. 본 연구에서는 텍스트마
표 1. 자료 수집 정보
이닝, 시맨틱 네트워크 의미연결망 분석, 콘커 분석
구분 내용 등의 분석기법을 활용하였다.
포털사이트(Naver, Daum, 구글)
수집채널 텍스트마이닝 기법은 수집된 비정형 데이터인 텍스
SNS(트위터, 페이스북, 인스타)
트를 형태소 분석기술에 기반하여 분석함으로써 유용
수집기간 2022년 3월 1일 - 2023년 2월 28일
한 키워드를 추출하는 기법이다. 이를 통해 수집키워드
검색어 프로야구 + 타율, 홈런, 타점, 삼진, 방어율
에 대한 빈도수를 파악하고 전체 맥락(context) 수준에
서 의미 및 인식을 찾아낼 수 있다(Hotho, Nürnberger,
& Paab, 2005). 텍스트 마이닝은 인터넷에서 표현되고
있는 다양하고 수많은 텍스트에서 정보를 추출하고
여론의 관심사를 파악함으로써 전략적 의사결정에 활
용할 수 있다(이수현, 이유재, 2013). 시맨틱 네트워크
의미연결망 분석은 인터넷에서 나타나는 이슈와 관련
된 키워드 간의 체계적 구조를 분석하여 키워드들이
어떻게 배치되어 있는지를 파악하고자 하는 구조적
그림 1. 연구절차 기법이다(차민경, 2015). 또한, 시맨틱 네트워크 의미
연결망 분석은 개체 간의 관계성을 파악하는 것으로
국내 프로야구 경기력 지표 인식 조사 381

구조(structure)를 살펴본다는 것이 중요한 관점이다. 계에서 첫 번째 분류로 인물, 단체, 장소, 상품을 제
콘커 분석기법은 도출된 수많은 키워드 중에서 관계 시하였는데, 본 연구에서도 한진욱 등(2015)의 연구에
성이 높은 유사한 키워드 간의 군집을 분석할 수 있 서 제시한 분류에 속하는 유사한 키워드들이 주로 나
는 보편적인 분석기법이다. 즉 추출된 키워드들에 대 타났다. 경기력 지표와 관련한 키워드들을 살펴보면,
한 매트릭스를 파악하고 피어슨 상관분석 방법론을 홈런, 안타, 타율, WAR, OPS 등이 높게 나타나고 있
활용하여 키워드간의 연결성 및 블록 관계를 분석할 다. 이는 전통적인 홈런, 안타 등의 기록뿐만 아니라
수 있다(김해원, 전채남, 2014). MLB에서 시작된 세이버매트릭스의 보편화로 인해 이
따라서 본 연구에서는 국내 프로야구 경기력 지표 와 관련한 다수의 경기력 지표가 반영된 결과를 나타
와 관련된 인터넷상의 텍스트에 대해서 키워드 간의 내고 있다. 특히, 세이버메트릭스 통계량 중에서 대체
연계성을 파악하고 추출한 텍스트의 빈도수를 분석함 선수대비승수인 WAR(wins above replacement)은 실
으로써 프로야구 경기력 지표에 대한 중요 키워드 및 제로 야구 경기 방송에서 자주 노출되어 팬에게 가장
핵심 개념을 파악하고자 주요키워드 분석을 실행하였
다. 또한, 소셜 네트워크상에 내재하여 있는 국내 프 표 2. 프로야구 경기력 지표 포털사이트 키워드(상위 50개)
로야구 경기력 지표에 대한 키워드 간의 관계성을 살
키워드 빈도수 키워드 빈도수
펴보고, 관련된 키워드들이 어떠한 군집을 형성하고
프로야구 10544 역대 897
있는지를 파악하였다. 이를 위해 Ucinet6 프로그램을
KBO 3485 타율 866
이용하여 실시하였으며, 시각화를 위해 Ucinet6 프로
홈런 3053 감독 852
그램의 넷드로(NetDraw) 기능을 활용하여 키워드 간
MLB 2442 KT 839
의 네트워크를 시각화 하였다. SSG 2006 우승 765
키움 1997 오늘 722
안타 1714 김하성 716
결과 및 논의 선수 1662 미국 712
LG 1541 MVP 688
1. 국내 프로야구 경기력 지표 분석 결과 롯데 1430 투수 675
한국프로야구 1400 NC 666

1) 주요 키워드 분석 NPB 1363 미국프로야구 661

국내 프로야구 경기력 지표에 대한 데이터를 수집 분석 1334 연속 643

하고 주요키워드 분석을 실시하였다. 분석결과는 <표 일본프로야구 1334 이승엽 624

2>, <표 3>에서 나타난 바와 같이 상위 50개 키워드 기록 1314 리그 579


경기 1303 랜더스 558
에 대한 버즈량을 살펴보면, 포털사이트(63,270)가
순위 1186 팀 550
SNS(6,332)에 비해서 약 10배 가까운 수치로 높게 나
이정후 1129 한국시리즈 543
타났다. 이러한 결과는 포털사이트에서 스포츠 뉴스에
KIA 1050 연봉 539
프로야구 경기력 지표가 많이 거론되었기 때문으로
FA 1047 메이저리그 533
판단된다. 포털사이트와 SNS 채널에서 상위 50개 키
시즌 1040 한화 530
워드에 대한 공통적인 키워드에서 나타나는 결과는
두산 1025 장외홈런 524
프로야구, 홈런, MLB, 구단명, 기록, 순위, 선수, 경기
이대호 944 히어로즈 473
등의 키워드가 나타나고 있다. 한진욱, 안정찬, 오승
삼성 921 가이드 473
욱, 신동일(2015)이 프로야구 소셜 밈에 대한 분류체
타자 912 한국 466
382 한국체육학회지 제62권 제5호

표 3. 프로야구 경기력 지표 SNS 키워드(상위 50개) 익숙한 경기력 지표 중의 하나가 되었다(Chang &
키워드 빈도수 키워드 빈도수 Zenilman, 2013). WAR은 선수의 승리기여도를 나타내
프로야구 813 한국프로야구 72 어 선수 간 직접적인 비교가 가능한 지표이기 때문에
홈런 479 JTBC방송 72 그 효용성이 높다고 할 수 있다. SNS에서 나타나는
안타 415 통산 69 키워드는 포털사이트에서 나타나는 키워드에 비해 선
KBO 339 삼성 69 수의 경기력 지표와 기록을 나타내는 순위, 역대, 랭
야구 317 MLB 66 크 등의 키워드가 높은 빈도수를 나타내고 있다. 이
선수 235 한국 65 는 SNS 채널에서 선수에 대한 현재 기록뿐만 아니라,
기록 224 영상 59 통산 기록 및 역대 기록 순위 등과 같은 이슈를 많이
타격 195 감독 58 다루고 있기 때문으로 판단된다. 홍종선, 김재영, 신
시즌 171 대표팀 57 동식(2016)은 한국프로야구 타자력 지수 제안 연구에
순위 160 부문 54
서 연봉은 현재의 타자 실력보다 지금까지 기록한 누
역대 151 이대호 53
적된 선수기록 및 경력이 더 많이 반영된다고 제시하
타율 142 키움 52
였다. 팬은 선수들의 연봉에 관심이 높기 때문에 그
투수 131 두산 52
와 연계된 선수의 누적된 역대 기록, 랭킹, 순위 등의
WAR 206 연속 51
키워드가 SNS상에서 주로 언급된 것으로 파악된다.
타자 122 팀 50
롯데 113 kbo 47
이와 같이 주요키워드 분석에서는 프로야구 경기력
롯데자이언츠 103 라인업 47 지표에 대해서 어느 구단의 선수가 얼마만큼의 기록
경기 92 응원가 47 을 나타내고 있는지에 대한 내용이 다수 나타나고 있
이정후 92 레전드 46 음을 알 수 있다.
TOP 88 NC 45
한국야구 85 사회인야구 44 2) 의미연결망 분석(semantic network analysis)
WBC 84 하이라이트 44 프로야구 경기력 지표에 대한 키워드가 어떠한 구
OPS 79 구단 42 조적 형태로 나타나고 있는지를 확인하기 위해 시맨
LG 77 FA 42 틱 네트워크 분석(sementic network analysis)을 진행
랭킹 74 최고의 42 하였다. 국내 프로야구 경기력 지표 관련 키워드에

그림 2. semantic networ analysis (좌: 포털, 우: SNS)


국내 프로야구 경기력 지표 인식 조사 383

대한 시맨틱 네트워크 분석결과는 <그림 2>와 같다. 활약하는 국내 선수 및 해외 스타 선수에 대해서도


<그림 2>에서 보는 바와 같이 포털과 SNS에서 비슷한 관심이 많다는 것을 알 수 있다. MLB는 프로야구에서
키워드들이 강한 연결성을 나타내고 있다. 첫째, 중심 데이터의 중요성을 인식하여 기존의 경기력 지표를
키워드와 연결성이 높은 키워드를 살펴보면, 이승엽, 넘어서 세부적인 지표에 관심을 기울이고 있다. MLB
박병호, 이대호, 이정후 등의 선수명과 강한 연결성을 에서는 기존의 보편적인 홈런, 안타, 타점 등과 같은
보이고 있다. 한진욱 등(2015)은 한국프로야구 SNS 밈 경기력 지표를 넘어 WAR, BABIP, FIP, OPS, WHIP 등
분석 연구에서 SNS 밈의 분류체계를 인물, 단체, 장 과 같은 세부지표를 제시하고 있으며, 이로 인해 팬
소, 상품 등의 네 개로 분류하였으며, 인물에 대해서 들은 언론과 방송을 통해서 생소한 경기력 지표를 자
는 선수가 가장 많은 버즈량을 보였다. 또한, 선수와 연스럽게 인지하고 활용할 수 있게 되면서 데이터 기
관련해서 기록이라는 속성이 가장 높은 빈도수를 나 반의 프로야구를 즐길 수 있게 되었다(Baumer &
타내고 있어 본 연구결과와 부합함을 알 수 있다. 즉 Zimbalist, 2014). 따라서 국내 팬은 해외리그에서 쏟
프로야구 경기력 지표에 대해서는 어느 선수의 기록 아지는 선수들의 경기력 지표에 관심을 갖게 되고 국
인지가 가장 호기심이 높음을 알 수 있다. 프로야구 내와 해외리그의 경기력을 비교할 수 있다. 이는 세
관련 빅데이터 연구의 논문에서도 선수와 경기력 및 부적인 프로야구 경기력 지표가 새로운 프로야구 관
기록 등의 관계가 높게 나타나고 있음을 제시하고 있 람 요인 중 하나로 자리 잡아가고 있음을 보여준다.
다(박성건, 원규식, 이수원, 2015; 백승헌, 김기탁, 2019).
다음으로 높은 연결성을 나타내고 있는 키워드를 3) 콘커(CONCOR) 분석
살펴보면, 기록, 홈런, 타점, 안타, 최초, 역대, 통산, 국내 프로야구 경기력 지표와 관련된 키워드 간의
연봉, MVP 등의 키워드들이 높은 관련성을 보이고 유사점을 파악하여 키워드들이 형성하는 군집을 파악
있다. 이는 경기력 지표가 선수들의 연봉에 어떻게 하기 위해 콘커(concor) 분석을 실시하였다. 국내 프
반영되고 있는지, 국내 프로야구에서 경기력 지표에 로야구 경기력 지표에 대한 콘커 분석결과는 <그림
대해 역대로 기록된 통산 순위가 어떻게 되는지, 특 3>과 같다.
정 경기력 지표에 대해 누가, 언제 처음으로 기록하 포털사이트에서 추출된 텍스트 데이터에 대한 결과
였는지 등에 대한 궁금증이 인터넷상에서 많이 노출 는 <그림 3>에서 보는 바와 같이 (1) 선수기록 (2) 선
되기 때문으로 유추된다. 정권혁, 전익기(2020)는 프로 수 수상 (3) 선수 계약 (4) 프로 구단 등의 네 개의
야구 인식변화에 관한 연구에서 팬은 선수의 연봉에 그룹으로 분류된다. 첫째, 선수기록에서는 안타, 타점,
관심이 높았으며, 선수에 관심 및 기록, 시즌 MVP 및 홈런, 타율에 대한 키워드들에 대한 연결성이 높게
신인왕과 같은 수상에 관심이 높음을 실증하였다. 프 나타나 팬은 전통적인 프로야구 경기력 지표에 대한
로야구 팬은 선수의 기록 및 성적을 통해서 선수에 관심이 많음을 알 수 있다. 또한, 이정후, 나이 등의
대한 관심을 나타내고 있음을 알 수 있다. 따라서 프 키워드들과의 연결성이 높게 나타나고 있어 2022년
로야구 구단은 선수의 경기력 지표에 대한 정보를 팬 이정후의 5관왕 달성에 관심이 높게 나타났다. 실제
과 소통할 수 있는 컨텐츠를 활용하여 팬과의 관계를 로 이정후는 2022년에 .349 타율, 23홈런 113타점 장
우호적으로 유지하고 더 나아가 마케팅 자료로 활용 타율 0.575 출루율 0.421 다섯 개 경기력 지표에서 각
할 필요성이 있다. 각 1위를 차지하며 정규시즌 MVP를 수상하였다. 한
마지막으로 메이저리그, 일본프로야구, 일본 야구 편, 이대호, 은퇴, 전설 등의 키워드들이 나타나고 있
구단, 메이저리그 구단, 오타니, 김하성 등의 키워드 어 2022년 은퇴를 선언한 이대호의 통산 경기력 지표
가 높은 연결성을 보이고 있다. 이러한 이유는 국내 에 관심도 높았다. 이처럼 팬은 프로야구에서 생성되
프로야구 팬은 국내 프로야구 경기뿐만 아니라 메이 는 경기력 지표에 관심이 높으며, 그해 이슈가 있는
저리그와 같은 해외리그에도 관심이 높으며, 해외에서 특정 선수에 관심 또한 높음을 알 수 있다. 둘째, 선
384 한국체육학회지 제62권 제5호

수 수상에서는 연봉, MVP, 후보, 경쟁, 선정 등의 키 으며 더 나아가 경기력 지표가 연봉과 수상에 어떠한
워드들의 연결성이 높게 나타나고 있어 한 시즌을 치 영향을 미치는 정도까지 관심이 있음을 알 수 있다.
른 선수의 경기력 지표를 바탕으로 MVP와 같은 상을 따라서 국내 프로야구 구단에서는 선수와 구단의 기
누가 차지할 것인지, 후보자는 누구인지 에 대한 관 록을 단순히 집계하고 이를 홈페이지에 공시하는 정
심이 높게 나타났다. 셋째, 선수 계약에서는 구단명, 도에서 벗어나 데이터에 관심이 높아진 팬의 기준에
선수명, 기록, FA, 계약, 재계약 등의 키워드들이 높 부합하는 프로야구 경기력 지표의 정보성을 세분화시
은 연결성을 나타내고 있어 구단과 선수 간의 계약이 키고 팬은 누구나 그 정보에 접근할 수 있도록 노력
어떻게 되고 있는지에 대한 관심이 높음을 알 수 있 을 기울여야 할 것으로 판단된다.
다. 넷째, 프로 구단에서는 한국프로야구, 타이거즈, SNS에서 추출된 텍스트 데이터에 대한 결과는 <그
라이온즈, 두산, 한화 이글스, KT 등의 키워드가 높게 림 3>에서 보는 바와 같이 (1) 선수 기록 순위 (2) 프
나타나고 있어 프로스포츠에서 구단은 팬들과 밀접하 로야구 경기력 지표 (3) 기록 분석 등의 세 개의 그룹
게 관계를 맺고 있음을 알 수 있다. 프로야구 구단의 으로 분류된다. 이와 같은 결과는 팬은 포털사이트에
브랜드에 대한 자아 이미지 일치성은 팬의 욕구 및 비해서 SNS에서 프로야구 경기력 지표에 대해 더 많
감정을 긍정적으로 발생시키기 때문에 구단은 팬에게 은 이야기 거리를 만들고 있음을 방증한다. 첫째, 선
즐거움과 같은 긍정적인 감정을 갖도록 서비스를 제 수기록 순위에서는 투수, TOP 타자, 부문, 그래프, 시
공하고 충성도를 높이기 위한 전략을 실행하고 있다 즌, 예상 등에 대한 키워드들에 대한 연결성이 높게
(Malhotra, 1988). 이러한 이유로 구단에 충성도가 높 나타나 팬은 프로야구선수의 경기력 지표를 실시간으
은 팬은 선수와 마찬가지로 구단에 대해서도 높은 관 로 확인하고 해당 경기력 순위에 관심이 높은 것을
심을 표현하고 있는 것으로 판단된다. 알 수 있다. 둘째, 프로야구 경기력 지표에서는 홈런,
콘커 분석의 결과로 나타난 선수기록, 선수 수상, 안타, WAR, 기록, 역대, 최초 등에 대한 키워드들에
선수 계약, 프로 구단 등의 네 개의 군집들은 유사한 대한 연결성이 높게 나타나 팬은 경기력 지표에 대한
맥락에서 접근해 볼 수 있다. 국내 프로야구 팬은 선 선수의 기록 달성 여부에 관심이 많으며 그에 대해
수 및 구단의 기록과 성적에 관심이 매우 높다는 것 지속적으로 확인하고 있음을 알 수 있다. 이는 포털
을 알 수 있다. 과거의 팬은 프로야구 경기력 지표에 사이트의 첫 번째 그룹과 유사한 측면으로 풀이된다.
대해서 단순하게 명시되는 측면을 바라봤다면 지금은 셋째, 기록 분석에서는 야구 분석, 분석, 개막, 영상
프로야구 경기력 지표를 더 세분화해서 바라보고 있 등에 대한 키워드들이 높은 연결성을 보이며, 이러한

그림 3. concor analysis (좌: 포털, 우: SNS)


국내 프로야구 경기력 지표 인식 조사 385

결과에서 팬은 프로야구 데이터 분석에 관심이 매우 워크 분석결과에서는 선수명과 기록의 연결 관계가


높으며 이를 통해 프로야구의 재미를 더 느끼는 것으 강하게 나타나고 있다. 이는 경기력 지표가 시대 및
로 판단된다. 현재 프로야구 현장에서는 모든 선수의 장소를 반영하여 직접적인 비교가 가능해야 할 것으
기록을 수치화하고 이를 가공하여 세부적이고 구체적 로 판단된다. 셋째, 콘커 분석결과에서는 선수기록,
인 경기력 지표를 측정함으로써 선수를 평가하고 경 선수 수상, 선수 계약, 프로 구단 등과 선수기록 순위,
기 관련 전략을 수립하는 데 활용하면서 데이터에 기 프로야구 경기력 지표, 기록 분석 등으로 포털과 SNS
반한 야구가 활성화되고 있다(고동현, 박윤성, 배원호, 에서 각각 나타났다. 이는 팬들은 단순하게 프로야구
홍석만, 2019). 선수의 기록에만 관심을 나타낸 것이 아닌 수상, 계
약 등과 어떻게 연결되는지에 대해서 구체적이고 실
질적인 호기심이 나타난 것으로 판단된다. 이에 프로
결론 및 제언 야구선수의 수상 및 계약에 있어 새로운 경기력 지표
가 잘 반영될 수 있어야 할 것이다. 따라서 새로운
경기력 지표는 선수의 가치 평가를 넘어서 국내의 환
본 연구는 국내 프로야구 경기력 지표와 관련된 포
경에 적합하며, 선수 간의 직접적인 비교가 가능하고
털사이트, SNS와 같은 인터넷상의 비정형 텍스트 데
연봉 및 수상에 밀접한 연결고리가 있어야 할 것으로
이터 분석을 통하여 국내 프로야구에서 생성되는 경
판단된다.
기력 지표에 대한 팬의 VOC를 파악하고 향후 국내
본 연구에서 진행한 소셜 빅데이터 분석은 인터넷
프로야구에 적합한 새로운 프로야구 경기력 지표를
상에서 나타나는 프로야구 경기력 지표에 대해서 팬
도출하고 현재의 경기력 지표를 수정, 보완하기 위한
들의 여론을 실질적으로 파악하는 것이다. 이러한 연
방향을 제시하고자 하였다. 프로스포츠 중 가장 인기
구 진행에 따라 구체적이고 실질적인 결과 및 인사이
가 높은 국내 프로야구는 데이터를 활용한 세계적인
트를 도출하였지만, 연구 수행에 있어 몇 가지 제한
추세에 따라 통신 및 기술을 도입하고 있으며, 국내
점이 있었고 이에 따른 후속 연구 기회를 제시하고자
프로야구 구단은 효율적인 운영 및 전략, 전술 등에
한다.
빅데이터 분석을 활용하고 있다. 이에 본 연구는 해
본 연구에서는 뉴스, 블로그, 카페, 웹, 지식인 등
외에서 활용되고 있는 프로야구 경기력 지표를 국내
의 포털사이트와 개인적인 의견이 많이 나타나는 SNS
에 적합한 새로운 경기력 지표 개발의 필요성을 파악
채널 모두에 대해서 데이터를 수집하고 종합적인 의
하여 팬은 프로야구 경기력 지표에 대해서 어떻게 인
견을 파악하고자 하였으나 본 연구에서 수집한 팬의
식하고 반응하며 무엇을 필요로 하는지에 대한 정보
의견에는 현재의 프로야구 경기력 지표에 대한 문제
를 파악하였으며, 그에 따른 시사점 및 제언은 다음
점, 수정해야 할 필요성 등은 나타나고 있지 않았다.
과 같다.
이는 일반적인 팬은 프로야구 경기력 지표를 단순히
첫째, 주요키워드 분석결과 국내 프로야구 경기력
프로야구 관람의 한 요소로 인식할 뿐 전문가와 같이
지표와 관련된 키워드는 홈런, 안타, 타율, WAR, OPS
적극적으로 경기력 지표에 대해서 생각하고 고민하지
등이 나타난 것으로 보아 팬들은 어느 구단의 선수가
는 않는 것을 알 수 있다. 따라서 향후 연구에서는
얼마만큼의 기록을 나타내고 있는지에 대한 내용에
프로야구 경기력 지표에 전문적인 지식을 갖춘 팬을
관심을 나타내고 있으며, WAR, OPS와 같이 메이저리
대상으로 분석하기 위해 프로야구에 밀접한 집단을
그에서 나타나고 있는 세이버매트릭스에 대한 지표에
형성하고 있는 팬 페이지 및 커뮤니티 등을 대상으로
도 관심을 높음을 알 수 있다. 이는 해외에서 나타나
선정하고 진행한다면 경기력 지표에 대해 신뢰도 높
는 경기력 지표를 국내 사정에 맞는 경기력 지표로
은 의견을 수립할 수 있을 것으로 판단된다.
수정, 보완할 필요성이 요구된다. 둘째, 시맨틱 네트
386 한국체육학회지 제62권 제5호

참고문헌 름 알 수 있다. 신문과 방송, 미디어 포럼.


신호종(2017). 테오 엡스타인에게 배우는 33역량.
파주: 넥서스 BIZ.
고동현, 박윤성, 배원호, 홍석만(2019). 수학을 품은
양도업(2016). 프로야구 연봉과 경기력 분석을 위
야구공, 서울: 영진닷컴.
한 세이버메트릭스 활용방안. 미간행 박사
권오은(2022,01,17). ‘빅데이터’ SSTC, LG트윈스 선수
학위논문, 고려대학교 대학원.
별 3D 정보로 맞춤 훈련. https://biz.chosun.
오승욱, 한진욱, 김민수(2020). 소셜 빅데이터를 활
com/industry/company/2022/01/17/ZHHEI7
용한 참여스포츠 담론 분석. 한국스포츠산
LIOFAKND5USZ3D75AAOY/?utm_source=
업경영학회지, 25(2), 18-30.
naver&utm_medium=original&utm_campaign
이수현, 이유재(2013). 나를 위한 선물: 셀프기프트
=biz
(Self-Gift) 소비행동에 대한 정성적 연구,
김도환(2020,04,20). ‘데이터+소통’ 장정석 KBS N
소비자학연구, 24(3), 123-155.
해설위원 새 바람 예고. KBS, http://news.
이장택(2014). 한국프로야구에서 타자능력의 측정.
kbs.co.kr/news/view.do?ncd=4428523&ref=A
한국데이터정보과학회지, 25(2), 349-356.
김응식(2001). 한국 프로야구선수의 경기력과 연봉
이제영, 김현규(2016). 한국프로야구에서 타자능력
과의 관계. 한국스포츠사회학회지, 14(1),
지수 제안-대체선수대비승수(WAR)을 중심
15-24.
으로. 응용통계연구, 29(7), 1271-1281.
김해원, 전채남(2014). 빅데이터를 활용한 콘텐츠
정권혁, 전익기(2020). 텍스트 마이닝 기법을 활용
제작방안에 관한 탐색적 연구: TV 홈쇼핑
한 태권도원에 관한 빅데이터 분석. 무예연
을 중심으로. 사이버커뮤니케이션학보,
구, 14(2), 313-333.
31(3), 5-51.
조용주, 이광호(2015). 한국프로야구 선수들의 타율
박성건, 원규식, 이수원(2015). 웹 뉴스 댓글 기반
에 기반된 타격 능력의 베이지안 추정. 한
2014 브라질 월드컵 한국 축구 국가대표팀
국데이터정보과학회지, 26(1), 197-207.
관련 인물에 대한 감성분석. 한국스포츠산
차민경(2015). 국내 언론에 나타난 ‘예술경영’ 관련
업경영학회지, 20(2), 13-28.
이슈의 의미연결망 분석. 문화정책논총,
박성배, 권태근, 전종환(2018). 한국프로야구 선수
29(2), 168-200.
들의 연봉 산정 모델 개발. 한국체육과학회
최민규(2022,02,04). 3000구 투구론에서 빅데이터로
지, 29(3), 520-533.
[2021 행복한 책꽂이]. https://www.sisain.co.
박승현(2008). 한국프로야구 타자의 고액연봉에 영
kr/news/articleView.html?idxno=46327
향을 미치는 경기력 요인. 한국체육과학회
한진욱, 안정찬, 오승욱, 신동일(2015). 소셜 빅데이
지, 17(2), 485-494.
터를 통한 한국 프로야구 SNS 밈(meme) 분
배중현(2009,12,06). 결장으로 만든 타격왕, 과연 떳
석. 한국스포츠산업경영학회지, 20(5), 1-16.
떳한가. https://star.ohmynews.com/NWS_
홍종선, 김재영, 신동식(2016). 한국프로야구에서
Web/OhmyStar/at_pg.aspx?CNTN_CD=
타자력 지수 제안. 한국데이터정보과학회
A0001276046.
지, 27(3), 677-687.
백승헌, 김기탁(2019). 소셜네트워크 빅데이터 분석
Baumer, B., & Zimbalist, A. (2014). The
과 IPA분석을 활용한 스크린 골프장 선택속
sabermetric revolution: Assessing the
성에 관한 연구. 골프연구, 13(2), 131-146.
growth of analytics in baseball.
송길영(2011). SNS 키워드를 분석하면 사회 변화 흐
Philadelphia: University of Pennsylvania
국내 프로야구 경기력 지표 인식 조사 387

Press. Norton & Company.


Chang, J., & Zenilman, J. (2013). A study of Lewis, M. (2004). Moneyball: The art of winning an
sabermetrics in major league baseball: The unfair game. New York: WW Norton &
impact of moneyball on free agent salaries. Company.
Saint Louis: Washington University Press. Malhotra, N. (1988). Self-concept and product
Hotho, A., Nürnberger, A., & Paaß, G. (2005). A choice: An integrated perspective. Journal
brief survey of text mining. Journal for of Economic Psychology, 9 (1), 1-28.
Language Technology and Computational Sawchik, T. (2015). Big data baseball : math,
Linguistics, 20 (1), 19-62. miracles, and the end of a 20-year losing
Law, K. (2020). The inside game. New York: WW streak. New York: Flatiron Books.

논문투고일: 2023. 07. 31


논문심사일: 2023. 08. 16
심사완료일: 2023. 09. 15

You might also like