결과, 한계, 향후 과제
시계열 데이터를 길게 쓸수록 (1년 -> 3년), 예측 성능이 전반적으로 향상됨
특히 GRU 모델은 학습 효율성과 예측 정확도의 균형 측면에서 가장 뛰어난 성과를 보였음
LSTM 모델 역시 장기 시계열 정보를 효과적으로 반영하며 높은 성능 기록
CatBoost는 범주형 데이터 처리에 강점을 가지며, 전통적인 머신러닝 모델 중에서는 준수한 성과를 보였음
적용된 예측 모델 중에서 GRU와 LSTM 계열의 딥러닝 모델이 전체적으로 우수한 성능을 보임
회귀 평가 지표(R², MSE, RMSE, MSLE, MAPE)를 기준으로 비교하였을 때, 딥러닝 기반 모델이 전통 머신러닝보다 전반적으로 우위
단일 시점의 재무정보보다 누적된 시계열 데이터가 예측 성능 향상에 유의미하게 기여함을 실증
특히 매출 성장률(Sales_GRW) 예측에서 과거 3개년의 재무 및 특성 데이터를 활용한 모델이 효과적
비정형 데이터(뉴스, SNS 등 비재무 정보)가 분석에 포함되지 않아 외부 요인 반영이 부족
거시경제 지표는 포함되었지만, 산업별 세부 특성이나 구조적 차이는 충분히 반영되지 못함
단일국가(한국) 상장기업만을 대상으로 했기 때문에 국외 적용에는 한계
실시간 데이터를 활용한 예측 모델로 확장 필요 (예: 뉴스, SNS, 특허 등 비정형 데이터 융합)
산업군별 맞춤형 모델 개발을 통해 예측 성능 개선 가능성 존재
다양한 인공지능 알고리즘의 조합으로 앙상블 모델 성능 강화 시도 필요
논문 정보
한국지능정보시스템학회 2023년 동계학술대회
저자: 김영문, 김수현, 김형태
키워드: 기업 성장률 예측, 시계열 데이터, GRU, LSTM, 머신러닝, 딥러닝, 회귀 분석, CatBoost
연구 배경 및 목적
기업의 성장률은 투자 결정, 신용 평가, 정책 수립 등 경제 활동 전반에 있어 핵심적인 지표로 활용됨
성장성이 높은 기업을 조기에 식별하면 투자 효율을 높이고, 정책 자금 배분의 타당성을 확보할 수 있음
기존 연구들은 대부분 단일 시점의 재무 데이터만을 활용하여 기업의 성장을 예측했기 때문에, 시간 흐름에 따른 구조적 변화와 누적 효과 반영 X
이 논문은 인공지능 기반 예측 모델을 활용하여, 기업의 과거부터 현재까지의 시계열 재무 및 특성 데이터를 학습시킴으로써 예측 정확도와 실용성을 높이는 방법 제안
특히 딥러닝 모델을 적용하여 고성장 기업(HGF)의 사전 식별 가능성을 실증적으로 탐색하고자 함
연구 가설
기업의 성장률은 다양한 재무 및 비재무적 요인이 복합적으로 작용
GRU와 LSTM이 높은 예측 성능을 보였으며, 전통 모델보다 효과적
시계열 기반 학습이 정적 데이터보다 우수한 예측 결과
||
v
재무/비재무 정보가 예측에 유의미하게 작용할 것이다
시계열 누적 데이터가 단일 시점보다 더 효과적일 것이다
딥러닝 기반 모델이 기존 머신러닝보다 더 성능이 좋을 것이다
연구 대상과 방법
연구대상
이 연구에서의 ‘기업’은 KOSPI/KOSDAQ에 상장된 국내 기업 전체를 의미
재무정보는 ㈜나이스신용평가사가 운영하는 밸류서치(Value Search) 시스템에서 수집
최초 수집 대상: 22,209개 상장기업
제외 조건
12월 결산이 아닌 기업: 310개 제외, 재무데이터 비교 가능성 확보 목적
주요 재무 정보 누락 기업: 1,268개 제외, 밸류서치에서 재무 데이터 누락
자본잠식 기업: 54개 제외, 재무구조의 특수성 제거, 형평성 제고
최종 분석 대상 기업 수: 20,577개 기업
해당 기업들의 재무제표, 기업 특성 정보, 거시경제 지표를 포함하여 성장률 예측에 활용함
연구 방법
데이터 분석 기간
연도 범위: 2012년 ~ 2022년 (10개년)
자료 구성
재무정보 및 기업 특성 변수: NICE Value Search에서 수집
거시경제 변수: 통계청 및 한국은행의 공공데이터
종속 변수: 매출액 성장률 (Sales_GRW)
독립 변수: ROA, TQ, SIZE, LEV 등 총 13개 변수
데이터 구조: 시계열 정보(1년, 2년, 3년) 누적 형태로 구성
분석 모델
머신러닝: GBM, CatBoost
딥러닝: RNN, LSTM, GRU
모델 성능을 비교하여 가장 예측 정확도가 높은 알고리즘 도출
평가 지표
R², MSE, RMSE, MSLE, MAPE
5-Fold Cross Validation을 적용하여 과적합 방지 및 일반화 성능 확보
분석 방법
기업의 성장률 예측 문제를 정형 데이터 기반 회귀 문제로 접근함
전통적 통계 기법이 아닌, 머신러닝 및 딥러닝 기반 예측 모형을 설계하여 실증 분석
학습 모델 구성
총 5개의 예측 알고리즘을 비교 적용함
전통적 머신러닝 모델
GBM (Gradient Boosting Machine)
CatBoost
딥러닝 기반 시계열 모델
RNN (Recurrent Neural Network)
LSTM (Long Short-Term Memory)
GRU (Gated Recurrent Unit)
데이터 구조
입력 변수: 기업의 재무지표, 기업 특성 지표, 거시경제 변수
데이터 형태: 시계열 입력 구조
ㄴ1년, 2년, 3년 단위의 과거 데이터를 누적하여 입력
ㄴ시계열 입력 순서에 따라 시간 흐름에 따른 변화 학습 가능
모델 평가 방식
평가 지표
R² (결정계수)
MSE (평균제곱오차)
RMSE (평균제곱근오차)
MSLE (로그기반 평균제곱오차)
MAPE (평균절대백분율오차)
검증 기법
5-Fold Cross Validation
데이터셋을 5등분하여 5회 반복 학습 및 평가
모델의 일반화 성능 확보, 과적합 방지를 위해 사용
변수 유형
Sales_GRW( 매출액 성장률 )
예측하고자 하는 기업 성장률의 대용변수
매출액 성장률을 의미
ROA( 총자산이익률 = 당기순이익 / 기초총자산 )
기업의 수익성을 나타내는 핵심 지표로, 자산을 효율적으로 활용하여 이익을 창출하는 정도를 보여줌
높은 ROA는 자산 활용 효율성이 우수하고, 미래 성장 가능성이 높음을 시사
TQ( Tobin의 Q = (기말 총부채 + 기말 시가총액) / 기말 총자산 )
기업 성장 가능성을 시장에서 어떻게 평가하는지 보여주는 지표
높은 TQ는 자산 대체 비용 대비 시장가치가 크다는 의미
투자자들이 해당 기업의 성장 가능성을 긍정적으로 평가함을 반영
SIZE( 기초총자산의 자연로그값 )
기업 규모 의미
일반적으로 규모가 큰 기업일수록 자원과 시장에서의 지위가 강하여 성장 가능성이 높음
SIZE가 클수록 안정적인 성장 경향을 보이고, 확장할 수 있는 자본 여력이 크다고 할 수 있음
LEV( 부채비율 = 기초 총부채 / 기초 총자산 )
기업의 재무적 레버리지 수준을 나타내며, 높은 부채비율은 재무적 위험을 증가시킬 수 있음을 시사
선행 연구에 따르면 지나치게 높은 부채비율은 성장에 부정적 영향을 미칠 수 있지만, 적정 수준은 기업 성장에 긍정적 영향을 미칠 수 있어 성장성 판단에 중요한 지표로 활용됨
CUR( 유동비율 = 기초 유동부채 / 기초 유동자산)
기업의 단기 지급 능력을 평가하는 비율로 재무 건전성을 나타냄
높은 유동비율은 단기 부채 상환 능력을 강화하여 재정적으로 안정적인 기업일수록 성장 가능성이 높음을 의미
선행 연구에 따르면 유동성이 높은 기업은 경제적 불확실성 속에서도 성장 기회를 포착할 수 있는 여력이 큼
PPE( (감가상각대상) 유형자산 비중)
고정자산에 대한 투자 수준을 나타내는 지표로, 자산 집약적 산업에서 중요한 역할
높은 유형자산 비중은 성장 가능성을 높이기 위한 설비 투자가 활발함을 나타냄
- 감가상각: 기업이 보유한 건물, 기계, 차량 같은 자산의 가치를 사용하면서 조금씩 줄어드는 것을 회계적으로 계산하는 방법
LOSS( 전기에 재무제표에서 손실을 보고했는지 여부)
이전 회계연도에 손실이 보고된 경우에는 1, 그렇지 않은 경우에는 0으로 표현되는 불연속변수
- 더미변수: 범주형 데이터를 0 또는 1의 형태로 나타내는 변수
(예: 손실 있음 → 1, 손실 없음 → 0) - 불연속 변수: 연속적인 숫자가 아니라, 끊긴 값만 가지는 변수
(예: 0, 1처럼 중간값이 없는 변수)
AGE( 기업연령의 자연로그 값 )
기업의 연령 의미, 기업의 안정성과 경험을 반영하는 지표
연령이 높은 기업일수록 상대적으로 안정적인 성장률을 보일 가능성
BIG4( BIG4에 속하는 회계법인으로부터 감사를 받았는지 여부 )
BIG4는 회계 업계에서 전 세계적으로 가장 크고 영향력 있는 4대 글로벌 회계법인 의미
시장에서는 Big4 회계 법인 감사 여부를 통해 회계 투명성을 평가하며, 높은 회계 투명성은 투자자로부터 긍정적 평가를 받음
회계 투명성이 높은 기업이 높은 성장률을 보인다고 보고
OWN( 최대주주 지분율)
경영진의 책임감과 장기적 성장에 대한 집중도를 높이는 요소
지배구조가 안정적일수록 성장 잠재력이 크다고 보고
FORN(외국인주주 지분율)
외부 투자자들이 기업의 성장 가능성을 긍정적으 로 평가하는지를 나타내는 지표
개념
고성장 기업(HGF)
일정 기간 동안 매출이나 고용 규모가 빠르게 성장한 기업
일반적으로 3년간 평균 매출 성장률 또는 고용 증가율이 연 20% 이상인 기업을 의미
본 연구의 목적 중 하나는 HGF의 조기 발굴을 위한 정량적 예측모델 개발에 있음
통계적 분석
숫자 데이터를 정리, 요약, 해석해서 의미 있는 결론을 도출하는 과정
회귀 분석
하나 이상의 변수(X)가 다른 변수(Y)에 어떤 영향을 주는지를 분석하는 방법
시계열 분석
시간에 따라 변화하는 데이터를 분석하여 미래를 예측하는 방법
입력 구조: 시간 흐름에 따라 순차적으로 누적된 데이터를 모델에 입력하는 방식
논문에서는 최근 1년~3년의 재무/비재무 정보를 누적 입력
다층 신경망 구조
여러 개의 은닉층(hidden layers)을 가진 인공신경망
- 은닉층: 인공신경망에서 입력층과 출력층 사이에 있는 층, 입력 데이터를 변형하고, 특징을 추출해서 다음 층으로 전달
LightGBM(LGBM)
빠르고 효율적인 Gradient Boosting 머신러닝 알고리즘
트리를 리프 중심(leaf-wise)으로 성장시켜 성능 향상
범주형 처리 자동, 학습 빠름, 대규모 데이터에 적합
XGBoost보다 빠르고 메모리 효율적임
LASSO
회귀 분석에서 변수 선택과 정규화를 동시에 해주는 기법
불필요한 변수를 자동으로 0으로 만들면서 제거함
과적합 방지와 해석력 향상에 도움
R²
결정계수
예측값이 실제값을 얼마나 잘 설명하는지 보여주는 지표
1에 가까울수록 모델이 잘 맞춘 것, 0이면 평균, 음수면 모델이 예측을 망친 것
MSE
평균제곱오차
예측값과 실제값의 차이를 제곱해서 평균낸 값
오차가 클수록 더 크게 벌점 줌
실제 데이터 단위의 제곱으로 계산
RMSE
평균제곱근오차
MSE에 루트(√)를 씌운 값 → 단위를 원래 값과 같게 만듦
MSE는 너무 커질 수 있는데, RMSE는 그걸 좀 직관적으로 보여주는 버전
MSLE
평균로그제곱오차
예측값과 실제값에 로그를 씌운 다음 차이를 제곱해서 평균낸 것
비율적 차이를 중요시함 (절대적인 차이보단)
‘작은 값 예측’에 민감한 문제에서 유리한 지표
MAPE
평균절대백분율오차
예측값과 실제값의 차이를 비율(%)로 나타낸 후 평균
예측이 실제값에서 평균적으로 몇 퍼센트나 틀렸는지 보여주는 점수
거시경제
국가 경제 전체의 건강 상태를 나타내는 지표나 흐름
주요 요소: GDP, 물가상승률(CPI), 실업률, 금리, 환율 등
분석 대상: 국가 단위의 경제 상황, 정책, 경기 변동
재무지표/비재무지표
재무지표: 숫자로 측정 가능한 회계 기반 정보(매출, 순이익, 자산, 부채비율, ROE)
비재무지표: 숫자 외의 정성적 또는 간접적 정보(경영자 특성, 브랜드 가치, 특허 수, ESG 등)
재무 건전성
기업이 부채를 잘 감당하고, 파산 위험 없이 안정적으로 운영될 수 있는 상태
주요 지표: 부채비율, 유동비율, 이자보상배율 등
좋은 상태?: 빚이 너무 많지 않고, 자기 자금으로도 운영 가능한 구조
돈 빌려도 잘 갚을 수 있는 튼튼한 체력의 회사인지
기술통계량
데이터의 전반적인 특성과 분포를 요약하고 설명해주는 수치
데이터를 본격적으로 분석하기 전에, 어떤 값들이 평균적으로 많고 적은지, 분포가 넓은지 좁은지, 극단값(outlier)이 있는지 등을 파악하기 위해 꼭 사용하는 과정
분석 모델 구성
본 연구에서 기업 성장률 예측을 위한 Regressor로 RNN, LSTM, GRU, GBM, CatBoost를 사용하여 실증분석한 결과를 제시
R-squared
모델이 종속 변수의 변동성을 얼마나 잘 설명하는지 평가하는 지표
값이 0에 가까울수록 설명력이 낮고, 1에 가까울수록 설명력이 높음
RNN
LSTM
GRU
시계열 데이터나 텍스트처럼 순서 있는 데이터를 다루는 RNN 계열 모델 중 하나
LSTM처럼 정보를 오래 기억하지만, 구조가 더 간단하고 계산이 빠름
순서를 가진 데이터를 예측하는 데 쓰이는 간단하고 빠른 똑똑한 신경망
GBM
약한 결정 트리(weak tree)를 순차적으로 학습해서 오차를 줄여가는 앙상블 모델
이전 모델이 틀린 부분을 다음 모델이 보완하도록 계속 추가하는 방식
틀린 걸 계속 수정해가면서 더 똑똑해지는 트리 모델
CatBoost
Categorical Boosting의 줄임말. 카테고리형(문자형) 데이터를 잘 처리하도록 설계된 Gradient Boosting 모델
- Gradient Boosting : 여러 개의 약한 모델(주로 결정 트리)을 순차적으로 연결해서 성능을 점점 개선하는 앙상블 학습 방법
카테고리형 데이터를 자동으로 처리함 (One-Hot 안 해도 됨)
- One-Hot Encoding : 문자형 데이터를 숫자 벡터로 바꿔주는 전처리 방법, 각 카테고리 값을 0과 1로 이루어진 벡터로 변환함
빠르고 과적합에 강함
디폴트 성능이 매우 좋음
분석 데이터 구성
샘플 구성
| 내용 | 표본 기업 수 |
| 최초에 기업 재무 데이터를 입수한 기업 수 | 22,209 |
| 12월 말이 결산월이 아닌 기업 수 | (310) |
| 재무 데이터를 입수할 수 없는 기업 수 | (1,268) |
| 바본잠식 기업 수 | (54) |
| 최종적으로 분석에 사용한 기업 수 | 20,577 |
실증분석에 사용된 변수들에 대한 기술통계량 값
| 변수명 | N | 평균 | 표준편차 | 최소값 | 1사분위수 | 중앙값 | 3사분위수 | 최대값 |
| Sales_GRW | 20,577 | 0.075 | 0.373 | - 0.701 | - 0.091 | 0.029 | 0.159 | 2.111 |
| Asset_GRW | 20,577 | 0.081 | 0.351 | - 0.934 | - 0.027 | 0.036 | 0.123 | 24.981 |
| ROA | 20,577 | 0.008 | 0.114 | - 0.464 | - 0.018 | 0.024 | 0.062 | 0.296 |
| TQ | 20,577 | 1.491 | 1.166 | 0.408 | 0.848 | 1.125 | 1.666 | 8.095 |
| SIZE | 20,577 | 25.968 | 1.357 | 23.613 | 25.036 | 25.716 | 26.634 | 30.604 |
| LEV | 20,577 | 0.371 | 0.201 | 0.027 | 0.204 | 0.364 | 0.517 | 0.875 |
| CUR | 20,577 | 3.138 | 4.540 | 0.195 | 1.027 | 1.676 | 3.204 | 32.472 |
| PPE | 20,577 | 0.146 | 0.130 | 0.000 | 0.043 | 0.112 | 0.214 | 0.598 |
| LOSS | 20,577 | 0.296 | 0.457 | 0.000 | 0.000 | 0.000 | 1.000 | 1.000 |
| AGE | 20,577 | 3.253 | 0.659 | 0.693 | 2.890 | 3.296 | 3.761 | 4.844 |
| BIG4 | 20,577 | 0.433 | 0.495 | 0.000 | 0.000 | 0.000 | 1.000 | 1.000 |
| OWN | 20,577 | 0.398 | 0.166 | 0.000 | 0.273 | 0.390 | 0.511 | 1.000 |
| FORN | 20,577 | 0.067 | 0.107 | 0.000 | 0.009 | 0.024 | 0.075 | 1.000 |
'논문 분석' 카테고리의 다른 글
| 인공지능 기법을 이용한 혁신역량과 중소기업 성장 예측연구:혁신 외부요인이 예측에 미치는 영향 중심으로 (0) | 2025.05.09 |
|---|---|
| 인공지능 기반 기업 부도예측 모델 실증 연구-시간적 특성을 반영한 개선을 중심으로 (0) | 2025.04.29 |