논문 분석

인공지능 기반 기업 부도예측 모델 실증 연구-시간적 특성을 반영한 개선을 중심으로

steezer 2025. 4. 29. 16:12

 

결과, 한계, 향후 과제

시계열 데이터를 길게 쓸수록 (1년 -> 3년), 예측 성능이 전반적으로 향상

특히 LSTM은 장기 의존 정보를 잘 활용할 수 있어 우수한 성능 보임

RF도 좋은 예측력을 보였으며, 기존 머신러닝보다 평균적으로 성능 높았음

거시경제지표와 기업 특성 데이터를 함께 활용한 조합(Set 3, 6, 9)이 예측력에서 가장 뛰어남

ㄴset3: 재무비율 + 기업 특성 + 거시경제지표, 1년 전 정보까지 사용(부도 일어나는 해 기준으로)

ㄴset6: 재무비율 + 기업 특성 + 거시경제지표, 2년 + 1년 전 정보까지 사용

ㄴset9: 재무비율 + 기업 특성 + 거시경제지표, 3년 + 2년 + 1년 전

 

단일 연도 데이터보다 여러 연도의 시계열 정보를 포함하는 모델이 효과적임을 입증

시간적 특성을 반영한 AI 모델은 부도 예측 정확도를 향상시킬 수 있음

특히 LSTM 모델은 장기 정보의 영향이 큰 시계열 문제에 강점을 보임

하지만 여전히 데이터 불균형(부도기업이 소수) 문제나, 뉴스/SNS 같은 비정형 데이터 미활용은 한계로 지적됨

추후에는 비정형 데이터까지 결합한 실시간 예측 모델로 확장할 수 있음을 제안


논문 정보

한국IT정책경영학회, 2023

저자: 박중현, 김경영, 정경민, 이현, 최희정

키워드: 기업 부도예측, 시계열 데이터, LSTM, Random Forest, 다중 모델 비교, F1 Score


연구 배경 및 목적

기업의 부도(파산)는 투자자, 금융기관, 정부 등에 큰 영향을 미침

기업이 부도에 이르기 전 그 가능성을 조기에 파악할 수 있다면 큰 손실을 예방할 수 있음

기존 부도 예측 연구들은 단일 시점의 재무정보를 기반->시간 흐름에 따른 변화 반영 X

논문은 인공지능 기반 예측 모델을 활용하여, 기업의 과거부터 현재까지의 재무 및 경영 데이터를 학습시킴으로써 예측의 정확도와 실효성을 높이는 방법을 제안


연구 가설(암묵적)

기업은 시간이 흐름에 따라 재무 구조와 경영 상태가 점진적으로 변화하며, 이 변화의 누적이 부도로 이어질 수 있다.
정적 데이터만으로는 이러한 점진적 위험 신호를 포착하기 어렵고, 시계열 기반 학습 모델이 이를 보완할 수 있다.
특히 LSTM과 같은 딥러닝 모델은 과거부터 현재까지의 정보를 순차적으로 학습하여 기업의 위험 징후를 보다 정교하게 예측할 수 있다.

||

v

가설 1. 기업의 재무지표, 기업 특성, 거시경제 변수는 부도 여부 예측에 유의미한 영향을 미칠 것이다.
가설 2. 단일 시점 데이터보다 2~3년간 누적된 시계열 데이터를 활용한 모델이 더 높은 부도예측 정확도를 보일 것이다.
가설 3. 시계열 기반 딥러닝 모델(LSTM)은 일반 머신러닝 모델(Random Forest 등)에 비해 부도 가능성 예측에서 더 강력한 성능을 나타낼 것이다.


연구 대상과 방법

연구 대상

이 연구에서의 '기업'은 한국의 상장기업을 의미

그중 KOSPI 및 KOSDAQ에 상장되었거나 상장폐지된 기업을 모두 포함

구 대상은 크게 두 집단으로 구분

부도 기업: 상장폐지 사유 중 '부도 관련 공시'가 명시된 기업
정상 기업: 동종 업종에서 일정 기간 이상 상장 유지 중이며, 안정적으로 운영된 기업

산업군 구분은 금융업 및 공공기관을 제외한 민간 기업 중심으로 이루어짐

총 표본 수는 약 2,540개 기업

 

연구 방법

데이터 분석 기간: 2017년부터 2021년까지 5개년

자료 출처: IS-VALUE(재무제표 및 기업 특성), DART 공시(부도 관련 정보), 건강보험공단(고용 및 급여 정보), 통계청 및 한국은행(거시경제지표(GDP, 물가지수 등))

 

독립 변수: 재무정보, 기업 특성, 거시경제지표

종속 변수: 기업의 부도 여부(0=정상, 1=부도)

시간 구성: 1년, 2년, 3년 단위 데이터를 각각 구성하여 시간 축상 누적 특성 반영, 총 9가지 데이터 세트로 실험 구성(연도별 + 변수범위별 조합)

 

분석 방법

기업의 부도 여부를 예측하기 위한 정형 데이터 기반 분류 문제로 접근

전통적 통계 분석 대신 머신러닝 및 딥러닝 알고리즘을 활용한 예측모형을 설계

 

분류 모델 학습: 총 5개의 예측 알고리즘을 비교 적용함
전통적 머신러닝 모델: SVM, Random Forest
딥러닝 기반 모델: DNN, CNN, LSTM

데이터 구조: 최근 1년~3년간 기업의 재무정보, 기업 특성, 거시경제지표를 조합하여 총 9가지 데이터 세트 구성

시계열 데이터 반영: LSTM 모델은 순차적인 입력(1년→2년→3년) 구조로, 과거에서 현재까지의 누적 변화를 학습

데이터 불균형 문제 해결: 부도 기업은 상대적으로 적기 때문에, SMOTE(Synthetic Minority Over-sampling Technique)를 사용하여 부도 클래스의 데이터를 인위적으로 증폭함

모델 평가 방식
정밀도(Precision), 재현율(Recall), F1 Score를 종합적으로 고려
교차 검증: K-Fold Cross Validation을 적용하여 과적합 방지 및 모델 일반화 성능 검증


정의

부도 기업

KOSPI 및 KOSDAQ 상장기업 중 상장폐지 사유가 ‘부도 관련 공시’인 기업

 

정상 기업

동일 업종 내에서 장기간 안정적으로 상장 유지 중인 기업


변수 유형

재무정보 지표

부채비율, 유동성, 수익성, 고정자산비율 등 기업의 재무 건전성과 수익성 측정

기업 특성 지표

직원 수, 평균 급여, 최대주주 지분율 등 내부 구조와 경영 특성 반영

거시경제 지표

원/달러 환율, 소비자물가지수, KOSPI 지수, 국고채 금리 등 외부 경제 환경 요소


개념

재무정보 지표

기업이 작성하는 재무제표(손익계산서, 재무상태표 등)에 기초한 수치로,
회사의 수익성, 안정성, 유동성, 성장성 등을 정량적으로 판단하기 위한 지표들

ex) 부채비율, 유동비율, 수익성 지표, 고정자산비율

 

기업 특성 지표

해당 기업이 가진 경영 구조적 특징이나 조직 특성을 설명하는 변수로,
단순한 재무 수치 외에 기업의 본질적인 특성이나 내재된 위험 요소를 파악하는 데 사용

ex) 직원 수, 평균 급여, 최대주주 지분율, 지분율 증감

 

거시경제 지표

경제 전체의 상황을 나타내는 국가 단위 통계 지표

논문에서 사용된 지표: GDP, 원/달러 환율, 코스피/코스닥 지수, CD수익률(단기 금리 지표 (기업 자금조달에 영향)), 소비자물가지수(CPI), 생산자물가지수(PPT), 국고채 3년 금리(국가 신용과 장기금리 지표, 투자심리 영향)

 

시계열 데이터

시간 순서에 따라 측정된 숫자 데이터들의 연속된 기록

 

F1 Score

Precision(정밀도)와 Recall(재현율)을 모두 고려한 조화 평균(Harmonic Mean) 

Precision만 높거나 Recall만 높으면 안 되고, 둘 다 균형 있게 잘해야 좋은 모델

 

Cross Validation(교차 검증)

모델을 평가할 때 데이터를 여러 번 나눠서 학습과 테스트를 반복하는 방법

모델이 특정 데이터에만 치우치지 않고, 진짜로 일반화(generalization)가 잘 되는지 확인하는 것

 

K-fold Cross Validation

전체 데이터를 K개로 나누어서 K번 학습/평가를 반복하는 검증 방법

모델을 여러 번 다르게 검증해서 평균적인 진짜 실력을 측정하는 것

 

데이터 샘플링

전체 데이터에서 일부만 뽑아서 분석에 사용하는 것

딥러닝의 경우 학습, 검증, 테스트 데이터 셋으로 나누는 것을 의미

 

확률적 샘플링

모집단의 각 구성원이 선택될 확률이 사전에 알려져 있는 방법

단순 무작위 샘플링 모집단에서 임의의 샘플을 선택하는 가장 기본적인 방법
모집단의 크기가 N인 경우 크기가 n인 모든 가능한 샘플을 동일한 확률로 추
체계적 샘플링 첫 번째 샘플을 무작위로 선택한 후 그 다음 샘플은 사전에 정해진 간격으로 선택
모집단에 대한 데이터 목록이 정렬되어 있거나 데이터에 규칙적인 패턴이 있는 경우 유용
층화 샘플링 모집단을 비슷한 특성을 가진 여러 개의 층으로 나눈 후 각 층에서 단순 무작위 샘플링
모집단의 크기가 N인 경우 크기가 n인 모든 가능한 샘플을 동일한 확률로 추출
군집 샘플링 모집단을 여러 군집으로 나눈 후 일부 군집을 무작위로 선택, 선택된 군집의 모든 구성원 조사
모집단의 크기가 N인 경우 크기가 n인 모든 가능한 샘플을 동일한 확률로 추출

 

비확률적 샘플링

모집단의 구성원이 선택될 확률이 사전에 알려지지 않은 방법

편의 샘플링 접근하기 쉬운 표본을 샘플로 선택
판단 샘플링 연구자의 판단에 따라 특정 기준을 충족하는 표본 선택
눈덩이 샘플링 샘플 구성원들이 다른 구성원들을 추천하는 방식으로 샘플 확정

 

오버 샘플링(비확률적 판단)

정의: 데이터셋에서 소수 클래스를 인위적으로 늘리는 방법

목적: 데이터 불균형을 해결해서 모델이 소수 클래스를 더 잘 학습하게 하려고

 

언더 샘플링(비확률적 판단(무작위 제거 방식일 경우 편의))

정의: 데이터셋에서 다수 클래스를 일부 삭제해서 줄이는 방법

목적: 데이터 불균형을 해결해서 소수 클래스와 비율을 비슷하게 만들기 위해

 

EDF(예상 부도 확률)

KMV 모델의 일부로 개발한 신용 측정

(KMV: 기업이 빚을 갚지 못하고 망할 가능성을 자산, 부채 데이터를 활용해 수학적으로 계산하는 시스템)

보통 1년의 기간 내에 이자 및 원금 지급을 이행하지 않음으로서 기업이 특정 기간 내에 지급을 채무불이행할 확률을 측정

 

Word2Vec

단어(word)를 벡터(숫자 배열)로 바꿔주는 딥러닝 기반 자연어 처리 임베딩 기법

단어 간 의미적 유사성을 수치적으로 표현

단어 주변 단어(context)를 학습하여, 유사한 문맥의 단어는 비슷한 벡터로 변환

 

K-IFRS

한국에서 채택한 국제회계기준

모든 회사들이 똑같은 회계 기준으로 재무제표를 작성하게 만든 국제 표준, 한국 버전

 

Stacking Ensemble 기법

여러 머신러닝 모델을 겹겹이 쌓아서 더 강력한 예측력을 가지게 하는 앙상블 기법 중 하나

1층 (Base Models): 다양한 모델들 (예: Decision Tree, SVM, XGBoost 등)
2층 (Meta Model): Base 모델들의 예측 결과를 받아 최종 예측

서로 다른 모델들을 1차로 돌리고, 그 결과들을 다시 조합해서 더 똑똑한 모델(Meta Model)이 최종 판단하게 하는 방식

 

단기 메모리 (Short-Term Memory)

순환신경망(RNN)에서 현재 시점의 입력을 기반으로 즉각적인 판단에 사용되는 기억

장기 메모리 (Long-Term Memory)

모델이 과거의 중요한 정보를 오래 기억해서 현재 판단에 반영할 수 있는 능력

ㄴ 시계열 정보가 중요한 예측 문제에 사용

    ㄴ기업 부도 여부나 성공 확률은 단기 실적만이 아니라 이전 연도부터 쌓인 성과와 위기 신호들이 중요

        ㄴ논문에서도 '부도 3년 전부터의 재무 데이터'를 함께 사용해서 모델을 학습시켰고, 그 안에서 LSTM 모델이 도입

            ㄴ왜 LSTM?->기존 RNN은 오래된 정보를 잘 기억하지 못해 장기 의존성 문제 발생

                ㄴLSTM은 Forget Gate, Input Gate, Output Gate로 장단기 정보를 분리해서 처리

 

장기 의존성

오래 전에 있었던 중요한 정보가 현재 판단에 영향을 주는 경우

 

Forget Gate

기억에서 무엇을 버릴지 결정(버리기)

Input Gate

어떤 새 정보를 기억에 추가할지 결정(추가하기)

Output Gate

기억한 것 중 어떤 걸 출력(사용)할지 결정(사용하기)


분석 모델 구성

 

Machine Learning(ML) 방법론

 

Support Vector Machine(SVM)

정의: 데이터를 가장 잘 나누는 "경계선(Decision Boundary)" 을 찾아주는 머신러닝 분류 알고리즘

핵심: 두 클래스(예: 성공/실패) 사이의 "최대 마진(margin)"을 확보하는 선(또는 초평면)을 찾음

 

Random Forest(RF)

정의: Random Forest, 여러 개의 결정트리(Decision Trees)를 만들어서 다수결 투표로 최종 예측을 하는 앙상블(Ensemble) 모델 핵심: 각각의 트리는 조금씩 다른 데이터를 보고 학습

         여러 트리의 결과를 모아서 평균/투표로 결정
         과적합(overfitting)을 줄이고 예측력을 높임

 

Deep Learning(DL) 방법론

 

Deep Neural Network(DNN)

여러 층(Hidden Layers)을 가진 인공신경망(ANN), 간단한 신경망을 깊고 복잡하게 확장한 버전

(층이 하나나 두 개인 신경망 → 그냥 ANN), (층이 3개 이상 깊게 연결 → DNN(Deep Neural Network))

Convolutional Neural Network(CNN)

이미지를 스캔하듯 분석하면서, 중요한 패턴을 뽑아내고 최종적으로 분류나 예측을 하는 딥러닝 모델

 

DNN, CNN 차이

DNN은 사진을 한번에 암기, CNN은 사진을 잘라서 중요한 부분을 따로 외우고 조합하는 느낌

 

RNN 계열 Long Short-Term Memory(LSTM)

RNN: 시간에 따라 순차적으로 변하는 데이터(시퀀스 데이터)를 처리하는 인공신경망

LSTM: 오래된 정보도 잘 기억할 수 있도록 특별히 설계된 RNN 구조

RNN은 최근 일을 위주로 기억, LSTM은 중요한 일은 오랫동안 기억하면서 쓸모 없는 건 잊음


분석 데이터 구성

재무비율은 건전성, 수익성, 성장성, 유동 성, 활동성, 규모의 총 6가지로 구분

(공포된 재무제표 등을 통해 객관적이고 통일된 데이터를 획득할 수 있음)

기업 특성, 거시경제지표를 이용

( 기업의 부도에 영향을 미친다고 가정하고 사용)

구분 index 의미
건정성 부채비율 총부채 ÷ 자기자본 × 100. 기업이 자기 돈에 비해 빚이 얼마나 많은지를 나타내는 비율
시장부채비율 시장가치(시가총액 기준)로 환산한 부채비율. 시장에서 평가하는 기업가치 기준 빚 부담 정도
금융부채비율(금융부채/총자산) 금융기관 대출이나 채권 발행 같은 금융 부채가 총자산에서 차지하는 비율
금융부채비율2(금융부채/총부채) 총 부채 중 금융 관련 부채(대출 등)가 차지하는 비율
유동비율 유동자산 ÷ 유동부채 × 100. 단기 부채를 얼마나 쉽게 갚을 수 있는지 보는 지표. 100% 이상이면 안정적
고정자산비율 고정자산(건물, 기계 등) ÷ 총자산. 고정자산이 자산 중 차지하는 비중. 너무 높으면 유동성에 불리할 수 있음
수익성 총자산영업이익율 총자산 대비 영업이익 비율. 기업이 가진 자산을 얼마나 효율적으로 운영해 수익을 내는지를 보여줌
시장자산영업이익율 시장 평가 기준으로 자산 대비 영업이익 비율을 본 것. 시장가치와 연결해서 수익성을 평가
자기자본순이익률 자기자본(내 돈) 대비 순이익 비율. 투자자 입장에서 가장 많이 보는 수익성 지표
총자산이익잉여금비율 총자산 대비 이익잉여금(기업에 남은 돈) 비율. 축적된 이익의 크기를 보여줌
성장성 총자산증가율 일정 기간 동안 총자산이 얼마나 늘어났는지 비율. 기업의 성장성 지표
매출액증가율 일정 기간 동안 매출이 얼마나 늘어났는지 비율. 기업 외형 성장 속도
당기순이익증가율 일정 기간 동안 순이익이 얼마나 늘어났는지 비율. 실질적인 이익 성장 속도
유동성 현금자산비율 총자산 중 현금 및 현금성 자산(예: 예금, 단기채권)이 차지하는 비율
시장현금자산비율 시장 가치 기준으로 본 현금자산 비율. 시장 상황을 반영한 평가
자산대비영업현금흐름 총자산 대비 영업활동에서 발생한 현금 흐름 비율. 실제 돈이 얼마나 잘 들어오는지 보여줌
활동성 자산회전율 매출액 ÷ 총자산. 기업이 자산을 얼마나 효율적으로 돌려 매출을 창출하는지 평가
매출채권회전율 매출채권(외상매출금)을 얼마나 빠르게 회수하는지를 나타냄. 높을수록 좋은 현금 흐름
규모 총매출액규모 총 매출액 크기. 기업의 외형적 크기를 나타냄
총자산규모 총자산 크기. 부채와 자본을 모두 합친 전체 기업 크기
기업특성 직원수 증감 직원 수가 얼마나 늘었거나 줄었는지 변화량. 인력 변화 트렌드
직원평균임금 증감 직원 1인당 평균 임금이 얼마만큼 변했는지. 인건비 증가/감소 추세
최대주주지분율 최대주주가 회사 지분을 얼마나 가지고 있는지 비율. 지배구조 안정성 평가에 중요
최대주주지분율 증감 최대주주 지분율이 시간에 따라 얼마나 늘었거나 줄었는지. 경영권 변화 신호일 수 있음
거시경제 CD 유통 수익율 양도성 예금증서(CD)의 시장 금리. 단기 시장 금리 지표
GDP 국내총생산. 한 나라 안에서 일정 기간 동안 생산된 재화와 서비스 총합. 경제 규모를 보여줌
원/달러 환율(USD) 1달러를 사는 데 필요한 원화 가격. 환율 변동은 수출입 기업에 큰 영향
KOSPI 종가지수 한국거래소 코스피 시장(대형주 중심) 주가 지수. 한국 주식시장 대표 지수
KOSDAQ 종가지수 한국거래소 코스닥 시장(중소형주 중심) 주가 지수
소비자물가지수 증감 소비자 물가가 얼마나 변했는지 비율. 물가 상승률로 인플레이션/디플레이션 판단
생산자물가지수 증감 생산자가 판매하는 상품의 물가 변동률. 원자재 가격, 산업 경기 흐름 반영
국고채3년 한국 정부가 발행한 3년 만기 국채 금리. 기준금리 움직임과 시장 기대를 반영함