결과, 한계, 향후 과제
머신러닝 기법을 이용해서 기업의 성장을 예측할 때 내부요인이 외부요인보다 더 중요한 변수라는 것으로 나타남
기업의 성장에 필요한 요인을 머신러닝을 통해 알아본 결과 기업은 개방형 혁신과 같은 외부요인 뿐만 아니라 내부요인 을 관리할 필요성을 제시함
내부요인(전유성, R&D, 제품혁신 등)을 제외한 Model 2는 모든 지표에서 예측 성능이 가장 낮게 나타남
외부요인을 제외한 Model 3의 경우, 일부 지표에서는 성능이 오히려 향상
정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1 Score 모두에서 내부요인의 영향력이 더 큼
즉, 기업 성장 예측에는 내부 혁신역량이 핵심 변수로 작용
단기 데이터(3년)만 사용 -> 일반화에 한계
0/1 이진 분류 방식 -> 성장의 세밀한 구분 어려움
앙상블 기법 외에 단일 모델 비교 부족
내부 변수별 영향력 분석 미흡 -> 전유성, 제품혁신 중 어떤 변수가 더 중요한지 알기 어려움
이번 연구는 3년치 데이터를 기반으로 했기 때문에, 10년 이상 장기 데이터를 활용한 후속 연구가 필요함
기업 성장을 단순히 0과 1로 나누기보다, 좀 더 정교한 성장 지표를 사용한 분석이 요구됨
로지스틱 회귀, SVM, Bagging 등 다른 머신러닝 모델과의 비교 분석도 향후 진행될 수 있음
논문에서 사용한 내부요인 변수들의 개별 영향력 비교도 추가적으로 다뤄볼 수 있음
논문 정보
한국혁신학회지 제20권 제1호 (2025년 2월)
저자: 유태훈, 박재민
키워드: 성장예측, 혁신역량, 정부지원, 정부규제, 개방형혁신, 머신러닝
연구 배경 및 목적
기업은 많은 이유에 의해서 성장하고 발전하기도 하고 역성장을 하기도 한다.
기술혁신과 제품화를 통해 기업은 제품 경쟁력뿐만 아니라 기업의 성장으로 이어진다.
최근 들어 경영학 분야에서는 회귀모형 외에 머신러닝, 딥러닝 등 인공지능 모형을 사용한 예측 모델이 발표되고 있다.
이전에는 주로 기업혁신 연구가 가설검증을 통해 이뤄졌고, 전통적인 방법론들은 사회 현상의 예측보다 이론 검증에 초점이 맞춰져 있다고 했다.
본 논문은 머신러닝을 이용한 성장 예측모형을 소개하고 중소기업의 내부 혁신역량과 외부요인의 예측성능에 대해 실증 분석하고자 한다.
머신러닝 기법 중 하나인 앙상블 모형을 이용해서 살펴보고자 한다.
||
v
기업의 성장은 투자, 고용, 정책 결정 등 경제 전반에 영향을 미치는 핵심 지표
성장 가능성이 높은 기업을 조기에 식별하면, 투자 효율성과 정책 자금의 배분 타당성을 높일 수 있음
하지만 기존 연구들은 대부분 단일 시점의 정태적 데이터 분석에 그쳐, 시간 흐름에 따른 변화와 누적 효과를 반영하지 못함
본 논문은 머신러닝 기반 예측모델(앙상블 기법)을 활용해, 중소기업의 내부 혁신역량과 외부요인 데이터를 학습시킴으로써
기업 성장 여부를 보다 정확하고 실용적으로 예측할 수 있는 방법을 제안함
특히 내부요인과 외부요인의 상대적 영향력을 비교하여, 성장 예측에 있어 어떤 요인이 더 중요한지 실증 분석함
연구 가설(암묵적)
중소기업의 성장은 다양한 내부 혁신역량과 외부 요인의 영향을 받는다.
기존 연구들은 정적 데이터 기반 분석에 머물렀기 때문에, 변수 간 상호작용이나 누적 효과를 포착하기 어렵다.
머신러닝 앙상블 기법을 활용하면, 다양한 요인들의 복합적 작용을 반영한 예측 성능 향상이 가능하다.
내부요인과 외부요인의 예측 기여도를 비교함으로써, 어떤 요인이 상대적으로 더 중요한지를 실증적으로 검증할 수 있다.
||
v
기업의 내부요인(전유성, 제품혁신, R&D 등)과 외부요인(정부지원, 개방형혁신 등)은 성장 예측에 유의미한 영향을 미칠 것이다.
내부요인을 제외한 예측 모델은 성능이 유의미하게 하락할 것이다외부요인을 제외한 모델은 일부 성능 향상을 보일 수 있으며, 내부요인이 상대적으로 더 중요한 변수일 가능성이 있다.
Soft Voting, Hard Voting, Stacking 등 앙상블 기법은 단일 모델보다 더 높은 예측 성능을 나타낼 것이다.
연구 대상과 방법
이 연구에서의 ‘기업’은 한국 제조업 분야의 중소기업을 의미
자료는 과학기술정책연구원(STEPI)에서 조사한 2020년 한국기업혁신조사(제조업 부문)를 기반으로 함
조사 대상은 상용근로자 수 10인 이상이면서, 표준산업분류(KSIC) 10~33번에 해당하는 3,500개 제조업체
이 중 결측치가 있는 기업을 제외하고 총 1,322개 기업을 최종 분석에 사용함
제외 기준
담배제조업(KSIC 12) 기업은 산업 특수성으로 제외
종속/독립 변수 중 결측이 존재하는 기업은 분석 대상에서 제외됨
분석에 활용된 정보
기업의 내부 혁신역량 (예: 전유성, R&D 비율, 제품혁신 등)
외부요인 (예: 정부지원, 개방형혁신, 정부규제 등)
기업 일반 특성 (예: 종업원 수, 기업 연령, 수출비중 등)
연구 방법
데이터 분석 기간: 2017년 ~ 2019년 (3개년 데이터 기준)
자료 출처 및 구성
기업 정보: 2020년 STEPI 기술혁신조사(제조업 부문)
종속 변수: 기업의 연평균 매출 성장률
3년간 매출액 기준 성장률을 계산하여 0(성장 X), 1(성장 O)으로 범주화 (이진 분류 문제)
독립 변수: 내부요인 6개, 외부요인 3개, 일반 기업 특성 다수
내부요인: 전유성, 제품혁신, R&D 비율 등
외부요인: 정부규제, 정부지원, 개방형혁신 등
※ 다중공선성 문제를 해결하기 위해 요인분석을 통해 주요 항목을 축소 구성함
※ 연평균 성장률이 100% 이상인 이상치는 제거하여 왜곡 방지
분석 모델
머신러닝 기반 분류 모델
단일 모델 학습
K-최근접이웃(KNN)
결정트리(Decision Tree)
랜덤포레스트(Random Forest)
XGBoost
LightGBM
Gradient Boosting
Histogram Gradient Boosting
앙상블 기법 적용
Soft Voting
Hard Voting
Stacking
총 7개의 기본 모델 -> 3종 앙상블 구조로 종합 비교 실험 진행
모델 평가 방식
평가 지표
Accuracy (정확도)
Precision (정밀도)
Recall (재현율)
F1 Score
각 지표를 통해 모델의 예측력과 실용성을 종합적으로 비교
변수 유형
| 종류 | 변수명 | 조작적 정의 |
| 기업성장 | 연평균성장률 | 3년(2017~2019년)간 매출액 기준 연평균 성장률을 계산해서 마이너스 성장과 플러스 성장을 기준으로 범주형 변수로 변환 0 = 0원 이하의 마이너스 성장한 기업 1 = 0원을 초과한 플러스 성장한 기업 |
| 내부요인 | 전유성 | 3년(2017~2019년)간 상품(제품 또는 서비스)을 보호하기 위해 전유성을 활용했는지 여부. 특허출원, 실용신안권 등록, 디자인권 등록, 상표권 등록, 저작권 청구를 비공식 전유성으로 하고, 영업비밀로 보호, 복잡한 설계방식 채택, 경쟁사에 앞서 시장선점 활동을 공식 전유성 변수로 하여 1건 이상 진행 여부 0 = 제품보호 활동 안함 / 1 = 제품보호 활동 함 |
| 제품혁신 | 상품혁신 또는 기존 상품 대비 새롭거나 획기적으로 개선된 상품 출시여부 0 = 출시하지 않음 / 1 = 출시함 |
|
| 혁신전략사용 | 2017~2019년 혁신전략 활용의 경제적 성과 0~5 사이 연속형 변수에 대한 요인분석 | |
| 혁신사용비용 | 2019년 R&D비용을 제외한 혁신활동에 사용한 비용 총액 로그 | |
| 제품혁신출시비율 | 2017~2019년 매출액 기준 시장최초 상품혁신과 귀사 최초 상품혁신을 통해 출시한 상품 비율 | |
| R&D예산비율 | 2019년 기준 연구개발 예산비율 로그 | |
| 외부요인 | 개방형혁신 | 2017~2019년 혁신활동을 수행하기 위해 R&D와 R&D 이외의 혁신활동으로 타 기업 또는 타 기관과 협력 경험 0 = 없음 / 1 = 있음 |
| 정부규제 | 2017~2019년 경제적규제, 사회적규제, 행정적 등 규제 11문항의 0~5 사이 연속형 변수에 대한 요인분석 | |
| 정부지원 | 조세지원, 자금지원, 금융지원, 인력지원, 기술지원, 인증지원, 구매지원의 7문항 0~5 사이의 연속형 변수에 요인분석 | |
| 기업특성 | 기업가정신 | 기업의 특성 및 성향 1~7 사이의 연속형 변수에 대한 요인분석 |
| 2019년 종업원수 | 2019년 상용근로자 수 로그 | |
| 기업연령 | 2019년 기준 설립 연차 로그 | |
| 판매예산 | 예산 중 영업예산 비율 로그 | |
| 2019년 수출비중 | 2019년 매출액 대비 수출액 비중 |
기업 성장 (Corporate Growth)
논문에서는 3년간 매출액 연평균 성장률을 기준으로 기업의 성장을 정의하고, 이를 기준으로 0(성장 X), 1(성장 O)으로 범주화함
따라서, “기업 성장”이란 매출 기준으로 일정 수준 이상의 플러스 성장을 의미
내부요인 (Internal Factors)
기업 내부에서 조절 가능한 혁신역량 요소를 의미하며, 주요 변수는 다음과 같음
전유성 (공식/비공식 지식 보호 방식)
제품혁신 여부
R&D 예산 비율
혁신전략 활용도
제품혁신출시비율
외부요인 (External Factors)
기업 외부 환경의 영향을 나타내는 요소로, 다음 세 가지로 구성됨
개방형 혁신 경험
정부 규제 인식
정부 지원 수혜 여부
전유성 (Appropriability)
기술이나 아이디어를 보호하고 수익화할 수 있는 능력
논문에서는 공식 전유성(특허, 영업비밀 등)과 비공식 전유성(시장선점, 복잡한 설계 등)으로 나눠 변수화함
개방형 혁신 (Open Innovation)
Chesbrough(2003)의 정의에 따라, 외부의 기술/아이디어를 적극적으로 활용하거나 내부 기술을 외부에 이전하는 방식의 혁신 전략
내향형/외향형 구분과 함께 의미를 명시하는 것이 바람직
앙상블 기법 (Ensemble Methods)
여러 머신러닝 모델의 예측값을 결합해 성능을 향상시키는 방법
Soft Voting, Hard Voting, Stacking을 사용
성장예측모형 (Growth Prediction Model)
중소기업의 성장을 예측하기 위한 분류 모델
이진 분류 구조(성장/비성장)
개념
전유성
기업이 기술이나 아이디어에서 발생하는 수익을 보호하고 확보하는 능력
ex) 특허, 영업비밀
공식/비공식 전유성
논문에서 변수로 구분되기 때문에 그 차이를 알아두면 분석 해석에 도움 됨
ex) 공식: 특허, 영업비밀 / 비공식: 선점, 설계 복잡성 등
개방형 혁신
기업이 외부 아이디어/기술을 도입하거나, 내부 자산을 외부에 공개·이전하는 전략
요인분석
다수의 항목(문항)을 요약·축소해 대표 요인(숨어 있는 변수)을 추출하는 통계 기법
앙상블 기법
여러 개의 머신러닝 모델을 조합해 예측 성능을 향상시키는 방식
제품혁신출시비율
시장 최초·자사 최초의 제품혁신이 전체 매출에서 차지하는 비중
연평균 성장률 기준 이진분류
연속형 성장률 데이터를 0/1로 구분해 예측하는 방식
Soft Voting / Hard Voting / Stacking
앙상블 모델의 조합 방식. Soft는 확률 평균, Hard는 투표수, Stacking은 메타모델 학습
메타모델
다른 여러 모델의 예측 결과를 입력값으로 받아서 최종 예측을 수행하는 모델
모델을 위한 모델
여러 기본 모델의 예측값을 바탕으로 최종 예측을 하는 모델
단일 모델들은 서로 다른 방식으로 데이터를 해석함 ->이 서로 다른 시각을 통합적으로 판단해줄 수 있는 상위 모델이 필요함
기본 모델들의 강점을 종합적으로 고려해 성능 향상
R&D
연구와 개발 활동
새로운 지식이나 기술을 만들고, 그걸 바탕으로 새로운 제품, 서비스, 공정 등을 개발하는 모든 활동
분석 모델 구성
기본 모델 (Base Models)
총 7개의 머신러닝 분류 알고리즘을 사용하여 1차 학습 수행함
K-최근접이웃 (K-Nearest Neighbors, KNN)
예측하고 싶은 데이터가 주변 이웃(가장 가까운 K개의 데이터)과 어떤 클래스에 속해 있는지 보고 판단
학습은 단순하지만, 예측 시 계산량이 많음
ex) 주변에 성장한 기업이 많으면 이 기업도 성장할 것으로 예측함
결정트리 (Decision Tree)
데이터를 분할해서 yes/no로 따라가다 보면 최종 예측값에 도달하는 트리 구조
해석이 쉬움, 과적합(overfitting) 위험 있음
ex) R&D가 일정 이상인가? -> 정부지원 받았는가? 식으로 분기하며 예측
랜덤포레스트 (Random Forest)
XGBoost
여러 개의 약한 트리 모델을 순차적으로 학습해 성능을 점점 개선해가는 부스팅 방식
매우 빠르고 성능이 뛰어나 Kaggle에서도 자주 사용
결측치 처리, 정규화 내장, 병렬 처리 가능
LightGBM
XGBoost와 유사하지만, 대용량 데이터에 더 빠르고 효율적으로 작동함
리프 중심 트리 성장 방식을 사용해 학습 속도와 정확도 모두 개선
범주형 변수 자동 처리 가능, 고차원 데이터에 강함
Gradient Boosting (GBM)
여러 개의 약한 모델(보통은 작은 결정트리)을 순차적으로 학습시켜 점점 성능을 끌어올리는 방식의 앙상블 기법
처음엔 아무것도 모르는 상태에서 예측 시작
예측이 틀린 부분을 다음 트리가 집중해서 보완
이런 식으로 오류를 조금씩 줄이는 방향으로 모델을 계속 추가
최종적으로 여러 트리를 조합해서 하나의 강한 예측 모델 완성
예측 정확도가 매우 높음
회귀(regression), 분류(classification) 모두에 사용 가능
하지만 느릴 수 있고, 과적합 위험 있음 (튜닝 중요)
Histogram Gradient Boosting (HGB)
연속형 데이터를 히스토그램 구간(bin)으로 나눠 계산을 간소화한 Gradient Boosting
계산 속도 향상 + 과적합 완화 효과 있음
scikit-learn에서 제공, 자동 결측치 처리, 작은 데이터에도 잘 작동
ㄴ scikit-learn: 파이썬에서 머신러닝 모델을 쉽게 만들 수 있도록 도와주는 대표적인 라이브러리, 데이터 전처리, 모델 학습, 평가, 교차검증까지 전 과정을 통합 지원
위 기본 모델들의 예측값을 조합하여 최종 예측을 수행하는 앙상블 기법 3종을 적용함
Soft Voting
각 모델의 예측 확률(Probability)을 평균 내어 최종 결과 도출
Hard Voting
각 모델의 결과(0 또는 1)에 대해 다수결로 결정
Stacking
각 모델의 예측 결과를 새로운 데이터로 활용하여 메타 모델이 최종 예측
메타 모델은 Logistic Regression 또는 간단한 트리 모델로 구성될 수 있음
분석 데이터 구성
2017년 ~ 2019년, 최근 3개년 매출과 활동 데이터를 기준으로 구성
STEPI 2020년 한국기업혁신조사 – 제조업 부문 설문조사
OECD Oslo Manual 기준에 따라 설계된 국가 승인 통계
종속 변수(예측하려는 대상 / 결과값, 다른 변수들(=독립 변수)의 영향을 받아 결정되거나 변화하는 값)
기업의 연평균 성장 여부 (이진 분류: 0 or 1)
| 변수명 | 연평균성장률 |
| 정의 | 2017~2019년 매출액 기준 연평균 성장률 계산 후, 0/1 범주형으로 변환 |
| 기준 | 0 = 마이너스 성장 또는 0원 매출 성장 / 1 = 플러스 성장 |
| 특이 처리 | 성장률이 100% 이상인 경우 이상치로 간주해 제거 |
독립 변수(예측에 사용되는 정보들 / 원인이 되는 입력값들, 종속 변수에 영향을 주는 요인들)
내부요인
| 전유성 | 제품 또는 기술을 보호하기 위한 조치 여부 (공식/비공식 포함) |
| 제품혁신 | 기존 상품 대비 개선된 신제품 출시 여부 |
| 혁신전략사용 | 10개 문항을 요인분석으로 축소한 점수 |
| 제품혁신출시비율 | 시장 최초·자사 최초 혁신 제품의 매출 비율 |
| R&D 예산비율 | 2019년 기준, 전체 예산 중 R&D 비중 (로그 변환) |
| 혁신사용비용 | R&D 외 혁신활동에 사용한 비용 총액 (로그 변환) |
외부요인
| 개방형혁신 | 외부 기업/기관과의 협력 경험 유무 (0/1) |
| 정부규제 | 경제·사회·행정 규제 11개 문항 ->요인분석 결과 |
| 정부지원 | 7개 지원항목(자금, 인력, 기술 등) -> 요인분석 결과 |
일반 기업 특성
| 기업가정신 | 기업의 조직 특성 및 도전 성향 (요인분석: 3개 요인) |
| 종업원수 | 2019년 기준 상용 근로자 수 (로그 변환) |
| 기업연령 | 설립 이후 연차 (로그 변환) |
| 판매예산 | 영업 예산 비율 (로그 변환) |
| 수출비중 | 매출액 대비 수출 비율 (0~1 범위) |
'논문 분석' 카테고리의 다른 글
| 인공지능 기반 기업의 성장률 예측모델 개발 (1) | 2025.04.30 |
|---|---|
| 인공지능 기반 기업 부도예측 모델 실증 연구-시간적 특성을 반영한 개선을 중심으로 (0) | 2025.04.29 |