1. 서 론
2. 선행연구 검토
2.1. SOH와 성능 및 안전 영향 연구
2.2. 운행 데이터를 활용한 SOH 예측 연구
3. 연구방법론
3.1. 데이터 및 전처리
3.2. SOH 예측 모델 설계
4. 분석 결과
4.1. SOH 예측 모델 개발
4.2. 변수 영향
5. 결 론
1. 서 론
전기자동차 시장은 탄소중립 정책과 함께 빠르게 성장하고 있다. 국제에너지기구(IEA)는 2024년 글로벌 전기자동차 판매량을 1,700만 대로 집계했으며 이는 전년 대비 25% 증가한 수치다.(1) 국내 전기자동차 등록 대수는 2025년 8월 말 기준 82만 대를 넘어섰고 이는 전년 대비 약 30% 증가한 것이다.(2)
EV의 핵심 부품인 고전압 배터리는 차량 원가의 상당 비중을 차지하며 가격 경쟁력, 성능, 안전성에 직접적인 영향을 미친다. 배터리 건강 상태(State of Health, SOH)는 초기 정격용량 대비 현재 가용용량의 비율로 정의되며, 신차 상태에서 100%를 기준으로 사용 시간 및 충·방전 사이클 누적에 따라 점진적으로 감소한다.(3) 일반적으로 SOH는 70-80% 수준을 배터리 수명 종료의 기준으로 간주한다.(4)
SOH가 낮아지면 주행거리가 줄고 가속 성능이 떨어진다. 더 심각한 문제는 안전이다. 열화된 배터리는 내부저항이 증가하고, 특정 조건에서 열폭주를 일으켜 화재로 이어질 수 있다.(5) 2024년 8월 인천 청라 지하주차장 EV 화재 사고 이후 배터리 안전에 대한 사회적 관심이 높아졌다.
각국은 배터리 안전 관리를 강화하고 있다. 유럽연합은 2023년 배터리 규정을 제정해 2027년부터 EV와 산업용 배터리에 디지털 배터리 여권 제도를 의무화한다. 이 제도는 QR 코드를 통해 배터리 성능, 수명, BMS 데이터 등 핵심 정보를 제공하도록 요구한다. 중국은 2025년 3월부터 「신에너지차 운행 안전성능 검사규정」을 시행해 동력배터리 안전 점검을 정기검사에 포함시켰다. 국내는 「자동차관리법」 제43조에 따라 정기검사를 통해 EV 주요 부품을 점검한다.(6)
정기검사 데이터는 실제 운행 환경에서 축적된 배터리 열화 정보를 담고 있다. 기존 SOH 예측 연구는 대부분 실험실의 제어된 충·방전 사이클 데이터나 특정 차종 데이터를 사용했다. 반면 다양한 차종과 운행 조건이 혼재된 실차 검사 데이터 기반 연구는 드물다.
본 연구는 국내 정기검사 데이터를 활용해 SOH 예측 모델을 개발한다. 입력 변수의 영향도를 정량화하고, 배터리 안전 관리, 성능 평가, 잔존가치 산정, 순환경제(재사용·재제조·재활용) 정책에 활용 가능한 실증 근거를 제공하는 것이 목적이다. Fig. 1은 본 연구의 프레임워크를 나타낸다.
2. 선행연구 검토
2.1. SOH와 성능 및 안전 영향 연구
배터리 SOH가 전기자동차 성능에 미치는 영향에 관한 연구는 전 세계적인 EV 보급 증가 추세 속에서 배터리 SOH가 차량 신뢰성, 안전성 및 에너지 효율성을 결정짓는 핵심 지표로 부각되면서 중요한 연구 영역으로 자리매김하였다.(7)
SOH 성능 및 안전에 관한 연구는 크게 두 범주로 구분된다. 첫째, 배터리 노화가 전기자동차 성능 매개변수(주행거리, 출력, 가속성능, 최고속도)에 미치는 영향에 관한 연구이며, 둘째, SOH 저하가 교통안전 위험요인(화재, 결함, 사고)에 미치는 영향을 다룬 연구이다.(4) SOH는 충·방전 반복에 따른 용량 열화(capacity degradation)와 내부저항 증가를 정량화한 배터리 건강지표로서 차량의 실주행거리, 출력특성 및 열폭주 위험성에 직접적 영향을 미친다.(8)
따라서 실사용 조건의 운행 및 검사 데이터에 기반한 SOH-성능·안전 연계의 현장 검증이 중요하며, 본 연구는 국내 정기검사 데이터를 활용해 이를 보완한다.
2.2. 운행 데이터를 활용한 SOH 예측 연구
지난 10년간 SOH 추정 방법론은 통제된 실험실 환경에서의 실험 기반 접근법에서 실제 운행 조건의 복잡성을 처리할 수 있는 기계학습 및 하이브리드 모델로 발전하였으며,(9) 연간 수백만 대 규모로 성장하는 글로벌 전기자동차 시장에서 배터리 수명 연장, 유지보수 최적화, 환경영향 저감을 위한 정확한 SOH 추정의 실무적 중요성이 강조되고 있다.(10)
정확한 SOH 예측은 배터리 관리 시스템(BMS) 성능에 직접적으로 영향을 미치며 보다 안전하고 신뢰성 높은 전기자동차 운행을 가능하게 한다.(11) 그러나 광범위한 연구에도 불구하고 다양하고 동적인 실제 운행 조건에서 SOH를 정확히 추정하는 데에는 여전히 과제가 남아 있다.(12)
기존 모델들은 통제된 실험실 데이터에 주로 의존함에 따라 다양한 온도 환경, 충전 패턴, 운전자 행동 특성을 반영하는 실제 현장 시나리오에 적용하는 데 한계를 보이며,(11) 데이터 기반 접근법은 적응성과 예측 정확도 향상을 제공하지만 데이터 이질성, 표본 불균형, 제한된 해석가능성 등의 문제에 직면하고 있다.(13)
3. 연구방법론
3.1. 데이터 및 전처리
3.1.1. 데이터 수집
본 연구는 「자동차관리법」 제43조에 따른 정기검사 데이터를 활용했다. 분석 대상은 국내 제작사의 동일 전기자동차 A모델이며, 2025년 1월부터 9월까지 한국교통안전공단과 민간 자동차검사소에서 검사용 진단기로 수집한 627건의 차량 및 배터리 검사 결과다. 데이터는 총 24개 변수로 구성된다.
종속변수는 배터리 SOH이며, 최대 용량을 공칭 용량으로 나눈 백분율로 정의한다. 설명 변수는 다섯 가지 범주로 구분된다.
(1) 시간경과 변수: 차령(AGE), 총동작시간(TOT)은 캘린더 에이징(Calendar Aging)을 나타낸다.
(2) 사용강도 변수: 누적 주행거리(ODR), 누적 충전량(TCH), 누적 방전량(TDC)은 사이클 에이징(Cycle Aging)을 나타낸다.
(3) 배터리상태 변수: 셀전압차(CVD), 절연저항 측정값(IRM), 충전량(SOC)은 배터리의 전기적 특성을 나타낸다.
(4) 검사 메타정보: 사업용 여부(CNC), 검사기간 경과여부(EXP), 검사결과 부적합 여부(VIR)는 검사 관련 데이터이다.
(5) 파생 변수: 원시 측정값에서 계산한 파생 변수는 차량 사용 패턴과 배터리 성능 지표를 정량화한다.
변수의 세부 정의와 단위는 Table 1에 제시했다.
Table 1.
Variable definitions and measurement units
3.1.2. 탐색적 분석
전처리 결과 중에 하나로 SOH의 평균은 94.2%(표준편차 3.4%p), 중앙값은 94.6%, 범위는 81.2-99.9%로 나타났다. 차량의 평균 주행거리는 95,340 km(표준편차 48,220 km), 평균 TOT는 9,154 h(표준편차 3,678 h), AGE 중앙값은 2,170일(약 5.9년)로 실차 운행 환경을 적절히 반영하고 있다. 일평균 주행거리는 47.8 km/day, 충·방전 효율(TDC/TCH)은 평균 0.962(표준편차 0.031)로 산출되었다. 주요 변수의 기초통계는 Table 2에 제시하였다.
Table 2.
Summary statistics of key variables after preprocessing
3.1.3. 상관분석 및 다중공선성 진단
변수 간 Pearson 상관분석 결과, SOH는 AGE(ρ=-0.47), ODR(ρ=-0.44), TDC(ρ=-0.42), TOT(ρ=-0.39)와 중강도 이상의 음의 상관을 보였다. 이는 시간경과 및 누적 사용량이 배터리 열화의 주요 요인임을 시사한다. 주요 변수 간 상관계수는 Table 3에 제시하였다.
Table 3.
Pearson correlation coefficients between SOH and key predictors
| SOH | AGE | ODR | TDC | TOT | IRM | TDC/TCH | |
| SOH | 1 | -0.47 | -0.44 | -0.42 | -0.39 | 0.39 | 0.31 |
다중공선성 진단을 위해 분산팽창계수(Variance Inflation Factor, VIF)를 산출하였다. AGE, ODR, TOT, TDC 변수의 VIF는 각각 5.8, 6.2, 7.1, 8.4로 VIF>5 기준을 초과하였다. 이는 시간경과 변수와 사용강도 변수 간 상관(r>0.78)이 선형 회귀 계수 추정의 분산을 증가시킬 위험을 나타낸다. 이러한 다중공선성 환경은 L2 규제(Ridge Regression, 릿지 회귀)를 선택하는 주요 근거로 작용하였다.
3.2. SOH 예측 모델 설계
SOH 추정을 위해 Ridge 모델을 사용하였다. Ridge 회귀 모델은 L2 규제를 적용한 선형 회귀로 주요 변수의 다중공선성 해결에 효율적이다. L2 규제는 AGE, ODR, TOT, TDC 간 다중공선성(VIF>5, r>0.78)을 완화하며, 표준화 계수의 부호와 크기 해석을 가능하게 하여 설명력을 확보한다. 비교 모델은 Random Forest 회귀로 선정하여 비선형 관계와 변수 간 상호작용을 검증하였다.
입력 변수는 상관분석 결과를 토대로 선정하였다. 시간경과 변수(AGE, TOT)는 캘린더 에이징을, 사용강도 변수(ODR, TDC, TCH)는 사이클 에이징을 반영한다. 비율형 파생 변수(ODR/AGE, TOT/AGE, TDC/TCH, TDC/TOT 등)는 차량 간 사용 강도 차이를 표준화하며, 배터리상태 변수는 전기적 건전성을 나타낸다. 메타정보인 CNC는 차량 용도를 구분한다. SOH로부터 직접 유도되는 파생지표는 정보 누수 방지를 위해 예측 입력에서 제외하고 사후 분석에만 활용하였다. 주 모델은 Ridge 회귀로 선정하였다. Ridge 회귀는 L2 규제를 적용한 선형 회귀로써 식 (1)의 목적함수를 최소화한다. 여기서 yi는 SOH 값이며, Xi는 설명 변수, β는 회귀 계수, α는 규제 강도를 의미한다.
L2 규제는 AGE-ODR-TOT-TDC 간 다중공선성(VIF>5, r>0.78)을 완화하며, 표준화 계수의 부호와 크기 해석이 가능하여 정책 설명력을 확보한다.
예측 성능은 결정계수(R2), 평균절대오차(MAE, %p), 평균제곱근오차(RMSE, %p)로 평가하였다. 식 (2)에서 R2는 총 분산 대비 설명 분산 비율, 식 (3)에서 MAE는 예측 오차의 평균, 식 (4)에서 RMSE는 큰 오차에 민감한 지표를 나타낸다.
변수 기여도는 Ridge의 표준화 회귀 계수 β(std)로 1차 해석을 수행하고, Permutation Importance(ΔR2 기준)로 검증하였다. 각 변수를 무작위 순열한 후에 식 (5)에서 성능 저하를 측정하여 변수 기여도를 산출한다.
4. 분석 결과
4.1. SOH 예측 모델 개발
정의한 모델링에 따라 RidgeCV와 Random Forest를 평가한 결과를 Table 4에 제시하였다. RidgeCV는 R2=0.345, MAE=2.236%p, RMSE=2.742%p의 성능을 보였다. 비교군인 Random Forest는 R2=0.297, MAE=2.311%p, RMSE=2.840%p로 모든 지표에서 열위를 보였다. RidgeCV가 앙상블 모델을 능가한 원인은 L2 규제가 차령-주행거리-총동작시간 간 다중공선성(r>0.78)을 효과적으로 완화하였고, SOH 열화의 단조 감소 특성이 선형 1차 근사와 부합하기 때문으로 해석된다.
Table 4.
Comparison of the test set predictive performance of major models
| Model | R2 | MAE(%p) | RMSE(%p) | 95% CI (R2) |
| RidgeCV | 0.345 | 2.236 | 2.742 | [0.312, 0.378] |
| Random Forest | 0.297 | 2.311 | 2.840 | [0.264, 0.330] |
| Baseline | 0.000 | 3.390 | 4.180 | - |
Fig. 2는 RidgeCV의 실측값 대비 예측값 산점도를 제시한다. 예측값은 y=x 주변에 고르게 분포하며 체계적 편향은 관찰되지 않았다. 잔차 분석 결과 정규성과 등분산성 가정이 충족되었다. SOH>88% 구간에서 MAE가 3.12%p로 증가하였으나, 이는 SOH 영역의 표본 희소성에 기인한다.
4.2. 변수 영향
최종 모델(RidgeCV)의 변수 기여도를 Permutation Importance와 SHAP으로 정량화하였다. ΔR2 기준으로각 변수를 무작위 순열한 후 성능 저하를 측정하여 변수 기여도를 산출하였으며, 두 방법 모두 일관된 변수 순위를 보여 결과의 안정성을 확인하였다.
상위 기여 변수는 Fig. 3과 같이 차령(0.142), 주행거리(0.098), 누적 방전량(0.076), 총동작시간(0.068), 일평균 주행거리(0.051) 순으로 나타났다. 차령의 기여도가 가장 높은 것은 캘린더 에이징이 SOH 저하의 주요 메커니즘임을 시사한다. 주행거리와 누적 방전량은 사이클 에이징을 대표하며, 총동작시간은 운행 및 정차 중 전장 작동을 포함한 배터리 활성화 시간을 반영한다.
또한 변수군 단위 그룹 Permutation 결과로 시간 경과 축(차령+총동작시간)의 총 중요도는 0.184, 사용 강도 축(주행거리+방전량+일평균 지표)은 0.203으로 유사하게 나타났다. 이는 캘린더 에이징과 사이클 에이징이 SOH 저하에 복합적으로 기여하며, 어느 하나가 지배적이지 않음을 의미한다.
SHAP 분석에서 모든 사용 관련 변수는 일관된 음의 기여를 보였다. 차령이 증가할수록 SOH 예측값이 감소하였으며 주행거리·방전량·총동작시간 역시 동일한 방향성을 나타냈다. 이는 시간경과 및 사용량 증가가 배터리 열화를 가속한다는 물리적 메커니즘과 부합한다. SHAP 상호작용 분석에서 차령×방전량 상호작용 강도는 0.012로 미약하여, 주효과가 지배적임을 확인하였다. 즉, 각 변수의 독립적 기여가 대부분의 예측력을 설명하며 변수 간 복잡한 상호작용은 제한적이다.
5. 결 론
본 연구는 국내 전기자동차 정기검사 데이터를 활용하여 배터리 SOH 예측 모델을 개발하였다. 차령, 주행거리, 누적 방전량, 총 동작시간 등 사용이력 변수 간 다중공선성을 L2 규제(α=10.0)가 적용된 Ridge 회귀로 완화하였으며, 교차검증 결과 MAE 2.24%p, RMSE 2.74%p의 예측 성능을 달성하였다.
변수 중요도 분석 결과 차령과 주행거리가 가장 큰 영향을 미쳤으며, 이는 캘린더 에이징(calendar aging)과 사이클 에이징(cycle aging)의 복합 작용이 배터리 노화의 주요 메커니즘임을 시사한다.
학술적 기여는 다음과 같다. 첫째, 실차 기반 대규모 정기검사 데이터를 활용하여 기존 실험실 중심 연구가 간과한 실제 운행환경의 이질성을 반영하였다. 둘째, 해석 가능한 선형 모형을 제시하여 검사 실무자의 직관적 이해 기반을 마련하였다. 셋째, 검사·정비·재사용 정책 연계형 배터리 안전관리 체계 수립을 위한 실증적 근거를 제공하였다.
주요 한계는 다음과 같다. 첫째, 분석 대상이 특정일자 검사 차량으로 한정되어 시간적 대표성에 제약이 있다. 둘째, 검사결과에서 수집할 수 없는 온도, 충전속도, 방전심도 등 세부 운행패턴 변수를 반영하지 못하였다. 셋째, 모형 성능이 제한적이다. 넷째, 표본 대부분이 8년 이하 차량으로 SOH 90% 이상 구간에 분포하여 저 SOH 구간 예측 정밀도가 충분히 검증되지 않았다.
향후 데이터 규모를 수천 대 이상으로 확대하고, Gradient Boosting 및 LSTM 등 비선형 모형을 적용하여 예측 정밀도를 향상시킬 필요가 있다. 또한 충전이력 로그와 정기검사 데이터를 결합하여 차종별 맞춤형 SOH 예측 모델로 확장할 필요가 있다.





