Vision-Language Model-based Grad-CAM Analysis for Explainable Electric Vehicle Drive Motor Fault Diagnosis

Jaeseung Lee; Seohyung Cheon; Jehyeok Rew

doi:10.22680/kasa2026.18.1.029

Preview

Journal of Auto-vehicle Safety Association. 31 March 2026. 29-46
https://doi.org/10.22680/kasa2026.18.1.029

Vision-Language Model-based Grad-CAM Analysis for Explainable Electric Vehicle Drive Motor Fault Diagnosis

비전-언어 모델 기반 Grad-CAM 분석을 통한 설명가능한 전기자동차 구동 모터 고장 진단

Jaeseung Lee¹^*

Seohyung Cheon²

Jehyeok Rew³^†

이 재승¹^*

천 서형²

유 제혁³^†

¹고려대학교 전기전자공학부, 학생

²LG경영연구원 사업2부문, 연구위원

³덕성여자대학교 데이터사이언스학과, 교수

^{*First Author}

^{†Corresponding Author}

ABSTRACT

With the increasing adoption of electric vehicles (EVs), ensuring the reliable operation of their drive motors has become a critical challenge. Motor faults can directly lead to reduced performance, safety hazards, and costly downtime. To address this need, deep learning-based automatic fault diagnosis models have been actively explored, particularly those converting vibration signals into spectrograms to leverage their powerful classification capabilities. While these models achieve high accuracy in distinguishing various fault types, they suffer from the critical limitation of black-box decision-making, which hinders interpretability and trust. To overcome this limitation, this study proposes a novel framework that applies gradient-weighted class activation mapping (Grad-CAM) to a ResNet-based spectrogram classifier, visually highlighting the model's decision basis, and then uses a vision-language model (VLM) to automatically generate intuitive natural language explanations for the highlighted regions. By feeding the Grad-CAM heatmaps along with spectrogram time–frequency data to the VLM, the framework enables automatic generation of human-readable explanations, reducing the expert burden while improving transparency and trustworthiness. Experiments were conducted using vibration data collected from a Hyundai Ioniq Electric vehicle covering five fault types. Comparative evaluations across eight deep learning architectures confirmed that the ResNet-based model achieved the best classification performance. Moreover, the natural language explanations generated by the VLM were qualitatively evaluated and found to be consistent and reasonable, demonstrating practical feasibility. The proposed approach is expected to contribute to the development of a reliable and intelligent maintenance system for EV drive motors.

Keywords

Electric vehicle(전기자동차)

Drive motor(구동 모터)

Vision-language model(비전-언어 모델)

Grad-CAM (Grad-CAM 분석)

Explainable artificial intellgience(설명가능한 인공지능)

Transfer learning(전이학습)

MAIN

1. 서 론
2. 관련 연구
2.1. 딥러닝을 이용한 전기차 구동 모터 고장 진단
2.2. 설명가능한 인공지능을 이용한 전기차 구동 모터 고장 진단
2.3. 비전-언어 모델
2.4. 비전-언어 모델의 설명가능한 인공지능으로의 적용
3. 제안하는 기법
3.1. 전이학습 기반 딥러닝을 이용한 전기차 모터 고장 진단
3.2. Grad-CAM을 이용한 설명가능한 전기차 모터 고장 진단
3.3. 비전-언어 모델을 이용한 설명가능한 전기차 모터 고장 진단
4. 실험 환경
4.1. 데이터셋
4.2. 실험 환경
4.3. 평가 지표
5. 실험 결과
5.1. 전기차 구동 모터 고장 진단 모델 성능 평가
5.2. 비전-언어 모델 기반 Grad-CAM 분석을 통한 설명가능한 전기차 구동 모터 고장 진단 평가
5.3. 기존 설명 기법과의 비교를 통한 비전-언어 모델 기반 해석의 유효성 분석
5.4. 비전-언어 모델 기반 해석의 한계 사례 분석
6. 결론 및 제언

1. 서 론

최근 환경 규제의 강화와 화석 연료 자원의 고갈에 대한 우려가 커지면서, 전 세계적으로 전기자동차(Electric vehicle, 이하 전기차)의 상용화가 급속히 확산되고 있다.⁽¹⁾ 전기차는 내연기관 차량에 비해 구조가 단순하고 에너지 효율이 높으며, 온실가스 배출을 현저히 줄일 수 있다는 장점으로 인해 많은 주목을 받고 있다. 전기차의 핵심 부품 중 하나인 전기 구동 모터(Electric vehicle drive motor)는 차량의 주행 성능과 효율성을 직접적으로 결정하는 요소로, 그 안정성과 신뢰성을 확보하는 것이 무엇보다 중요하다.⁽²⁾ 그러나 전기차 구동 모터는 운전 환경에 따라 반복적으로 전기적, 기계적, 열적 스트레스를 받으며, 이에 따라 탈자(Demagnetization, DEMAG), 편심(Eccentricity), 베어링 결함(Bearing fault) 등 다양한 형태의 고장이 발생할 가능성이 존재한다.⁽³⁾ 이러한 결함이 장기간 방치될 경우, 차량의 동력 성능 저하나 운전 안전성 위협으로 이어질 수 있다. 이에, 전기차 구동 모터의 결함을 조기에 탐지하고 진단하는 기술은 전기차 유지보수의 핵심 과제로 꼽힌다.

전통적으로 전기차 구동 모터의 결함을 탐지하기 위해 주파수 해석, 통계적 특성 분석, 진동 신호의 엔벨로프(Envelope) 해석 등 다양한 물리 및 통계 기반의 기법이 활용되어 왔다.⁽⁴⁾ 이러한 기법들은 비교적 해석 가능성이 높다는 장점을 가지고 있으나, 복잡한 동작 조건과 다양한 결함 간의 상호작용을 동시에 고려하기 어렵다는 한계가 있다. 이에 따라 최근에는 딥러닝 기술을 적용하여, 전기 모터의 진동 데이터를 이미지로 변환한 스펙트로그램(Spectrogram)을 입력으로 사용하고, 합성곱 신경망(Convolutional neural network, CNN)과 같은 딥러닝 기반 이미지 분류 모델을 통해 고장을 자동으로 분류하는 시도가 활발히 이루어지고 있다.⁽⁵⁾ 하지만 이들 모델은 방대한 데이터를 학습함으로써 높은 분류 성능을 발휘할 수 있지만, 모델 내부의 의사결정 과정이 불투명하고 복잡하여 사람이 직관적으로 이해하기 어렵다는 이른바 ‘블랙박스(Black-box)’ 문제를 지니고 있다.⁽⁶⁾ 딥러닝 모델은 수많은 매개변수와 계층적 비선형 구조를 기반으로 학습을 수행하기 때문에, 입력 데이터의 어떤 특징이 최종 분류 결과에 주된 영향을 미쳤는지를 명확히 설명하기가 어렵다. 이러한 불투명성은 모델의 예측 결과에 대한 신뢰성을 저하시킬 뿐 아니라, 운용 현장에서 잘못된 분류 결과가 발생했을 때 그 원인을 추적하거나 조치하기 어렵게 만들어, 실질적인 현장 적용에 제약을 준다. 따라서 고장 진단 분야에서도 모델의 설명가능성(Explainability)과 투명성(Transparency)을 확보할 수 있는 보완 기술의 필요성이 지속적으로 대두되고 있다.

이러한 배경에서 최근 설명가능한 인공지능(Explainable artificial intelligence, XAI) 기술이 주목받고 있다. XAI는 인공지능 모델의 복잡하고 불투명한 의사결정 과정을 가시화하거나 해석 가능한 형태로 변환함으로써, 모델의 신뢰성과 적용 가능성을 높이기 위한 핵심 접근법으로 자리매김하고 있다.⁽⁷⁾ 그중에서도 Gradient-weighted Class Activation Mapping(Grad-CAM)은 이미지 분류 분야에서 널리 사용되는 기법으로, 딥러닝 모델이 특정 분류를 수행할 때 어떤 입력 영역에 주목하였는지를 시각적으로 강조하여 직관적으로 이해할 수 있도록 지원한다.⁽⁸⁾ Grad-CAM은 입력 이미지의 각 영역이 모델 출력에 기여한 정도를 히트맵 형태로 표현함으로써, 사용자가 모델의 판단 근거를 역으로 추적하거나 검증할 수 있게 해준다.

그러나 Grad-CAM이 제공하는 시각적 히트맵은 결국 사람이 일일이 확인하고 해석해야 한다는 한계를 가지고 있다. 특히 고장 진단 분야에서 다루는 스펙트로그램은 시간-주파수 영역의 정보가 복잡하게 표현되기 때문에, Grad-CAM을 통해 강조된 이미지라도 이를 사람이 직접 눈으로 분석하고 판단해야 하는 부담이 여전히 존재한다. 즉, Grad-CAM은 시각적 단서를 제시해 줄 뿐, 그 의미를 구체적으로 설명해주지는 못하기 때문에 사람이 매번 결과를 해석해 주어야 한다는 한계가 있었다. 이러한 문제를 보완하기 위해서는 Grad-CAM 결과를 자동으로 해석하고 설명할 수 있는 새로운 기술적 접근이 필요하다.

최근, 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 비전-언어 모델(Vision-language model, VLM)이 주목받고 있다.⁽⁹⁾ VLM은 입력 이미지의 시각적 특징을 인식하고, 이를 기반으로 사람이 이해하기 쉬운 자연어 설명을 자동으로 생성할 수 있는 능력을 갖추고 있다. 뿐만 아니라, 단순히 표면적인 이미지 정보를 묘사하는 수준을 넘어서 시각적 단서 간의 관계를 파악하고 이를 바탕으로 합리적인 설명을 도출하는 추론(Reasoning) 능력까지 보유하고 있다.⁽¹⁰⁾ 이러한 VLM의 특징을 Grad-CAM으로 강조된 히트맵 이미지와 결합하면, 사람이 직접 시각화를 일일이 해석하지 않아도 모델의 분류 근거를 텍스트 형태로 자동으로 전달할 수 있다. 즉, Grad-CAM이 시각적으로 강조한 영역을 시간-주파수 패턴의 변화나 에너지 분포, 결함 징후와 같은 전문적인 맥락에 맞추어 해석하고 설명할 수 있다. 이를 통해 고장 진단 결과의 신뢰성과 투명성을 높이고, 사람의 해석 부담을 경감하며 유지보수 업무의 효율성을 향상시키는 데 기여할 수 있다.

본 연구의 목적은 전기차 구동 모터의 진동 데이터를 기반으로 한 고장 진단 모델의 성능을 향상시키는 동시에, 모델의 의사결정 과정을 보다 직관적이고 투명하게 설명할 수 있는 방안을 제시하는 데 있다. 이를 위해, 전이학습 기반의 ResNet⁽¹¹⁾을 이용한 스펙트로그램 이미지 분류 모델을 구축하고, Grad-CAM을 활용하여 분류 근거를 시각적으로 강조한다. 이후 VLM을 결합하여 Grad-CAM 결과를 사람이 이해할 수 있는 자연어 형태로 자동 해석하는 기법을 제안한다. 이러한 접근은 고장 유형 분류의 정확성을 유지하면서도 설명가능성을 한층 강화하여, 실제 자동차 산업 현장에서의 활용성을 높일 수 있는 설명가능한 인공지능 기반의 고장 진단 시스템 개발에 기여할 수 있을 것으로 기대된다.

본 논문의 구성은 다음과 같다. 2장에서는 전기차 구동 모터 고장 진단과 XAI 기술, 그리고 VLM의 관련 연구를 설명한다. 3장에서는 제안하는 기법의 구조를 상세히 기술한다. 4장에서는 제안 기법의 실험 환경과 데이터셋, 평가 지표를 설명한다. 5장에서는 실제 실험 결과를 바탕으로 모델의 성능과 설명가능성을 분석하고, 마지막으로 6장에서는 본 연구의 결론과 향후 연구 방향을 논의한다.

2. 관련 연구

2.1. 딥러닝을 이용한 전기차 구동 모터 고장 진단

최근 전기차 구동 모터 고장 진단 분야에서는 딥러닝 기반 스펙트로그램 이미지 분류 방식이 활발히 연구되고 있다. 이러한 접근법은 단시간 푸리에 변환(Short-time fourier transform, STFT)⁽¹²⁾를 활용해 진동이나 전류 신호를 시간-주파수 영역의 스펙트로그램으로 변환한 후 딥러닝 모델을 통해 고장 유형을 분류한다. 예를 들어, Junior et al.(2022)⁽¹³⁾은 STFT를 적용해 전기 모터의 진동 신호에서 시각적 특징 맵(Feature map)을 얻고, CNN을 이용해 다양한 고장 조건을 자동 분류하였다. 이 연구에서는 CNN을 이용한 STFT 분석을 통해 고장 진단 정확도를 크게 향상시켰으며, 딥러닝 기반의 자동화 진단 가능성을 제시하였다. 또한, Piedad et al.(2024)⁽¹⁴⁾은 전기 모터의 진동 신호에 대해 STFT를 이용하여 시간-주파수의 스펙트로그램으로 변환한 후, CNN 모델을 이용한 전기 모터 고장 진단 모델을 제시하였다. 이처럼 시간-주파수 이미지 기반 딥러닝 모델은 고장 유형 분류에서 물리 기반 방식 대비 대체로 높은 성능을 보인다.

이와 함께 전이학습 기반의 접근도 널리 활용되고 있다. Ertarğın et al.(2024)⁽¹⁵⁾은 전기차 모터에서 수집한 음향 데이터를 STFT로 스펙트로그램화한 뒤, ImageNet으로 사전학습된 VGG19 모델을 활용하여 8개 고장 유형을 약 92% 정확도로 분류하였다. 이러한 결과는 사전학습된 이미지 모델이 모터 진동 및 음향 데이터에도 유효한 특징 추출기 역할을 할 수 있음을 뒷받침한다. 이처럼 딥러닝 기반의 진동 및 스펙트로그램 분석은 전기차 모터 고장 유형 분류에서 높은 정확성과 효율성을 보여주고 있다.

2.2. 설명가능한 인공지능을 이용한 전기차 구동 모터 고장 진단

딥러닝 기반의 고장 진단 모델은 뛰어난 분류 성능에도 불구하고 내부 의사결정 과정이 불투명하여 산업 현장에서 채택에 어려움이 있었다. 이를 해결하기 위해 Grad-CAM과 Local Interpretable Model-agnostic Explanations(LIME)⁽¹⁶⁾ 등 XAI 기법이 기계의 진동 기반 고장 진단에 널리 적용되고 있다.

Mey and Neufeld(2022)⁽¹⁷⁾는 전통적인 딥러닝 모델이 가지는 ‘블랙박스’ 한계를 지적하며, 회전체 모터에서 수집된 진동 데이터를 대상으로 한 CNN 기반 분류 모델에 Grad-CAM과 LIME과 같은 XAI 기법을 적용하였다. 또한 주파수-Reveolutions per minute (RPM) 맵 형태의 주목도(Saliency) 맵을 시각화하여 다양한 회전 속도 조건에서의 설명가능성을 검증하였으며, XAI 기법이 결함별 특징을 효과적으로 강조함을 확인하였다. 더 나아가, Brito et al.(2022)⁽¹⁸⁾은 1차원 CNN 모델에 Grad-CAM을 적용하고, 회전체 모터에서 수집된 진동 데이터에 대한 전이학습 기반 XAI 프레임워크를 제안하였다. 이들은 Grad-CAM이 전문가가 사용하는 결함 특징과 일치하는 활성화 영역을 강조하며, 진단 신뢰도 향상에 기여할 수 있음을 실험적으로 확인하였다.

이처럼 모터 고장 분석 분야에서의 XAI 기법은 모델의 판단 근거를 시각화하여 그 신뢰도를 높이는 역할을 한다. 특히 시간–주파수 스펙트로그램 기반 진단에서의 시각화는 결함 해석의 주요 도구로 자리 잡고 있다.

2.3. 비전-언어 모델

VLM은 이미지와 텍스트 정보를 동시에 이해하고, 시각적 단서 간의 관계를 분석하여 자연어 설명을 생성할 수 있는 멀티모달 인공지능 기술로 주목받고 있다. 특히 단순한 이미지 묘사를 넘어, 시각적 정보의 인과 관계를 추론하고 질문에 답하거나 복잡한 상황을 해석하는 시각 질의응답(Visual question answering, VQA) 능력까지 갖추고 있다는 점이 큰 장점이다.

Xu et al.(2024)⁽¹⁹⁾은 복잡한 VQA 문제에서의 단계적 추론(Chain-of-thought, CoT)을 위해, ‘요약, 시각적 해석, 논리적 추론, 결론 도출’의 연속적 절차를 스스로 처리할 수 있는 LLaVA-CoT 모델을 제안하였다. 이 모델은 구조화된 추론 주석을 포함한 대규모 학습 데이터와 단계별 탐색 방식을 결합함으로써 다양한 멀티모달 평가에서 우수한 성능을 확인하였다. Zhang et al.(2024)⁽²⁰⁾은 VLM의 CoT 추론 성능을 향상시키기 위해, OpenAI GPT-4o에서 추출한 상세한 근거를 활용해 학습 데이터를 보강하고, 강화학습을 통해 추론 품질을 추가로 조정하는 방식을 제안하였다. 이를 통해 기존 짧은 응답 중심 학습의 한계를 극복하고, 더욱 정교한 추론 능력을 확보할 수 있음을 실험적으로 입증하였다. Chen et al.(2024)⁽²¹⁾은 VLM의 3차원 공간 추론 능력을 강화하기 위해, 대규모 공간 관계 질의응답 데이터를 구축하고 이를 학습에 적용한 SpatialVLM을 제안하였다. 이 연구는 자동화된 3차원 공간 VQA 데이터 생성 프레임워크를 통해 정량적 및 정성적 공간 추론 성능을 향상시켰으며, 로봇공학 등 다양한 응용 분야로의 확장 가능성을 확인하였다.

이처럼 VLM은 기존의 단순 시각 정보 설명을 넘어, 단계적 추론과 공간적 관계 해석을 포함한 고차원적 설명 가능성을 제공한다. 이를 통해 향후 산업 현장에서 요구되는 신뢰성과 투명성을 갖춘 인공지능 기술의 핵심 요소로 자리매김하고 있다.

2.4. 비전-언어 모델의 설명가능한 인공지능으로의 적용

최근 VLM은 이미지와 자연어 간의 멀티모달 정보를 통합 처리할 수 있는 능력으로 다양한 인공지능 응용 분야에서 주목받고 있다. 이와 더불어 XAI 관점에서의 적용 가능성도 활발히 논의되고 있다. 특히, VLM의 시각적 정합성(Grounding) 평가 및 모델 해석 가능성에 대한 연구들이 다수 제안되면서, 복잡한 추론 과정을 직관적으로 설명하고 신뢰도를 높이기 위한 접근이 확산되고 있다.

Rajabi and Kosecka(2024)⁽²²⁾는 VLM 기반 모델들의 구문적 장면 이해와 언어적 표현의 시각적 정합성 능력을 정량적으로 평가하기 위해 Grad-CAM을 활용한 Q-GroundCAM 프레임워크를 제안하였다. 이들은 Contrastive Language-Image Pre-training(CLIP), Bootstrapping Language-Image Pre-training(BLIP), Align the image and text representations Before Fusing(ALBEF)와 같은 대표적인 사전학습 VLM 모델들을 대상으로 새로운 정량 지표를 도입하여, 문장-이미지 정합성, 지시 표현 해석, 관계 이해 등의 세부 과제를 기준으로 제로샷(Zero-shot) 상황에서의 설명가능성과 정합 불확실성을 동시에 분석하였다. Lee and Rew(2025)⁽²³⁾는 차량 내 Controller Area Network(CAN) 침입 탐지를 위한 머신러닝 기반 모델의 불투명성을 해소하기 위해, LIME과 VLM을 결합한 XAI 기법을 제안하였다. 이 연구는 VLM의 멀티모달 추론 능력을 활용하여 시각 기반 LIME 설명을 자연어로 해석함으로써, 모델 예측의 직관적 이해를 가능하게 하였다. 이를 통해 보안이 중요한 차량 환경에서 사용자 신뢰를 향상시킬 수 있는 가능성을 보여주었다.

이러한 선행 연구들은 VLM을 활용한 XAI의 새로운 가능성을 제시함과 동시에, 고차원 멀티모달 데이터를 해석 가능한 형태로 변환함으로써 안전성, 신뢰성, 직관성 향상에 기여할 수 있음을 시사한다. 본 연구에서도 이러한 흐름을 바탕으로, 차량 고장 진단 영영역에서 VLM 기반 XAI 기법의 실용성과 확장 가능성을 탐색하고자 한다.

3. 제안하는 기법

본 장에서는 연구에서 제안하는 기법의 전반적인 구성과 흐름을 설명한다. Fig. 1은 제안 기법의 전체 구조를 도식화한 것이다.

https://cdn.apub.kr/journalsite/sites/kasa/2026-018-01/N0380180103/images/kasa_18_01_03_F1.jpg

Fig. 1

Overall architecture of the proposed method

3.1. 전이학습 기반 딥러닝을 이용한 전기차 모터 고장 진단

본 연구에서는 전기차 구동 모터의 고장 진단을 위해 1차원 파형(Waveform) 형태의 진동 신호에 대해 STFT를 적용하여, 시간-주파수 영역으로 변환한 뒤 2차원 형태의 스펙트로그램 이미지로 구성하여 학습 데이터로 활용하였다. Fig. 2는 본 연구에서 활용한 데이터셋으로, 현대자동차 아이오닉 일렉트릭(Hyundai Ioniq Electric) 구동 모터에서 수집한 진동 데이터의 파형과 그에 대응하는 스펙트로그램의 예시를 나타낸다. 스펙트로그램은 시간에 따른 주파수 에너지의 분포를 시각적으로 표현함으로써, 다양한 고장 유형의 특징을 효과적으로 포함할 수 있다는 장점을 지닌다.

https://cdn.apub.kr/journalsite/sites/kasa/2026-018-01/N0380180103/images/kasa_18_01_03_F2.jpg

Fig. 2

Visualization of waveform and spectrogram of dataset

스펙트로그램 기반의 고장 진단 모델에는 이미지 분류 분야에서 높은 성능이 검증된 CNN 아키텍처를 적용할 수 있다. 따라서 본 연구에서는 ResNet을 전이학습 방식으로 활용하였다. ResNet은 잔차 연결(Residual connection)을 도입함으로써 깊은 신경망에서 발생하는 기울기 소실(Gradient vanishing) 문제를 효과적으로 완화하고, 더 많은 층을 효율적으로 학습할 수 있도록 설계되었다.⁽¹¹⁾ 이러한 구조적 특성은 전기차 구동 모터의 진동 신호에서 나타나는 복잡하고 비선형적인 시간-주파수 패턴을 안정적으로 학습하는 데 유리하다.

또한, 전이학습은 사전학습된 대규모 이미지 데이터셋의 표현 학습 결과를 새로운 도메인에 효과적으로 재활용함으로써, 상대적으로 소량의 학습 데이터만으로도 우수한 분류 성능을 달성할 수 있다는 강점을 가진다.⁽²²⁾ 이를 통해 학습 데이터의 부족 문제를 완화하고, 모델이 일반화 성능을 확보할 수 있도록 지원한다. 본 연구에서는 ImageNet 데이터셋⁽²⁵⁾으로 사전학습된 ResNet의 가중치를 초기값으로 활용하고, 전기차 구동 모터의 스펙트로그램 데이터에 대해 미세조정(Fine-tuning)을 수행하였다.⁽²⁶⁾ 이러한 접근은 전기차 모터 결함 진단 분야에서 발생할 수 있는 데이터 수집과 라벨링의 비용을 최소화하면서도, 학습 효율을 극대화하고 고장 유형에 대한 민감도와 분류 정확도를 동시에 높일 수 있도록 한다. 결과적으로 정상 상태뿐만 아니라 다양한 고장 유형을 구분할 수 있는 전이학습 기반 고장 진단 모델을 구축하였다.

3.2. Grad-CAM을 이용한 설명가능한 전기차 모터 고장 진단

3.1절에서 구축한 전이학습 기반의 ResNet 분류 모델은 높은 분류 성능을 확보할 수 있지만, 내부의 의사결정 과정을 사람이 직관적으로 이해하기 어렵다는 블랙박스 문제를 내포하고 있다. 이러한 한계는 실제 고장 진단 분야에서 예측 결과를 신뢰성 있게 활용하기 어렵게 만들기에, 설명가능성을 확보하기 위한 보완 기술이 필요하다.

Grad-CAM은 딥러닝 분류 모델의 최종 출력에 기여한 입력 이미지의 영역을 시각적으로 강조하여, 모델이 어떤 부분을 근거로 의사결정을 내렸는지를 직관적으로 제시할 수 있는 대표적인 XAI 기법이다.⁽⁸⁾ Grad-CAM은 대상 클래스에 대한 그래디언트(Gradient)를 활용해 마지막 합성곱층의 특징 맵을 가중합함으로써, 모델이 주목한 영역을 히트맵으로 표현한다. 이를 통해 스펙트로그램 이미지의 시간-주파수 영역 중에서 모델의 분류에 크게 기여한 패턴을 시각적으로 확인할 수 있으며, 사용자가 모델의 판단 근거를 신뢰할 수 있도록 돕는다.

본 연구에서는 ResNet 기반의 고장 분류 모델에 Grad-CAM을 적용하여, 전기차 구동 모터 고장 유형 분류의 핵심 의사결정 근거를 시각적으로 강조하였다. 이를 통해 모델이 특정 주파수 대역이나 시간 구간에 존재하는 에너지 집중 패턴을 근거로 결함을 판별했음을 검증할 수 있었으며, 이는 사람의 해석과 비교하여 일관성을 평가하는 데 활용할 수 있다. 또한 Grad-CAM 시각화를 통해 모델이 잘못 분류한 사례의 원인을 분석하고, 추가적인 데이터 수집이나 모델 개선의 방향성을 도출할 수 있다는 점에서 중요한 역할을 수행한다.

3.3. 비전-언어 모델을 이용한 설명가능한 전기차 모터 고장 진단

3.2절에서 설명한 Grad-CAM 기법은 딥러닝 분류 모델의 의사결정 근거를 시각적으로 강조함으로써 설명가능성을 높이는 유용한 도구이다. 그러나 Grad-CAM의 시각화 결과를 해석하는 과정은 여전히 사람이 이미지상의 히트맵을 직접 확인하고 판단해야 하며, 특히 시간-주파수 영역 정보가 복잡하게 얽힌 스펙트로그램의 경우 해석에 큰 부담이 따른다.

이러한 한계를 보완하기 위해, 본 연구에서는 VLM을 활용하여 Grad-CAM 시각화 결과를 자연어 형태로 자동 해석하고 설명할 수 있는 기법을 제안한다. VLM은 이미지의 시각적 패턴을 이해하고 이를 바탕으로 자연어 설명을 생성할 수 있을 뿐만 아니라, 최근에는 합리적인 추론 능력을 포함해 이미지 간의 맥락적 관계나 의미를 분석하는 데도 활용되고 있다.

본 연구에서는 원본 스펙트로그램 이미지와 Grad-CAM으로 강조된 히트맵 이미지를 동시에 VLM의 입력으로 활용하고, 이와 함께 스펙트로그램의 시간-주파수 축과 고장 유형 진단 정보를 제공함으로써 결함 징후를 보다 구체적으로 해석할 수 있도록 하였다. 이러한 접근 방식은 사람이 직접 시각화 결과를 분석하던 과정을 자동화하고, 이해하기 쉬운 자연어 보고서 형태의 설명을 생성함으로써 고장 진단 결과의 투명성과 신뢰성을 높일 수 있다.

이와 함께, Grad-CAM 기반 시각화 결과를 보다 체계적이고 자동화된 방식으로 해석하기 위해 VLM에 입력할 프롬프트(Prompt)를 설계하였다. 제안된 프롬프트는 전기차 구동 모터에서 판별된 고장 진단 유형을 대상으로 한 스펙트로그램 이미지와 Grad-CAM 시각화 결과를 함께 제공하며, 전문가 수준의 진단 보고서 형식으로 해석을 수행하도록 유도한다. 특히 VLM의 출력 결과는 프롬프트를 어떻게 설계하느냐에 따라 크게 달라질 수 있기 때문에, 이를 고려하여 표현 방식을 구성하였다.

프롬프트는 전기차 구동 모터 고장 진단 전문가의 관점을 가정하였다. X축인 시간 축은 0초부터 10초, Y축인 주파수 축은 0 Hz부터 2,560 Hz까지의 정보를 원본 스펙트로그램을 기반으로 한다. 에너지 분포를 기준으로 파란색은 낮은 에너지, 빨간색은 높은 에너지를 나타내는 Grad-CAM 결과의 의미를 명확히 설명하도록 구성하였다. 또한, Grad-CAM이 강조한 시공간 영역을 바탕으로, 고장 유형의 물리적 특성과의 연관성을 논리적으로 해석해줄 것을 요청함으로써, 단순한 시각적 해석을 넘어 고장 원인과 패턴을 진단할 수 있는 근거 중심의 설명을 생성하도록 설계하였다. Table 1은 이러한 프롬프트의 구체적 예시를 제시한다.

Table 1.

Template for prompt in analyzing the visualization result of Grad-CAM analysis

Type	Prompt
Role Description	You are an expert in electric vehicle drive motor fault diagnosis. The left image shows the original vibration spectrogram of an electric vehicle drive motor, while the right image shows the Grad-CAM visualization highlighting the important features used for classification.
Technical Details	<Technical Details> The class label predicted is {Fault type}, identified by a ResNet-based deep learning classification model. Grad-CAM (Gradient-weighted Class Activation Mapping) is a technique that visualizes which regions in the input image contributed most strongly to the model’s decision by creating a heatmap overlay. In the spectrogram, the X-axis represents time ranging from 0 to 10 seconds, and the Y-axis represents frequency ranging from 0 Hz to 2560 Hz. The color scale indicates vibration energy, where blue regions correspond to relatively low energy levels and red regions correspond to high energy levels. </Technical Details>
Task Specification	<Task Specification> Please describe in detail the key time-frequency patterns emphasized in the Grad-CAM result, and explain how these patterns relate to possible demagnetization symptoms in a permanent magnet motor. Provide your answer in a clear and technically sound diagnostic report style. </Task Specification>

4. 실험 환경

4.1. 데이터셋

본 연구에서는 현대자동차 아이오닉 일렉트릭의 주행 중 구동 모터에서 수집된 진동 데이터를 활용하였다.⁽²⁷⁾ 수집된 데이터는 10초 단위의 진동 신호로 구성되며, 데이터의 개수는 총 6,126개이다. 이 데이터셋은 실제 운전 조건에서 발생할 수 있는 다양한 고장 상황을 반영하고 있으며, 구동 모터의 대표적인 결함과 정상 상태를 포함하는 5개의 클래스로 구분된다. 구체적으로, 영구자석 탈자 결함을 나타내는 DEMAG, 10%의 경미한 편심 결함을 나타내는 Eccentricity 10%(ECC10), 20%의 심한 편심 결함을 나타내는 Eccentricity 20%(ECC20), 정상 상태를 나타내는 NORMAL, 그리고 자속 약화 상태를 의미하는 Reduction of magnetic flux(REDUC)로 구성되어 있다. Table 2에는 각 클래스별 설명과 데이터 샘플 수를 요약하여 제시하였다. Fig. 3은 각 클래스에 대한 스펙트로그램 예시 데이터를 나타낸다.

Table 2.

Summary of output variables of the dataset

Class	Description	Samples
DEMAG	Demagnetization fault	1,207
ECC10	10% static eccentricity fault	1,271
ECC20	20% static eccentricity fault	1,271
NORMAL	Normal operating condition	1,237
REDUC	Flux weakening fault	1,140

https://cdn.apub.kr/journalsite/sites/kasa/2026-018-01/N0380180103/images/kasa_18_01_03_F3.jpg

Fig. 3

Visualization of output variable of dataset

4.2. 실험 환경

전기차 구동 모터 고장 진단을 위한 이미지 기반 분류 모델로 총 8개의 딥러닝 모델을 실험에 활용하였다. 구체적으로 DenseNet⁽²⁸⁾, SqueezeNet⁽²⁹⁾, MNASNet⁽³⁰⁾, MobileNet V3⁽³¹⁾, ShuffleNet V2⁽³²⁾, VGG16⁽³³⁾, RegNet⁽³⁴⁾, ResNet⁽¹¹⁾을 비교 분석 대상으로 선정하였다. 이들 모델은 모두 torchvision 라이브러리⁽³⁵⁾에서 제공하는 사전학습 가중치를 기반으로 전이학습 방식을 적용하였으며, 스펙트로그램 데이터를 입력으로 하여 고장 분류 성능을 검증하였다.

데이터셋은 학습(Train), 검증(Validation), 테스트(Test) 세 부분으로 분할하여 구성하였다. 전체 데이터의 70%를 학습용, 10%를 검증용, 20%를 테스트용으로 할당하였다. 모델 학습은 최대 50 epoch까지 수행하되, 검증 데이터의 성능 개선이 일정 시점 이후 정체되면 조기 종료(Early stopping) 기법을 적용하여 과적합(Overfitting)을 방지하였다. 최적화 알고리즘은 Adam을 채택하여 모델의 수렴 속도를 높였다.

Grad-CAM 결과를 해석하기 위한 VLM으로는 OpenAI의 GPT-4o⁽³⁶⁾를 활용하였다. GPT-4o는 텍스트와 이미지를 동시에 처리할 수 있는 멀티모달 인공지능 모델로, 이미지 내의 시각적 단서와 언어적 정보를 결합하여 복합적인 추론을 수행할 수 있는 최신 VLM이다. 특히 이러한 복합 추론 능력을 통해 Grad-CAM 시각화 결과에 대한 자연어 설명을 직관적으로 생성할 수 있어, 본 연구의 설명가능성 강화를 위한 핵심 요소로 활용되었다.

4.3. 평가 지표

본 연구에서 구축한 전이학습 기반 고장 분류 모델의 성능 평가는 분류 문제에서 표준적으로 사용되는 정량적 지표를 활용하였다. 구체적으로는 Precision(정밀도), Recall(재현율), F1-score, Accuracy(정확도)를 측정하여 모델의 전반적인 분류 성능을 비교하고 분석하였으며, 각 지표에 대한 공식은 식 (1)부터 (4)와 같다.⁽³⁷⁾ Precision은 양성으로 판단한 것 중 실제로 양성인 비율을, Recall은 전체 실제 양성 사례 중 모델이 올바르게 검출한 비율을 의미한다. F1-score는 Precision과 Recall의 조화 평균으로 두 지표 간 균형을 고려한 성능을 종합적으로 평가한다. Accuracy는 전체 데이터 중 올바르게 분류된 샘플의 비율을 나타내어 모델의 일반적인 정확도를 보여준다.

한편, VLM을 활용하여 Grad-CAM 결과를 자동으로 텍스트 형태로 해석한 결과에 대해서는, 자동차 연구원 검토를 기반으로 한 정성적 평가를 수행하였다. 즉, VLM이 생성한 설명이 실제 결함 상황과 부합하는지, 시간-주파수 영역 정보와 결함 유형을 적절하게 해석했는지에 대해 주관적 평가를 통해 타당성을 검증하였다. 이를 통해 제안 기법의 설명가능성과 실무 적용 가능성을 함께 검토하였다.

(1)

P r e c i s i o n = \frac{T r u e P o s i t i v e}{T r u e P o s i t i v e + F a l s e P o s i t i v e}

(2)

R e c a l l = \frac{T r u e P o s i t i v e}{T r u e P o s i t i v e + F a l s e P o s i t i v e}

(3)

F 1 S c o r e = 2 \times \frac{P r e c i s i o n \times R e c a l l}{P r e c i s i o n + R e c a l l}

(4)

A c c u r a c y = \frac{T r u e P o s i t i v e + T r u e N e g a t i v e}{T r u e P o s i t i v e + F a l s e P o s i t i v e + F a l s e N e g a t i v e + T r u e N e g a t i v e}

5. 실험 결과

5.1. 전기차 구동 모터 고장 진단 모델 성능 평가

본 연구에서 제안한 전이학습 기반 전기차 구동 모터 고장 진단 모델의 성능을 검증하기 위해, 총 8개의 딥러닝 모델을 대상으로 Precision, Recall, F1-score, Accuracy 지표를 산출하여 비교 평가를 수행하였다. Table 3은 각 모델별 정량적 평가 결과를 요약하여 제시한 것이다. 각 지표에 대해 가장 우수한 성능은 진한 색을, 2번째로 우수한 성능은 밑줄을 표기하였다.

Table 3.

Comparison of the performance of electric vehicle drive motor fault diagnosis model

Model	Precision	Recall	F1-score	Accuracy
ShuffleNet V2	0.8512	0.8503	0.8503	0.8503
DenseNet	0.8587	0.8584	0.8573	0.8584
SqueezeNet	0.8591	0.8552	0.8539	0.8552
MNASNet	0.8215	0.8163	0.8079	0.8163
MobileNet V3	0.8493	0.8471	0.8463	0.8471
VGG16	0.8602	0.8576	0.8571	0.8576
RegNet	0.8598	0.8592	0.8579	0.8592
ResNet	0.8648	0.8633	0.8631	0.8633

평가 결과, ResNet 모델이 모든 평가 지표에서 가장 우수한 성능을 기록하며, 전기차 구동 모터의 복잡한 결함 패턴을 효과적으로 학습하고 구분할 수 있는 분류 성능을 보여주었다. 이는 대규모 이미지 학습으로부터 전이된 표현 학습의 장점을 효과적으로 활용한 것으로 평가된다. 그 뒤를 이어 RegNet 모델이 2번째로 우수한 성능을 보였다. 한편, VGG16, DenseNet 등의 모델도 전반적으로 높은 성능을 유지하며 분류 안정성을 확보하였고, ShuffleNet V2, SqueezeNet, MobileNet V3 등 경량화 모델들도 연산 효율성과 실시간 적용 가능성을 고려할 때 경쟁력 있는 대안으로 검토될 수 있었다.

이러한 결과를 통해 ResNet 모델은 전기차 구동 모터의 복잡한 시간-주파수 패턴을 효과적으로 학습하고 표현할 수 있는 강점을 가지며, 실제 산업 현장에서 요구되는 높은 정확도를 충족할 수 있음을 확인하였다.

5.2. 비전-언어 모델 기반 Grad-CAM 분석을 통한 설명가능한 전기차 구동 모터 고장 진단 평가

5.1절에서 구축한 ResNet 기반 고장 진단 모델의 Grad-CAM 시각화 결과를, VLM을 활용해 자동으로 해석하고 자연어 보고서 형태로 진단 설명을 생성하였다. Fig. 4는 DEMAG 고장 유형으로 분류된 원본 스펙트로그램과 이에 대응하는 Grad-CAM 시각화 결과를 나타낸다. Table 4는 VLM을 이용하여 Fig. 4를 텍스트 형태로 해석한 모습을 나타낸다.

https://cdn.apub.kr/journalsite/sites/kasa/2026-018-01/N0380180103/images/kasa_18_01_03_F4.jpg

Fig. 4

Visualization of spectrogram and Grad-CAM for data classified as DEMAG

Table 4.

Interpretation of Grad-CAM using vision-language model (corresponding to Fig. 4)

Result

EV Drive Motor Fault Diagnostic Report

Class Label: DEMAG (Demagnetization Fault)
Model Confidence: 1.0000

1. Spectrogram Analysis
The provided images consist of:
Left: Original vibration spectrogram of a permanent magnet synchronous motor (PMSM) drive measured over a 10-second period
(0-10 s) and a frequency range of 0-2560 Hz.
Right: Grad-CAM visualization highlighting salient time-frequency regions that the ResNet-based classifier identified as
characteristic of a demagnetization fault.
In the spectrogram, color indicates vibration energy:
Blue: relatively low energy
Red: relatively high energy

2. Key Grad-CAM Observations
From the Grad-CAM overlay, several notable features are emphasized:
Frequency band emphasis around 800–1800 Hz:
There is strong activation in the band roughly from 800 Hz to 1800 Hz. The Grad-CAM highlights this band especially between
time 3-9 seconds, indicating that the classifier paid particular attention to harmonic and sideband activity in this zone.
Temporal emphasis around 4–9 seconds:
The Grad-CAM heatmap shows higher activations concentrated between 4 and 9 seconds, suggesting that the relevant fault
signatures were most prominent during this interval.
Spatial continuity of highlighted regions:
The activation map does not display isolated spikes but rather continuous highlighted bands, reflecting consistent harmonic
modulations likely related to the electromagnetic torque pulsation and magnetic asymmetry associated with partial
demagnetization.

3. Interpretation in Relation to Demagnetization Faults
Partial demagnetization of rotor permanent magnets in a PMSM is known to create:
Reduction in effective magnetic flux
Increased magnetic asymmetry
Torque ripple and unbalanced magnetic pull
Induced sideband frequency components linked to pole-pair interactions and slot harmonics
These conditions cause sideband modulations and increased vibration energy in specific frequency ranges, which typically manifest
between 1-2 kHz depending on machine design and fault severity. The classifier correctly emphasized these features, as shown in
the Grad-CAM.
Furthermore, the temporal concentration between 4-9 seconds may indicate load transitions or speed variations that amplify
demagnetization effects, resulting in pronounced harmonic patterns during that time window.

4. Diagnostic Conclusion
The Grad-CAM visualization provides a credible explanation of how the ResNet classifier recognized the DEMAG class with high
confidence. The highlighted frequency bands and temporal segments correspond well with known spectral signatures of PMSM
partial demagnetization:
Presence of harmonics and sidebands in the 800–1800 Hz region
Consistent activation indicating persistent fault characteristics
Temporal focus where machine load or operating point may have worsened fault manifestation

Overall, the Grad-CAM-supported evidence strongly supports the DEMAG diagnosis, and no contradictory features were identified
in the emphasized regions.

Grad-CAM 결과에 기반한 VLM의 진단 보고서는 800-1,800 Hz 주파수 대역과 4-9초 구간에서 지속적으로 활성화된 패턴을 핵심 근거를 제시하였다. 이는 영구자석의 부분 탈자 시 나타나는 고조파와 비대칭 자속 분포에 기인한 토크 리플(Torque ripple) 및 불평형 자기인력(Unbalanced magnetic pull) 등과 밀접하게 연관된 주파수 특징으로, 실제 결함 특성과 일치하는 것으로 평가된다. 또한, 4-9초 구간에 집중된 활성화는 모터의 부하 변동이나 속도 변화에 따른 결함 징후의 증폭 현상을 반영한 것으로 해석된다.

아울러 Grad-CAM 히트맵이 국소적인 스파이크가 아닌 연속적인 밴드 형태를 나타낸 점은, DEMAG 결함의 지속적이고 일관된 고장 특성을 강조한 것으로 판단된다. VLM은 이러한 활성화 영역을 기반으로, 영구자석 탈자에 의한 고유한 진동 에너지 분포와 고조파 특성을 논리적으로 설명하며, 해당 결함의 진단 신뢰성을 높였다.

이처럼 VLM을 활용한 Grad-CAM 결과의 자동 해석은 사람이 직접 시각화 결과를 해석해야 했던 기존의 한계를 보완하며, 직관적이고 기술적으로 신뢰할 수 있는 진단 보고서를 자동으로 생성할 수 있음을 시사한다. 본 결과는 VLM 기반 XAI 기술이 전기차 구동 모터의 고장 진단 분야에서 실질적으로 적용될 수 있는 가능성을 뒷받침하며, 향후 현장 활용성을 더욱 높일 수 있을 것으로 기대된다.

5.3. 기존 설명 기법과의 비교를 통한 비전-언어 모델 기반 해석의 유효성 분석

본 절에서는 기존 Grad-CAM 기반 시각적 설명 기법과 본 연구에서 제안한 VLM 기반 해석 접근법을 비교하여, 제안 기법의 해석적 강점을 분석한다. 이를 위해 Fig. 5에 제시된 DEMAG, ECC10, ECC20, REDUC 및 NORMAL 클래스의 진동 스펙트로그램과 Grad-CAM 결과를 비교 대상으로 활용하였으며, 특히 ECC10, ECC20, REDUC 사례를 중심으로 논의를 전개한다.

https://cdn.apub.kr/journalsite/sites/kasa/2026-018-01/N0380180103/images/kasa_18_01_03_F5.jpg

Fig. 5

Comparison of original vibration spectrograms and Grad-CAM visualizations across fault classes

Grad-CAM은 분류 결정에 기여한 시공간적 영역을 직관적으로 시각화할 수 있다는 장점을 가진다. Fig. 5의 Grad-CAM 결과에서도 각 클래스별 저주파 또는 중주파 대역이 강조되는 패턴을 확인할 수 있다. 그러나 이러한 시각적 강조만으로는 다음과 같은 한계가 존재한다. 먼저, 강조된 영역의 물리적 의미를 명확히 해석하기 어렵다. 예를 들어 ECC10과 REDUC 클래스 모두 저-중주파 영역에서 유사한 활성화가 관측되나, 해당 패턴이 초기 탈자에 의한 것인지 단순 운전 조건 변화에 의한 것인지는 명확히 구분하기 어렵다. 또한, 클래스 간 열화 수준의 차이를 Grad-CAM 결과만으로는 객관적으로 구분하기 어려우며, 해석 과정이 사용자의 도메인 지식과 주관적 판단에 의존한다는 한계가 존재한다. 예를 들어 ECC10과 ECC20 모두 저주파 강조 패턴을 보이나, ECC20에서 나타나는 시간 후반부 국소 강화가 탈자 심화를 의미하는지에 대한 판단은 시각 정보 자체가 아닌 해석자의 경험에 의해 결정된다.

본 연구에서 제안한 VLM 기반 접근법은 Grad-CAM 결과를 단순 시각화 출력으로 사용하는 것이 아니라, 이를 물리적으로 해석 가능한 진단 설명으로 확장한다는 점에서 기존 기법과 차별화된다. Table 5는 VLM이 Grad-CAM 결과를 텍스트로 해석한 결과이며, 각 고장 클래스에 대한 분석 결과 중 개괄적인 특징에 해당하는 부분을 기술하였다. DEMAG에서 VLM은 저-중주파 대역 전반에 걸친 강한 활성화 패턴을 공극 자속의 붕괴로 인한 전자기력 불균형으로 해석한다. ECC10에서 VLM은 저-중주파 대역에 걸친 광범위한 활성화를 공극 지속의 부분적 감소로 인한 전자기력 변동으로 해석하며, 이를 초기 탈자 단계로 연결한다. ECC20의 경우에는 시간 후반부에 집중되는 저주파 활성화를 저주파 활성화를 부하 및 열 누적 조건에서 심화되는 토크 리플로 해석한다. 마지막으로 REDUC에 대해서는 중간 수준의 주파수 집중과 시간 의존적 패턴을 자석 성능 감소로 해석한다.

Table 5.

Overview of Grad-CAM activation characteristics interpreted by vision-language model (corresponding to Fig. 5)

Result - DEMAG

The Grad-CAM visualization for the DEMAG class exhibits strong, centralized, and persistent activation over a wide
time–frequency region. Unlike early or partial demagnetization cases, the highlighted regions in this case are highly prominent and
spatially coherent, indicating that the classification decision is driven by dominant and unambiguous vibration signatures.
The activation pattern suggests a fault condition that significantly alters the electromagnetic behavior of the motor across the entire
operating period.

Result - ECC10

The Grad-CAM visualization for the ECC10 class exhibits a broad but structured activation pattern, in contrast to sharply localized
hotspots typically observed in severe fault conditions. The highlighted regions form a wide, dome-shaped emphasis across both time
and frequency, indicating that the classification decision is driven by distributed spectral characteristics rather than isolated
impulses.
This activation profile is consistent with a mild or incipient electromagnetic anomaly, where fault-related signatures are present but
not yet dominant.

Result - ECC20

The Grad-CAM visualization highlights several distinct time–frequency regions that contribute most strongly to the ECC20
classification decision. Compared with the original spectrogram, the Grad-CAM heatmap exhibits localized, structured emphasis
rather than diffuse activation, indicating that the model relies on specific physical vibration signatures rather than global energy
levels.
The most salient activations are concentrated in:
Low-to-mid frequency bands, and
Specific temporal intervals, particularly toward the later part of the signal.
These patterns suggest fault-related phenomena that are persistent but not uniformly distributed over time, consistent with
electromagnetic degradation rather than transient mechanical shocks.

Result - REDUC

The Grad-CAM visualization for the REDUC class exhibits moderately localized but temporally extended activations, primarily
concentrated in the low-to-mid frequency bands with a clear time-dependent intensification. The REDUC pattern is less diffuse than
early demagnetization and less sharply localized than severe demagnetization, suggesting an intermediate electromagnetic
degradation state characterized by reduced effective magnetic flux.

이러한 분석 결과를 종합하면, 기존 Grad-CAM 기반 설명에서는 전문가가 각 클래스의 시각적 패턴을 개별적으로 해석해야 했던 반면, VLM 기반 접근법은 각 탈자 계열 고장 패턴을 자동으로 해석하고 구조화된 진단 의미로 변환할 수 있음을 확인하였다. 이는 시각적 강조 영역에 대한 해석을 사용자 경험에 의존하던 기존 방식과 달리, 고장 진행 양상을 일관된 전자기 열화 관점에서 자동 해석할 수 있음을 의미한다.

5.4. 비전-언어 모델 기반 해석의 한계 사례 분석

본 연구에서는 VLM 기반 해석이 명확하게 수행된 사례뿐만 아니라, 해석이 모호하게 나타난 사례를 함께 분석하였다. Fig. 6과 Table 6은 ECC20 클래스에 대해 높은 분류 확률을 보였으나, Grad-CAM 기반 해석이 명확하지 않은 사례를 제시한다.

https://cdn.apub.kr/journalsite/sites/kasa/2026-018-01/N0380180103/images/kasa_18_01_03_F6.jpg

Fig. 6

Visualization of spectrogram and Grad-CAM for data classified as ECC20

Table 6.

Overview of Grad-CAM activation characteristics interpreted by vision-language model (corresponding to Fig. 6)

Result - ECC20

The Grad-CAM visualization for the ECC20 class highlights low-to-mid frequency regions across the time axis; however, the
activation is not clearly localized to distinct temporal segments typically associated with load-dependent demagnetization behavior.
The activation pattern partially overlaps with electromagnetic fault-related characteristics but lacks a clearly defined temporal
concentration. As a result, the observed pattern may reflect a mixture of electromagnetic torque ripple and
operating-condition-dependent vibration components.

해당 사례에서 Grad-CAM은 저-중주파 대역 전반에 걸친 활성화를 보이나, 특정 시간 구간에 국소적으로 집중된 패턴이 뚜렷하지 않다. 이에 VLM은 해당 활성화에 대한 변화 원인을 해석한 결과가 모호함을 기술하였다. 이는 VLM 기반 해석이 모든 사례에서 결정적인 진단 설명을 생성하는 것이 아니라, 입력된 Grad-CAM 패턴의 구분도가 낮은 경우 해석 불확실성을 반영함을 보여준다. 제안 기법은 해석 신뢰도가 낮은 경우 이를 명시적으로 드러내는 특성을 보인다.

이러한 결과는 본 연구에서 제안한 VLM 기반 해석이 모든 사례에서 항상 명확한 진단 설명을 제공하지는 않음을 보여준다. 특히 Grad-CAM 패턴의 구분도가 낮은 경우, 해석 결과에 불확실성이 동반될 수 있음을 확인하였다. 향후 연구에서는 이러한 불확실성 사례를 정량적으로 평가하고, 해석 신뢰도를 보완할 수 있는 추가적인 기준을 도입함으로써 VLM 기반 해석의 견고성을 더욱 향상시킬 계획이다.

6. 결론 및 제언

본 연구에서는 설명가능한 전기차 구동 모터 고장 진단을 위하여, 스펙트로그램 기반 딥러닝 분류에 Grad-CAM 시각화와 VLM을 결합한 통합 진단 프레임워크를 제안하였다. 제안 기법은 진동 신호의 시간-주파수 정보를 효과적으로 표현하는 스펙트로그램을 활용하여 전이학습 기반 딥러닝 모델로 고장 유형을 분류하고, Grad-CAM을 통해 모델의 의사결정 근거를 시각적으로 강조함으로써 블랙박스 문제를 완화하였다. 또한, Grad-CAM의 시각적 히트맵을 VLM을 통해 자연어로 자동 해석함으로써 사용자의 해석 부담을 경감하고, 직관적이고 이해 가능한 설명을 제공하였다. 이러한 통합 접근은 단순한 진단 정확도 향상을 넘어, Software-Defined Vehicle(SDV) 환경에서의 지능형 진단-예지-제어 루프 형성을 위한 기반 기술로서의 확장성을 갖는다.^(38,³⁹⁾ SDV 환경에서는 차량의 기능이 소프트웨어 중심으로 제어되며 Over-the-Air(OTA)를 통한 업데이트가 일상화되고 있는바, 본 진단 시스템은 결함 발생 초기의 징후를 실시간 탐지하여 차량의 통합 제어 시스템에 전달함으로써 회복탄력성(Resilience)을 확보할 수 있다. 이는 고장이 발생해도 주행 안전성과 성능을 유지하는 능동적 제어를 가능하게 하며, 향후 예지 제어 기반의 지능형 순환 구조 구현에 기여할 수 있다.

또한, 최근 확산되고 있는 ‘N-in-1’ 통합 구동계(Power Electronics) 모듈 환경에서는 고장 발생 시 전체 모듈 교체가 요구되는 경제적 리스크가 존재한다.⁽⁴⁰⁾ 본 연구에서 제안한 진단 시스템은 VLM 기반 설명을 통해 결함의 원인을 모듈 전체가 아닌 내부 특정 부품 또는 물리 현상 수준에서 정밀하게 지목할 수 있어, 책임 소재의 명확화, 보증 수리 근거 제시, 차세대 모듈 설계 피드백 등 다양한 측면에서 경제적·산업적 가치를 제공할 수 있다.⁽⁴¹⁾

뿐만 아니라, 본 시스템은 전기차 파워트레인의 핵심 구성 요소인 배터리 시스템과의 연동을 통해 통합 에너지 시스템 관점에서도 높은 확장 가능성을 지닌다. 구동 모터의 이상 징후 데이터는 Battery Management System (BMS)로 전달되어 배터리의 전력 공급 패턴을 능동적으로 조정하거나, 운전자에게 최적의 주행 습관을 안내하는 지능형 피드백 루프를 구성할 수 있다.⁽⁴²⁾ 이는 단일 부품 단위의 건강 모니터링을 넘어, 파워트레인 전체의 통합 건강 관리를 가능하게 하는 기반 기술이 될 것이다.⁽⁴³⁾

향후 연구에서는 다음과 같은 방향으로 확장될 예정이다. 첫째, 현재 고려된 5가지 고장 유형 외에도 베어링 손상, 권선 단락, 회전자 불평형 등 다양한 결함 시나리오와 복합 결함 데이터를 포함하는 고신뢰 진단 데이터셋을 확보하며, 제안 모델의 일반화 성능을 검증할 예정이다. 둘째, 실시간 주행 환경에서의 적용을 위하여 온라인 스트리밍 기반 데이터 수집·전처리 기술을 연계하고, 경량화된 딥러닝 모델을 Edge Computing 환경에 적용하여 현장 진단 가능성을 평가할 계획이다.⁽⁴⁴⁾ 셋째, VLM의 설명 품질 향상을 위해 도메인 전문가 보고서 및 실 주행 로그를 활용한 맞춤형 파인튜닝을 수행하고, Human-in-the-Loop 기반 학습 구조를 결합하여 산업 현장에서의 신뢰성과 채택 가능성을 더욱 제고하고자 한다.

결론적으로, 본 연구에서 제안한 설명가능한 전기차 구동 모터 진단 시스템은 전기차 산업의 진화 방향인 SDV, 통합 구동계, 통합 에너지 시스템과 긴밀히 연결되며, 향후 미래차의 안정성과 경제성, 에너지 효율성 제고를 동시에 도모할 수 있는 기반 기술로 자리매김할 수 있을 것이다.

References

Alanazi, F., 2023, “Electric Vehicles: Benefits, Challenges, and Potential Solutions for Widespread Adaptation,” Applied Sciences, Vol. 13, No. 10, 6016.

10.3390/app13106016

Thirunavukkarasu, S., Karthick, K., Aruna, S.K.., Manikandan, R., and Safran, M., 2024, “Optimized Fault Classification in Electric Vehicle Drive Motors Using Advanced Machine Learning and Data Transformation Techniques”, Processes, Vol. 12, No. 12, 2648.

10.3390/pr12122648

He, H., Zhou, N., Guo, J., Zhang, Z., Lu, B., and Sun, C., 2018, “Tolerance analysis of electrified vehicles on the motor demagnetization fault: From an energy perspective,” Vol. 227, pp. 239~248.

10.1016/j.apenergy.2017.08.226

Yu, H., and Liu, Z., 2012, “Fault Analysis and Fault-Tolerant Control of Electric Motor Drive System in HEV,” 2012 Fifth International Conference on Intelligent Computation Technology and Automation, Zhangjiajie, China, 2012, pp. 177~180.

10.1109/ICICTA.2012.51

Kumar, P., Prince, Sinha, A. K., Kim, H., 2024, “Electric Vehicle Motor Fault Detection with Improved Recurrent 1D Convolutional Neural Network,” Mathematics, Vol. 12, No. 19, 3012.

10.3390/math12193012

Buhrmester, V., Munch, D., and Arens, M., 2019, “Analysis of Explainers of Black Box Deep Neural Networks for Computer Vision: A Survey,” arXiv preprint, arXiv:1911.12116.

Ali, S., Abuhmed, T., El-Sappagh, S., Muhammad, K., Alonso-Moral, J. M., Confalonieri, R., Guidotti, R., Ser, J. D., Diaz-Rodriguez, N., and Herrera, F., 2023, “Explainable Artificial Intelligence (XAI): What we know and what is left to attain Trustworthy Artificial Intelligence,” Information Fusion, Vol. 99, 101805.

10.1016/j.inffus.2023.101805

Selvaraju, R. R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., and Batra, D., 2017, “Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization,” 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2017, pp. 618~626.

10.1109/ICCV.2017.74

Zhang, J., Huang, J., Jin, S., and Lu, S., 2024, “Vision-Language Models for Vision Tasks: A Survey,” arXiv preprint, arXiv:2304.00685.

10.1109/TPAMI.2024.3369699

Cheng, K., Yantao, L., Xu, F., Zhang, J., Zhou, H., and Liu, Y., 2025, “Vision-Language Models Can Self-Improve Reasoning via Reflection,” Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies, Albuquerque, New Mexico, 2025, pp. 8876~8892.

10.18653/v1/2025.naacl-long.447

He, K., Zhang, X., Ren, S., and Sun, J., 2015, “Deep Residual Learning for Image Recognition,” IEEE/CVF Conference on Computer Vision and Pattern Recognition, Boston, Massachusetts, USA, 2015, pp. 770~778.

10.1109/CVPR.2016.90

Owens, F. J. and Murphy, M. S., 1988, “A short-time Fourier transform,” Signal Processing, Vol. 14, No. 1, pp. 3~10.

10.1016/0165-1684(88)90040-0

Junior, R. F. R., Areias, I. A., Campos, M. M., Teixeira, C. E., Eduardo, L., Silva, B., and Gomes, G. F., 2022, “Fault Detection and Diagnosis in Electric Motors Using Convolution Neural Network and Short-Time Fourier Transform,” Journal of Vibration Engineering & Technologies, Vol. 10, pp. 2531~2542.

10.1007/s42417-022-00501-3

Piedad, E., Mayordo, Z. G., Prieto-Araujo, E., and Gomis-Bellmunt, O., 2024, “Deep Learning-Based Machine Condition Diagnosis Using Short-Time Fourier Transformation Variants,” 2024 International Conference on Diagnostics in Electrical Engineering, Pilsen, Czech Republic, 2024, pp. 1~4.

10.1109/Diagnostika61830.2024.10693710

Ertargin, M., Yildirim, O., Orhan, A., 2024, “Classifying Induction Motor Faults Using Spectrogram Images with Deep Transfer Learning,” Proceedings of the 10th World Congress on Electrical Engineering and Computer Systems and Sciences (EECSS'24), Barcelona, Spain, 2024, pp. 113-1~113-7.

Ribeiro, M. T., Singh, S., and Guestrin, C., 2016, ““Why Should I Trust You?”: Explaining the Predictions of Any Classifier,” Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 16), San Francisco, California, USA, 2016, pp. 1135~1144.

10.1145/2939672.2939778

Mey, O. and Neufeld, D., 2022, “Explainable AI Algorithms for Vibration Data-Based Fault Detection: Use Case-Adadpted Methods and Critical Evaluation,” Sensors, Vol. 22, No. 23, 9037.

10.3390/s2223903736501736PMC9736871

Brito, L. C., Susto, G. A., Brito, J. N., and Duarte, M. A. V., 2022, “Fault Diagnosis using eXplainable AI: a Transfer Learning-based Approach for Rotating Machinery exploiting Augmented Synthetic Data,” arXiv preprint, arXiv:2210.02974.

10.1016/j.eswa.2023.120860

Xu, G., Jin, P., Li, H., Song, Y., Sun, L., and Yuan, L., 2024, “LLaVA-CoT: Let Vision Language Models Reason Step-by-Step,” arXiv preprint, arXiv:2411.10440.

Zhang, R., Zhang, B., Li, Y.,Zhang, H., Sun, Z., Gan, Z., Yang, Y., Pang, R., and Yang, Y., 2024, “Improve Vision Language Model Chain-of-thought Reasoning,” arXiv preprint, arXiv:2410.16198.

10.18653/v1/2025.acl-long.82

Chen, B., Xu, Z., Kirmani, S., Ichter, B., Driess, D., Florence, P., Sadigh, D., Guibas, L., and Xia, F., 2024, “SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities,” arXiv preprint, arXiv:2401.12168.

10.1109/CVPR52733.2024.01370

Rajabi, N. and Kosecka, J., 2024, “Q-GroundCAM: Quantifying Grounding in Vision Language Models via GradCAM,” arXiv preprint, arXiv:2404.19128.

Lee, J. and Rew, J., 2025, “Vision-Language Model-Based Local Interpretable Model-Agnostic Explanations Analysis for Explainable In-Vehicle Controller Area Network Intrusion Detection,” Sensors, 25(10), 3020.

10.3390/s2510302040431814PMC12115109

Zhuang, F., Qi, Z., Duan, K., Xi, D., Zhu, Y., Zhu, H., Xiong, H., and He, Q., 2019, “A Comprehensive Survey on Transfer Learning,” arXiv preprint, arXiv:1911.02685.

Deng, J., Dong, W., Socher, R., Li, L., Li, K., and Fei-Fei, L., 2009, “ImageNet: A large-scale hierarchical image database,” 2009 IEEE Conference on Computer Vision and Pattern Recognition, Miami, Florida, USA, pp. 248~255.

10.1109/CVPR.2009.5206848

Cai, Z. and Peng, C., 2021, “A study on training fine-tuning of convolutional neural networks,” 2021 13th International Conference on Knowledge and Smart Technology (KST), Bangsaen, Chonburi, Thailand, pp. 84~89.

10.1109/KST51265.2021.9415793

National Information Society Agency, 2023, “Fault diagnosis data for autonomous driving,” AI Hub. [Online] Available: https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71347

Huang, G., Liu, Z., Maaten, L. V. D., and Weinberger, K. Q., 2017, “Densely Connected Convolutional Networks,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, pp. 2261~2269.

10.1109/CVPR.2017.243

Iandola, F. N., Han, S., Moskewicz, M. W., Ashraf, K., Dally, W. J., and Keutzer, K., 2016, “SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and >0.5MB model size,” arXiv preprint, arXiv:1602.07360.

Tan, M., Chen, B., Pang, R., Vasudevan, V., Sandler, M., and Howard, A., 2019, “MnasNet: Platform-Aware Neural Architecture Search for Mobile,” 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, pp. 2815~2823.

10.1109/CVPR.2019.00293

Howard, A., Sandler, M., Chu, G., Chen, L., Chen, B., Tan, M., Wang, W., Zhu, Y., Pang, R., Vasudevan, V., Le, Q. V., and Adam, H., 2019, “Searing for MobileNetV3,” 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea, pp. 1314~1324.

10.1109/ICCV.2019.00140

Ma, N., Zhang, X., Zheng, H., and Sun, J., 2018, “ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design,” Proceedings of the European Conference on Computer Vision (ECCV), Munich, Germany, pp. 116~131.

10.1007/978-3-030-01264-9_8

Simonyan, K. and Zisserman, A., 2014, “Very Deep Convolutional Networks for Large-Scale Image Recognition,” arXiv preprint, arXiv:1409.1556.

Radosavovic, I., Kosaraju, R. P., Girshick, R., He, K., and Dollar, P., 2020, “Designing Network Design Spaces,” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, pp. 10425~10433.

10.1109/CVPR42600.2020.01044

PyTorch Team, 2025, “torchvision,” [Online] Available: https://docs.pytorch.org/vision/stable/index.html

OpenAI, 2024, “GPT-4o System Card,” arXiv preprint, arXiv:2410.21276.

Optiz, J., 2024, “A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice,” arXiv preprint, arXiv:2404.16958.

10.1162/tacl_a_00675

Jiang, S., 2024, “Vehicle E/E Architecture and Key Technologies Enabling Software-Defined Vehicle,” SAE Technical Paper, No. 2024-01-2035.

10.4271/2024-01-2035

Hasan, S. and Irgens, P., 2025, “Electronic Control Unit Hardware Design Challenges for Software Defined Vehicle,” SAE Technical Paper, No. 2025-01-8136.

10.4271/2025-01-8136

Nissan Motor Corporation, 2024, “Electric Vehicle Powertrain (3-in-1),” Nissan Motor Corporation Global Website.

Xu, L., Teoh, S. S., and Ibrahim, H., 2024, “A Deep Learning Approach for Electric Motor Fault Diagnosis Based on Modified InceptionV3,” Scientific Reports, Vol. 14, No. 12344.

10.1038/s41598-024-63086-938811686PMC11137000

An, K., Lu, J., Wang, L., Wang, Y., Chen, G., and Wu, J., 2023, “Edge Solution for Real-Time Motor Fault Diagnosis Based on Efficient CNN,” IEEE Transactions on Instrumentation and Measurement, Vol. 72, 3516912.

10.1109/TIM.2023.3276513

Wang, C., Kao, I., and Perng, J., 2017, “Fault Diagnosis and Fault Frequency Determination of PM Synchronous Motor Based on Deep Learning,” Sensors and Materials, Vol. 29, No. 10, pp. 1457~1476.

Yang, H., Kim, J., and Park, S., 2024, “Motor Fault Diagnosis Using Attention-Based Multisensor Feature Fusion,” Energies, Vol. 17, No. 16, 4053.

10.3390/en17164053

Journal of Auto-vehicle Safety Association ISSN:2005-9396(Print) 자동차안전학회지

Preview

Vision-Language Model-based Grad-CAM Analysis for Explainable Electric Vehicle Drive Motor Fault Diagnosis

ABSTRACT

MAIN

Fig. 1

Overall architecture of the proposed method

Fig. 2

Visualization of waveform and spectrogram of dataset

Table 1.

Template for prompt in analyzing the visualization result of Grad-CAM analysis

Table 2.

Summary of output variables of the dataset

Fig. 3

Visualization of output variable of dataset

(1)

(2)

(3)

(4)

Table 3.

Comparison of the performance of electric vehicle drive motor fault diagnosis model

Fig. 4

Visualization of spectrogram and Grad-CAM for data classified as DEMAG

Table 4.

Interpretation of Grad-CAM using vision-language model (corresponding to Fig. 4)

Fig. 5

Comparison of original vibration spectrograms and Grad-CAM visualizations across fault classes

Table 5.

Overview of Grad-CAM activation characteristics interpreted by vision-language model (corresponding to Fig. 5)

Fig. 6

Visualization of spectrogram and Grad-CAM for data classified as ECC20

Table 6.

Overview of Grad-CAM activation characteristics interpreted by vision-language model (corresponding to Fig. 6)

References