Ⅰ. 서론
1. 연구의 배경 및 목적
2. 연구 범위
3. 선행 연구 조사
Ⅱ. 본론
1. 연구 설계
2. 연구 방법론
3. 연구 결과
Ⅲ. 결론
1. 결론
2. 한계점 및 향후 과제
Ⅰ. 서론
1. 연구의 배경 및 목적
최근 국내 항공산업은 COVID-19의 충격에서 벗어나 회복세를 보이고 있다. 국토교통부 항공통계[1]에 따르면, 2024년 국내 15개 공항의 전체 여객 수는 전년 대비 19.5% 증가하여, 역대 최고치인 2019년의 97.3% 수준까지 회복하였다. 이는 국내 항공 여객 수가 사실상 팬데믹 이전 수준에 근접했음을 의미한다. 수요 회복과 함께 공급 역시 증가하면서, 공항 운영 효율성과 지연 관리의 중요성이 한층 부각되고 있다.
항공 수요가 증가함에 따라, 항공기 지연은 단순한 편의성 저하를 넘어 운영 효율 저하, 승객 만족도 하락, 그리고 연결 지연의 악순환을 초래하는 심각한 문제로 이어진다. 특히, 항공기 연결 지연은 항공사 네트워크 전반에 막대한 운영 손실과 스케줄 불안정을 야기하고 있다. Table 1에 나타난 바와 같이, 2023년 국내선 운항편 중 지연 항공편은 총 88,342편으로 전체의 23.8%를 차지하였으며, 이 중 항공기 연결 문제로 인한 지연이 69,294편으로 전체 지연의 78.4%를 차지하며, 국내선 지연의 주요 원임임을 보여준다.
유럽 Eurocontrol CODA [2]에 따르면, 다수의 단거리·다구간 운항 노선에서는 앞선 항공편의 지연이 후속 항공편으로 전이될 가능성이 높아 항공기 연결 지연이 빈번하게 발생한다. 특히, 국내선의 경우 대부분 운항 시간이 70분 이내인 단거리 구간으로 구성되어 있어, 항공기 연결 지연이 높은 비중을 차지하는 구조적 특성을 가진다. 이러한 배경에서 국내 항공사의 정시성 제고와 효율적인 스케줄 관리를 위해 연결 지연에 대한 대비가 필수적이다.
Table 1.
Statistics of Domestic Flight Delays in Korea (2023)
| Category | Total Flights | Delayed Flights | Delay Rate (%) |
| Total Delays | 371,173 | 88,342 | 23.8 |
| Connection Delays | 69,294 | 18.67 |
항공기 연결 지연이란 이전 운항편의 지연이 동일 항공기를 사용하는 다음 운항편으로 전이되어 발생하는 지연을 의미한다. 이러한 연결 지연은 운항 스케줄 구조와 공항 운영 여건에 따라 발생 가능성이 달라지며, 주요 요인으로 운항 구간 수(LEG 수), 턴어라운드 타임(TAT), 공항 슬롯 사용률이 주로 언급된다.
운항 구간 수는 하루 또는 일정 기간 동일 항공기가 수행한 비행 횟수를 의미하며, 동일 노선 왕복이라도 편도마다 각각 1구간으로 계산된다. 하루에 수행하는 구간 수가 많을수록 앞선 운항편에서 발생한 지연이 이후 운항편으로 전이될 가능성이 높아진다. 턴어라운드 타임은 항공기가 목적지 공항에 도착한 후 출발 준비를 마치고 다시 이륙하기까지의 소요 시간을 의미한다. TAT가 짧을수록 지연이 발생했을 때 이를 흡수할 여유가 줄어들어, 다음 운항편이 연결 지연에 노출될 가능성이 커진다. 공항 슬롯은 항공기가 공항에서 이·착륙하거나 이동하기 위해 배정받은 시간 사용권으로, 슬롯 포화 상태에서는 스케줄 조정 여지가 줄어들고 사소한 지연이라도 후속편의 연결 지연으로 이어질 위험이 커진다. 슬롯 사용률은 배정할 수 있는 슬롯 대비 실제 사용 중인 슬롯의 비율로, 이 값이 높을수록 연결 지연이 심화될 수 있다.
이에 본 연구는 항공기 연결 지연에 영향을 미치는 이 세 가지 주요 요인을 중심으로, 항공사 유형(FSC·LCC)과 출발 시간대 등 운항 특성별로 요인별 중요도의 차이를 정량적으로 분석하고자 한다. 이를 통해 항공사별 운항 전략과 시간대별 운항 패턴이 지연 발생 메커니즘에 어떠한 영향을 미치는지를 규명하고, 향후 맞춤형 지연 완화 전략 수립을 위한 기초 자료를 제공하고자 한다.
2. 연구 범위
IATA의 Worldwide Airport Slot Guidelines [3]에 따르면, 전 세계 공항은 혼잡 수준에 따라 3단계로 구분되며, 국내에서는 인천·김포·제주공항이 3단계(최고 혼잡도) 공항에 해당한다. 이 중 제주공항은 국내 주요 공항 가운데 유일하게 활주로가 하나이며, 대부분의 시간에서 시간당 처리 용량 대비 슬롯 사용률이 포화 상태를 보인다. 그중에서도 김포–제주 노선은 국내선 전체 운항 횟수의 45.8%를 차지하는 최대 규모 노선으로, 회전율이 높고 동일 기재를 활용한 연속 운항 편성이 많아 연결 지연이 누적될 가능성이 높다(Table 2).
Table 2.
Statistics of Domestic Flight Routes in Korea (2023)
| Route | Number of Flights | Share (%) |
| GMP–CJU | 87,613 | 45.8 |
| GMP–PUS | 21,146 | 11.7 |
| PUS–CJU | 20,198 | 10.6 |
이러한 특성은 본 연구가 분석하고자 하는 세 가지 주요 변수-출발 공항의 슬롯 포화도, 항공편 운항 구간 수(LEG 수), Turnaround Time-의 영향력을 실증적으로 파악하는 데 최적의 조건을 제공한다. 이에 따라 연구 대상은 제주공항을 기준으로 김포-제주 노선으로 한정하여 설정하였다. 분석 대상은 계획 시각 대비 실제 출발 시각이 15분보다 초과 지연된 항공편 중, 지연 원인이 ‘항공기 연결 지연’으로 분류된 사례로 한정하였다. 이때 15분 지연 기준은 FAA의 Order JO 7210.55에서 규정한 보고 가능 지연(Reportable Delay)의 정의를 준용하였다.1)
3. 선행 연구 조사
1) 항공기 연결 지연 요인
Atallah와 Hotle [4]은 항공편 연결 지연과 지연 전이에 영향을 미치는 요인을 분석하였다. 이들은 LEG 수를 동일 항공기가 하루 동안 수행하는 비행 구간의 수로 정의하였으며, LEG 수가 많을수록 선행 구간에서 발생한 지연이 턴어라운드 과정에서 해소되지 않고 다음 구간으로 전이되는 비율이 높다고 보고하였다. 또한 LEG 수 증가는 전체 운항 망의 지연 취약도를 높이는 구조적 요인임을 실증하였다. 또한 Zheng 등[5] 역시 항공기가 하루 동안 수행하는 비행 횟수와 회전 순서를 주요 설명변수로 포함하여 지연 전이를 분석한 결과, 운항 구간 수가 많고 회전 구조가 뒤로 갈수록 선행 지연의 전이 가능성이 유의하게 높아진다고 보고하였다. 이는 LEG 기반 회전 구조가 항공기 연결 지연을 설명하는 핵심적인 운항 요인임을 다시 한 번 보여준다. Rodriguez-Sanz 등[6]은 슬롯 포화도를 특정 시간대에 예정된 운항 횟수를 해당 시간대의 공항 선언 처리 용량으로 나눈 비율로 정의하였다. 슬롯 포화도가 지연 발생에 미치는 영향을 분석한 결과, 슬롯 포화도가 높을수록 평균 지연 시간이 유의하게 증가하였으며, 특히 슬롯 사용률이 90%를 초과할 때 지연이 급격히 확산되는 경향이 나타났다. 이는 슬롯 제약이 심한 공항일수록 정시 운항 유지가 구조적으로 어려움을 시사한다. 또한 Hao 등[7]은 뉴욕권 주요 공항(JFK, LGA, EWR)을 대상으로 슬롯 제약과 지연의 상관성을 분석한 결과, 공항의 처리 용량 대비 수요가 높은 시간대일수록 지연이 비선형적으로 증가하며, 높은 슬롯 포화도가 해당 공항뿐 아니라 주변 항공 네트워크로 지연을 전이시키는 주요 요인임을 확인하였다. 이는 슬롯 사용률이 높은 공항일수록 지연 관리가 구조적으로 어려움을 다시 한번 보여준다. 마지막으로, Fricke와 Schultz [8]는 항공기가 착륙한 후 지상에서 수행되는 모든 조업(청소, 급유, 탑승 등)이 완료되는 시점까지 걸린 총시간을 TAT라고 정의하였다. 이들은 TAT가 지연 전이 과정에서 완충(Buffer) 역할을 수행하며, 충분한 버퍼 시간이 확보될 때 지연의 상당 부분을 지상 조업 단계에서 흡수할 수 있음을 실증하였다. 그러나 도착 지연이 커질수록 버퍼 소진 속도가 빨라지고 프로세스 간 간섭이 증가하여, 오히려 지연이 악화될 수 있다고 지적하였다. 또한 Yıldız 등[9]은 공항 지상조업 작업의 실제 수행 시각을 자동으로 인식 및 기록하는 시스템을 개발하여 TAT이 단순한 시간 지표가 아닌 항공기 정시성 관리의 핵심 변수임을 강조하였다. 이들은 지상조업 프로세스의 세부 활동이 지연 전이에 직접적인 영향을 미치므로 TAT의 정확한 측정과 관리가 필수적이라고 보고하였다. 다만, 본 연구에서는 버퍼 시간 관련 데이터가 제공되지 않으므로, 동일 항공기의 도착 시각과 다음 출발 시각의 차이를 TAT로 정의하여 분석에 활용한다.
위 선행 연구들은 각각의 맥락에서 TAT, 운항 구간 수(LEG 수), 공항의 슬롯 포화도가 등이 항공기 연결 지연과 관련된 의미있는 요인임을 보여준다. 이에 본 연구는 제주-김포 노선을 대상으로 항공기 연결 문제로 인한 지연의 영향을 미치는 요인을 위와 같이 설정하여 지연에 미치는 각각의 영향력을 정량적으로 규명하고, LCC와 FSC 간의 차이를 비교·분석하고자 한다.
2) 항공기 연결 지연 요인 분석 방법론
AhmadBeygi 등[10]은 미국 항공 네트워크에서 한 항공편의 지연이 이후 항공편으로 전이되는 과정을 규명하기 위해 확률·회귀 기반 통계 모델을 적용하였다. 여기서 확률·회귀 혼합 통계 모델은 Propagation Tree 기반으로 지연 발생 여부를 확률적으로 추정하는 로지스틱 회귀와, 지연 시간의 크기를 예측하는 선형 회귀를 결합한 방식이다. 이러한 결합형 모델은 지연 전이의 인과 구조를 명확히 하고, 전이 확률과 전이 규모를 동시에 정량화할 수 있는 장점이 있다. 분석 결과, 항공기 연결 시간이 연결 지연 발생에 유의한 변수로 나타났다. Wu와 Caves [11]는 항공기 지연에 영향을 미치는 요인을 분석하고자 Semi-Markov Chain 기반 확률모델과 확률분포 컨볼루션 기반 항로 모델을 합친 모델을 선택하였다. 이 모델은 종속변수가 ‘지연 발생/비발생’과 같은 이항 형태일 때 각 요인의 지연 발생 확률을 추정하는 방법으로, 일반적으로 로지스틱 회귀를 사용한다. 이를 통해 운항, 지상 서비스, 공항 혼잡 등 다양한 요인의 영향을 동시에 추정하고, 각 요인의 기여도를 확률값으로 도출할 수 있다. 연구 결과, 착륙 후 지상 처리 효율과 도착 시각 변동이 정시성에 유의한 영향을 미쳤으며, 특히 짧은 항공기 연결 시간이 항공기의 지연 위험을 높이는 것으로 확인되었다. Rebollo와 Balakrishnan [12]은 Random Forest 기반 머신러닝 모델을 기반으로 지연에 영향을 미치는 핵심 변수를 식별하고, 미국 내 항공편 지연을 예측하고자 하였다. Random Forest는 복합적이고 비선형적인 관계를 다룰 수 있고, 변수 중요도를 기반으로 변수별 영향력을 비교할 수 있으며, 기존 통계기법보다 높은 예측 정확도를 보여준다는 장점이 존재한다. Fleurquin 등[13]은 미국 공항 네트워크에서 지연의 전이 과정을 규명하기 위해 네트워크 분석과 시뮬레이션 기법을 활용하였다. 이는 항공기 지연은 단일 요인보다는 공항과 항공편이 연결된 네트워크 구조에서 연쇄적으로 발생하는 경우가 많은 점을 반영하기 위함이다. 분석 결과, 허브 공항에서 발생한 지연이 다른 공항으로 빠르게 확산되며, 네트워크의 특정 구조가 전이 지연의 규모와 속도에 큰 영향을 미치는 것으로 나타났다.
이처럼 항공기 연결 지연의 요인을 분석하기 위해 전통적인 통계 모델, 머신러닝 기법, 네트워크 분석 등 다양한 방법론이 활용되었으나, 확률·회귀 기반 통계 모델은 비선형적 상호작용이 복잡하게 작용하는 항공 운항 환경을 설명하고 예측하는 데 한계를 가진다. 따라서 개별 항공편 단위의 지연 원인을 직관적으로 설명하기 어렵다. 이에 본 연구는 기존 모형 대비 높은 예측 성능을 기반으로 비선형적 관계를 효과적으로 포착하고 개별 항공편 단위의 맞춤형 분석을 가능하게 하는 XAI기법(LIME, SHAP)을 활용하고자 한다. 이는 기존 연구의 한계를 극복하고 기체 단위 항공기 지연에 대한 중요도를 분석하고, 이를 통해 지연 발생에 영향을 미치는 요인을 규명하고자 한다.
3) XAI 기법-LIME, SHAP
Ma 등[14]은 4차 산업 제조 공정에서 LIME 기반 변수 중요도 분석과 신경망 기반 변수 상호작용 탐지(NID)를 결합하여 전력 소비 예측 정확도를 향상시키는 혼합형 프레임워크를 제안하였다. 이를 전기로 주조 공정에 적용한 결과, 모델이 데이터 변동성을 설명하는 정도를 나타내는 결정계수(R2)가 최대 9.56% 향상되었고, 예측값과 실제값의 평균 오차 크기를 나타내는 평균 제곱근 오차(RMSE)가 최대 24.05% 감소하였다. 이는 예측 최적화를 통해 모델의 설명력과 예측 정밀도를 동시에 개선한 사례이다. Santhiya 등[15]은 교통 신호등 검출 분야에서 LIME 알고리즘을 사용하여 설명 가능한 AI (XAI) 모델을 구현하였다. 해당 연구는 교통 관련 정보 시스템에서 AI 예측의 신뢰성과 사용자 이해도를 향상시키기 위해, LIME 기반 설명 기법을 적용하여 모델의 투명성과 상호 작용성을 강화하였다.
Brito 등[16]은 회전 기계의 고장 탐지 및 진단에서 라벨 데이터 부족 문제를 해결하기 위해 비지도 학습과 SHAP (Shapley Additive Explanations) 분석을 결합하였다. 진동 신호 특징을 기반으로 이상을 탐지하고, SHAP을 통해 변수별 기여도를 해석하여 결함 원인을 규명하였다. 또한, Hatıpoğlu와 Tosun [17]은 특정 공항의 도착 지연 예측에 다양한 머신러닝 모델을 적용한 뒤, SHAP을 활용하여 기상 조건, 시간대별 운항 빈도, 항공사 특성이 지연 예측에 미치는 상대적 중요도를 설명하였다.
Jmoona 등[18]은 항공 교통 관리(ATM) 시스템에서 이륙 지연 예측 모델의 의사결정 과정을 관제사가 이해할 수 있도록, Random Forest와 XGBoost 기반 예측 모델에 LIME과 SHAP을 적용하여 변수 영향도를 분석하였다. 이를 통해 활주로 혼잡도, 기상 상태 등 주요 요인의 영향력을 명확히 제시하였다. Xie 등[19]은 XGBoost 기반 예측 모델의 해석 가능성을 높이기 위해 LIME과 SHAP을 병행 적용하였다. SHAP을 통해 전역적인 변수 중요도와 변수 간 상호작용을 파악하고, LIME으로 개별 사례의 의사결정 근거를 제시함으로써 모델 해석의 신뢰성을 강화하였다.
이처럼 LIME과 SHAP은 예측 모델의 해석 가능성을 확보하고, 변수의 영향도와 기여 방향을 명확히 하는 데 효과적인 도구로 활용된다. 본 연구는 LIME을 통해 전통적 회기모형이 제공하지 못 하는 개별 항공편 단위의 변수 중요도를 파악하고, SHAP을 기반으로 게임이론적 접근을 적용하여 전역적 관점에서 변수 기여도를 공정하게 산출하였다. 이를 통해 항공기 연결 지연에 영향을 미치는 요인의 영향 방향과 중요도를 다층적으로 검증함으로써, 분석 결과의 신뢰성과 설명력을 강화하고자 한다.
Ⅱ. 본론
1. 연구 설계
1) 기초 데이터 구축
본 연구는 한국공항공사의 2023년 Tower-Log 데이터를 기반으로 기초 자료를 구축하였다. Tower-Log 데이터에는 항공기 기종, 등록 기호, 항공사 등 한 편의 비행에 대한 대부분의 정보를 포함하고 있다. 본 연구에서는 분석 범위를 제주-김포 노선을 왕복 운항하는 항공편으로 한정하였으며, 총 87,622편의 노선 중 데이터 전처리 과정을 통해 최종 902편의 자료를 분석에 활용하였다. 연구에 사용한 기초 데이터들의 종류와 정의가 Table 3에 명시되어 있다.
단일 연도(2023년)의 데이터만을 사용했다는 점에서 계절적 요인을 충분히 반영하지 못하는 한계가 존재한다. 그러나 본 연구는 월별, 요일별, 시간대별 변수를 모델에 포함하여 주기적 패턴의 영향을 통제하고자 했으며, 특히 제주-김포라는 동일 노선의 개별 항공편의 운항 조건에 초점을 맞춘다. 따라서 연결시간, 구간 수, 슬롯 사용률 같은 미시적이고 구조적인 요인이 지연에 미치는 영향을 진단함으로써 연도 간 구조적 차이가 결과 해석에 미치는 영향은 상대적으로 최소화될 수 있다.
Table 3.
Description of Baseline Data
(1) 지연 시간
FAA는 계획된 출발 또는 도착 시각과 실제 출발 또는 도착 시각의 차이가 15분 초과일 경우를 ‘지연’으로 정의하며, 이 차이를 항공기 지연 시간이라 한다. 이러한 기준은 한국 국토교통부를 비롯한 대부분의 국가에서 동일하게 채택되고 있다. 본 연구에서는 이 정의를 기반으로, 제주발 김포행 항공편의 계획 출발 시각과 실제 출발 시각의 차이가 15분 초과인 경우를 지연으로 분류하고 해당 지연된 항공편을 분석에 활용하였다.
: 실제 출발 시각
: 계획 출발 시각
지연 기준에 부합하는 항공편을 선별한 후 해당 항공편의 운항 기록을 기준으로 지연 사유 코드가 RA (항공기 연결 문제)2)인 항공편만을 최종 분석 대상으로 추출하였다.
(2) 항공기 연결 시간(TAT)
항공기 연결 시간(TurnAround Time, TAT)은 항공기가 공항에 착륙한 시점부터 이후 활주로를 이륙하는 시점까지 소요되는 총시간을 의미하며, 이에는 하역, 객실 청소, 기체 정비, 연료 보급, 승객 탑승, 출발 전 점검 등 일련의 지상 처리 작업이 포함된다. 본 연구에서는 제주–김포 노선 항공편을 대상으로 동일 항공기의 실제 도착 시각과 다음 실제 출발 시각의 차이를 계산하여 TAT를 산출하였다. 다만, Lee 등[20]에 따르면, 25분 미만의 TAT는 비정상 값일 가능성이 높고, 70분 이상은 지연과의 상관성이 낮은 이상치로 분류되므로, 본 분석에서도 이를 근거하여 25분 미만 또는 70분 초과의 TAT 값을 제외하는 전처리 과정을 수행하였다.
: Turnaround Time
: 실제 출발 시각
: 실제 도착 시각
단, > 80분, < 25분 제외
(3) LEG 수
항공기 운항 구간 수(LEG 수)는 하루 동안 동일 항공기가 수행한 개별 비행 구간(편수)을 의미하며, 1개의 구간은 한 번의 출발과 이에 따른 도착을 포함하는 독립적인 운항편으로 정의된다. 예를 들어, 한 항공기가 김포에서 제주로 운항한 뒤 다시 제주에서 김포로 돌아오는 왕복 노선을 수행한 경우, 이는 총 2개의 LEG를 가진다고 볼 수 있다.
본 연구에서는 이를 산출하기 위해 위 과정을 거쳐 산출된 지연 항공편의 실제 운항 일자와 등록기호를 기반으로 그 항공기가 해당 날짜에 수행한 모든 운항 기록을 조회하여 LEG 수를 산정하였다.
(4) 슬롯 사용률
공항 슬롯은 항공사가 특정 공항에서 이·착륙을 수행하기 위해 사전에 배정받은 시간 단위를 의미하며, 본 연구에서는 국제항공운송협회(IATA)의 Worldwide Airport Slot Guidelines (WASG) 기준에 따라 정의하였다. 슬롯 사용률(Slot Utilization Rate)은 다음 식에 따라 산정하였다.
본 연구에서는 기준 공항으로 제주국제공항을 선정하였으며, 결항편을 제외한 뒤 각 시간대별 실제 출발편 수와 실제 도착편 수를 합산하여 해당 시간대의 실제 운항 편수를 도출하였다. 이후, 제주국제공항의 시간당 슬롯 제한 수(35편)를 적용하여, 도출된 실제 운항 편수를 슬롯 제한 수로 나누어 시간대별 슬롯 사용률을 계산하였다. 즉, 제주국제공항의 시간대별 운항 실적을 통해 실제 슬롯 사용량을 구하고, 이를 공항의 용량 제한과 비교함으로써 슬롯 활용 수준을 정량적으로 평가하였다.
2) 기초 데이터 예시
구축이 완료된 기초 데이터의 모습은 Table 4와 같은 형태로 정리하였다.
Table 4.
Example of Constructed Baseline Dataset
3) 데이터 기초통계량 및 상관관계 분석
본 연구에서는 최종 구축된 902편의 제주–김포 노선 항공편 데이터를 대상으로 주요 분석 변수인 TAT, LEG 수, 슬롯 사용률의 기초통계량을 산출하였다(Table 5). TAT는 평균 60.99분으로 짧은 회전 시간 특성을 반영하며, LEG 수는 평균 7.38편으로 일일 7회 이상의 운항을 수행함을 보였다. 슬롯 사용률은 평균 81.15%를 기록했고 최대 108.57%로 나타나, 분석 데이터가 높은 운항 밀도와 혼잡 구간을 포함하여 실제 운항 환경의 특성을 충분히 반영하고 있음을 알 수 있다.
Table 5.
Descriptive Statistics of Key Variables
또한, 주요 변수별 상관 및 비모수 회귀분석을 수행하였다(Table 6). 상관분석 결과, 모든 변수가 통계적으로 유의미한 것으로 확인되나, 상관계수는 0.1 내외의 낮은 수준으로 확인되었다. 비모수 회귀분석 결과도 LEG 수를 제외하고는 모두 통계적으로 유의한 것으로 도출되었으나, 결정계수가 0.1 미만으로 매우 낮게 도출되었다. 이는 전통적인 통계적 방법론으로도 모든 변수가 연결 지연에 영향을 미치는 것이 확인되나, 그 크기는 미미함을 의미한다.
Table 6.
Correlation and Non-Parametric Regression Analysis by Variable
4) 연구 흐름
본 연구는 Fig. 1에서 제시한 흐름에 따라 연구를 수행하였다. 앞서 구축한 기초 데이터(Table 4)를 항공편의 연결 지연 분석을 위한 입력 변수로 활용하였다. 즉, 항공기 연결 시간(TAT), 슬롯 사용률, 항공기 운항 구간 수(LEG 수) 등 주요 변수를 포함한 데이터셋을 기반으로, 본 연구는 항공편의 연결 지연 발생 여부를 예측하기 위한 기계학습 모델을 개발하였다.
모델 학습 단계에서는 구축된 데이터셋의 변수를 입력하여 연결 지연 발생 여부를 분류하고, 하이퍼파라미터 최적화와 교차 검증을 통해 예측 성능을 확보 예측 모델로 XGBoost를 채택하였다. XGBoost는 분류·회귀 문제에서 높은 예측 성능과 변수 중요도 산출 기능을 제공하는 부스팅(Boosting) 계열 알고리즘으로, 다양한 변수 간 비선형 관계를 효과적으로 반영할 수 있다는 장점이 있다.
예측 성능이 확보된 이후, 모델의 의사결정 구조를 해석하기 위해 LIME (Local Interpretable Model-agnostic Explanations) 기법을 적용하였다. LIME은 개별 관측치 수준에서 블랙박스 모델을 지역적으로 근사 선형모형으로 설명함으로써, 특정 사례에서 어떤 변수가 큰 영향을 미쳤는지를 시각적으로 제시할 수 있다. 이를 통해 편명별 연결 지연 발생의 구체적인 원인을 식별하고, 항공사 운영 및 정책 수립에 필요한 실증적 근거를 마련하였다.
마지막으로, LIME이 제공하는 지역 설명의 한계를 보완하고 변수 중요도의 전역적 일관성을 검증하기 위해 SHAP 분석을 병행하여 검증하였다. SHAP은 게임이론을 기반으로 한 기여도 산정 방식으로, 각 변수의 예측 기여도를 전역적으로 산출한다. 이를 통해 LIME 기반 지역 설명과 SHAP 기반 전역 설명을 비교·분석하여, 해석 결과의 신뢰성과 일관성을 확보하였다. 이러한 과정은 모델 해석의 투명성을 높이고, 분석 결과를 실제 의사결정 현장에서 효과적으로 활용할 수 있는 기반을 마련한다.
2. 연구 방법론
1) LIME (Local Interpretable Model-agnostic Explanations)
Ribeiro 등[22]에 따르면, LIME (Local Interpretable Model-agnostic Explanations)은 블랙박스 형태의 기계학습 모델 예측을 국소(local) 영역에서 단순한 해석 가능 모델로 근사하여, 개별 예측의 의사결정 근거를 제공하는 모델-비종속적(Model-agnostic) 설명 기법이다. LIME은 특정 예측값 f(x)에 대해 주변의 데이터를 무작위로 생성하고, 원래 모델 𝑓의 예측 결과를 기반으로 가중치를 부여하여 단순한 대체 모델 𝑔를 학습함으로써 예측을 설명한다.
LIME의 목적 함수는 다음의 식 (4)로 표현된다.
: 사전 예측 모델
: 단순한 설명 모델
: 가능한 설명 모델 집합
: 사전 예측 모델와 설명 모델 간의 지역 손실 함수, 유사도 함수 를 기반으로 가중치를 부여
: 설명 모델의 복잡도
이러한 구조를 바탕으로 LIME은 개별 단위에서 모델이 어떤 입력 요인에 의해 예측을 생성했는지를 정량적·시각적으로 설명할 수 있다. 이는 특히 텍스트 분류, 이미지 분류, 의료 진단 등 직관적 해석이 요구되는 다양한 분야에서 효과적으로 활용된다.
Fig. 2는 LIME 기법의 원리를 시각적으로 나타낸 것이다. 하늘색과 분홍색 배경은 원래 예측 모델의 결정 경계를 의미하며 물결 모양인 이유는 해당 모델이 비선형 구조를 가지기 때문이다. 중앙의 빨간 십자가는 LIME이 설명하고자 하는 특정 관측치를 나타내며, 주변의 점들은 해당 관측치 주변에서 인위적으로 생성된 샘플 데이터이다. LIME은 이 샘플 데이터 각각에 대해 원래 모델의 예측값을 계산한다. 점선 직선은 국소(local) 영역에서 학습된 선형 모델의 결정 경계로, 전체 비선형 모델을 그대로 표현하는 것이 아니라, 선택된 관측치 주변에서만 모델을 단순한 선형 구조로 근사한 것이다.
2) SHAP (Shapley Additive Explanations)
Choi 등[21]에 따르면, SHAP은 게임이론(Game Theory)의 Shapley Value 개념을 기반으로, 머신러닝 모델에서 각 입력 변수의 예측값 기여도를 정량적으로 산출하는 설명 가능한 인공지능(Explainable AI, XAI) 기법이다. Shapley Value는 가능한 모든 변수 조합에서 특정 변수를 포함했을 때와 제외했을 때의 예측값 차이를 계산하고, 이를 모든 조합에 대해 평균하여 각 변수의 공정한 기여도를 평가한다.
: 데이터에 대한 Shapley Value
: 전체 집합
: 전체 집합에서 번째 데이터가 빠진 모든 부분 집합
: 번째 데이터를 포함한 전체 기여도
: 번째 데이터가 빠진 나머지 부분 집합의 기여도
Lundberg와 Lee [23]는 Fig. 3과 같이 SHAP에 대해 복잡한 예측 모델에서 각 입력 변수(특징)가 결과에 기여하는 정도를 정량적으로 평가하는 설명가능 인공지능 기법이라고 설명하였다. SHAP은 모델의 예측 과정을 ‘기본 예측값’(모든 변수를 모를 때의 평균 예측)에서 시작하여, 변수를 순차적으로 추가했을 때 기대 예측값의 변화를 측정하고, 모든 가능한 변수 추가 순서에 대해 평균을 취함으로써 공정하고 일관된 중요도를 산출한다. 또한, SHAP은 지역 정확성(Local accuracy), 결측성(Missingness), 일관성(Consistency)의 세 가지 성질을 동시에 만족하는 유일한 특성 중요도 할당 방식으로, 의료 진단, 정책 분석 등 다양한 분야에서 모델 진단과 의사결정 지원 도구로 활용되고 있다.
다만, Van den Broeck 등[24]에 따르면 SHAP은 모든 변수 조합에 대한 기여도를 계산해야 하므로 계산 복잡도가 높다. 특히 대규모·고차원 데이터에서는 연산 비용과 소요 시간이 크게 증가하는 한계가 있다. 이를 완화하기 위해 Kernel SHAP, Tree SHAP, Deep SHAP 등 다양한 근사 기법이 제안되었으나, 여전히 연산 자원 요구량이 크며 데이터 특성에 따라 근사 정확도가 저하될 수 있다. 또한 변수 간 상관관계가 높거나 비선형성이 강한 경우, 기여도 해석이 복잡해질 수 있다는 점도 고려해야 한다.
3. 연구 결과
1) 항공사 유형별 분석
항공사별 각각의 전략 따라 항공기를 운영하므로, 연결 지연에 영향을 미치는 요인의 중요도에는 차이가 있을 것으로 판단하였다. 이에 LIME 및 SHAP 분석 결과, 항공사별 일부 수치 차이는 있으나, 대부분 슬롯 사용률이 연결 지연의 주요 기여 요인으로 나타났다.
LIME 분석 결과(Table 7), FSC는 슬롯 사용률 기여도가 높았으며(FSC1 44.35%, FSC2 51.19%), 특히 FSC2가 가장 크게 나타났다. 반면, 항공기 연결 시간과 구간 수 기여도는 각각 23.59%, 25.22%로 낮았다. 이는 FSC의 경우 슬롯 혼잡도가 연결 지연의 핵심 요인임을 시사한다. LCC는 LCC3 (45.66%)와 LCC5 (36.37%)에서 구간 수 기여도가 높아 다구간 운항이 지연에 큰 영향을 미친 것으로 해석된다. LCC2와 LCC4 등 일부 LCC는 연결 시간 기여도가 26–29% 수준으로 빠른 회전율 운영이 지연에 취약하게 작용했음을 확인할 수 있다.
Table 7.
Results of Airline-Specific Factor Importance (LIME)
Table 8과 Fig. 4의 항공사 유형별 비교 결과에 따르면, FSC의 슬롯 사용률 기여도는 LIME 기준 44.52%, SHAP 기준 41.90%로 LCC (각각 43.20%, 37.36%)보다 높았다. 반면, LCC는 연결 시간 기여도가 LIME 기준 28.19%, SHAP 기준 32.31%로 FSC보다 8–12% 높게 나타났다. 항공기 구간 수 기여도는 FSC가 소폭 높았으나, 유형별 차이는 크지 않았다.
Table 8.
Feature Importance Results by Airline Type
| Airline Type | Slot Utilization Rate (%) | Turnaround Time (%) | Number of Flight Legs (%) | |||
| LIME | SHAP | LIME | SHAP | LIME | SHAP | |
| FSC | 44.52 | 41.90 | 20.94 | 24.17 | 34.55 | 33.93 |
| LCC | 43.20 | 37.36 | 28.19 | 32.31 | 28.61 | 30.33 |
2) 출발 시간대별 분석
출발 시간대는 공항 혼잡도와 운항 스케줄에 직접 영향을 미치므로, 시간대별로 연결 지연에 작용하는 변수들의 상대적 중요도에서 차이가 발생할 것으로 예상된다. 이를 검증하기 위해 출발 시간대별 구간을 나누어 LIME과 SHAP 분석을 수행한 결과, 일부 시간대에서 연결 시간이나 구간 수의 영향이 크게 나타났으나, 전반적으로 슬롯 사용률이 가장 높은 기여 요인으로 확인되었다.
Table 9를 세부적으로 살펴보면, 오전 시간대에서는 슬롯 사용률의 기여도가 높게 나타났다. 특히 11시 구간에서 SHAP 기준 53.73%로 최고치를 기록하였으며, 이는 해당 시간대 연결 지연은 슬롯 포화가 주요 원인임을 의미한다. 반면, 13시 구간은 항공기 연결 시간의 기여도가 35.94%로 가장 높아, 회전율 저하가 지연에 작용했음을 시사한다. 오후 후반인 16시 구간에는 항공기 구간 수의 기여도가 31.61%로 증가하여 다구간 운항 패턴이 집중되는 경향을 보였다. 야간(23시~)에는 LIME 분석에서 구간 수(40.94%), SHAP 분석에서 슬롯 사용률(69.58%)이 가장 높아, 슬롯 규제와 다구간 운항이 복합적으로 작용했음을 확인할 수 있다.
Table 9.
Results of Factor Importance by Departure Time Period
Fig. 5는 출발 시간대별로 주요 변수인 슬롯 사용률, TAT, LEG 수의 상대적 중요도가 LIME 및 SHAP 분석에서 어떻게 변화하는지 비교한 결과를 나타낸다.
분석 결과, 슬롯 사용률은 전 시간대에 걸쳐 가장 높은 중요도를 일관되게 유지하는 것으로 확인되었다. 특히 SHAP 기준으로 40–60% 수준의 기여도를 나타내, 슬롯 사용률(공항 혼잡도)이 시간대 관계없이 항공기 연결 지연을 유발하는 가장 지배적인 요인임을 알 수 있다. 항공기 연결 시간은 시간대별 변동성이 다른 변수들에 비해 상대적으로 크며, 특히 오후 시간대에 중요도가 높아지는 경향을 보였다. 이는 오후 시간대의 누적된 도착 지연과 TAT의 관리가 연결 지연 발생에 미치는 영향력을 강화시키는 것으로 해석된다. 반면, 항공기 구간 수는 대부분의 시간대에서 가장 낮은 중요도를 나타내어, 지연 전이에 미치는 직접적 영향력은 앞선 두 요인에 비해 제한적인 것으로 파악되었다.
종합적으로, LIME과 SHAP 두 설명 가능 AI 기법 모두에서 슬롯 사용률 > 항공기 연결 시간 > 항공기 구간 수 순으로 변수 중요도가 일관되게 나타났다. 이는 공항 혼잡과 회전 시간 관리의 효율성이 제주-김포 노선 항공기 연결 지연을 설명하는 핵심 요인임을 방법론적으로 교차 검증한 결과이다.
Ⅲ. 결론
1. 결론
본 연구는 제주–김포 노선을 대상으로, 항공기 연결 지연에 영향을 미치는 주요 요인을 슬롯 사용률, 항공기 연결 시간, 항공기 구간 수로 설정하고, XGBoost 기반 예측 모델과 LIME·SHAP 해석 기법을 활용하여 정량적으로 분석하였다. XGBoost를 통해 비선형 관계와 변수 간 상호작용을 반영한 예측 모델을 구축하였으며, LIME 기법을 적용하여 개별 항공편 수준에서의 예측 판단 근거를 지역적 선형모형으로 해석하였다. 이를 통해 특정 항공편에서 지연 발생 가능성을 높인 요인을 직관적으로 시각화할 수 있었으며, SHAP 분석을 통해 전역적 변수 중요도를 산출함으로써 LIME 결과의 일관성을 검증하였다.
분석 결과, 대부분의 항공사 및 시간대에서 슬롯 사용률이 연결 지연에 가장 큰 영향을 미치는 변수로 확인되었다. 특히 오전 11시와 야간(23시 이후)에는 슬롯 사용률 기여도가 SHAP 기준 각각 53.73%, 69.58%로 최고치를 기록하여, 해당 시간대 지연의 절반 이상이 슬롯 포화에 기인함을 시사하였다. 다만, LCC의 경우 다구간 운항 패턴과 짧은 연결 시간으로 인해 LCC3와 LCC5는 구간 수 기여도가 각각 45.66%, 36.37%로 높았으며, LCC2와 LCC4는 연결 시간 기여도가 28.58%, 26.35% 수준으로, 빠른 회전율이 지연 취약성을 심화시키는 경향을 보였다. 다만, 13시 구간에서는 연결 시간 기여도가 35.94%로 상승하여, 점심 이후 회전율 저하(TAT 증가)가 지연 발생의 주요 원인으로 작용함을 확인하였다.
이러한 결과는 슬롯의 효율적 운영 및 배분, 시간대별 맞춤형 스케줄링, 다구간 운항 구조 최적화, 연결 시간 완충 확보가 항공기 연결 지연 완화의 핵심 전략임을 보여준다. 특히, LIME의 국소적 해석과 SHAP의 전역적 해석을 병행하는 접근은 분석의 투명성과 해석 가능성을 동시에 높여, 항공사 운항 전략 수립 및 정책 설계에 실질적 활용이 가능하다는 점에서 의의가 크다.
2. 한계점 및 향후 과제
본 연구는 항공기 지연에 영향을 미치는 요인을 규명하기 위해 슬롯 사용률, 항공기 연결 시간(TAT), 항공기 구간 수(LEG 수)를 중심으로 분석을 수행하였으나, 변수 범위가 제한적이라는 점에서 한계가 존재한다. 기상 조건, 항로 혼잡도, 지상 조업 효율, 정비 지연 등 다양한 요인을 반영하지 못했으며, 이러한 요인은 특정 계절이나 기상 악화 시기에 지연 패턴을 크게 변화시킬 수 있다. 따라서 후속 연구에서는 이러한 외생 변수를 포함한 다차원 분석 모델을 구축하여 보다 현실적인 예측과 해석을 가능하게 할 필요가 있다.
또한, 분석 대상이 제주–김포 단일 노선과 특정 기간의 데이터로 한정되어 있어, 도출된 변수 간 영향력과 패턴이 다른 노선·공항·기간에도 동일하게 적용된다고 일반화하기 어렵다. 관측 범위를 넘어 새로운 조건에 적용할 경우 예측 정확도가 저하되거나 변수 중요도가 변동할 가능성이 존재한다. 이에 향후 연구에서는 다양한 노선, 계절, 공항 환경을 포괄하는 확장된 표본을 활용하여 분석 결과의 일반성을 검증할 필요가 있다.
아울러 본 연구에서는 분석 결과 슬롯 사용률이 주요 요인으로 나타났음에도 불구하고, 실제 슬롯 배정·운영 체계와 그 효율성에 대한 정량적 검토는 이루어지지 않았다. 시간대별 슬롯 배정 정책, 미사용 슬롯 반납 제도, 우선순위 규칙 등의 운영 자료를 활용하면 정책 변화가 지연 완화에 미치는 효과를 보다 명확히 검증할 수 있을 것이다.
모형 해석 측면에서도 LIME과 SHAP을 통해 국소·전역적 해석을 병행하였으나, 다른 설명가능 인공지능(XAI) 기법을 적용할 경우 지연 발생 메커니즘을 보다 다각적으로 규명할 수 있다. 예를 들어, 의사결정나무 기반 해석, 반사실 분석(Counterfactual Analysis) 등 대체적 접근을 통해 변수 간 상호작용과 비선형적 영향 구조를 심층적으로 파악할 수 있을 것이다. 특히, 분석 결과의 강건성을 확보하기 위한 추가적인 검토가 필요하다. 이에 후속 연구로 모수 추정 기반의 정통적인 회귀분석 모형을 추가로 수행하여, 본 연구에서 도출된 변수 중요도 및 영향 방향과의 유사성 또는 차이성을 비교할 필요가 있다.
마지막으로, 본 연구의 시사점을 실제 정책·운영 방안으로 발전시키기 위해서는 시뮬레이션 기반의 검증이 필요하다. 실제 운영 데이터와 정책 시나리오를 결합하여 적용 효과를 정량적으로 평가함으로써, 노선·공항별 맞춤형 지연 완화 전략을 구체적으로 제시할 수 있을 것이다.







