



















Preview text:
BỘ XÂY DỰNG
HỌC VIỆN HÀNG KHÔNG VIỆT NAM
KHOA KỸ THUẬT HÀNG KHÔNG BÁO CÁO
Học phần: Trí Tuệ Nhân Tạo AI
Mã lớp học phần: 011100117301
TÊN ĐỀ TÀI: Tối Ưu Hoá Kế Hoạch Chuyến Bay Khi Bị
Gián Đoạn Bằng AI ( Airline planning after flight disruption )
Giảng viên hướng dẫn: Trần Trung Hiếu/Võ Phi Sơn
Nhóm sinh viên thực hiện: Nhóm 1 STT Họ và Tên Mã số sinh viên Lớp 1 Lương Văn Định 2433520068 24ĐHKT01 2 Phạm Thanh Hiếu 2433520221 24ĐHKT01 3 Trần Quang Khôi 2433520084 24ĐHKT02 1
BẢNG PHÂN CÔNG NHIỆM VỤ TRONG NHÓM STT Họ và tên Nhiệm vụ Mức độ hoàn thành Chữ ký Làm Tiểu Luận Tìm Nội Dung 1 Lương Văn Định 100% Thuyết Trình Làm Slide Tìm Nội Dung 2 Phạm Thanh Hiếu 100% Thuyết Trình Làm Slide Tìm Nội Dung 3 Trần Quang Khôi 100% Thuyết Trình Bảng 1.1 2 LỜI CẢM ƠN
Với những kiến thức đã học được từ bộ môn Trí Tuệ Nhân Tạo AI thuộc khoa Kỹ
Thuật Hàng Không, em đã lựa chọn đề tài: Tối Ưu Hoá Kế Hoạch Chuyến Bay Khi Bị
Gián Đoạn Bằng AI ( Airline planning after flight disruption ) là đề tài thực hiện bài
tiểu luận. Trong quá trình hoàn thiện bài, em đã nhận được rất nhiều sự trợ giúp,
hướng dẫn từ thầy Võ Phi Sơn. Những lời góp ý của thầy đã giúp em rất nhiều trong
việc đính hướng và triển khai bài tiểu luận.
Tuy đã cố gắng thực hiện đề tài nhưng chắc chắn bài làm vẫn còn nhiều thiếu sót, em
rất mong tiếp tục nhận được những lời góp ý của quý thầy, cô thuộc bộ môn Trí Tuệ
Nhân Tạo AI khoa Kỹ Thuật Hàng Không để bài tiểu luận ngày càng hoàn thiện hơn. Em xin chân thành cảm ơn! 3 Lời Cam Đoan
Nhóm cam đoan rằng báo cáo này là do chính nhóm thực hiện, các số liệu thu thập và
kết quả phân tích trong báo cáo là trung thực, không sao chép từ bất cứ tài liêu, đề tài nghiên cứu khoa học nào. Ngày 28 tháng 6 năm 2025 NHÓM TRƯỞNG ĐỊNH LƯƠNG VĂN ĐỊNH 4
NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DÂN
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
Ngày.......tháng.......năm...........
Giảng Viên Hướng Dẫn (Ký và ghi rõ họ tên) 5 MỤC LỤC
BÁO CÁO TỐI ƯU HOÁ KẾ HOẠCH CHUYẾN BAY KHI BỊ GIÁN ĐOẠN
BẰNG AI (Airline planning after flight disruption)
LỜI CẢM ƠN..................................................................................................................03
LỜI CAM ĐOAN............................................................................................................04
NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN..........................................................05
MỤC LỤC.......................................................................................................................06
DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT.................................................................08
DANH MỤC HÌNH ẢNH..............................................................................................09
DANH MỤC BẢNG.......................................................................................................10
CHƯƠNG I: GIỚI THIỆU ĐỀ TÀI ...............................................................................11
1.1. Mục tiêu đề tài .........................................................................................................11
1.2. Các thách thức và vấn đề trong việc tối ưu hóa kế hoạch chuyến bay khi bị
gián đoạn.........................................................................................................................12
1.3. Các công nghệ AI được sử dụng để giải quyết vấn đề............................................13
CHƯƠNG II: THU THẬP VÀ TIỀN XỬ LÝ DỮ LIỆU ................................................15
2.1. Nguồn Gốc Dữ Liệu: Khám Phá Kho Tàng Thông Tin Hàng Không.....................15
2.2. Tiền Xử Lý Dữ Liệu: Biến Dữ Liệu Thô Thành Vàng ...........................................17
2.3. Lựa chọn Thông Tin Quan Trọng: "Tách Vàng" Từ "Quặng Thô" ..........................17
2.4. Chuẩn Hóa Đặc Trưng: Đặt Mọi Thứ Lên Cùng Một "Thước Đo".......................18
2.5. Gán Nhãn Dữ Liệu: Tạo "La Bàn" Cho Mô Hình Học Hỏi ...................................18
2.6. Chia Dữ Liệu: Chuẩn Bị Cho Huấn Luyện và Đánh Giá........................................19
CHƯƠNG III: BIỂU DIỄN VÀ HUẤN LUYỆN MÔ HÌNH ........................................20
3.1. Lý Do Chọn Mô Hình Và Vì Sao Học Tăng Cường (Reinforcement Learning
-RL).................................................................................................................................20
3.2. Mô Tả Chi Tiết Mô Hình: Cấu Trúc và Kiến Trúc "Sân Chơi" ...............................21
* Cấu trúc các thành phần của Mô hình Mô phỏng: ......................................................21
* Module Quản lý Lịch trình bay ....................................................................................21
* Module Quản lý Đội bay (Tàu bay) .............................................................................21
* Module Quản lý Phi hành đoàn ...................................................................................21
* Module Phát sinh Gián đoạn .......................................................................................21
* Module Tính toán Chi phí/Phần thưởng .....................................................................22
* Mô tả luồng hoạt động................................................................................................22
3.3. Lựa Chọn và Điều Chỉnh Các Siêu Tham Số: Tinh Chỉnh "Kim Chỉ Nam"
Cho Hệ Thống................................................................................................................23
* Tốc độ học (Learning Rate) ........................................................................................23
* Số lượng chu kỳ học (Episodes/Iterations) ..................................................................23
* Kích thước lô (Batch Size) ..........................................................................................23
* Hệ số chiết khấu (Discount Factor - Gamma) ...........................................................24
* Chiến lược khám phá (Exploration Strategy - Epsilon-greedy) ...................................24 6
3.4. Kỹ Thuật Huấn Luyện: Quy Trình “Đào Tạo” Cho “Bộ Não” Thông Minh......... 24
* Bộ tối ưu hóa (Optimizer) ...........................................................................................24
* Hồi quy kinh nghiệm (Experience Replay) ..................................................................25
* Cập nhật mạng mục tiêu (Target Network Updates)...................................................25
* Số lượng bước (Episode) ............................................................................................25
3.5. Chính Quy Hóa (Regularization).............................................................................25
* Dropout ......................................................................................................................26
* Dừng sớm (Early Stopping) .......................................................................................26
* Chính quy hóa L1/L2 .................................................................................................26
3.6. Các Thước Đo Khi Huấn Luyện............................................................................26
* Tổng phần thưởng (Total Reward per Episode) .........................................................26
* Thời gian xử lý gián đoạn trung bình (Average Disruption Resolution Time)............27
* Chi phí phát sinh trung bình (Average Disruption Cost).............................................27
* Tỷ lệ tuân thủ quy định (Compliance Rate)................................................................27
* Tỷ lệ hành khách đến đích đúng giờ/đúng kết nối (On-time/Connection Success
Rate for Disrupted Passengers)......................................................................................27
* Tỷ lệ sử dụng tài nguyên (Resource Utilization Rate - Phi hành đoàn, Tàu
bay)................................................................................................................................27
3.7. Code Minh Hoạ (Snippet Python kèm mô tả) ........................................................27
* Hình 3.1 .....................................................................................................................28
* Hình 3.2 .....................................................................................................................29
* Hình 3.3 .....................................................................................................................30
CHƯƠNG IV: TỐI ƯU HÓA MÔ HÌNH ...................................................................32
4.1. Tối ưu Hyperparameters: Phân tích Độ nhạy Tham số Đầu vào ..........................32
1. Bối cảnh và Mục tiêu Mô hình Tối ưu hóa .............................................................32
2. Các biến quyết định, mục tiêu và ràng buộc ...........................................................32
3. Giả định và Hạn chế ...............................................................................................33
4. Tối ưu hóa Mô hình và Phân tích Kết quả .............................................................33
4.2. So sánh các Phiên bản Mô hình và Kết quả...........................................................34
* Hình 4.1 .....................................................................................................................35
* Hình 4.2 .....................................................................................................................36
* Hình 4.3 .....................................................................................................................36
CHƯƠNG V: ĐÁNH GIÁ MÔ HÌNH ........................................................................37
5.1. Các Metric Được Sử Dụng ...................................................................................37
* Tổn thất ($) ...............................................................................................................37
* Số chuyến bay tối ưu được phục vụ..........................................................................37
* Số hành khách tối ưu được vận chuyển ...................................................................37
* Số máy bay được sử dụng .........................................................................................37 7
5.2. Giải thích Lý do Chọn Metric Này ........................................................................37
5.3. So Sánh Mô hình Chính với Baseline hoặc Các Mô hình Khác..............................37
* So sánh với Kịch bản "Không Tối ưu hóa" (Heuristic hoặc Baseline Logic)..............38
* So sánh giữa các Mức độ Gián đoạn..........................................................................38
5.4. Trình Bày Kết Quả Bằng Bảng, Biểu Đồ Rõ Ràng ................................................38
* Bảng Tóm tắt Kết quả Vận hành ...............................................................................38
* Biểu đồ Mạng lưới Hoạt động Toàn bộ.....................................................................39
* Biểu đồ Lịch trình Máy bay (Directed Acyclic Graph - DAG)....................................39
CHƯƠNG VI: TRIỂN KHAI VÀ ỨNG DỤNG ..........................................................39
6.1. Tích hợp Inference vào Đâu?..................................................................................39
* Ứng dụng Desktop (Tkinter, PyQt) / Ứng dụng di động (Kivy, React Native)............40
* Hệ thống Nhúng / Phần cứng (Raspberry Pi, Jetson, UAV thực tế)..........................40
6.2. Demo Hoạt động với Test Case..............................................................................40
* Tình Huống Thử Nghiệm .........................................................................................40
* Quy trình Demo ........................................................................................................41
6.3. Kết quả đầu ra .....................................................................................................41
* Thông tin Định lượng ...............................................................................................41
* Trực quan hóa Mạng lưới ........................................................................................41
6.4. Kết luận và Hướng Phát Triển .............................................................................42
* Kết luận ....................................................................................................................42
* Hạn chế Hiện tại ......................................................................................................42
* Hướng Phát Triển Tương lai.....................................................................................42
CHƯƠNG VII: TÀI LIỆU VÀ TRÍCH DẪN, VIDEO DEMO ...................................43
7.1. Nguồn tài liệu, công cụ, dataset sử dụng ..............................................................43
7.1.1. Nguồn Tài liệu Tham khảo ................................................................................43
7.1.2. Công cụ sử dụng ................................................................................................43
* Gurobi Optimizer........................................................................................................43
* Jupyter Notebook .....................................................................................................43
7.1.3. Dataset sử dụng .................................................................................................43
7.2. Thư viện Python sử dụng .....................................................................................43
* Pandas.......................................................................................................................43
* NetworkX .................................................................................................................43
* Pygraphviz (hoặc networkx.drawing.nx_agraph).......................................................44
* Matplotlib..................................................................................................................44
* Ipywidgets.................................................................................................................44
7.3. Video Demo hoạt động của mô hình....................................................................44
KẾT LUẬN CHUNG..................................................................................................45 8
DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT NCE
Sân bay Nice Côte d'Azur (Nice, Pháp) CDG
Sân bay Paris-Charles de Gaulle (Paris, Pháp) LYS
Sân bay Lyon-Saint Exupéry (Lyon, Pháp) ORY
Sân bay Paris-Orly (Paris, Pháp)
Đường đi của các chuyến bay 9 DANH MỤC HÌNH ẢNH
CHƯƠNG I: GIỚI THIỆU ĐỀ TÀI
Hình 1.1 Dữ liệu giả định các chuyến bay
Hình 1.2 Thông tin về các máy bay, sân bay, chuyến bay
Hình 1.3 Mạng lưới chuyến bay mô phỏng
CHƯƠNG III: BIỂU DIỄN VÀ HUẤN LUYỆN MÔ HÌNH
Hình 3.1 Code mô hình thử nghiệm
Hình 3.2 Mạng lưới chuyến bay của A320 khi áp dụng mô hình
Hình 3.3 Mạng lưới chuyến bay của A321 khi áp dụng mô hình
CHƯƠNG IV: TỐI ƯU HÓA MÔ HÌNH
Hình 4.1 Code mô hình tối ưu hóa
Hình 4.2 Kết quả mô hình thử nghiệm sau khi đã tối ưu
Hình 4.3 Kết quả mô hình thử nghiệm sau khi đã tối ưu
CHƯƠNG 7: TÀI LIỆU VÀ TRÍCH DẪN, VIDEO DEMO
Hình 7.1 Mã qr code video thuyết trình 10 DANH MỤC BẢNG
Bảng 1.1 Bảng phân công nhiệm vụ trong nhóm 11
CHƯƠNG I: Giới Thiệu Đề Tài 1.1. Mục tiêu đề tài
Vấn đề thực tế mà đề tài giải quyết là sự gián đoạn trong hoạt động hàng không,
thường xuyên xảy ra do nhiều yếu tố bất khả kháng như thời tiết xấu, sự cố kỹ
thuật, đình công, tắc nghẽn sân bay, hoặc các yếu tố bất ngờ khác. Khi xảy ra gián
đoạn, các hãng hàng không phải đối mặt với một loạt thách thức phức tạp, bao gồm:
Thay đổi lịch trình bay: Các chuyến bay có thể bị hoãn, hủy, hoặc chuyển hướng,
gây ảnh hưởng đến lịch trình của các chuyến bay tiếp theo và các kết nối.
Quản lý phi hành đoàn: Việc sắp xếp lại lịch làm việc của phi hành đoàn trở nên
cực kỳ phức tạp để đảm bảo tuân thủ các quy định về thời gian bay và nghỉ ngơi,
đồng thời tối thiểu hóa chi phí phát sinh.
Điều phối tàu bay: Tàu bay bị mắc kẹt tại các sân bay không mong muốn hoặc
không thể cất cánh đúng giờ, dẫn đến thiếu hụt tàu bay cho các chặng bay tiếp theo.
Hành khách bị ảnh hưởng: Hàng ngàn hành khách có thể bị trễ chuyến, lỡ các
chuyến bay nối chuyến, hoặc bị mắc kẹt, dẫn đến sự không hài lòng và yêu cầu bồi thường.
Chi phí phát sinh: Gián đoạn gây ra các chi phí đáng kể cho hãng hàng không, bao
gồm chi phí bồi thường cho hành khách, chi phí lưu trú, chi phí nhiên liệu do bay
vòng, và tổn thất doanh thu.
Mục tiêu của đề tài là xây dựng một giải pháp dựa trên AI để tối ưu hóa kế hoạch
chuyến bay sau gián đoạn, nhằm giảm thiểu tác động tiêu cực, tối ưu hóa các nguồn
lực (phi hành đoàn, tàu bay), giảm chi phí, và nâng cao sự hài lòng của hành khách.
1.2. Các thách thức kỹ thuật hoặc dữ liệu gặp phải.
Việc tối ưu hóa kế hoạch chuyến bay sau gián đoạn bằng AI đối mặt với nhiều thách
thức kỹ thuật và dữ liệu đáng kể:
Tính phức tạp của bài toán tối ưu:
Không gian tìm kiếm lớn: Số lượng biến và ràng buộc trong bài toán tối ưu hóa
kế hoạch chuyến bay là cực kỳ lớn, bao gồm hàng trăm chuyến bay, hàng ngàn
phi công và tiếp viên, và hàng trăm tàu bay.
Đa mục tiêu: Cần tối ưu hóa nhiều mục tiêu cùng lúc như giảm thiểu chi phí, tối
thiểu hóa sự chậm trễ của hành khách, tối đa hóa sử dụng tài nguyên, và tuân thủ
các quy định nghiêm ngặt.
Ràng buộc phức tạp: Có vô số ràng buộc phức tạp cần được tuân thủ, bao gồm
giới hạn thời gian làm việc của phi hành đoàn (FATIGUE, FTL - Flight Time
Limitations), quy định bảo dưỡng tàu bay, năng lực sân bay, và quy định về
visa/giấy phép của phi hành đoàn. 12
Tính động: Tình huống gián đoạn có thể thay đổi liên tục, yêu cầu hệ thống phải
có khả năng cập nhật và tái tối ưu hóa nhanh chóng trong thời gian thực.
a).Chất lượng và khối lượng dữ liệu:
Dữ liệu đa dạng và lớn: Dữ liệu cần thiết bao gồm lịch trình bay, thông tin về phi
hành đoàn (kỹ năng, thời gian làm việc, vị trí), thông tin về tàu bay (loại, trạng
thái bảo dưỡng, vị trí), dữ liệu thời tiết, dữ liệu về năng lực sân bay, và dữ liệu lịch sử gián đoạn.
Thiếu dữ liệu thực tế về gián đoạn: Dữ liệu chi tiết về các kịch bản gián đoạn và
cách các hãng hàng không xử lý chúng có thể không đầy đủ hoặc khó tiếp cận.
Dữ liệu không đồng nhất và nhiễu: Dữ liệu có thể đến từ nhiều nguồn khác
nhau, không đồng nhất về định dạng và chất lượng, chứa lỗi hoặc nhiễu.
Vấn đề về quyền riêng tư và bảo mật: Dữ liệu về phi hành đoàn và hoạt động
của hãng hàng không có thể nhạy cảm, đặt ra thách thức về quyền riêng tư và bảo mật khi xử lý.
b).Lựa chọn và phát triển mô hình AI:
Khó khăn trong việc lựa chọn thuật toán phù hợp: Với tính phức tạp của bài
toán, việc lựa chọn thuật toán AI phù hợp (ví dụ: tối ưu hóa tổ hợp, học tăng
cường, học sâu) là một thách thức.
Tính giải thích được (Explainability): Các mô hình AI phức tạp có thể khó giải
thích, gây khó khăn cho các nhà quản lý trong việc hiểu và tin tưởng vào các
quyết định do AI đề xuất.
Tích hợp với hệ thống hiện có: Việc tích hợp giải pháp AI vào hệ thống điều
hành bay hiện có của các hãng hàng không có thể phức tạp và tốn kém.
c).Hiệu suất và thời gian thực:
Yêu cầu xử lý nhanh: Khi có gián đoạn, cần có giải pháp nhanh chóng để đưa ra
quyết định, do đó mô hình AI phải có khả năng xử lý và đưa ra kết quả trong thời gian ngắn nhất có thể.
Khả năng mở rộng: Hệ thống phải có khả năng mở rộng để xử lý lượng dữ liệu
và tình huống ngày càng tăng.
1.3. Các giải pháp được đề xuất: Áp dụng AI như thế nào để giải quyết?
Để giải quyết các thách thức trên và tối ưu hóa kế hoạch chuyến bay khi bị gián
đoạn, đề tài đề xuất áp dụng AI thông qua các phương pháp sau:
1. Mô hình dự đoán gián đoạn (Predictive Disruption Modeling):
Machine Learning (ML): Sử dụng các thuật toán học máy (như Random Forest,
Gradient Boosting, hoặc mạng nơ-ron hồi quy) để phân tích dữ liệu lịch sử (thời
tiết, sự cố kỹ thuật, tình trạng sân bay, dữ liệu vận hành) nhằm dự đoán khả năng xảy ra gián đoạn. 13
Xử lý ngôn ngữ tự nhiên (NLP): Phân tích các thông báo, báo cáo sự cố không
cấu trúc để sớm phát hiện các dấu hiệu tiềm ẩn của gián đoạn.
Mục tiêu: Giúp hãng hàng không chủ động đưa ra các biện pháp phòng ngừa
hoặc chuẩn bị trước khi gián đoạn xảy ra, giảm thiểu tác động ban đầu.
2. Tối ưu hóa tổ hợp và Học tăng cường (Combinatorial Optimization & Reinforcement Learning):
Thuật toán tối ưu hóa tổ hợp: Sử dụng các thuật toán như lập trình tuyến tính
nguyên (Integer Linear Programming - ILP), lập trình ràng buộc (Constraint
Programming - CP), hoặc các thuật toán heuristic/meta-heuristic (Genetic
Algorithms, Simulated Annealing) để tìm ra giải pháp tối ưu cho việc phân bổ lại
tài nguyên (phi hành đoàn, tàu bay) và điều chỉnh lịch trình bay.
Học tăng cường (Reinforcement Learning - RL): Huấn luyện các tác tử AI để học
cách đưa ra các quyết định tối ưu trong môi trường động. RL có thể được sử dụng để:
Lập lịch lại chuyến bay: Học cách điều chỉnh lịch trình chuyến bay một cách linh
hoạt, cân bằng giữa chi phí, sự chậm trễ của hành khách và các ràng buộc vận hành.
Phân công lại phi hành đoàn: Học cách phân công lại phi hành đoàn một cách
hiệu quả, xem xét các quy định về thời gian làm việc, kỹ năng và vị trí hiện tại.
Tối ưu hóa vị trí tàu bay: Học cách điều chuyển tàu bay đến các sân bay khác
hoặc điều chỉnh lịch bảo dưỡng để tối ưu hóa việc sử dụng tàu bay.
Mục tiêu: Tìm ra các giải pháp tái lập kế hoạch tối ưu nhất, cân bằng giữa các
mục tiêu khác nhau (chi phí, thời gian, sự hài lòng của khách hàng) và tuân thủ
tất cả các ràng buộc phức tạp trong thời gian thực.
3. Hệ thống hỗ trợ ra quyết định thông minh (Intelligent Decision Support System):
AI giải thích được (Explainable AI - XAI): Phát triển các mô hình AI có khả năng
giải thích lý do đằng sau các quyết định được đưa ra, giúp các nhà điều hành hiểu
rõ và tin tưởng vào các đề xuất của hệ thống.
Giao diện người dùng trực quan: Xây dựng giao diện cho phép người dùng tương
tác với hệ thống AI, xem xét các kịch bản khác nhau, và điều chỉnh các tham số
để phù hợp với các ưu tiên cụ thể.
Mục tiêu: Hỗ trợ các nhà quản lý trong việc đưa ra quyết định nhanh chóng và
hiệu quả hơn, đặc biệt trong các tình huống phức tạp và áp lực cao.
4. Học sâu (Deep Learning) cho phân tích dữ liệu phi cấu trúc:
Mạng nơ-ron tích chập (CNN) hoặc mạng nơ-ron hồi quy (RNN): Phân tích dữ
liệu từ camera giám sát tại sân bay, báo cáo giọng nói từ phi công/phi hành đoàn,
hoặc các thông tin từ mạng xã hội để nhanh chóng nhận diện tình huống và mức
độ ảnh hưởng của gián đoạn.
Mục tiêu: Cung cấp cái nhìn toàn diện hơn về tình hình thực tế, giúp hệ thống tối
ưu hóa có được thông tin đầy đủ và chính xác nhất. 14
Chương II: Thu thâp và xử lý nguồn dữ liệu
Trong bối cảnh tối ưu hóa kế hoạch chuyến bay sau gián đoạn, dữ liệu chính là
huyết mạch, là nền tảng để xây dựng nên một hệ thống thông minh và linh hoạt. Việc
thu thập, làm sạch và chuẩn bị dữ liệu một cách kỹ lưỡng không chỉ đảm bảo tính
chính xác cho các phân tích và dự báo mà còn quyết định đáng kể đến hiệu quả của
toàn bộ giải pháp đề ra. Chương này sẽ đi sâu vào hành trình của dữ liệu, từ các
nguồn gốc đa dạng cho đến khi được tinh chỉnh và sẵn sàng cho các mô hình vận hành.
2.1. Nguồn Gốc Dữ Liệu: Khám Phá Kho Tàng Thông Tin Hàng Không
Để xây dựng một bức tranh toàn diện về hoạt động bay và các yếu tố gây gián đoạn,
chúng ta cần khai thác từ nhiều nguồn dữ liệu khác nhau, mỗi nguồn mang một giá trị và vai trò riêng:
Dữ Liệu Công Khai (Public Datasets): Mặc dù không đi sâu vào chi tiết vận hành
nội bộ, các bộ dữ liệu công khai vẫn cung cấp một cái nhìn tổng quan và bối cảnh
quan trọng. Chúng ta có thể tìm thấy thông tin về lịch sử các chuyến bay, dữ liệu
về hiệu suất đúng giờ từ các cơ quan quản lý hàng không, hoặc các bộ dữ liệu khí
tượng toàn cầu để phân tích xu hướng thời tiết. Những thông tin này giúp xác
định các yếu tố khách quan, phổ biến có thể gây ra gián đoạn như bão, sương
mù, hay các khu vực thường xuyên tắc nghẽn.
Dữ Liệu Nội Bộ (Internal Data - Tự Thu Thập): Đây là "kho báu" thực sự, nơi
chứa đựng những thông tin chi tiết và độc quyền về hoạt động của hãng hàng
không. Việc tiếp cận và tổ chức dữ liệu này là chìa khóa để giải quyết bài toán tối ưu hóa.
Các loại dữ liệu bao gồm:
Lịch trình bay chi tiết: Kế hoạch bay ban đầu, các điều chỉnh theo thời gian thực,
thông tin về các chuyến bay nối chuyến.
Thông tin về phi hành đoàn: Lịch làm việc, thời gian bay đã thực hiện, thời gian
nghỉ ngơi bắt buộc theo quy định an toàn bay nghiêm ngặt, vị trí hiện tại, và khả
năng điều khiển các loại máy bay khác nhau. Đây là yếu tố cực kỳ nhạy cảm và
phức tạp khi xảy ra gián đoạn.
Thông tin về đội bay (tàu bay): Loại máy bay, tình trạng bảo dưỡng (đã hoàn
thành hay đang chờ), lịch sử hỏng hóc, và vị trí hiện tại của từng chiếc.
Dữ liệu hành khách: Số lượng hành khách trên mỗi chuyến bay, thông tin về các
chuyến bay nối chuyến của họ – một yếu tố quan trọng để đánh giá tác động và ưu tiên hành khách.
Lịch sử sự cố và gián đoạn: Chi tiết về các sự kiện đã xảy ra, nguyên nhân gốc rễ,
thời gian kéo dài, và cách thức hãng hàng không đã xử lý. Đây là dữ liệu vô cùng
quý giá để học hỏi từ quá khứ. 15 Hình 1.1 Hình 1.2 Hình 1.3 16
Dữ liệu chi phí: Chi phí vận hành, chi phí bồi thường cho hành khách, chi phí lưu
trú cho phi hành đoàn và hành khách, và các chi phí phát sinh khác do gián đoạn.
Dữ Liệu Mô Phỏng (Simulation): Trong trường hợp dữ liệu thực tế về các kịch
bản gián đoạn hiếm gặp hoặc phức tạp không đủ, mô phỏng trở thành một công
cụ không thể thiếu. Bằng cách xây dựng các môi trường giả lập phản ánh hoạt
động hàng không thực tế, chúng ta có thể tạo ra vô số kịch bản gián đoạn khác
nhau. Điều này cho phép hệ thống "học" cách phản ứng và đưa ra quyết định tối
ưu trong các tình huống mà chưa từng xảy ra trên thực tế, hoặc xảy ra quá ít để có đủ dữ liệu.
2.2. Tiền Xử Lý Dữ Liệu: Biến Dữ Liệu Thô Thành Vàng
Dữ liệu thô hiếm khi hoàn hảo. Chúng thường chứa đựng những "tạp chất" như
thông tin dư thừa, thiếu sót, hoặc không nhất quán. Quá trình tiền xử lý chính là
công đoạn "tinh luyện" để dữ liệu trở nên sạch sẽ, đáng tin cậy và sẵn sàng cho các phân tích sâu hơn.
Làm Sạch Dữ Liệu: Đây là bước cơ bản nhất. Chúng ta cần xác định và loại bỏ
các bản ghi trùng lặp, đảm bảo mỗi thông tin là duy nhất. Các định dạng dữ liệu
(ví dụ: ngày/giờ, mã sân bay, mã máy bay) cần được chuẩn hóa để dễ dàng so
sánh và xử lý. Ngoài ra, việc phát hiện và xử lý các "ngoại lệ" – những giá trị quá
lớn hoặc quá nhỏ, có thể là lỗi nhập liệu hoặc một sự kiện bất thường – cũng rất
quan trọng để tránh làm sai lệch kết quả.
Loại Bỏ Nhiễu và Xử Lý Giá Trị Thiếu: Dữ liệu có thể chứa "nhiễu" – những
thông tin không liên quan hoặc bị sai lệch, cần được làm mịn hoặc lọc bỏ. Đặc
biệt, "giá trị thiếu" là một vấn đề phổ biến. Chúng ta cần phân tích nguyên nhân
của sự thiếu hụt này và quyết định cách xử lý phù hợp. Có thể là loại bỏ các bản
ghi bị thiếu nếu số lượng ít, hoặc "điền khuyết" bằng cách sử dụng giá trị trung
bình, trung vị, hay thậm chí là dựa trên các thông tin lân cận hoặc các mô hình dự
đoán để ước lượng giá trị còn thiếu một cách hợp lý nhất.
Xử Lý Dữ Liệu Phi Cấu Trúc: Nhiều thông tin quan trọng như báo cáo sự cố, ghi
chú của phi công, hoặc phản hồi từ hành khách thường ở dạng văn bản tự do.
Chúng cần được xử lý để trích xuất những thông tin có giá trị, ví dụ như nhận
diện các từ khóa chỉ nguyên nhân gián đoạn, mức độ nghiêm trọng, hay các bên liên quan.
2.3. Lựa Chọn Đặc Trưng: Xác Định Yếu Tố then Chốt
Không phải tất cả thông tin đều có giá trị như nhau. Bước lựa chọn đặc trưng là quá
trình "chắt lọc" để giữ lại những yếu tố thực sự có sức ảnh hưởng đến bài toán tối
ưu hóa, giúp mô hình hoạt động hiệu quả hơn và dễ hiểu hơn. 17
Kiến Thức Chuyên Sâu Ngành (Domain Knowledge): Đây là yếu tố quan trọng
nhất. Những chuyên gia trong ngành hàng không, với kinh nghiệm dày dặn, có
thể chỉ ra ngay những thông tin nào là cốt lõi để đưa ra quyết định sau gián đoạn.
Ví dụ, họ sẽ biết rằng loại máy bay, số lượng phi công có chứng chỉ cho loại máy
bay đó, thời gian nghỉ bắt buộc của phi hành đoàn, và năng lực của sân bay đích là
những yếu tố không thể bỏ qua.
Phân Tích Thống Kê: Các phương pháp thống kê giúp định lượng mối quan hệ
giữa các thông tin và kết quả mong muốn. Chúng ta có thể dùng các phép đo
tương quan để xác định những thông tin nào có mối liên hệ chặt chẽ với tình
trạng gián đoạn hoặc hiệu quả của các giải pháp.
Phương Pháp Tính Toán: Ngoài ra, có những phương pháp tính toán tự động
giúp đánh giá mức độ quan trọng của từng thông tin và chọn ra tập hợp tối ưu.
Những phương pháp này có thể giúp khám phá ra những mối liên hệ tiềm ẩn mà
con người có thể bỏ qua.
2.4. Chuẩn Hóa Đặc Trưng: Đặt Mọi Thứ Lên Cùng Một "Thước Đo"
Khi các đặc trưng có phạm vi giá trị khác nhau (ví dụ: số lượng hành khách có thể là
hàng trăm, trong khi nhiệt độ sân bay chỉ vài chục độ), các mô hình có thể bị "thiên vị"
bởi những đặc trưng có giá trị lớn hơn. Chuẩn hóa đặc trưng giúp đưa tất cả về cùng
một "thước đo", đảm bảo chúng có tầm ảnh hưởng tương đương trong quá trình phân tích.
Chuyển Đổi Về Khoảng [0, 1] (Min-Max Scaling): Phương pháp này đơn giản là
đưa tất cả các giá trị về một khoảng từ 0 đến 1. Điều này giúp các mô hình hoạt
động ổn định hơn, đặc biệt là các mô hình nhạy cảm với thang đo của dữ liệu.
Chuẩn Hóa Theo Phân Phối Chuẩn (Z-score Standardization): Phương pháp này
điều chỉnh dữ liệu sao cho chúng có giá trị trung bình bằng 0 và độ lệch chuẩn
bằng 1. Đây là lựa chọn tốt khi dữ liệu có xu hướng phân phối theo hình chuông,
giúp các mô hình dựa trên khoảng cách hoạt động hiệu quả hơn. Việc lựa chọn
phương pháp chuẩn hóa phù hợp phụ thuộc vào tính chất của từng loại dữ liệu
và yêu cầu cụ thể của mô hình được sử dụng.
2.5. Gán Nhãn: Đặt Tên Cho Các Tình Huống
Để các hệ thống thông minh có thể học hỏi từ dữ liệu, chúng cần biết "đáp án đúng"
cho mỗi tình huống. Đây là quá trình gán nhãn, hay "đặt tên" cho các loại gián đoạn
hoặc các giải pháp xử lý.
Dựa trên Luật (Rule-based Labeling): Trong ngành hàng không, có rất nhiều quy
định và quy trình rõ ràng. Chúng ta có thể xây dựng các "luật" để tự động gán
nhãn. Ví dụ, nếu một chuyến bay bị hoãn hơn 3 giờ do sương mù dày đặc, chúng
ta có thể gán nhãn là "Gián đoạn do thời tiết – Hoãn chuyến". Cách này hiệu quả
và nhất quán cho các tình huống đã được định nghĩa rõ ràng. 18
Thủ Công (Manual Labeling): Đối với những tình huống phức tạp, không rõ ràng
hoặc mang tính chất đặc biệt, sự can thiệp của chuyên gia là cần thiết. Các
chuyên gia sẽ xem xét và gán nhãn thủ công, đảm bảo độ chính xác tuyệt đối cho
các trường hợp này. Dù tốn thời gian, đây là cách tạo ra "dữ liệu vàng" cho các mô hình học hỏi.
Học Bán Giám Sát (Semi-supervised Learning): Khi có một lượng lớn dữ liệu
chưa được gán nhãn nhưng chỉ một phần nhỏ đã có nhãn, phương pháp này phát
huy tác dụng. Hệ thống có thể học từ dữ liệu đã có nhãn, sau đó tự tin "dự đoán"
và gán nhãn cho phần dữ liệu còn lại, giảm đáng kể công sức thủ công.
Học Tăng Cường (Reinforcement Learning - Định nghĩa phần thưởng): Đặc biệt
trong bài toán tối ưu hóa, "gán nhãn" không chỉ là phân loại. Hệ thống học cách
đưa ra các quyết định tốt thông qua việc nhận được "phần thưởng" hoặc "hình
phạt" từ môi trường. Phần thưởng được định nghĩa dựa trên các mục tiêu kinh
doanh: ví dụ, một kế hoạch giảm thiểu chi phí bồi thường hành khách sẽ nhận
được "phần thưởng" cao.
2.6. Chia Dữ Liệu: Đánh Giá Công Bằng
Để đảm bảo rằng mô hình được xây dựng không chỉ hoạt động tốt với dữ liệu đã
thấy mà còn có thể khái quát hóa tốt trên dữ liệu mới, chúng ta cần chia dữ liệu một cách chiến lược.
Tỷ Lệ Huấn Luyện/Kiểm Định/ (Train/Test/:
Tập huấn luyện (Training Set): Phần lớn dữ liệu được dành để "dạy" mô hình
cách nhận diện các quy luật và mối quan hệ.
Tập kiểm định (Validation Set): Một phần nhỏ hơn được sử dụng trong quá trình
xây dựng mô hình để tinh chỉnh các thông số và tránh tình trạng mô hình "học
thuộc lòng" dữ liệu huấn luyện mà không hiểu bản chất (overfitting).
Kiểm Định Chéo (Cross-Validation): Đặc biệt hữu ích khi lượng dữ liệu không quá
lớn, hoặc khi muốn đảm bảo kết quả đánh giá mô hình là thật sự đáng tin cậy.
Phương pháp này chia dữ liệu thành nhiều phần, luân phiên sử dụng từng phần làm
tập kiểm định và các phần còn lại để huấn luyện. Bằng cách lặp lại quá trình này
nhiều lần, chúng ta sẽ có một cái nhìn toàn diện và vững chắc hơn về khả năng của mô hình. 19
Lưu ý với Dữ Liệu Thời Gian: Đối với dữ liệu có yếu tố thời gian (như lịch sử
gián đoạn), việc chia dữ liệu phải tuân theo trình tự thời gian. Dữ liệu từ quá
khứ được dùng để huấn luyện, và dữ liệu từ tương lai (chưa xảy ra) được dùng
để kiểm tra, mô phỏng đúng tình huống thực tế khi hệ thống cần đưa ra dự đoán
hoặc quyết định trong tương lai.
Việc đầu tư vào quá trình thu thập và xử lý dữ liệu một cách cẩn trọng sẽ tạo nền
tảng vững chắc cho việc xây dựng một giải pháp tối ưu hóa kế hoạch chuyến bay
hiệu quả, giúp các hãng hàng không vượt qua những "cơn bão" gián đoạn một cách
linh hoạt và thông minh hơn.
CHƯƠNG III: BIỂU DIỄN VÀ HUẤN LUYỆN MÔ HÌNH
3.1. Lý Do Chọn Mô Hình Và Vì Sao
Học Tăng cường (Reinforcement Learning - RL) là cốt lõi để giải quyết bài toán tối
ưu hóa động này. Tuy nhiên, để RL hoạt động hiệu quả, chúng ta cần một Mô hình
Mô phỏng (Simulation Model) đóng vai trò là "sân chơi" nơi tác tử RL có thể thực hành và học hỏi.
Mô hình Mô phỏng Lý do phù hợp:
Thực tế khắc nghiệt: Trong ngành hàng không, việc thử nghiệm các chiến lược xử
lý gián đoạn trực tiếp trên hệ thống thực tế là không thể, do rủi ro về an toàn, chi
phí khổng lồ và tác động tiêu cực đến hàng ngàn hành khách.
Học hỏi không rủi ro: Mô hình mô phỏng cung cấp một môi trường an toàn, không
rủi ro để tác tử RL "thử và sai" hàng triệu lần. Qua mỗi lần thử, tác tử sẽ nhận
được phản hồi (phần thưởng/hình phạt) và điều chỉnh hành vi của mình.
Tạo ra đa dạng kịch bản: Chúng ta có thể dễ dàng tạo ra vô số kịch bản gián đoạn
khác nhau (thời tiết, kỹ thuật, nhân sự, quy mô lớn/nhỏ) trong mô phỏng, bao gồm
cả những kịch bản hiếm gặp trong thực tế, giúp tác tử học cách đối phó với mọi tình huống.
Đánh giá hiệu quả: Mô hình mô phỏng cũng là công cụ lý tưởng để đánh giá hiệu
suất của các chiến lược tối ưu hóa trước khi triển khai vào thực tế, giúp so sánh
các phương án và chọn ra giải pháp tốt nhất.
Môi trường phản hồi nhanh: Môi trường mô phỏng có thể phản hồi các hành động
của tác tử trong thời gian ngắn hơn nhiều so với thế giới thực, giúp tăng tốc quá trình học của tác tử.
Tóm lại, trong bài toán này, mô hình mô phỏng không chỉ là một công cụ hỗ trợ mà là
một thành phần không thể thiếu để huấn luyện và đánh giá hệ thống tối ưu hóa dựa
trên Học Tăng cường. Nó là "phi công tập sự" của hệ thống, nơi mọi sai lầm đều có
thể chấp nhận được và trở thành bài học quý giá. 20