Lazy Theta* та Proximal Policy Optimization (PPO)

Customer: AI | Published: 23.08.2025

Реалізується та порівнюється робота двох методів планування траєкторії безпілотного літального апарата у двовимірному міському середовищі зі статичними перешкодами. Перший метод — Lazy Theta*, представник класичних any-angle алгоритмів пошуку шляху на сітці. Другий метод — Proximal Policy Optimization (PPO), сучасний алгоритм підкріплювального навчання, що дозволяє агенту самостійно виробити стратегію обходу перешкод і досягнення цілі.Для реалізації обрано Python як основну мову програмування. Для обчислень та роботи з масивами використовується NumPy і SciPy (модулі для морфологічних операцій та карти відстаней). Алгоритм PPO реалізовано на основі бібліотеки Stable-Baselines3 з бекендом PyTorchДля візуалізації карт і побудованих маршрутів застосовується Pygame, для відстеження процесу тренування PPO — TensorBoard.Модель середовища представляється як прямокутна сітка клітин розміром H×W. Кожна клітина позначає або вільний простір, або перешкоду. Додатково вводиться буфер безпеки навколо перешкод, щоб маршрути гарантовано тримали відстань від будівель. Для навчання PPO-агента формується локальне представлення стану: невелике вікно сітки навколо дрона з каналами (прохідність та карта відстаней), а також вектор, що вказує напрямок і відстань до цілі. У рамках практичної частини збираються такі дані й метрики: частку успішних місій (дійшов до цілі без колізій),довжину/час маршруту, кількість маневрів,мінімальна відстань до перешкод (d_min) уздовж шляху;час планування: для Lazy Theta* — час роботи алгоритму пошуку, для PPO — середній час прийняття рішення на один крок; Таким чином, забезпечується як реалізація двох різних підходів (класичного і навчального), так і їхнє порівняння за єдиним набором критеріїв. Це дозволяє зробити об’єктивні висновки про доцільність використання Lazy Theta* чи PPO для основної мети - знаходження найкоротшого шляху/траєкторії у міському середовищі.