Κατάλογος Εκδηλώσεων

14
Οκτ

Παρουσίαση Διπλωματικής Εργασίας κ. Γεραμάνη Νικολάου - Σχολή ΗΜΜΥ

Κατηγορία: Παρουσίαση Διπλωματικής Εργασίας

Η παρουσίαση θα γίνει με τηλεδιάσκεψη

14/10/2020 17:00 - 18:00

Σύνδεσμος τηλεδιάσκεψης: https://tuc-gr.zoom.us/j/82029022562?pwd=RHRmdFpmU3ArVWpNd1M1eGJjZExLZz09

Περιγραφή:

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών

ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
ΝΙΚΟΛΑΟΣ ΓΕΡΑΜΑΝΗΣ

θέμα
Ενισχυτική Μάθηση για Αυτόνομα Μη-Επανδρωμένα Ιπτάμενα Οχήματα
Reinforcement Learning for Autonomous Unmanned Aerial Vehicles

Εξεταστική Επιτροπή
Αναπληρωτής Καθηγητής Μιχαήλ Γ. Λαγουδάκης (επιβλέπων)
Καθηγητής Άγγελος Μπλέτσας
Αναπληρωτής Καθηγητής Παναγιώτης Παρτσινέβελος (Σχολή ΜΗΧΟΠ)

Περίληψη
Η ενισχυτική μάθηση είναι ένας τομέας της μηχανικής μάθησης που ασχολείται με το πως οι αυτόνομοι πράκτορες μαθαίνουν να συμπεριφέρονται σε άγνωστα περιβάλλοντα μέσω μιας διαδικασίας δοκιμής και σφάλματος. Ο στόχος ενός πράκτορα ενισχυτικής μάθησης είναι να μάθει μια πολιτική ακολουθιακής λήψης αποφάσεων, η οποία μεγιστοποιεί την έννοια της αθροιστικής αμοιβής, μέσα από συνεχή αλληλεπίδραση με το άγνωστο περιβάλλον. Τα τελευταία χρόνια, οι ερευνητές έχουν καταφέρει να πετύχουν εντυπωσιακά κατορθώματα χρησιμοποιώντας ενισχυτική μάθηση. Ένα απαιτητικό πρόβλημα στη ρομποτική είναι η αυτόνομη πλοήγηση ενός μη-επανδρωμένου ιπτάμενου οχήματος (UAV) σε κόσμους χωρίς διαθέσιμο χάρτη. Αυτή η ικανότητα είναι κρίσιμη σε διάφορες εφαρμογές, όπως αποστολές έρευνας και διάσωσης και χαρτογράφηση γεωγραφικών περιοχών. Η παρούσα διπλωματική εργασία παρουσιάζει μια προσέγγιση για την αυτόνομη, ασφαλή πλοήγηση ενός UAV σε άγνωστα, μη χαρτογραφημένα περιβάλλοντα χρησιμοποιώντας ενισχυτική μάθηση. Πιο συγκεκριμένα, υλοποιήσαμε δύο γνωστούς αλγορίθμους, τον SARSA(λ) και τον Least-Squares Policy Iteration (LSPI), και τους συνδυάσαμε με την τεχνική tile coding, μια παραμετρική, γραμμική αρχιτεκτονική προσέγγισης της συνάρτησης τιμής με σκοπό να αντιμετωπίσουμε τον μεγάλο χώρο καταστάσεων που ορίζεται από τις μετρήσεις των αισθητήρων απόστασης του UAV. Η τελική πολιτική κάθε αλγορίθμου δοκιμάστηκε και σε περιβάλλοντα περισσότερο πολύπλοκα από αυτό της εκπαίδευσης με σκοπό να αξιολογηθεί η συμπεριφορά κάθε πολιτικής σε άγνωστους κόσμους. Τα αποτελέσματα δείχνουν πως ο SARSA(λ) ήταν ικανός να μάθει μια καλή συμπεριφορά, η οποία απέδωσε ικανοποιητικά στις περισσότερες περιπτώσεις, οδηγώντας το UAV σε διαδρομές χωρίς συγκρούσεις με εμπόδια. Η συμπεριφορά του LSPI επίσης έδειξε ότι έχει αρκετά καλές προοπτικές, δεν ήταν όμως ιδιαίτερα αποτελεσματική. Η εργασία στο σύνολό της έχει υλοποιηθεί χρησιμοποιώντας το Robot Operating System (ROS) και το περιβάλλον ρομποτικής προσομοίωσης Gazebo.

Abstract
Reinforcement learning is an area of machine learning concerned with how autonomous agents learn to behave in unknown environments through trial-and-error. The goal of a reinforcement learning agent is to learn a sequential decision policy that maximizes the notion of cumulative reward through continuous interaction with the unknown environment. In recent years, researchers have achieved many impressive accomplishments using reinforcement learning. A challenging problem that appears in robotics is the autonomous navigation of a UAV in worlds with no available map. This ability is critical in many applications, such as search and rescue operations or the mapping of geographical areas. In this thesis, we present a map-less approach for the autonomous, safe navigation of a UAV in unknown environments using reinforcement learning. Specifically, we implemented two popular algorithms, SARSA(λ) and Least-Squares Policy Iteration (LSPI), and combined them with tile coding, a parametric, linear approximation architecture for value function in order to deal with the large state space defined by the measurements of the UAV distance sensors. The final policy of each algorithm was tested in environments more complex than that of the training in order to evaluate the behavior of each policy in unknown worlds. Results show that SARSA(λ) was able to learn a good policy that performed well in most situations, leading the UAV to paths free of collisions with the obstacles. LSPI's policy was also quite promising, but not as effective. The whole project was implemented using the Robot Operating System (ROS) framework and the Gazebo robot simulation environment.

Meeting ID: 820 2902 2562
Password: 123456

Προσθήκη στο ημερολόγιό μου