Κατάλογος Εκδηλώσεων

23
Αυγ

Παρουσίαση Διπλωματικής Εργασίας κ. Χρήστου Πετρίδη, Σχολή ΗΜΜΥ

Κατηγορία: Παρουσίαση Διπλωματικής Εργασίας ΗΜΜΥ

Λ - Κτίριο Επιστημών/ΗΜΜΥ, 145Α-15, Αίθουσα Εργαστηρίου Intelligence, Πολυτεχνειούπολη

23/08/2019 09:00 - 10:00

Περιγραφή:

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Πρόγραμμα Προπτυχιακών Σπουδών

ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

ΧΡΗΣΤΟΥ ΠΕΤΡΙΔΗ

με θέμα

Μια Πολυ-Τροπική Προσέγγιση Q-Μάθησης μέσω Κανονικοποιημένων Συναρτήσεων Κέρδους και Βαθέων Νευρικών Δικτύων

A Multi-Modal Q-Learning Approach using Normalized Advantage Functions and Deep Neural Networks

Παρασκευή 23 Αυγούστου 2019, 9 π.μ.

Εργαστήριο Intelligence, Αίθουσα 141.Α15, Κτίριο Επιστημών, Πολυτεχνειούπολη

Εξεταστική Επιτροπή

Αναπληρωτής Καθηγητής Μιχαήλ Λαγουδάκης (επιβλέπων)

Αναπληρωτής Καθηγητής Γεώργιος Χαλκιαδάκης

Καθηγητής Άγγελος Μπλέτσας

Περίληψη

Η Ενισχυτική Μάθηση (Reinforcement Learning), ως κλάδος της Μηχανικής Μάθησης που προσανατολίζεται στην ανάπτυξη αυτόνομων πρακτόρων, παρουσιάζει μια ταχεία εξέλιξη τα τελευταία χρόνια ως τρόπος επίλυσης προβλημάτων ακολουθιακών αποφάσεων. Η ανάπτυξη αξιόπιστων Βαθέων Νευρωνικών Δικτύων (Deep Neural Networks) έχει επίσης διαδραματίσει καθοριστικό ρόλο στην επιτυχία αυτή. Ο συνδυασμός αυτών των δύο περιοχών τελικά οδήγησε στη Βαθιά Ενισχυτική Μάθηση (Deep Reinforcement Learning), ένα πεδίο τελευταίας τεχνολογίας που κατέδειξε ήδη μεγάλες δυνατότητες και αξιοθαύμαστα αποτελέσματα σε προβλήματα συνεχούς ελέγχου. Για να συμβάλλουμε σε αυτή την προσπάθεια, η παρούσα διπλωματική εργασία διερευνά την επέκταση των Κανονικοποιημένων Συναρτήσεων Κέρδους (Normalized Advantage Functions - NAFs) σε πολυτροπικές αναπαραστάσεις, όπως πολλαπλά quadratics και RBFs (Radial Basis Functions). Ειδικότερα, εστιάζουμε σε μια συνεχή παραλλαγή του γνωστού αλγόριθμου Q-learning με επανάληψη εμπειρίας σε συνδυασμό με την αναπαράσταση NAF και τα βαθιά νευρωνικά δίκτυα. Η αρχική αναπαράσταση NAF είναι από το σχεδιασμό της μονοτροπική, δεδομένου ότι η quadratic advantage function προσφέρει μόνο ένα mode, πράγμα που σημαίνει ότι μπορεί να προκύψει απώλεια απόδοσης εξαιτίας της αδυναμίας εξερεύνησης και αποτύπωσης σύνθετων αναπαραστάσεων με πολλαπλά modes. Για να αντιμετωπίσει αυτό το πρόβλημα, αυτή η διπλωματική εργασία προτείνει δύο πολυτροπικές αναπαραστάσεις ως απλή λύση. Η πρώτη χρησιμοποιεί πολλαπλά quadratics, ενώ η δεύτερη χρησιμοποιεί RBFs. Σε κάθε περίπτωση, η διαμόρφωση του action advantage επιτυγχάνεται με δύο διαφορετικές μεθόδους. Η πρώτη χρησιμοποιεί το άθροισμα εξίσου σταθμισμένων όρων advantage, οι οποίοι παράγονται ως έξοδοι του νευρικού δικτύου. Η δεύτερη μέθοδος χρησιμοποιεί τον τελεστή argmax πάνω στους όρους advantage. Kαι οι δυο μέθοδοι αποφεύγουν οποιαδήποτε άμεση αλληλεπίδραση με το νευρωνικό δίκτυο, καθιστώντας έτσι τις προτεινόμενες αρχιτεκτονικές αποτελεσματικότερες. Προκειμένου να αξιολογηθεί η υλοποίησή μας, πραγματοποιήθηκαν δοκιμές προσομοίωσης σε μια πλατφόρμα ανοιχτού κώδικα, που ονομάζεται RoboSchool, η οποία ενσωματώνεται στο ευρύτερο πλαίσιο OpenAI Gym και παρέχει διαφορετικά περιβάλλοντα για τον έλεγχο των αλγορίθμων ενισχυτικής μάθησης. Στην περίπτωσή μας χρησιμοποιήσαμε έξι περιβάλλοντα (εκκρεμές, αντεστραμμένο εκκρεμές, αντεστραμμένο διπλό εκκρεμές, ανθρωποειδές, ant, walker2d), τα οποία υποστηρίζουν διαφορετικά προσομοιωμένα ρομπότ και αποτελούνται από προβλήματα συνεχούς ελέγχου. Τα αποτελέσματά μας έδειξαν σημαντική βελτίωση στις επιδόσεις και την αποτελεσματικότητα του προτεινόμενου πολυτροπικού αλγόριθμου σε σύγκριση με τον αρχικό μονοτροπικό αλγόριθμο, ωστόσο με το κόστος κάποιας αύξησης του υπολογιστικού χρόνου. Παρατηρήσαμε ότι το αποτέλεσμα για κάθε εργασία διαφέρει καθώς εξαρτάται από τις τιμές αρκετών υπερπαραμέτρων, με τις batch normalization, learning rate και exploration noise να είναι οι πιο ευαίσθητες. Η παρούσα διπλωματική εργασία είναι ένα πρώτο βήμα προς μια πλήρη επέκταση σε πολυτροπικές αναπαραστάσεις και την εφαρμογή τους σε πιο σύνθετα περιβάλλοντα αποφέροντας ακόμη πιο αξιόπιστες λύσεις σε προβλήματα συνεχούς ελέγχου.

Abstract

Reinforcement Learning, a branch of Machine Learning geared towards the development of Autonomous Agents, presents a rapid evolution in recent years as a means of solving sequential decision problems. The development of robust Deep Neural Networks has also played a crucial role to this success. The combination of these two areas eventually led to Deep Reinforcement Learning, a state-of-the-art field which demonstrated already a great potential and tremendous results in continuous control tasks. In order to contribute to this effort, the present thesis investigates an extension of the Normalized Advantage Functions (NAFs) to multi-modal representations, such as multiple quadratics and RBFs (Radial Basis Functions). More specifically, we focus on a continuous variant of the well-known Q-learning algorithm with experience replay, combined with the NAF representation and deep neural networks. The original NAF representation is by design unimodal, given that the quadratic advantage function offers only one mode, which means that loss in performance may occur due to the inability to explore and capture complex representations with multiple modes. To tackle this problem, this thesis proposes two multi-modal representations as a simple solution. The first one uses multiple quadratic terms, whereas the second one uses RBFs. In each case, the formulation of the action advantage is accomplished by two different methods. The first one uses the sum of equally weighted advantage terms, which are derived as outputs of the neural network. The second method uses the argmax operator over the advantage terms. Both of these methods avoid any direct interaction with the neural network, thus making the proposed architectures more efficient. In order to evaluate our implementation, simulation tests were run on an open-source platform, called RoboSchool, which is integrated into the broader OpenAI Gym framework, and provides different environments for testing reinforcement learning algorithms. In our case, we used six environments (pendulum, inverted pendulum, inverted double pendulum, humanoid, ant, walker2d), which support different simulated robots and consist of continuous control tasks. Our results showed a significant improvement in performance and efficiency of the proposed multi-modal algorithm compared to the original unimodal one, nevertheless at the cost of some increase in computation time. We observed that the outcome for each task differs as it depends on the values of several hyper-parameters, with batch normalization, learning rate and exploration noise being the most sensitive ones. This thesis is a first step towards a full-scale extension to multi-modal representations and their application to more complex environments yielding even more robust solutions to continuous control tasks.

Προσθήκη στο ημερολόγιό μου