Έμβλημα Πολυτεχνείου Κρήτης με τίτλο Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
Η Σχολή ΗΜΜΥ στο Facebook  Η Σχολή ΗΜΜΥ στο Youtube

Κατάλογος Εκδηλώσεων

11
Οκτ

Παρουσίαση Διπλωματικής Εργασίας κ. Δημητρίου Κοντζεδάκη, Σχολή ΗΜΜΥ
Κατηγορία: Παρουσίαση Διπλωματικής Εργασίας   ΗΜΜΥ  
ΤοποθεσίαΛ - Κτίριο Επιστημών/ΗΜΜΥ, 141Α-14, Αίθουσα Εργαστηρίου Intelligence, Πολυτεχνειούπολη
Ώρα11/10/2018 10:00 - 11:00

Περιγραφή:

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Πρόγραμμα Προπτυχιακών Σπουδών

 

ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

του ΚΟΝΤΖΕΔΑΚΗ ΔΗΜΗΤΡΗ

με θέμα

Προσαρμογή του Χώρου Ενεργειών για Ενισχυτική Μάθηση

Adaptation of Action Space for Reinforcement Learning

 

Πέμπτη 11 Οκτωβρίου 2018, 10 π.μ.

Αίθουσα Εργαστηρίου Intelligence, 141.A14A, Κτίριο Επιστημών, Πολυτεχνειούπολη

 

Εξεταστική Επιτροπή

 Αναπληρωτής Καθηγητής Λαγουδάκης Μιχαήλ (Επιβλέπων)

Αναπληρωτής Καθηγητής Χαλκιαδάκης Γεώργιος

Καθηγητής Ζερβάκης Μιχάλης

 

Περίληψη

Η Ενισχυτική Μάθηση είναι μια τεχνική Μηχανικής Μάθησης, όπου ένας αλγόριθμος λήψης αποφάσεων, γνωστός και ως αυτόνομος πράκτορας, αλληλεπιδρά με ένα (άγνωστο) περιβάλλον κάνοντας παρατηρήσεις και ενέργειες σε αυτό, ενώ ταυτόχρονα παίρνει θετική ή αρνητική επιβράβευση σε κάθε βήμα με βάση την απόδοσή του. Μέσα από αυτή τη διαδικασία, ο πράκτορας προσπαθεί να μάθει τη βέλτιστη πολιτική λήψης αποφάσεων, πιο συγκεκριμένα να βρει επιλογές ενεργειών σε κάθε κατάσταση που θα βοηθήσουν να μεγιστοποιηθεί η αναμενόμενη συνολική επιβράβευση μακροπρόθεσμα. Η τεχνική αυτή είναι ιδανική για προβλήματα βέλτιστου ελέγχου, για παιχνίδια και πολλά άλλα πεδία. Πολλές αρχιτεκτονικές πρακτόρων Ενισχυτικής Μάθησης χρησιμοποιούν ένα σύνολο διακριτών ενεργειών που αναπαριστούν έναν συνεχή Καρτεσιανό χώρο ενεργειών και ο πράκτορας καλείται να επιλέξει μία από αυτές τις διακριτές ενέργειες σε κάθε χρονικό βήμα. Συχνά, αυτή η διακριτοποίηση του συνεχή χώρου ενεργειών μειώνει την ικανότητα επιλογής ενεργειών που αποδίδουν καλύτερα, ενώ ο πράκτορας είναι αναγκασμένος να επιλέξει μόνο μεταξύ των διακριτών ενεργειών. Υπάρχουν δύο εναλλακτικές λύσεις σε αυτό το πρόβλημα: είτε να αυξηθεί η πυκνότητα των διακριτών σημείων, το οποίο θα επηρεάσει την ταχύτητα αντίδρασης του πράκτορα, είτε να υιοθετηθεί διακριτοποίηση με μεταβλητή ανάλυση προσαρμοσμένη στις ανάγκες του προβλήματος. Σε αυτήν την εργασία παρουσιάζουμε μια μέθοδο δημιουργίας διακριτοποιήσεων που έχουν τη δυνατότητα να προσαρμόζονται δυναμικά ανάλογα με τη χρήση του χώρου ενεργειών. Η προτεινόμενη μέθοδος προσαρμοσμένης διακριτοποίησης μπορεί να χειριστεί αυτόματα μια μεγάλη ποικιλία μοτίβων μέσα σε λίγα βήματα προσαρμογής, ενώ διατηρεί τον αριθμό των διακριτών σημείων σταθερό. Ενσωματώσαμε αυτή τη μέθοδο στον χώρο ενεργειών ενός συγκεκριμένου πράκτορα Βαθιάς Ενισχυτικής Μάθησης που ενεργεί σε περιβάλλοντα που χρήζουν αυξημένης ακρίβειας. Οι προσαρμοσμένες διακριτοποιήσεις μπορούν να εκμεταλλευτούν την επιλεκτική χρήση που κάνει ο πράκτορας στο χώρο ενεργειών και να αυξομειώσουν την πυκνότητα των διακριτών σημείων ανά περιοχή, δίνοντας αυξημένο αριθμό ενεργειών και συνεπώς υψηλότερη ανάλυση σε περιοχές όπου υπάρχει ανάγκη. Αυτό είχε σαν αποτέλεσμα να αυξηθεί η ακρίβεια και τελικά και η απόδοση του πράκτορα, χωρίς σημαντική αύξηση στις απαιτήσεις υπολογιστικών πόρων.

 

​​​​​​​​​​​​​​Abstract

Reinforcement Learning is a Machine Learning technique, where a decision making algorithm, also known as autonomous agent, interacts with an (unknown) environment by making observations and taking actions, while it is receiving positive or negative rewards at each step based on its performance. During this process, the agent tries to learn an optimal decision making policy, namely which action selections at each state will help to maximize the expected total reward in the long term. This technique is ideal for optimal control problems, games and many other domains. Many RL architectures use a discrete set of actions to represent a continuous Cartesian action space and the agent is called to select one of these discrete actions at each time step. Usually, this discretization of a continuous action space reduces the ability of the agent in taking actions that perform best, since the agent is forced to choose among the discrete actions. There are two alternative solutions to this problem: either increase the density of discrete points, which affects the responsiveness of the agent, or adopt a discretization of variable resolution which adapts to the needs of the problem. In this thesis we present a method for creating discretizations able to adapt dynamically according to the use of the action space. The proposed adaptive discretization can match automatically a big variety of different patterns in a few adaptation steps, while maintaining a constant number of discrete points. We embed this adaptive discretization method into the action space of a particular Deep RL agent performing in specific environments that require precision. Our adaptive discretizations take advantage of the selective use the agent makes over the action space and adjusts the density of the discrete points in the space, giving increased number of discrete actions and thus higher resolution to regions where it is needed. As a result, the agent’s precision and learning performance is increased, without significant increase in computational resources.

© Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών 2014
Πολυτεχνείο Κρήτης