Κατάλογος Εκδηλώσεων

18
Αυγ

Παρουσίαση Διπλωματικής Εργασίας κας Καμπιώτη Σοφίας - Σχολή ΗΜΜΥ
Κατηγορία: Παρουσίαση Διπλωματικής Εργασίας  
ΤοποθεσίαΗ παρουσίαση θα γίνει με τηλεδιάσκεψη
Ώρα18/08/2020 10:00 - 11:00

Περιγραφή:

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών

ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
ΚΑΜΠΙΩΤΗ ΣΟΦΙΑ

θέμα
Γεωμετρική Προσέγγιση Κατανεμημένης Κατηγοριοποίησης με Χρήση Μηχανών Υποστηρικτικών Διανυσμάτων
A Functional Geometric Approach to Distributed Support Vector Machine(SVM) Classification

Εξεταστική Επιτροπή
Αναπληρωτής Καθηγητής Βασίλειος Σαμολαδάς (επιβλέπων)
Καθηγητής Μίνως Γαροφαλάκης 
Αναπληρωτής Καθηγητής Αντώνιος Δεληγιαννάκης 

Περίληψη
Ζούμε σε ένα περιβάλλον όπου οι πληροφορίες ρέουν ακατάπαυστα και με το πέρασμα των χρόνων το περιβάλλον μας διέπεται ολοένα και περισσότερο από δεδομένα, δημιουργώντας έτσι την ανάγκη για την κατασκευή καλύτερων μοντέλων για την διαχείριση τους. Η επανάσταση στον τομέα της ανάλυσης δεδομένων έχει ήδη ξεκινήσει με την χρήση machine learning αλγορίθμων. Οι Support Vector Machine (SVM) αλγόριθμοι είναι μια κατηγορία δημοφιλών machine learning αλγορίθμων, με μεγάλη προσαρμοστικότητα και πολλαπλές περιπτώσεις χρήσης καθώς έχουν την ικανότητα να εντοπίζουν πολύπλοκες συσχετίσεις μεταξύ δεδομένων χωρίς υψηλή υπολογιστική πολυπλοκότητα. Σε αυτήν την εργασία μελετήθηκε το πρόβλημα του υψηλού κόστους επικοινωνίας που παρατηρείται στην περίπτωση που τα δεδομένα παράγονται σε απομακρυσμένες πηγές και συλλέγονται σε μια μόνο δομή για την επεξεργασία τους. Τα τελευταία χρόνια έχουν γίνει αξιόλογες προσπάθειες ώστε να επιτευχθεί παραλληλισμός στην διαδικασία εκπαίδευσης machine learning αλγορίθμων ώστε να αποφευχθεί η συγκέντρωση όλων των δεδομένων σε μια κεντρική δομή. Η εργασία αυτή προτείνει σαν ενδεχόμενη λύση την χρήση του Functional Geometric Monitoring (FGM) πρωτοκόλλου επικοινωνίας, που χρησιμοποιείται για την παρακολούθηση μεγάλου όγκου δεδομένων σε κατανεμημένο σύστημα, ώστε να μειωθεί το κόστος επικοινωνίας. Βασικός στόχος είναι να επιτύχουμε σφάλμα πρόβλεψης αντίστοιχο αυτού ενός κεντρικοποιημένου SVM αλγορίθμου αλλά σε κατανεμημένο σύστημα με ελαχιστοποιημένη επικοινωνία μεταξύ κόμβων. Ταυτόχρονα αποδείχθηκε ότι η sklearn βιβλιοθήκη της python που χρησιμοποιείται για κεντρικοποιημένη υλοποίηση machine learning αλγορίθμου μπορεί να αποδώσει εξίσου καλά σε μια κατανεμημένη δομή με χρήση της βιβλιοθήκης Dask και να επιτευχθεί σημαντική επιτάχυνση στην διαδικασία εκπαίδευσης του αλγορίθμου.           

Abstract
We live in the information age, and with every passing year, our environment becomes more and more heavily defined by data, leading to a major need for better decision-making models. The breakthroughs in data analytics have already seen through machine learning. Support vector machines (SVM) are a popular, adaptive, multipurpose machine learning algorithm with the ability to capture complex relationships between data points without having to perform difficult transformations. We study the problem of prohibitive communication costs that a centralized architecture implies if most of the data is generated or received on different remote machines. The past few years notable efforts have been made to achieve parallelism on the training procedure of machine learning models. We propose the use of Functional Geometric Monitoring (FGM) communication protocol which is used to monitor high-volume, rapid distributed streams to decrease the communication cost on a distributed SVM architecture. Our main goal is both to achieve centralized-like prediction loss and to minimize communication costs. In our proposal, the sklearn library, for centralized machine learning, is used in a distributed manner, with the use of Dask library, resulting in a notable speedup for the training procedure.

 

Meeting ID: 763 809 3703
Password: 970555

© Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών 2014
Πολυτεχνείο Κρήτης