Κατάλογος Εκδηλώσεων

09
Οκτ

Παρουσίαση Διπλωματικής Εργασίας κας Νάντιας Ευθυμίας Φρεχάτ, Σχολή ΗΜΜΥ
Κατηγορία: Παρουσίαση Διπλωματικής Εργασίας   ΗΜΜΥ  
ΤοποθεσίαΛ - Κτίριο Επιστημών/ΗΜΜΥ, 141Α-14, Αίθουσα Εργαστηρίου Intelligence, Πολυτεχνειούπολη
Ώρα09/10/2019 14:00 - 15:00

Περιγραφή:

Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Πρόγραμμα Προπτυχιακών Σπουδών

 

ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

ΦΡΕΧΑΤ ΝΑΝΤΙΑ ΕΥΘΥΜΙΑΣ

 

με θέμα

Διερευνώντας την Αποτελεσματικότητα και την Απόδοση του Υποτιτλισμού Εικόνας

Exploring Efficiency and Performance of Image Captioning

 

Τετάρτη 9 Οκτωμβρίου 2019, 14:00 μ.μ.

Αίθουσα 141.A141 (Intelligence), Κτίριο Επιστημών, Πολυτεχνειούπολη

 

Εξεταστική Επιτροπή

Αναπληρωτής Καθηγητής Μιχαήλ Λαγουδάκης (επιβλέπων)

Καθηγητής Μιχαήλ Ζερβάκης

 Καθηγητής Διονύσιος Πνευματικάτος (ΕΜΠ)

 

Περίληψη

Ο υποτιτλισμός εικόνας είναι ένα πολύπλοκο πρόβλημα που συνδυάζει τον τομέα της μηχανικής όρασης και της επεξεργασίας φυσικής γλώσσας. Αποτελεί την παραγωγή προτάσεων σε φυσική γλώσσα που περιγραφουν το περιεχόμενο κάποιας εικόνας. Ο υποτιτλισμός εικόνας έχει αρκετές εφαρμογές στον πραγματικό κόσμο με σημαντικό πρακτικό αντίκτυπο, από την παροχή βοήθειας σε χρήστες με προβλήματα όρασης έως προσωπικούς βοηθούς μέσω της αλληλεπίδρασης ανθρώπου-ρομπότ.

Η πρόοδος στον υποτιτλισμό εικόνας είναι μια σημαντική επιτυχία της Τεχνητής Νοημοσύνη. Έχει αναφερθεί ότι σε ορισμένες μετρήσεις, όπως το BLUE ή το CIDEr, οι πιο σύγχρονες τεχνικές ξεπερνούν ακόμα και τις ανθρώπινες επιδόσεις.

Σε αυτή τη διπλωματική εργασία, υλοποιούμε και παρουσιάζουμε ένα μοντέλο βασισμένο σε τεχνικές μηχανικής μάθησης που συνδυάζει τις πιο σύγχρονες εξελίξεις στην μηχανική όραση και τη μηχανική μετάφραση και που μπορεί να χρησιμοποιηθεί για τη δημιουργία φυσικών ακολουθιών που περιγράφουν μια εικόνα. Συγκεκριμένα, χρησιμοποιήθηκε ένας συνδυασμό συνελεκτικών νευρωνικών δικτύων μαζί με επαναλαμβανόμενα νευρωνικά δίκτυα για την απόκτηση των επιθυμητών αποτελέσματων. Τα μοντέλα εκπαιδεύτηκαν έτσι ώστε να μεγιστοποιούν την πιθανότητα περιγραφής στόχου δεδομένης της εικόνας εκπαίδευσης.

Πειράματα σε ένα πολύ μεγάλο σύνολο δεδομένων εκπαίδευσης, όπως το MSCOCO 2015 που χρησιμοποιήθηκε σε αυτή τη διπλωματική, δείχνουν την ακρίβεια του μοντέλου και την ευχέρεια που αποκτά η γλώσσα μέσα αποκλειστικά από τις περιγραφές των εικόνων. Το μοντέλο είναι συχνά αρκετά ακριβές, το οποίο ελέγθηκε ποιοτικά και ποσοτικά.

Abstract

Image captioning is a complex problem that combines the fields of computer vision and natural language processing. It generates natural language sentences that describe the content of an image. Image captioning has several applications in the real world with significant practical impact, from assisting users with visual impairments to personal assistants through human-robot interaction.

The progress in image captioning is a major success of Artificial Intelligence. It has been reported that in some metrics, such as BLUE or CIDEr, the most up-to-date techniques even outperform human performance.

In this thesis, we implement and present a model based on machine learning techniques that combines the latest developments in computer vision and machine translation that can be used to create natural sequences that describe an image. Specifically, a combination of Convolutional Neural Networks together with Recurrent Neural Networks was used to obtain the desired results. The models were trained to maximize the likelihood of a target description given the training image.

Experiments on a huge set of training data, such as the MSCOCO used in this thesis, demonstrate the accuracy of the model and the fluency of the language that is acquired through the image descriptions alone. The model is often quite accurate, which has been tested qualitatively and quantitatively

© Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών 2014
Πολυτεχνείο Κρήτης