Έμβλημα Πολυτεχνείου Κρήτης με τίτλο Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
Η Σχολή ΗΜΜΥ στο Facebook  Η Σχολή ΗΜΜΥ στο Youtube

Κατάλογος Εκδηλώσεων

30
Ιουν

Παρουσίαση Διπλωματικής Εργασίας κ. Ευαγγέλου - Στυλιανού Βλασσόπουλου - Σχολή ΗΜΜΥ
Κατηγορία: Παρουσίαση Διπλωματικής Εργασίας  
Τοποθεσία
Ώρα30/06/2025 10:00 - 11:00

Περιγραφή:

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών

ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

Ευαγγέλου Στυλιανού Βλασσόπουλου

με θέμα

Υλοποίηση Πλατφόρμας για την Ενημέρωση, Διαχείριση και Ανάλυση της Βάσης Διατροφικών Δεδομένων «HelTH»
Implementation of a Platform for the Update, Management and Analysis of Data for the «HelTH» Nutrition Database

Εξεταστική Επιτροπή
Καθηγητής Μιχαήλ Ζερβάκης (επιβλέπων)
Καθηγητής Μιχαήλ Λαγουδάκης
Καθηγήτρια Μαρία Καψοκεφάλου (ΓΠΑ, Τμήμα Επιστήμης Τροφίμων και Διατροφής του Ανθρώπου)

Περίληψη
Σκοπός: Η μελέτη διερευνά τη δυνατότητα χρήσης της Επεξεργασίας Φυσικής Γλώσσας (NLP) και τεχνικών μηχανικής μάθησης για την ακριβή πρόβλεψη της διατροφικής σύστασης των τροφίμων— με έμφαση στα ολικά λιπαρά, τις πρωτεΐνες, τα ολικά σάκχαρα, το νάτριο και τις φυτικές ίνες—βάσει της λίστας συστατικών τους. Η έρευνα υποκινείται από την αυξανόμενη ζήτηση για ακριβή και τυποποιημένη επισήμανση τροφίμων λόγω των ρυθμιστικών αλλαγών, των ανησυχιών για τη δημόσια υγεία και της αυξημένης καταναλωτικής ευαισθητοποίησης.
Μεθοδολογία: Αναπτύχθηκε ένα προγνωστικό πλαίσιο βασισμένο στη βαθιά μάθηση, αξιοποιώντας DistilBERT embeddings για τη μετατροπή των λιστών συστατικών σε αριθμητικές αναπαραστάσεις. Χρησιμοποιήθηκε ένα σύνολο δεδομένων από την USDA FoodData Central, διασφαλίζοντας την ευρεία κάλυψη της διατροφικής σύστασης των τροφίμων. Δοκιμάστηκαν διάφορα μοντέλα παλινδρόμησης, συμπεριλαμβανομένων νευρωνικών δικτύων Multi-Layer Perceptron (MLP), σε συνδυασμό με βελτιστοποιητές όπως ο AdamW και συναρτήσεις απωλειών όπως η SmoothL1Loss. Οι συγκριτικές πειραματικές δοκιμές αξιολόγησαν τον αντίκτυπο της διαμόρφωσης του συνόλου δεδομένων, της επιλογής χαρακτηριστικών και των διαφορετικών διαμορφώσεων εκπαίδευσης στην προγνωστική ακρίβεια. Ως μετρικές αξιολόγησης χρησιμοποιήθηκαν η απώλεια επικύρωσης (validation loss), το Μέσο Απόλυτο Σφάλμα (MAE) και ο Συντελεστής Προσδιορισμού (R² Score).
Αποτελέσματα: Τα αποτελέσματα δείχνουν ότι τα κατηγοριοποιημένα σύνολα δεδομένων υπερέχουν σε προγνωστική ακρίβεια σε σχέση με τα γενικά σύνολα δεδομένων, παρουσιάζοντας χαμηλότερη απώλεια επικύρωσης και καλύτερη σύγκλιση του μοντέλου. Η SmoothL1Loss αποδείχθηκε η βέλτιστη συνάρτηση απωλειών για την εξισορρόπηση ανθεκτικότητας και ευαισθησίας στα σφάλματα, ενώ ο AdamW βελτίωσε τη σταθερότητα της εκπαίδευσης. Επιπλέον, διαπιστώθηκε ότι η διαμόρφωση του συνόλου δεδομένων επηρεάζει περισσότερο την ακρίβεια των προβλέψεων από ότι ο όγκος του, καθώς τα μεγαλύτερα, μη δομημένα σύνολα δεδομένων εισήγαγαν θόρυβο και αύξησαν τον κίνδυνο υπερπροσαρμογής.
Συμπεράσματα: Τα αποτελέσματα αποδεικνύουν ότι τα μοντέλα NLP μπορούν να εκτιμήσουν αξιόπιστα τη διατροφική σύσταση των τροφίμων, προσφέροντας μια κλιμακούμενη, οικονομικά αποδοτική εναλλακτική λύση έναντι των παραδοσιακών εργαστηριακών μεθόδων. Η μελλοντική έρευνα θα πρέπει να εστιάσει στη βελτιστοποίηση τεχνικών επιλογής χαρακτηριστικών, στην ενίσχυση της ρυθμιστικής προσαρμοστικότητας και στη βελτίωση των δυνατοτήτων πρόβλεψης σε πραγματικό χρόνο. Η μελέτη υπογραμμίζει τη σημαντική συμβολή της μηχανικής μάθησης στη βελτίωση της διαφάνειας της επισήμανσης των τροφίμων και της εμπιστοσύνης των καταναλωτών, ανοίγοντας τον δρόμο για την αυτοματοποιημένη, έξυπνη ανάλυση της διατροφικής σύστασης στη βιομηχανία τροφίμων.

Abstract 
Purpose: This study explores the feasibility of using Natural Language Processing (NLP) and machine learning techniques to accurately predict the nutritional composition of food products—focusing on fat, protein, total sugar, sodium, and fiber—based on their ingredient lists. The motivation stems from the increasing demand for accurate and standardized food labelling due to regulatory changes, public health concerns, and consumer awareness.
Methodology: A deep learning-based predictive framework was developed, leveraging DistilBERT embeddings to transform ingredient lists into structured numerical representations. The study utilized a dataset sourced from USDA FoodData Central, ensuring comprehensive coverage of food compositions. Various regression models, including Multi-Layer Perceptron (MLP) networks, were tested alongside optimization strategies such as AdamW and loss functions like SmoothL1Loss. Comparative experiments evaluated the impact of dataset structuring, feature selection, and training configurations on predictive performance. Validation loss, Mean Absolute Error (MAE), and R² Score were employed as evaluation metrics.
Results: Findings indicate that category-specific datasets outperform generalized datasets in predictive accuracy, with lower validation loss and improved model convergence. SmoothL1Loss proved optimal for balancing robustness and error sensitivity, while AdamW enhanced training stability. The study further highlights that dataset structuring plays a more critical role in prediction accuracy than dataset volume, as larger, unstructured datasets introduced noise and overfitting risks.
Conclusions: The results demonstrate that NLP-driven models can reliably estimate food nutritional composition, offering a scalable, cost-effective alternative to traditional laboratory-based methods. Future research should focus on optimizing feature selection techniques, enhancing regulatory adaptability, and refining real-time prediction capabilities. The study underscores the potential of machine learning in improving food labelling transparency and consumer trust, paving the way for automated, intelligent food composition analysis in the industry.

© Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών 2014
Πολυτεχνείο Κρήτης