17
Οκτ
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
ΓΕΩΡΓΙΟΥ ΝΟΪΚΟΥ
με θέμα
Μηχανική Μάθηση για Κατασκευή Μοντέλου που θα Προβλέπει Πρώιμα Επερχόμενη Σήψη σε Νευροχειρουργικούς Ασθενείς
Machine Learning to Develop a Model that will Predict Early Impending Sepsis in Neurosurgical Patients
Εξεταστική Επιτροπή
Καθηγητής Μιχαήλ Ζερβάκης (επιβλέπων)
Καθηγητής Γεώργιος Σταυρακάκης
Ερευνητής (ΕΛΕ Β') Γιαννακόπουλος Γεώργιος, (ΙΠΤ, ΕΚΕΦΕ “Δημόκριτος")
Περίληψη
Ως σήψη ορίζεται μια ``απειλητική για τη ζωή δυσλειτουργία οργάνου που προκαλείται από μια απορρυθμισμένη ανταπόκριση του ξενιστή στη λοίμωξη". Η πρόληψη της σήψης απαιτεί την έγκαιρη ανίχνευσή της, κάτι που αποτελεί μεγάλη πρόκληση για ολόκληρη την επιστημονική κοινότητα. Με τη μελέτη μας, επιχειρούμε να συμβάλουμε σε αυτή την προσπάθεια, λαμβάνοντας επεξεργασμένα, ανώνυμα δεδομένα, τα οποία θα χρησιμοποιηθούν για τη δημιουργία ενός μοντέλου πρόβλεψης με τη χρήση μηχανικής μάθησης, που θα προβλέπει μια επερχόμενη λοίμωξη πριν αυτή οδηγήσει σε σήψη. Αν και το μοντέλο αυτό αρχικά λαμβάνει υπόψιν, μεταξύ άλλων, ιατρικές μετρήσεις 5 διαδοχικών ημερών, στο τέλος της μελέτης μας εξετάζουμε την προβλεπτική ικανότητα του μοντέλου, με ένα πιο περιορισμένο εύρος ημερών. Καταλήγουμε μάλιστα να προβλέπουμε με βάση τις ιατρικές μετρήσεις μιας μόνο ημέρας, τέσσερις ημέρες πριν από τη μόλυνση, λαμβάνοντας ικανοποιητικά αποτελέσματα. Η σημασία αυτού του εγχειρήματος είναι μεγάλη, καθώς η επίτευξή του, θα δώσει πολύτιμο χρόνο στους γιατρούς και το νοσηλευτικό προσωπικό να κατασευάσουν ένα αποτελεσματικό σχέδιο αντιμετώπισης της λοίμωξης, πριν αυτή προκαλέσει σήψη. Αυτό το χρονικό διάστημα θα μπορούσε να αποδειχθεί καθοριστικό για τη ζωή του ασθενούς, δεδομένου ότι η σήψη είναι ένας από τους συχνότερους λόγους εισαγωγής σε Μονάδα Εντατικής Θεραπείας (ΜΕΘ) και η πρωταρχική αιτία θανάτου μέσα στη ΜΕΘ. Η εφαρμογή data cleaning και feature selection μας βοήθησαν να τροφοδοτήσουμε το καλύτερο δυνατό σύνολο δεδομένων στο μοντέλο μας, μεγιστοποιώντας την ικανότητα πρόβλεψής του για αυτό το πρόβλημα δυαδικής ταξινόμησης. Επιπλέον, βάσει των χαρακτηριστικών που φάνηκαν να έχουν τη μεγαλύτερη επιρροή στην εκάστοτε πρόβλεψη του μοντέλου μας, θα μπορούσαν ενδεχομένως να εξαχθούν συμπεράσματα σχετικά με τη σχέση μεταξύ ορισμένων κλινικών χαρακτηριστικών ή μετρήσεων και της εμφάνισης σήψης, οδηγώντας σε μια βελτιωμένη κατανόηση αυτής της ετερογενούς δυσλειτουργίας. Τα πρώτα ευρήματα δείχνουν αποτελεσματική απόδοση της ταξινόμησης, γεγονός που υποδεικνύει πολλά υποσχόμενη ικανότητα πρόβλεψης, με τη χρήση διαφόρων μοντέλων μηχανικής μάθησης.
Abstract
As sepsis, we currently define a “life-threatening organ dysfunction caused by a dysregulated host response to infection”. Prevention of sepsis, demands its early prediction, a task that has been quite a challenge for the scientific community. With our study, we attempt contributing to this effort, by taking processed, anonymised data, which will be used to build a machine learning predictive model that would predict an upcoming infection, potentially leading to sepsis. Although this model originally takes into consideration, among others, medical measurements of 5 consecutive days, at the end of our study we examine the model’s predictive capacity with a more limited span of days. We even end up predicting based on a single day’s medical measurements, four days prior to infection, obtaining satisfactory results. This goal’s significance is high, since achieving it, would provide the doctors and the nursing staff with some valuable time, constructing an efficient plan to deal with the infection before it causes sepsis. This interval of time could be proven to be decisive about the life of the patient, since sepsis is one of the most frequent reasons for an Intensive Care Unit (ICU) admission and the primary reason for death in the ICU. Data cleaning and pre-processing helped us to feed the best possible dataset to our model, maximizing its predictive capacity for this binary classification problem. Moreover, via the important features of our model, conclusions could potentially be drawn concerning the relation between some clinical input features and the occurrence of sepsis, leading to an enhanced, data-driven understanding of this heterogeneous dysfunction. Early findings indicate efficient classification performance resulting in promising forecasting ability, using various machine learning models, while leaving considerable scope for extending the time between the prediction of the infection and its occurrence.