28
Σεπ
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Νικολάου Παρασκάκη
με θέμα
Ανάλυση Χρονοσειρών με Μεθοδολογίες Μηχανικής Μάθησης
Time-series Analysis using Machine Learning Methods
Καθηγητής Διονύσιος Χριστόπουλος (επιβλέπων)
Καθηγητής Αθανάσιος Λιάβας
Καθηγητής Μιχαήλ Ζερβάκης
Περίληψη
Αυτή η διπλωματική εργασία διερευνά την εφαρμογή των τεχνικών μηχανικής μάθησης στην ανάλυση χρονοσειρών, εστιάζοντας στο σύνολο δεδομένων του ετήσιου αριθμού των ηλιακών κηλίδων. Η εισαγωγή ξεκινά με μια παρουσίαση θεμελιωδών εννοιών στην ανάλυση χρονοσειρών, που περιλαμβάνει στοχαστικές διαδικασίες, συσχέτιση, στασιμότητα, ετεροσκεδαστικότητα, και μεθόδους αποσύνθεσης χρονοσειρών. Στη συνέχεια, η διατριβή εμβαθύνει σε κρίσιμες πτυχές της πρόβλεψης χρονοσειρών, συμπεριλαμβανομένου του διαχωρισμού δεδομένων, της διασταυρωτικής επικύρωσης, των μετρικών αξιολόγησης, και διαφόρων στρατηγικών πρόβλεψης, δίνοντας έμφαση τόσο στην πρόβλεψη ενός βήματος όσο και στην πρόβλεψη πολλαπλών βημάτων.
Βασικό μέρος αυτής της έρευνας αποτελεί η εξέταση των μη γραμμικών μετασχηματισμών στα δεδομένα και ο ρόλος τους στη βελτίωση της προγνωστικής απόδοσης του μοντέλου, επιτυγχάνοντας επιθυμητές ιδιότητες του μετασχηματισμένου συνόλου δεδομένων, όπως είναι η κανονικότητα και η στασιμότητα. Η μελέτη διερευνά, επίσης, τις προηγμένες μεθόδους μηχανικής μάθησης των Γκαουσιανών Διαδικασιών (GPs), Δέντρων Απόφασης Ενίσχυσης Κλίσης (GBDT) και Νευρωνικών Δικτύων Μακράς Βραχύχρονης Μνήμης (LSTM) στο πλαίσιο της πρόβλεψης χρονοσειρών. Παρουσιάζεται μια συγκριτική ανάλυση που εξετάζει τα δυνατά και τα αδύναμα σημεία καθεμιάς από αυτές τις μεθόδους.
Αυτή η διατριβή περιέχει μια μελέτη περίπτωσης που περιλαμβάνει την ανάλυση και πρόβλεψη του ετήσιου αριθμού ηλιακών κηλίδων. Πρώτον, εκμεταλλευόμαστε τις GPs, οι οποίες αποτελούν ένα πιθανοκρατικό μη παραμετρικό πλαίσιο παλινδρόμησης. Χρησιμοποιούμε μια σταθερή συνάρτηση μέσης τιμής και έναν εκθετικό πολλαπλασιαζόμενο με έναν περιοδικό πυρήνα συνδιακύμανσης, ενώ υποθέτουμε ανεξάρτητο και πανομοιότυπα κατανεμημένο Γκαουσιανό θόρυβο και Γκαουσιανή πιθανοφάνεια των δεδομένων. Για να συμβαδίζουμε με αυτές τις υποθέσεις, εφαρμόζουμε τον κάπα-λογαριθμικό μετασχηματισμό (Κανιαδάκης Γ., 2009), που διορθώνει την ασυμμετρία, την ετεροσκεδαστικότητα και λαμβάνει υπόψη του τη μη αρνητικότητα των δεδομένων των ηλιακών κηλίδων. Στη συνέχεια, εκπαιδεύουμε το μοντέλο στα μετασχηματισμένα δεδομένα και βελτιστοποιούμε τις υπερπαραμέτρους του χρησιμοποιώντας την εκτίμηση μέγιστης πιθανοφάνειας (MLE). Στη συνέχεια, χρησιμοποιούμε τον αλγόριθμο του LightGBM, ο οποίος αποτελεί ένα πλαίσιο δέντρων παλινδρόμησης ενίσχυσης κλίσης, που είναι γνωστό για την αποδοτικότητα και την ακρίβειά του. Η προσαρμογή των υπερπαραμέτρων πραγματοποιείται με χρήση Μπαϋεσιανής βελτιστοποίησης με στόχο την ελαχιστοποίηση του σφάλματος επικύρωσης. Τέλος, αξιοποιούμε ένα μοντέλο LSTM με πολλαπλά στρώματα ικανά να προβλέψουν τον ετήσιο αριθμό των ηλιακών κηλίδων και επιλέγουμε τις υπερπαραμέτρους του χρησιμοποιώντας την αναζήτηση πλέγματος με στόχο την ελαχιστοποίηση του σφάλματος επικύρωσης. Το LSTM είναι μια ειδική μορφή αναδρομικού νευρωνικού δικτύου (RNN), το οποίο περιλαμβάνει μια αρχιτεκτονική βαθιάς μάθησης, ικανή να συλλαμβάνει μακροχρόνιες εξαρτήσεις και πολύπλοκα μοτίβα. Αποτελείται από τέσσερις πύλες (input, forget, candidate και output) υπεύθυνες για τη ροή της πληροφορίας.
Η παλινδρόμηση χρησιμοποιώντας GPs υπερέχει στην ερμηνευσιμότητα, παρέχει εκτιμήσεις αβεβαιότητας παράλληλα με τις σημειακές εκτιμήσεις, και μπορεί να καταγράψει πολύπλοκα μοτίβα χρησιμοποιώντας διαφορετικούς πυρήνες συνδιακύμανσης. Ωστόσο, απαιτεί την υπολογιστικά έντονη αντιστροφή μεγάλων πινάκων συνδιακύμανσης (μεγάλο σύνολο δεδομένων). Το LSTM αποδίδει καλά στην καταγραφή μακροχρόνιων εξαρτήσεων, αλλά χρειάζεται μεγάλο όγκο δεδομένων, χρόνου και πόρων για την προσαρμογή των παραμέτρων και την εκπαίδευση, ενώ επίσης υποφέρει από συσσώρευση σφαλμάτων σε μακροπρόθεσμες προβλέψεις. Το LightGBM μπορεί επίσης να καταγράψει πολύπλοκα μοτίβα και είναι πιο αποδοτικό υπολογιστικά, καθιστώντας την εκπαίδευσή του ταχύτερη.
Συμπερασματικά, αυτή η διατριβή παρέχει πληροφορίες για την απόδοση και τα χαρακτηριστικά τριών ισχυρών μεθόδων μηχανικής μάθησης, οι οποίες παράγουν ανταγωνιστικές προβλέψεις για τον ετήσιο αριθμό των ηλιακών κηλίδων. Τα ευρήματά μας συλλογικά σηματοδοτούν ένα σημαντικό βήμα στην εφαρμογή προηγμένων τεχνικών μηχανικής μάθησης με σκοπό την πρόβλεψη και την ανάλυση δεδομένων χρονοσειρών σε διάφορους κλάδους.
Abstract
This diploma thesis explores the application of machine learning techniques to time-series analysis, focusing on the yearly number of sunspots dataset. The introduction begins with a presentation of fundamental concepts in time-series analysis, encompassing stochastic processes, correlation, stationarity, heteroscedasticity, and time-series decomposition methods. The thesis then delves into crucial aspects of time-series forecasting, including dataset splitting, cross-validation, evaluation metrics, and various forecasting strategies, emphasizing both one-step and multi-step forecasting.
A key focus of this research is the examination of non-linear data transformations and their role in enhancing model predictive performance by achieving desirable properties of the transformed dataset, such as normality and stationarity. The study also investigates the advanced machine learning methods of Gaussian Processes (GPs), Gradient Boosting Decision Trees (GBDT), and Long Short-Term Memory (LSTM) neural networks in the context of time-series forecasting. A comparative analysis which examines the strengths and weaknesses of each of these methods is presented.
This thesis contains a case study which involves the analysis and forecasting of the yearly number of sunspots. First, we take advantage of GPs, which constitute a probabilistic non-parametric regression framework. We use a constant mean function and an exponential multiplied by a periodic covariance kernel, while assuming independent and identically distributed Gaussian noise, and Gaussian likelihood of the data. To square with these assumptions, we apply the kappa-logarithmic transformation (Kaniadakis G., 2009), that accounts for the skewness, heteroscedasticity, and non-negativity of the sunspot data. Then, we train the model on the transformed data and optimize its hyperparameters using maximum likelihood estimation (MLE). Next, we utilize the algorithm of LightGBM (Light Gradient Boosting Machine), which is a gradient-boosting framework of regression trees, that is well-known for its efficiency and accuracy. The tuning of hyperparameters is carried out using Bayesian optimization with the goal to minimize the validation loss. Finally, we implement an LSTM model with multiple layers capable of forecasting the yearly number of sunspots, and optimize its hyperparameters using grid search with the objective of minimizing the validation loss. LSTM is an especial form of recurrent neural network (RNN), which comprise a deep learning architecture, capable of capturing long-term dependencies and complex patterns. It consists of four gates (input, forget, candidate, and output) responsible for information flow.
GP regression excels in interpretability, delivers uncertainty estimates along with point estimates, and can capture complex patterns using different kernels. However, it requires the computationally intensive inversion of large covariance matrices (large dataset). LSTM performs well in capturing long-term dependencies, but it needs large amounts of data, time, and resources for tuning and training, and it suffers from error accumulation on long-term predictions. LightGBM can capture complex patterns as well, and it is more computationally efficient, making its training faster.
In conclusion, this thesis provides insights into the performance and characteristics of three powerful machine learning methods, which produce competitive predictions of the yearly number of sunspots. Our findings collectively mark a significant stride in the application of advanced machine learning techniques to forecast and analyze time-series data across diverse disciplines.