08
Δεκ
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
ΚΩΝΣΤΑΝΤΙΝΟΣ ΦΙΛΟΠΟΥΛΟΣ
με θέμα
Αδρομερής Δυναμική Ανάλυση για Python
Coarse-Grained Dynamic Analysis for Python
Εξεταστική Επιτροπή
Αναπληρωτής Καθηγητής Σωτήριος Ιωαννίδης (επιβλέπων)
Καθηγητής Μιχαήλ Λαγουδάκης
Επίκουρος Καθηγητής Νικόλαος Βασιλάκης (Brown University, USA)
Περίληψη
Η δυναμική ανάλυση προγράμματος είναι μια διαδεδομένη τεχνική παρακολούθησης, κατανόησης, και εξαγωγής συμπερασμάτων σχετικά με την ασφαλή χρήση και τα χαρακτηριστικά απόδοσης μιας βιβλιοθήκης, δυνητικά παρεμβαίνοντας στη συμπεριφορά του προγράμματος κατά τη διάρκεια της εκτέλεσής του, παρέχοντας συνεχή πληροφόρηση. Τα υφιστάμενα εργαλεία δυναμικής ανάλυσης συχνά επιβάλλουν σημαντικό κόστος εκτέλεσης (runtime overhead) σε ένα πρόγραμμα. Για προγράμματα σε Python τα ήδη εφαρμοζόμενα εργαλεία δεν παρέχουν την δυνατότητα δυναμικής ανάλυσης και οι προγραμματιστές χρησιμοποιούν για δική τους χρήση ad-hoc εφαρμογές. Σε αυτή τη διπλωματική εργασία αναπτύσσεται το πρώτο εργαλείο αδρομερούς δυναμικής ανάλυσης (allow/deny), PySecu, πλήρως γραμμένο σε Python με δυνατότητα επιλεκτικής τροποποίησης στοιχείων της αναλυόμενης βιβλιοθήκης. Δεδομένης της ευρείας χρήσης βιβλιοθηκών τρίτων (third-party libraries), η τεχνική αδρομερούς δυναμικής ανάλυσης, επιχειρεί να εξαργυρώσει λεπτομέρεια και ακρίβεια με την μείωση του runtime overhead της ανάλυσης ενός προγράμματος. Γίνεται σε επίπεδο πλαισίου των στοιχείων της βιβλιοθήκης, υποστηρίζοντας ωστόσο τις σημαντικές διεργασίες του προγράμματος, διατηρώντας την αρχική λειτουργικότητά τους και χωρίς να απαιτείται τροποποίηση του περιβάλλοντος εκτέλεσης ή των χαρακτηριστικών παραγωγής της δυναμικής γλώσσας. Αξιοποιεί τα χαρακτηριστικά των σύγχρονων δυναμικών γλωσσών όπως η JavaScript, η Lua και η Python, ώστε να τροποποιεί δυναμικά την κάθε αναλυόμενη βιβλιοθήκη εισάγοντας κώδικα του χρήστη στον
πηγαίο κώδικά της, πριν φορτωθεί. Η εφαρμογή τού εργαλείου ανάλυσης PySecu σε 25 βιβλιοθήκες κατέδειξε ότι επιβάλλει 3x μέσο runtime overhead στην χωρίς ανάλυση εκτέλεση των βιβλιοθηκών. Βρίσκεται στην ίδια τάξη μεγέθους με αντίστοιχα εργαλεία άλλων γλωσσών (JavaScript), καθώς και με το ενσωματωμένο εργαλείο ανάλυσης API που παρέχεται από την Python, sys.settrace. ΄Οσον αφορά τέλος το μοναδικό πρόσφατο εργαλείο δυναμικής ανάλυσης DynaPyt για Python, αυτό επιβάλλει runtime overhead από 1,2x – 16x, με την ανάλυση TraceAll, ισοδύναμη με fine-grained εργαλείο, να φθάνει και το 16x.
Abstract
Dynamic program analysis is a widespread technique for monitoring, understanding, and inferring the safe use and performance characteristics of a library, potentially interfering with the program’s behavior during its execution, providing continuous information. Existing dynamic analysis tools often impose significant runtime overhead on a program. For programs in Python, the already applied tools do not provide dynamic analysis and the programmers use ad-hoc applications for their own use. In this thesis, the first allow/deny coarse-grained dynamic analysis tool, PySecu, is developed, fully written in Python with the ability to selectively transform attributes of the analyzed library. Given the widespread use of third-party libraries, the coarse-grained dynamic analysis technique attempts to trade off detail and accuracy by reducing the runtime overhead of the analysis. It is done at the frame level of the library attributes, while still supporting the original program’s semantics, retaining their original functionality and without requiring modification of the program’s execution environment or the production features of the dynamic language. It leverages the features of modern dynamic languages such as JavaScript, Lua and Python to dynamically modify each library by injecting user code into its source code before it is loaded. Applying the PySecu analysis tool to 25 libraries showed that it imposes 3x average runtime overhead on executing the libraries without analysis. It is in the same order of magnitude as corresponding tools in other languages (JavaScript), as well as the built-in API analysis tool provided by Python, sys.settrace. Finally, as for the only recent dynamic analysis tool DynaPyt for Python, which imposes a runtime overhead of 1.2x – 16x, with TraceAll analysis, equivalent to a fine-grained tool, reaching 16x.