Υπάρχει ένας απλός και ακριβής τρόπος πρόβλεψης; Ποιες στατιστικές κατηγορίες στο παιχνίδι μιας ομάδας παίζουν τον σημαντικότερο ρόλο σε ένα παιχνίδι; Οι λεγόμενοι «Τέσσερις παράγοντες του μπάσκετ» χρησιμοποιείται ως όρος εδώ και περίπου δυο 10ετίες, προκειμένου να απαντήσουν στις προηγούμενες ερωτήσεις. Αυτή η έρευνα αναλύει τα στοιχεία του παιχνιδιού που επηρεάζουν περισσότερο ένα παιχνίδι. Ο κύριος στόχος είναι να καθοριστεί ποια είναι αυτά και με ποιον τρόπο μπορούν να χρησιμοποιηθούν.

Η παροχή ακριβών αναφορών προβολής ομάδων κερδίζει μια από τις μεγαλύτερες προκλήσεις στο μπάσκετ και όχι μόνο. Προπονητικό προσωπικό και αναλυτές, επιστήμονες δεδομένων και άλλα ενδιαφερόμενα μέρη. Στόχος τους είναι να βρουν ποιο παίκτη ή ομάδα στατιστικών είναι το πιο σημαντικό και με ποιο τρόπο. Μετά από πολλές δεκαετίες συλλογής και επεξεργασίας δεδομένων, σήμερα είναι δυνατόν να υπογραμμιστεί η διαφορετική έμφαση που έχουν.

Για τις ανάγκες της έρευνας, χρησιμοποιήθηκαν δεδομένα από τις κανονικές περιόδους 2012/13 έως 2016/17 από τις 30 ομάδες ΝΒΑ. Ελήφθησαν υπόψη οκτώ κατηγορίες, οι οποίες χωρίζονται σε «επιθετικές» και «αμυντικές».

Τρεις μαθηματικές εξισώσεις, βασίζεται σε δύο διαφορετικά μοντέλα, χρησιμοποιήθηκαν για την παραγωγή του αποτελέσματος, η οποία ήταν η προβλεπόμενη αρχείο για κάθε ομάδα 2012-2017 (150 παρατηρήσεις συνολικά). Η μέθοδος γραμμικής ελαχίστων τετραγώνων της ανάλυσης παλινδρόμησης εφαρμόστηκε στο δεύτερο. Τα αποτελέσματα συγκρίθηκαν με τον πραγματικό αριθμό των νικών.

ΟΙ ΤΕΣΣΕΡΙΣ ΠΑΡΑΓΟΝΤΕΣ

Ο Ντιν Όλιβερ, αναλυτής δεδομένων και προπονητής των Σιάτλ Σουπερσόνικς και των Ντένβερ Νάγκετς, ανέπτυξε τη θεωρία των «τεσσάρων παραγόντων». Για τη δόμησή της, βασίστηκε στην πιθανή κατάληξη της κατοχής της μπάλας: αποτελεσματικότητα στα σουτ, λάθος, ριμπάουντ και βολές. Αυτές μετρήθηκαν ως κατηγορίες του αγώνα, με την καθεμιά να έχει διαφορετικό ειδικό βάρος. Η αποτελεσματικότητα εντός παιδιάς {Efficiency Field Goal % ή EFG% (40%)}, η συχνότητα λαθών {turnover rate % ή TOV% (25%)}, η συχνότητα επιθετικών ριμπάουντ {Offensive Rebound Rate % ή ORB% (20%)} και η αποτελεσματικότητα στις βολές {free throw rate % ή FTR (15%)}, όπως ορίστηκαν από τον Όλιβερ. Αυτοί οι παράγοντες εφαρμόζονται αντίστοιχα και στην άμυνα.

Αυτή η θεωρία φαίνεται λογική, καθώς λαμβάνει υπόψη τις θεμελιώδεις αρχές του μπάσκετ. Σκοράρετε πολύ, μην κάνετε λάθη, διεκδικήστε κάθε μπάλα και εκμεταλλευτείτε τη γραμμή των βολών.

ΠΡΟΒΕΨΕΙΣ ΜΕ ΒΑΣΗ ΤΗ ΘΕΩΡΙΑ ΤΟΥ ΟΛΙΒΕΡ

Η θεωρία του χρησιμοποιείται πολύ συχνά για να δώσει μια ομάδα κερδίζει προβολή. Μέσα από διάφορους αλγόριθμους, που μπορούν να υπολογίζουν τις προβλεπόμενες επιδόσεις σε καθεμιά από αυτές τις κατηγορίες και πως αυτές επηρεάζουν τη συνολική απόδοση της ομάδας, μπορούν και να παράγουν μοντέλα που προβλέπουν τα αποτελέσματα.

Για να γίνει αυτό, θα τρέξει ένας αλγόριθμος που θα προβλέπει τις νίκες όλων των ομάδων του NBA τις τελευταίες 5 σεζόν. Η πιο απλή εκδοχή της εξίσωσης θα είναι η ακόλουθη:

Projected wins= 40*TeameFG \% - 25*TeamTOV% + 20*TeamORB% + 15*TeamFTR - 40*OppeFG% + 25*OppTOV% + 20*TeamDRB% -10*OppFTR

Χρησιμοποιώντας τις τιμές 40/25/20/15 για καθεμιά από τις κατηγορίες, η εξίσωση επιστρέφει τα παρακάτω αποτελέσματα.

(Πηγή: Statathlon)

Με την πρώτη ματιά, φαίνεται ότι ο ισχυρισμός σχετικά με τη σημασία τους είναι αρκετά δίκαιος. Εάν μια ομάδα είναι αποτελεσματική σε αυτές τις κατηγορίες, είναι πιο πιθανό ότι θα πάρει τις νίκες που διεκδικεί. Ωστόσο, απέχει αρκετά από την πραγματικότητα. Για όλες τις ομάδες προβλέφθηκε ότι θα έχουν από 121 ως 179 νίκες, ενώ ο συνολικός αριθμός των παιχνιδιών είναι 82. Φαίνεται πως είναι λανθασμένοι οι αρχικοί συντελεστές, ενώ δεν λαμβάνεται υπόψη το τυπικό σφάλμα.

ΜΙΑ ΔΙΑΦΟΡΕΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ

Όπως φαίνεται, παρότι οι αρχικοί υπολογισμοί του Όλιβερ ήταν σωστοί, αναφορικά με τη βαρύτητα της κάθε κατηγορίες, δεν ήταν τέλειοι. Το μπάσκετ έχει αλλάξει με την πάροδο των χρόνων και τα στατιστικά των ομάδων αυξάνονται ή μειώνονται αναλόγως αρκετά. Χαρακτηριστικό παράδειγμα είναι οι βολές. Ο μέσος όρος του ΝΒΑ το 2005 ήταν 0.248, ενώ το 2017 ήταν 0,196. Επομένως, πρέπει να «τρέξει» πάλι ο αλγόριθμος, όμως αυτή τη φορά με διαφορετικές τιμές, πιο αντιπροσωπευτικές.

Πριν τη μετατροπή της προηγούμενης εξίσωσης, είναι σημαντικό να παρουσιαστεί η μεθοδολογία. Υπάρχει μια προσέγγιση που χρησιμοποιείται στην ανάλυση παλινδρόμησης της στατιστικής μοντελοποίησης που ονομάζεται «μέθοδος των ελαχίστων τετραγώνων». Είναι μια μαθηματική διαδικασία για την εξεύρεση της πιο ταιριαστής καμπύλης σε ένα δεδομένο σύνολο σημείων, ελαχιστοποιώντας το άθροισμα των τετραγώνων των μετατοπίσεων των σημείων από την καμπύλη.

Projected wins= w1*TeameFG% + w2*TeamTOV% + w3* TeamORB% + w4*TeamFTR + w5*OppeFG% + w6*OppTOV% + w7*TeamDRB% + w8*OppFTR + Standard error

όπου είναι γνωστές μόνο οι τιμές των μεταβλητών, δηλαδή των τεσσάρων παραγόντων και του αριθμού των νικών.

ΑΠΟΤΕΛΕΣΜΑΤΑ ΤΗΣ ΑΝΑΛΥΣΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ

Εφαρμόζοντας την μέθοδο της Ανάλυσης Παλινδρόμησης σε 150 παρατηρήσεις (ρεκόρ νικών ανά σεζόν των 30 ομάδων μεταξύ 2012/13 και 2016/17) η τιμή του προσαρμοσμένου R Square, γνωστού και ως προσαρμοσμένου συντελεστή προσδιορισμού, ισούται με 0.938143. Αυτό σημαίνει ότι περίπου 94% των τιμών της μεταβλητής Y (αριθμός νικών) μπορούν να εξηγηθούν σε μεγάλο βαθμό με βάση τις τιμές των μεταβλητών X(οι τέσσερις παράγοντες). Συνεπώς, 94% των παρατηρήσεων ταιριάζουν με το μοντέλο αυτό. Η τυπική απόκλιση ισούται με 3.2, η οποία ερμηνεύεται ως η μέση διαφορά μεταξύ του προβλεπόμενου και του πραγματικού αριθμού νικών.

(Πηγή: Statathlon)

Επιπλέον, θέτοντας το διάστημα εμπιστοσύνης στο 5%, η τιμή του p - value δεν είναι μεγαλύτερη του 0.05 για καμία μεταβλητή. Έτσι η μηδενική υπόθεση απορρίπτεται άρα όλες θεωρείται ότι έχουν σημαντική επίδραση και δεν μπορούν να απαλειφθούν.

Οι συντελεστές που αντιστοιχούν σε κάθε μεταβλητή, δηλαδή η βαρύτητα που έχει καθένας από τους παράγοντες, οδηγούν σε μερικά ενδιαφέροντα συμπεράσματα. Το πιο σημαντικό είναι ότι επιβεβαιώνουν την ιεραρχία του Oliver. Ωστόσο δεν ακολουθούν την θεωρία του 40/25/15/10. Στην πραγματικότητα φαίνεται να βρίσκονται πιο κοντά σε μια αναλογία 43/39/10/8, όπως υπογραμμίζεται και από την τιμή t Stat κάθε μεταβλητής. Επομένως, η σημαντικότητα της αναλογίας λάθους (turnover rate) έχει αυξηθεί κατά 56%, ενώ αυτές της αναλογίας επιθετικού ριμπάουντ (offensive rebound rate) και ελευθέρων βολών (free throw rate) έχουν μειωθεί κατά 100% περίπου. Ιδιαίτερο ενδιαφέρον παρουσιάζει επίσης το γεγονός ότι η επίθεση φαίνεται να έχει μεγαλύτερη επίδραση από την άμυνα.

(Πηγή: Statathlon)

Η ΑΚΡΙΒΕΙΑ ΤΗΣ ΘΕΩΡΙΑΣ ΤΩΝ «ΤΕΣΣΑΡΩΝ ΠΑΡΑΓΟΝΤΩΝ»

Παρότι δεν είναι τέλειο, αυτό το μοντέλο είναι πολύ ακριβές, όπως καταδεικνύεται από το παραπάνω γράφημα. Μόνο σε 3 από τις 150 περιπτώσεις ο προβλεπόμενος και ο πραγματικός αριθμός των νικών διαφέρουν περισσότερο από 7 νίκες. Η χειρότερη πρόβλεψη αφορούσε τους Γκρίζλις τη σεζόν 2015/16, όπου κέρδισαν 42 παιχνίδια, ενώ οι x-wins ήταν 34.

(Πηγή: Statathlon)

Μέσω των τεσσάρων παραγόντων, κρίνετια πως η πρόγνωση των νικών μιας ομάδας γίνεται με μεγαλύτερη ακρίβεια, σε σχέση με τη μελέτη άλλων στατιστικών. Για παράδειγμα, η ακόλουθη εκδοχή απεικονίζει τα αποτελέσματα ενός μοντέλου που βασίζεται σε επιθετική και αμυντική απόδοση.

Projected wins = w1*TeamOER% + w2*TeamDER% + Standard error

(Πηγή: Statathlon)

Είναι προφανές ότι αυτό είναι λιγότερο ακριβές από το προηγούμενο, δεδομένου ότι υπάρχουν περιπτώσεις με μεγάλη απόκλιση. Τρία χρόνια πριν είχαν προβλεφθεί μόλις 15 νίκες για τους Πέισερς ενώ τελικά πέτυχαν 38.

ΣΥΣΧΕΤΙΣΗ ΜΕ ΤΗΝ ΑΠΟΔΟΣΗ ΤΗΣ ΟΜΑΔΑΣ

Χρησιμοποιώντας προσομοιώσεις που επεξεργάζονται τα δεδομένα που συλλέγονται επί πολλές δεκαετίες, είναι δυνατό να προβλέψει κανείς τα στατιστικά στοιχεία ενός παίκτη ή ακόμα και μιας ομάδας σε πολλές κατηγορίες. Αυτό ακριβώς είναι που κάνει τους «τέσσερις παράγοντες» ακόμα πιο αξιόπιστους, δηλαδή το γεγονός ότι μια ομάδα μπορεί να στηριχθεί σε αυτούς για να καταγράψει αναλυτικά τα δυνατά και αδύναμα σημεία της.

Η σεζόν 2015/16 για τους Θάντερ είναι ένα καλό παράδειγμα. Είχαν ποσοστό λαθών 14%, το 7ο χειρότερο στο πρωτάθλημα. Ο κύριος λόγος ήταν ο υψηλός μέσος όρος λαθών του Ρας Ουέστμπρουκ (16,8%), σε μια από τις χειρότερες ατομικές επιδόσεις συνολικά στο NBA. Παράλληλα, η ομάδα της Οκλαχόμα ήταν η πρώτη στη Λίγκα στα επιθετικά ριμπάουντ με 31%. Η συμβολή του Καντέρ στην κατηγορία αυτή ήταν αξιοσημείωτη, καθώς ήταν πρώτος σε όλο το πρωτάθλημα στον δείκτη ORB%. Ακόμη και παίκτες όπως ο Άνταμς ή και ο Ουέστμπρουκ είχαν υψηλά ποσοστά ORB% και DRB% αντίστοιχα.

Στην υπόθεση ότι ένας παίκτης θα έπαιζε ακριβώς το ίδιο με τον Ουέστμπρουκ, αν τον αντικαθιστούσε, αλλά κυκλοφορούσε λιγότερο τη μπάλα, σε βαθμό που θα μείωνε τα λάθη της ομάδας στο 13%, το μοντέλο προβολής των τεσσάρων παραγόντων προβλέπει 61,6 νίκες περίπου. Αντίστοιχα, εάν ο Καντέρ ή ο Άνταμς αντικατασταθούν από παρόμοιους παίκτες, αλλά με χειρότερο ORB%, που θα μείωνε το συνολικό ποσοστό σε 29%, η πρόβλεψη θα άλλαζε σε 55.4 νίκες.

Τα αποτελέσματα της προαναφερθείσας μεθόδου δείχνουν ότι τα eFG%, TOV%, ORB% και FTR συνδέονται με την επιτυχία της ομάδας. Ωστόσο, κάθε ένα από αυτά έχει διαφορετικό βάρος, σε ορισμένες περιπτώσεις σημαντικά υψηλότερο ή χαμηλότερο από την αρχική παραδοχή. Πάντως, τα μοντέλα πρόβλεψης που μπορούν να παραχθούν μέσα από αυτούς τους 4 παράγοντες είναι ακριβείς κατά μέσο όρο 94% κατά μέσον όρο, με το 24% των προβλέψεων, που αφορούν 150 περιπτώσεις, να είναι απόλυτα ακριβείς και το 61,5% με απόκλιση 2 νικών.