Οι αποκλίσεις είναι τιμές δεδομένων που διαφέρουν σημαντικά από την πλειοψηφία ενός συνόλου δεδομένων. Αυτές οι τιμές δεν εμπίπτουν σε μια γενική τάση που υπάρχει στα δεδομένα. Μια προσεκτική εξέταση ενός συνόλου δεδομένων για να αναζητήσετε αποχρώσεις προκαλεί κάποια δυσκολία. Αν και είναι εύκολο να δούμε, ενδεχομένως με τη χρήση ενός stemplot, ότι κάποιες τιμές διαφέρουν από τα υπόλοιπα δεδομένα, πόσο διαφορετική πρέπει να είναι η αξία για να θεωρηθεί μια απόκλιση; Θα εξετάσουμε μια συγκεκριμένη μέτρηση που θα μας δώσει ένα αντικειμενικό πρότυπο για το τι συνιστά απόκλιση.
Διατεταρτημοριακό εύρος
ο διατεταρτημοριακό εύρος είναι αυτό που μπορούμε να χρησιμοποιήσουμε για να καθορίσουμε αν μια ακραία αξία είναι πράγματι μια απόκλιση. Η διατομεακή κλίμακα βασίζεται σε ένα τμήμα του σύνοψη πέντε αριθμών ενός συνόλου δεδομένων, δηλαδή του το πρώτο τεταρτημόριο και το τρίτο τεταρτημόριο. Ο υπολογισμός του εύρους των διακταρτυλίων περιλαμβάνει μια ενιαία αριθμητική λειτουργία. Το μόνο που πρέπει να κάνουμε για να βρούμε την περιοχή μεταξύ των τεταρτημορίων είναι να αφαιρέσουμε το πρώτο τεταρτημόριο από το τρίτο τεταρτημόριο. Η προκύπτουσα διαφορά μας λέει πώς κατανέμεται το μεσαίο μισό των δεδομένων μας.
Προσδιορισμός των υπερβάσεων
Ο πολλαπλασιασμός του εύρους ενδοκέρδελης (IQR) κατά 1,5 θα μας δώσει έναν τρόπο να προσδιορίσουμε αν μια συγκεκριμένη τιμή είναι μια απόκλιση. Εάν αφαιρέσουμε 1,5 x IQR από το πρώτο τεταρτημόριο, τυχόν τιμές δεδομένων που είναι μικρότερες από αυτόν τον αριθμό θεωρούνται υπερβολικές τιμές. Παρομοίως, αν προσθέσουμε 1,5 x IQR στο τρίτο τεταρτημόριο, τυχόν τιμές δεδομένων που είναι μεγαλύτερες από αυτόν τον αριθμό θεωρούνται υπερβολικές τιμές.
Ισχυρά αποθέματα
Ορισμένες από αυτές τις τιμές εμφανίζουν εξαιρετική απόκλιση από το υπόλοιπο σύνολο δεδομένων. Σε αυτές τις περιπτώσεις μπορούμε να ακολουθήσουμε τα βήματα από πάνω, αλλάζοντας μόνο τον αριθμό που πολλαπλασιάζουμε το IQR από, και να ορίσουμε έναν ορισμένο τύπο εξωλέμβιου. Εάν αφαιρέσουμε 3,0 x IQR από το πρώτο τεταρτημόριο, οποιοδήποτε σημείο που βρίσκεται κάτω από αυτόν τον αριθμό ονομάζεται ισχυρό outlier. Με τον ίδιο τρόπο, η προσθήκη 3.0 x IQR στο τρίτο τεταρτημόριο μας επιτρέπει να ορίσουμε ισχυρά αποθέματα εξετάζοντας σημεία μεγαλύτερα από αυτόν τον αριθμό.
Αρκετά υπερβολικά
Εκτός από τις έντονες αποκλίσεις, υπάρχει μια άλλη κατηγορία για τα υπερβολικά υψηλά. Εάν μια τιμή δεδομένων είναι μια απόκλιση, αλλά όχι μια ισχυρή απόκλιση, τότε λέμε ότι η αξία είναι μια αδύναμη απόκλιση. Θα εξετάσουμε αυτές τις έννοιες εξερευνώντας μερικά παραδείγματα.
Παράδειγμα 1
Πρώτον, ας υποθέσουμε ότι έχουμε το σύνολο δεδομένων {1, 2, 2, 3, 3, 4, 5, 5, 9}. Ο αριθμός 9 μοιάζει σίγουρα ότι θα μπορούσε να είναι μια απόκλιση. Είναι πολύ μεγαλύτερη από οποιαδήποτε άλλη αξία από το υπόλοιπο σύνολο. Για να προσδιορίσουμε αντικειμενικά αν το 9 είναι μια απόκλιση, χρησιμοποιούμε τις παραπάνω μεθόδους. Το πρώτο τεταρτημόριο είναι 2 και το τρίτο τεταρτημόριο είναι 5, πράγμα που σημαίνει ότι το διάστημα μεταξύ των τεταρτημορίων είναι 3. Πολλαπλασιάζουμε την περιοχή των τεταρτοταγών περιοχών κατά 1,5, παίρνοντας 4,5, και στη συνέχεια προσθέτουμε αυτόν τον αριθμό στο τρίτο τεταρτημόριο. Το αποτέλεσμα, 9.5, είναι μεγαλύτερο από οποιαδήποτε από τις τιμές των δεδομένων μας. Ως εκ τούτου, δεν υπάρχουν αποχρώσεις.
Παράδειγμα 2
Τώρα βλέπουμε το ίδιο σύνολο δεδομένων όπως πριν, με την εξαίρεση ότι η μεγαλύτερη τιμή είναι 10 αντί 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Το πρώτο τεταρτημόριο, το τρίτο τεταρτημόριο και το διάστημα μεταξύ των τεταρτημορίων είναι πανομοιότυπα με το παράδειγμα 1. Όταν προσθέτουμε 1,5 x IQR = 4,5 στο τρίτο τεταρτημόριο, το άθροισμα είναι 9,5. Δεδομένου ότι το 10 είναι μεγαλύτερο από 9,5, θεωρείται πλεονάζον.
Είναι το 10 ένα ισχυρό ή αδύναμο outlier; Για αυτό, πρέπει να δούμε 3 x IQR = 9. Όταν προσθέτουμε 9 στο τρίτο τεταρτημόριο, καταλήγουμε με ένα ποσό 14. Δεδομένου ότι το 10 δεν είναι μεγαλύτερο από 14, δεν είναι ένα ισχυρό outlier. Έτσι καταλήγουμε στο συμπέρασμα ότι το 10 είναι ένα αδύναμο χάσμα.
Λόγοι για τον εντοπισμό των ακραίων τιμών
Πάντα πρέπει να είμαστε επιφυλακτικοί για τα υπερβολικά υψηλά. Μερικές φορές προκαλούνται από ένα σφάλμα. Άλλες εκτροπές χρόνων υποδεικνύουν την ύπαρξη ενός προηγουμένως άγνωστου φαινομένου. Ένας άλλος λόγος που πρέπει να είμαστε επιμελής όσον αφορά τον έλεγχο των υπερβολικών τιμών είναι εξαιτίας όλων περιγραφικά στατιστικά που είναι ευαίσθητα στις υπερβολικές τιμές. Το νόημα, τυπική απόκλιση και συντελεστής συσχέτισης για ζευγαρωμένα δεδομένα είναι μόνο μερικά από αυτά τα είδη στατιστικών στοιχείων.