Υπάρχουν διάφορα περιγραφικά στατιστικά στοιχεία. Αριθμοί όπως ο μέσος όρος, διάμεσος, λειτουργία, skewness, kurtosis, τυπική απόκλιση, πρώτο τεταρτημόριο και τρίτο τεταρτημόριο, για να αναφέρουμε μερικούς, καθένα μας λέει κάτι για τα δεδομένα μας. Αντί να τα κοιτάζεις περιγραφικά στατιστικά μεμονωμένα, μερικές φορές το συνδυασμό τους βοηθά να μας δώσει μια πλήρη εικόνα. Με αυτό το σκοπό, η σύνοψη πέντε αριθμών είναι ένας βολικός τρόπος για να συνδυάσετε πέντε περιγραφικά στατιστικά στοιχεία.
Ποιους πέντε αριθμούς;
Είναι σαφές ότι πρέπει να υπάρχουν πέντε αριθμοί στην περίληψη μας, αλλά ποια πέντε; Οι αριθμοί που επιλέχθηκαν είναι να μας βοηθήσουν να μάθουμε το κέντρο των δεδομένων μας, καθώς και το πόσο διαδεδομένα είναι τα σημεία δεδομένων. Έχοντας αυτό υπόψη, η σύνοψη πέντε αριθμών αποτελείται από τα ακόλουθα:
- Το ελάχιστο - αυτή είναι η μικρότερη τιμή στο σύνολο δεδομένων μας.
- Το πρώτο τεταρτημόριο - αυτός ο αριθμός σημειώνεται Q1 και το 25% των στοιχείων μας πέφτει κάτω από το πρώτο τέταρτο.
- Ο διάμεσος - αυτό είναι το μεσαίο σημείο των δεδομένων. Το 50% όλων των δεδομένων πέφτει κάτω από το διάμεσο.
- Το τρίτο τεταρτημόριο - αυτός ο αριθμός σημειώνεται Q3 και το 75% των στοιχείων μας πέφτει κάτω από το τρίτο τέταρτο.
- Το μέγιστο - αυτή είναι η μεγαλύτερη τιμή στο σύνολο δεδομένων μας.
Η μέση και η τυπική απόκλιση μπορούν επίσης να χρησιμοποιηθούν μαζί για τη μετάδοση του κέντρου και την εξάπλωση ενός συνόλου δεδομένων. Ωστόσο, και οι δύο αυτές στατιστικές είναι επιρρεπείς σε υπερβολικά υψηλά επίπεδα. Ο διάμεσος, το πρώτο τεταρτημόριο και το τρίτο τεταρτημόριο δεν επηρεάζονται τόσο πολύ από τα υπερβολικά υψηλά ποσοστά.
Ενα παράδειγμα
Δεδομένου του ακόλουθου συνόλου δεδομένων, θα αναφέρουμε τη σύνοψη πέντε αριθμών:
1, 2, 2, 3, 4, 6, 6, 7, 7, 7, 8, 11, 12, 15, 15, 15, 17, 17, 18, 20
Υπάρχουν συνολικά είκοσι σημεία στο σύνολο δεδομένων. Ο διάμεσος είναι συνεπώς ο μέσος όρος της δέκατης και ενδέκατης τιμής δεδομένων ή:
(7 + 8)/2 = 7.5.
Ο διάμεσος του κάτω μισού των δεδομένων είναι το πρώτο τεταρτημόριο. Το κάτω μισό είναι:
1, 2, 2, 3, 4, 6, 6, 7, 7, 7
Έτσι υπολογίζουμεQ1= (4 + 6)/2 = 5.
Ο διάμεσος του πρώτου ημίσεος του αρχικού συνόλου δεδομένων είναι το τρίτο τεταρτημόριο. Πρέπει να βρούμε τη διάμεση τιμή του:
8, 11, 12, 15, 15, 15, 17, 17, 18, 20
Έτσι υπολογίζουμεQ3= (15 + 15)/2 = 15.
Συγκεντρώνουμε όλα τα παραπάνω αποτελέσματα μαζί και αναφέρουμε ότι η σύνοψη πέντε αριθμών για το παραπάνω σύνολο δεδομένων είναι 1, 5, 7,5, 12, 20.
ΓΡΑΦΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ
Πέντε περιλήψεις αριθμού μπορούν να συγκριθούν μεταξύ τους. Θα διαπιστώσουμε ότι δύο σύνολα με παρόμοια μέσα και τυπικές αποκλίσεις μπορεί να έχουν πολύ διαφορετικές περιλήψεις πέντε αριθμών. Για να συγκρίνουμε εύκολα δύο συνοπτικές περιγραφές αριθμών με μια ματιά, μπορούμε να χρησιμοποιήσουμε ένα boxplot, ή το γράφημα κιβωτίων και μουστάκια.