Πολλές φορές όταν μελετάμε μια ομάδα, συγκρίνουμε πραγματικά δύο πληθυσμούς. Ανάλογα με το παράμετρο αυτής της ομάδας που μας ενδιαφέρει και των συνθηκών που έχουμε να κάνουμε, υπάρχουν αρκετές διαθέσιμες τεχνικές. Στατιστικός συμπέρασμα οι διαδικασίες που αφορούν τη σύγκριση δύο πληθυσμών δεν μπορούν συνήθως να εφαρμοστούν σε τρεις ή περισσότερους πληθυσμούς. Για να μελετήσουμε περισσότερους από δύο πληθυσμούς ταυτόχρονα, χρειαζόμαστε διαφορετικούς τύπους στατιστικών εργαλείων. Ανάλυση της διακύμανσης, ή ANOVA, είναι μια τεχνική από στατιστική παρέμβαση που μας επιτρέπει να ασχοληθούμε με πολλούς πληθυσμούς.
Σύγκριση μέσων
Για να δούμε ποια προβλήματα προκύπτουν και γιατί χρειαζόμαστε το ANOVA, θα εξετάσουμε ένα παράδειγμα. Ας υποθέσουμε ότι προσπαθούμε να προσδιορίσουμε αν το σημαίνω Βάρη των πράσινων, κόκκινων, μπλε και πορτοκαλιών M & M καραμέλες είναι διαφορετικές μεταξύ τους. Θα δηλώσουμε τα μέσα βάρη για κάθε έναν από αυτούς τους πληθυσμούς, μ1, μ2, μ3 μ4 και αντίστοιχα. Μπορούμε να χρησιμοποιήσουμε το κατάλληλο
δοκιμή υποθέσεων αρκετές φορές και δοκιμή C (4,2), ή έξι διαφορετικές μηδενικές υποθέσεις:- H0: μ1 = μ2 για να ελέγξει εάν το μέσο βάρος του πληθυσμού των κόκκινων καραμέλων είναι διαφορετικό από το μέσο βάρος του πληθυσμού των μπλε καραμέλες.
- H0: μ2 = μ3 για να ελέγξετε εάν το μέσο βάρος του πληθυσμού των μπλε καραμέλες είναι διαφορετικό από το μέσο βάρος του πληθυσμού των πράσινων καραμελών.
- H0: μ3 = μ4 για να ελέγξετε εάν το μέσο βάρος του πληθυσμού των πράσινων καραμέλων είναι διαφορετικό από το μέσο βάρος του πληθυσμού των πορτοκαλιών καραμελών.
- H0: μ4 = μ1 για να ελέγξει εάν το μέσο βάρος του πληθυσμού των πορτοκαλιών καραμέλες είναι διαφορετικό από το μέσο βάρος του πληθυσμού των κόκκινων καραμελών.
- H0: μ1 = μ3 για να ελέγξετε εάν το μέσο βάρος του πληθυσμού των κόκκινων καραμέλων είναι διαφορετικό από το μέσο βάρος του πληθυσμού των πράσινων καραμελών.
- H0: μ2 = μ4 για να ελέγξει εάν το μέσο βάρος του πληθυσμού των μπλε καραμέλες είναι διαφορετικό από το μέσο βάρος του πληθυσμού των πορτοκαλιών καραμέλες.
Υπάρχουν πολλά προβλήματα με αυτό το είδος ανάλυσης. Θα έχουμε έξι Π-αξίες. Παρόλο που μπορούμε να δοκιμάζουμε το καθένα σε ποσοστό 95% επίπεδο εμπιστοσύνης, η εμπιστοσύνη μας στη συνολική διαδικασία είναι μικρότερη από αυτή επειδή οι πιθανότητες πολλαπλασιάζονται: .95 x .95 x .95 x .95 x .95 x .95 είναι περίπου .74 ή 74% επίπεδο εμπιστοσύνης. Έτσι αυξήθηκε η πιθανότητα σφάλματος τύπου Ι.
Σε ένα πιο θεμελιώδες επίπεδο, δεν μπορούμε να συγκρίνουμε αυτές τις τέσσερις παραμέτρους στο σύνολό τους συγκρίνοντάς τις δύο κάθε φορά. Τα μέσα των κόκκινων και μπλε M & Ms μπορεί να είναι σημαντικά, με το μέσο βάρος του κόκκινου να είναι σχετικά μεγαλύτερο από το μέσο βάρος του μπλε. Ωστόσο, όταν εξετάζουμε τα μέσα βάρη και των τεσσάρων ειδών καραμελών, μπορεί να μην υπάρχει σημαντική διαφορά.
Ανάλυση της διακύμανσης
Για να αντιμετωπίσουμε καταστάσεις στις οποίες πρέπει να κάνουμε πολλαπλές συγκρίσεις, χρησιμοποιούμε την ANOVA. Αυτή η δοκιμή μας επιτρέπει να εξετάσουμε τις παραμέτρους πολλών πληθυσμών ταυτόχρονα, χωρίς να βρεθούμε σε κάποια από τα προβλήματα που μας απειλούν διεξαγωγή δοκιμασιών υποθέσεων σε δύο παραμέτρους κάθε φορά.
Για τη διεξαγωγή της ANOVA με το παραπάνω παράδειγμα M & M, θα δοκιμάζαμε την μηδενική υπόθεση H0:μ1 = μ2 = μ3= μ4. Αυτό δηλώνει ότι δεν υπάρχει διαφορά μεταξύ των μέσων βαρών των ερυθρών, μπλε και πράσινων Μ & Μ. Η εναλλακτική υπόθεση είναι ότι υπάρχει κάποια διαφορά μεταξύ των μέσων βαρών των κόκκινων, μπλε, πράσινων και πορτοκαλιών M & Ms. Αυτή η υπόθεση είναι πραγματικά ένας συνδυασμός αρκετών δηλώσεων Hένα:
- Το μέσο βάρος του πληθυσμού των κόκκινων καραμελών δεν είναι ίσο με το μέσο βάρος του πληθυσμού των μπλε καραμέλες, Ή
- Το μέσο βάρος του πληθυσμού των μπλε καραμέλες δεν είναι ίσο με το μέσο βάρος του πληθυσμού των πράσινων καραμελών, OR
- Το μέσο βάρος του πληθυσμού των πράσινων καραμελών δεν είναι ίσο με το μέσο βάρος του πληθυσμού πορτοκαλιών καραμελών, OR
- Το μέσο βάρος του πληθυσμού των πράσινων καραμελών δεν είναι ίσο με το μέσο βάρος του πληθυσμού κόκκινων καραμελών, Ή
- Το μέσο βάρος του πληθυσμού των μπλε καραμέλες δεν είναι ίσο με το μέσο βάρος του πληθυσμού πορτοκαλιών καραμελών, OR
- Το μέσο βάρος του πληθυσμού των μπλε καραμέλες δεν είναι ίσο με το μέσο βάρος του πληθυσμού κόκκινων καραμελών.
Σε αυτή τη συγκεκριμένη περίπτωση, προκειμένου να αποκτήσουμε την p-τιμή μας, θα χρησιμοποιούσαμε a κατανομή πιθανότητας γνωστή ως F-κατανομή. Οι υπολογισμοί που αφορούν τη δοκιμή ANOVA F μπορούν να γίνουν με το χέρι, αλλά συνήθως υπολογίζονται με στατιστικό λογισμικό.
Πολλαπλές συγκρίσεις
Αυτό που χωρίζει την ANOVA από άλλες στατιστικές τεχνικές είναι ότι χρησιμοποιείται για να κάνει πολλαπλές συγκρίσεις. Αυτό είναι κοινό σε όλες τις στατιστικές, καθώς πολλές φορές θέλουμε να συγκρίνουμε περισσότερες από δύο ομάδες. Συνήθως μια συνολική δοκιμή υποδηλώνει ότι υπάρχει κάποια διαφορά μεταξύ των παραμέτρων που μελετάμε. Στη συνέχεια ακολουθούμε αυτή τη δοκιμή με κάποια άλλη ανάλυση για να αποφασίσουμε ποια παράμετρος διαφέρει.