Μια μέρα στο μεσημεριανό γεύμα μια νεαρή γυναίκα έτρωγε ένα μεγάλο μπολ με παγωτό και ένας συναδέλφης μέλος της σχολής της πήγε κοντά της και είπε: «Θα έπρεπε να είσαι προσεκτικός, να είσαι ψηλός στατιστικόςσυσχέτιση μεταξύ παγωτού και πνιγμού. " Πρέπει να τον έδωσε μια συγκεχυμένη ματιά, καθώς επεξεργάστηκε μερικά ακόμα πράγματα. "Οι ημέρες με τις περισσότερες πωλήσεις παγωτού βλέπουν επίσης τους περισσότερους ανθρώπους να πνίγονται".
Όταν τελείωσε το παγωτό μου, οι δύο συνάδελφοι συζήτησαν το γεγονός ότι μόνο επειδή μια μεταβλητή συνδέεται στατιστικά με άλλη, δεν σημαίνει ότι η μία είναι η αιτία του άλλου. Μερικές φορές υπάρχει μια μεταβλητή απόκρυψη στο παρασκήνιο. Σε αυτή την περίπτωση, η ημέρα του έτους κρύβεται στα δεδομένα. Περισσότερα παγωτά πωλούνται σε καυτές καλοκαιρινές ημέρες από χιονισμένα χειμερινά. Περισσότεροι άνθρωποι κολυμπούν το καλοκαίρι, και κατά συνέπεια περισσότερο πνιγούν το καλοκαίρι από ό, τι το χειμώνα.
Προσοχή στις μεταβλητές που σπάνε
Το παραπάνω ανέκδοτο είναι ένα πρωταρχικό παράδειγμα αυτού που είναι γνωστό ως μεταβλητή που κρύβεται. Όπως υποδηλώνει το όνομά του, μια μεταβλητή που μπορεί να παραμείνει αδύνατη και δύσκολη να εντοπιστεί. Όταν διαπιστώνουμε ότι δύο αριθμητικά σύνολα δεδομένων συσχετίζονται έντονα, πρέπει πάντα να ρωτούμε: "Θα μπορούσε να υπάρξει κάτι άλλο που να προκαλεί αυτή τη σχέση;"
Τα παρακάτω είναι παραδείγματα ισχυρής συσχέτισης που προκαλείται από μια μεταβλητή που αιωρείται:
- Ο μέσος αριθμός υπολογιστών ανά άτομο σε μια χώρα και το μέσο προσδόκιμο ζωής αυτής της χώρας.
- Ο αριθμός των πυροσβεστών σε περίπτωση πυρκαγιάς και οι ζημιές που προκλήθηκαν από τη φωτιά.
- Το ύψος ενός στοιχειώδους μαθητή και του επιπέδου ανάγνωσής του.
Σε όλες αυτές τις περιπτώσεις, η σχέση μεταξύ των μεταβλητών είναι πολύ ισχυρή. Αυτό συνήθως υποδεικνύεται με a συντελεστής συσχέτισης που έχει τιμή κοντά στο 1 ή στο -1. Δεν έχει σημασία πόσο στενός αυτός ο συντελεστής συσχέτισης είναι 1 ή -1, αυτό το στατιστικό στοιχείο δεν μπορεί να δείξει ότι μία μεταβλητή είναι η αιτία της άλλης μεταβλητής.
Ανίχνευση μεταβλητών
Από τη φύση τους, οι μεταβλητές που παρακολουθούνται είναι δύσκολο να εντοπιστούν. Μια στρατηγική, αν υπάρχει, είναι να εξετάσει τι συμβαίνει με τα δεδομένα με την πάροδο του χρόνου. Αυτό μπορεί να αποκαλύψει εποχιακές τάσεις, όπως το παράδειγμα παγωτού, που αποκρύπτονται όταν τα δεδομένα συγκεντρώνονται μαζί. Μια άλλη μέθοδος είναι να εξετάσουμε υπερβολικά υψηλά και προσπαθήστε να προσδιορίσετε τι τους κάνει διαφορετικά από τα άλλα δεδομένα. Μερικές φορές αυτό παρέχει μια υπόδειξη για το τι συμβαίνει πίσω από τις σκηνές. Η καλύτερη πορεία δράσης είναι να είμαστε προληπτικοί. υποθέσεις ερωτήσεων και πειράματα σχεδίασης προσεκτικά.
Γιατί έχει σημασία?
Στο αρχικό σενάριο, ας υποθέσουμε ότι ένας καλοπροαίρετος αλλά στατιστικά απροσδόκητος ηγέτης συνέστησε να απαγορεύσει όλα τα παγωτά, προκειμένου να αποφευχθεί ο πνιγμός. Ένα τέτοιο νομοσχέδιο θα έπληττε μεγάλα τμήματα του πληθυσμού, θα αναγκάσει πολλές εταιρείες να χρεοκοπήσουν και θα εξαλείψει χιλιάδες θέσεις εργασίας καθώς η βιομηχανία παγωτών της χώρας έκλεισε. Παρά τις καλύτερες προθέσεις, ο λογαριασμός αυτός δεν θα μείωνε τον αριθμό των θανάτων από πνιγμό.
Εάν το παράδειγμα αυτό φαίνεται λίγο υπερβολικά, σκεφτείτε τα ακόλουθα, τα οποία συνέβησαν πραγματικά. Στις αρχές της δεκαετίας του 1900, οι γιατροί παρατήρησαν ότι κάποια βρέφη πεθαίνουν μυστηριωδώς στον ύπνο τους από τα αναμενόμενα αναπνευστικά προβλήματα. Αυτό ονομάστηκε θάνατος του παχνιού και τώρα είναι γνωστός ως SIDS. Ένα πράγμα που έλειπε από τις αυτοψίες που εκτελούνται σε αυτούς που πέθαναν από το SIDS ήταν ένας διευρυμένος θύμος, ένας αδένας που βρίσκεται στο στήθος. Από τη συσχέτιση των διευρυμένων θύμων αδένα σε μωρά SIDS, οι γιατροί υπολόγιζαν ότι ένας ανώμαλος θύμος ανέκαμψε την αναπνοή και το θάνατο.
Η προτεινόμενη λύση ήταν να συρρικνωθεί ο θύμος αδένας με υψηλή ακτινοβολία ή να απομακρυνθεί πλήρως ο αδένας. Αυτές οι διαδικασίες είχαν υψηλό ποσοστό θνησιμότητας και οδήγησαν σε ακόμα περισσότερους θανάτους. Αυτό που είναι λυπηρό είναι ότι αυτές οι επιχειρήσεις δεν έπρεπε να έχουν εκτελεστεί. Επακόλουθη έρευνα έδειξε ότι αυτοί οι γιατροί είχαν λανθασμένες υποθέσεις και ότι ο θύμος αδένας δεν είναι υπεύθυνος για τα SIDS.
Η συσχέτιση δεν συνεπάγεται την αιτιώδη συνάφεια
Τα παραπάνω πρέπει να μας σταματήσουν όταν πιστεύουμε ότι τα στατιστικά στοιχεία χρησιμοποιούνται για να δικαιολογήσουν πράγματα όπως τα ιατρικά σχήματα, η νομοθεσία και οι εκπαιδευτικές προτάσεις. Είναι σημαντικό ότι η καλή δουλειά γίνεται στην ερμηνεία των δεδομένων, ειδικά αν τα αποτελέσματα με συσχετισμό πρόκειται να επηρεάσουν τις ζωές των άλλων.
Όταν κάποιος δηλώνει, "Οι μελέτες δείχνουν ότι το Α είναι αιτία του Β και ότι κάποια στατιστικά στοιχεία το υποστηρίζουν", να είστε έτοιμοι απάντηση, "η συσχέτιση δεν συνεπάγεται αιτιώδη συνάφεια". Να είστε πάντα επιφυλακτικοί για το τι κρύβεται κάτω από το δεδομένα.