Μερικές φορές τα αριθμητικά δεδομένα έρχονται σε ζεύγη. Ίσως α παλαιοντολόγος μετρά τα μήκη του μηριαίου οστού και του βραχιονίου (οστά βραχίονα) σε πέντε απολιθώματα του ίδιου είδους δεινοσαύρων. Μπορεί να έχει νόημα να λαμβάνονται υπόψη τα μήκη των βραχιόνων χωριστά από τα μήκη των ποδιών και να υπολογίζονται πράγματα όπως ο μέσος όρος ή η τυπική απόκλιση. Αλλά τι γίνεται αν ο ερευνητής είναι περίεργος να γνωρίζει αν υπάρχει σχέση μεταξύ αυτών των δύο μετρήσεων; Δεν αρκεί να κοιτάξουμε μόνο τα χέρια χωριστά από τα πόδια. Αντ 'αυτού, ο παλαιοντολόγος θα πρέπει να συνδυάσει τα μήκη των οστών για κάθε σκελετό και να χρησιμοποιήσει μια περιοχή στατιστική γνωστή ως συσχέτιση.
Τι είναι η συσχέτιση; Στο παραπάνω παράδειγμα υποθέστε ότι ο ερευνητής μελέτησε τα δεδομένα και έφτασε να μην εκπλήσσει καταλήγουν ότι τα απολιθώματα των δεινοσαύρων με μακρύτερα χέρια είχαν επίσης μακρύτερα πόδια και απολιθώματα με βραχύτερα όπλα βραχύτερα πόδια. Ένα scatterplot των δεδομένων έδειξε ότι τα σημεία δεδομένων ήταν συγκεντρωμένα κοντά σε μια ευθεία γραμμή. Ο ερευνητής θα πει τότε ότι υπάρχει ισχυρή σχέση ευθείας γραμμής, ή
συσχέτιση, ανάμεσα στα μήκη των οστών βραχίονα και στα οστά των απολιθωμάτων. Απαιτεί κάποια ακόμα εργασία για να πούμε πόσο ισχυρή είναι η συσχέτιση.Συσχέτιση και Scatterplots
Δεδομένου ότι κάθε σημείο δεδομένων αντιπροσωπεύει δύο αριθμούς, ένα δισδιάστατο scatterplot είναι μια μεγάλη βοήθεια στην οπτικοποίηση των δεδομένων. Ας υποθέσουμε ότι έχουμε πραγματικά τα χέρια μας στα δεδομένα των δεινοσαύρων, και τα πέντε απολιθώματα έχουν τις ακόλουθες μετρήσεις:
- Μηρό 50 cm, humerus 41 cm
- Μηρός 57 cm, humerus 61 cm
- Μηροί 61 cm, humerus 71 cm
- Μηρό 66 cm, humerus 70 cm
- Μηρός 75 cm, humerus 82 cm
Ένα scatterplot των δεδομένων, με τη μέτρηση του μηριαίου οστού στην οριζόντια κατεύθυνση και τη μέτρηση του βραχίονα στην κατακόρυφη κατεύθυνση, έχει ως αποτέλεσμα το παραπάνω γράφημα. Κάθε σημείο αντιπροσωπεύει τις μετρήσεις ενός από τους σκελετούς. Για παράδειγμα, το σημείο στο κάτω αριστερά αντιστοιχεί στον σκελετό # 1. Το σημείο στην επάνω δεξιά πλευρά είναι ο σκελετός # 5.
Σίγουρα μοιάζει να μπορούσαμε να σχεδιάσουμε μια ευθεία που θα ήταν πολύ κοντά σε όλα τα σημεία. Αλλά πώς μπορούμε να πούμε με βεβαιότητα; Η εγγύτητα είναι στο μάτι του θεατή. Πώς γνωρίζουμε ότι οι ορισμοί μας για "εγγύτητα" ταιριάζουν με κάποιον άλλο; Υπάρχει κάποιος τρόπος με τον οποίο θα μπορούσαμε να ποσοτικοποιήσουμε αυτήν την εγγύτητα;
Συντελεστής συσχέτισης
Για να μετρηθεί αντικειμενικά το πόσο κοντά είναι τα δεδομένα να είναι κατά μήκος μιας ευθείας γραμμής, ο συντελεστής συσχέτισης έρχεται στη διάσωση. ο συντελεστής συσχέτισης, που τυπικά υποδηλώνονται r, είναι ένας πραγματικός αριθμός μεταξύ -1 και 1. Η αξία του r μετρά τη δύναμη μιας συσχέτισης με βάση έναν τύπο, εξαλείφοντας οποιαδήποτε υποκειμενικότητα στη διαδικασία. Υπάρχουν πολλές οδηγίες που πρέπει να έχετε κατά νου όταν ερμηνεύετε την τιμή του r.
- Αν r = 0 τότε τα σημεία είναι ένα πλήρες μπέρδεμα με απολύτως καμία ευθεία σχέση μεταξύ των δεδομένων.
- Αν r = -1 ή r = 1 τότε όλα τα σημεία δεδομένων ευθυγραμμίζονται τέλεια σε μια γραμμή.
- Αν r είναι μια τιμή διαφορετική από αυτά τα άκρα, τότε το αποτέλεσμα είναι μια λιγότερο από τέλεια εφαρμογή μιας ευθείας γραμμής. Σε σύνολα δεδομένων πραγματικού κόσμου, αυτό είναι το πιο κοινό αποτέλεσμα.
- Αν r είναι θετική τότε η γραμμή ανεβαίνει με α θετική κλίση. Αν r είναι αρνητική, τότε η γραμμή μειώνεται με αρνητική κλίση.
Ο υπολογισμός του συντελεστή συσχέτισης
Ο τύπος του συντελεστή συσχέτισης r είναι πολύπλοκη, όπως φαίνεται εδώ. Τα συστατικά του τύπου είναι τα μέσα και οι τυπικές αποκλίσεις και των δύο σειρών αριθμητικών δεδομένων, καθώς και ο αριθμός των σημείων δεδομένων. Για τις περισσότερες πρακτικές εφαρμογές r είναι κουραστικό να υπολογίσετε με το χέρι. Αν τα δεδομένα μας έχουν εισαχθεί σε πρόγραμμα αριθμομηχανής ή λογιστικού φύλλου με στατιστικές εντολές, τότε υπάρχει συνήθως μια ενσωματωμένη λειτουργία για τον υπολογισμό r.
Περιορισμοί της συσχέτισης
Παρόλο που ο συσχετισμός είναι ένα ισχυρό εργαλείο, υπάρχουν μερικοί περιορισμοί στη χρήση του:
- Η συσχέτιση δεν μας λέει εντελώς τα δεδομένα για τα δεδομένα. Τα μέσα και οι τυπικές αποκλίσεις εξακολουθούν να είναι σημαντικά.
- Τα δεδομένα μπορούν να περιγραφούν με μια καμπύλη πιο περίπλοκη από μια ευθεία γραμμή, αλλά αυτό δεν θα εμφανιστεί στον υπολογισμό του r.
- Οι αρνητικές επιπτώσεις επηρεάζουν έντονα το συντελεστή συσχέτισης. Εάν βλέπουμε τυχόν αποκλίσεις στα δεδομένα μας, θα πρέπει να είμαστε προσεκτικοί σχετικά με τα συμπεράσματα που αντλούμε από την αξία του r.
- Ακριβώς επειδή συσχετίζονται δύο σύνολα δεδομένων, δεν σημαίνει ότι το ένα είναι το αιτία του άλλου.