Υπάρχουν πολλά ερωτήματα που πρέπει να ρωτήσετε όταν κοιτάζετε ένα scatterplot. Ένα από τα πιο συνηθισμένα είναι να αναρωτιέται κανείς πόσο καλά μια ευθεία γραμμή προσεγγίζει τα δεδομένα. Για να μπορέσουμε να απαντήσουμε σε αυτό, υπάρχει ένα περιγραφικό στατιστικό στοιχείο που ονομάζεται συντελεστής συσχέτισης. Θα δούμε πώς να υπολογίσουμε αυτό το στατιστικό στοιχείο.
Ο Συντελεστής Συσχέτισης
ο συντελεστής συσχέτισης, που υποδηλώνεται με r, μας λέει πόσο στενά τα δεδομένα σε ένα διάγραμμα διασποράς πέφτει κατά μήκος μιας ευθείας γραμμής. Όσο πιο κοντά την απόλυτη τιμή του r είναι σε ένα, τόσο καλύτερα τα δεδομένα περιγράφονται από μια γραμμική εξίσωση. Αν r = 1 ή r = -1 τότε το σύνολο δεδομένων είναι τέλεια ευθυγραμμισμένο. Τα σύνολα δεδομένων με τιμές των r κοντά στο μηδέν δείχνουν μικρή έως καμία ευθεία σχέση.
Λόγω των μακρών υπολογισμών, είναι καλύτερο να υπολογίσετε r με τη χρήση υπολογιστή ή στατιστικού λογισμικού. Ωστόσο, είναι πάντα μια αξιόλογη προσπάθεια να γνωρίζετε τι κάνει η αριθμομηχανή σας όταν υπολογίζει. Αυτό που ακολουθεί είναι μια διαδικασία για τον υπολογισμό του συντελεστή συσχέτισης κυρίως με το χέρι, με μια αριθμομηχανή που χρησιμοποιείται για τα ρουτίνα αριθμητικά βήματα.
Βήματα για τον υπολογισμό r
Θα ξεκινήσουμε αναφέροντας τα βήματα στον υπολογισμό του συντελεστή συσχέτισης. Τα δεδομένα με τα οποία εργαζόμαστε είναι ζευγαρωμένα δεδομένα, κάθε ζεύγος των οποίων θα σημειωθεί με (ΧΕγώ, γΕγώ).
- Ξεκινάμε με μερικούς προκαταρκτικούς υπολογισμούς. Οι ποσότητες από αυτούς τους υπολογισμούς θα χρησιμοποιηθούν στα επόμενα βήματα του υπολογισμού μας r:
- Υπολογίστε το xτ, το σημαίνω όλων των πρώτων συντεταγμένων των δεδομένων ΧΕγώ.
- Υπολογίστε ȳ, το μέσο όρο όλων των δεύτερων συντεταγμένων των δεδομένων
- yΕγώ.
- Υπολογίζω μικρό Χ το δείγμα τυπική απόκλιση όλων των πρώτων συντεταγμένων των δεδομένων ΧΕγώ.
- Υπολογίζω μικρό y η τυπική απόκλιση του δείγματος όλων των άλλων συντεταγμένων των δεδομένων yΕγώ.
- Χρησιμοποιήστε τον τύπο (ζΧ)Εγώ = (ΧΕγώ - Χ) / μικρό Χ και να υπολογίσει μια τυποποιημένη τιμή για κάθε μία ΧΕγώ.
- Χρησιμοποιήστε τον τύπο (ζy)Εγώ = (yΕγώ – ȳ) / μικρό y και να υπολογίσει μια τυποποιημένη τιμή για κάθε μία yΕγώ.
- Πολλαπλασιάστε τις αντίστοιχες τυποποιημένες τιμές: (ζΧ)Εγώ(ζy)Εγώ
- Προσθέστε τα προϊόντα από το τελευταίο βήμα μαζί.
- Διαχωρίστε το άθροισμα από το προηγούμενο βήμα από n - 1, όπου n είναι ο συνολικός αριθμός των σημείων στο σύνολο των ζευγαρωμένων δεδομένων μας. Το αποτέλεσμα όλων αυτών είναι ο συντελεστής συσχέτισης r.
Αυτή η διαδικασία δεν είναι δύσκολη, και κάθε βήμα είναι αρκετά ρουτίνα, αλλά η συλλογή όλων αυτών των βημάτων είναι αρκετά εμπλεκόμενη. Ο υπολογισμός της τυπικής απόκλισης είναι αρκετά κουραστικό από μόνο του. Αλλά ο υπολογισμός του συντελεστή συσχέτισης περιλαμβάνει όχι μόνο δύο τυπικές αποκλίσεις, αλλά ένα πλήθος άλλων λειτουργιών.
Ενα παράδειγμα
Για να δείτε ακριβώς πώς η τιμή του r λαμβάνουμε ένα παράδειγμα. Και πάλι, είναι σημαντικό να σημειωθεί ότι για πρακτικές εφαρμογές θα θέλαμε να χρησιμοποιήσουμε τον υπολογιστή μας ή το στατιστικό λογισμικό για να υπολογίσουμε r για εμάς.
Αρχίζουμε με μια λίστα ζευγαρωμένων δεδομένων: (1, 1), (2, 3), (4, 5), (5,7). Ο μέσος όρος του Χ τιμές, ο μέσος όρος 1, 2, 4 και 5 είναι xδ = 3. Έχουμε επίσης ότι ȳ = 4. Η τυπική απόκλιση του
Χ τιμές είναι μικρόΧ = 1,83 και μικρόy = 2.58. Ο κατωτέρω πίνακας συνοψίζει τους υπόλοιπους υπολογισμούς που απαιτούνται r. Το άθροισμα των προϊόντων στη δεξιά στήλη είναι 2.969848. Δεδομένου ότι υπάρχουν συνολικά τέσσερα σημεία και 4 - 1 = 3, διαιρούμε το άθροισμα των προϊόντων κατά 3. Αυτό μας δίνει συντελεστή συσχέτισης r = 2.969848/3 = 0.989949.
Πίνακας για παράδειγμα υπολογισμού του συντελεστή συσχέτισης
Χ | y | zΧ | zy | zΧzy |
---|---|---|---|---|
1 | 1 | -1.09544503 | -1.161894958 | 1.272792057 |
2 | 3 | -0.547722515 | -0.387298319 | 0.212132009 |
4 | 5 | 0.547722515 | 0.387298319 | 0.212132009 |
5 | 7 | 1.09544503 | 1.161894958 | 1.272792057 |