Πολλές φορές στη μελέτη του στατιστική είναι σημαντικό να γίνουν συνδέσεις μεταξύ διαφορετικών θεμάτων. Θα δούμε ένα παράδειγμα αυτού στο οποίο η κλίση της γραμμής παλινδρόμησης σχετίζεται άμεσα με το συντελεστής συσχέτισης. Δεδομένου ότι οι εν λόγω έννοιες περιλαμβάνουν και ευθείες γραμμές, είναι φυσικό να τεθεί το ερώτημα, "Πώς είναι ο συντελεστής συσχέτισης και τουλάχιστον τετραγωνική γραμμή σχετιζομαι με?"
Πρώτον, θα δούμε κάποια ιστορία και για τα δύο αυτά θέματα.
Λεπτομέρειες σχετικά με τη συσχέτιση
Είναι σημαντικό να θυμηθούμε τις λεπτομέρειες που αφορούν τον συντελεστή συσχέτισης, ο οποίος υποδηλώνεται με r. Αυτή η στατιστική χρησιμοποιείται όταν έχουμε αντιστοιχίσει ποσοτικά δεδομένα. Από ένα scatterplot του ζευγαρωμένα δεδομένα, μπορούμε να αναζητήσουμε τάσεις στη συνολική κατανομή των δεδομένων. Ορισμένα ζευγαρωμένα δεδομένα εμφανίζουν ένα γραμμικό ή ευθυγραμμισμένο μοτίβο. Αλλά στην πράξη, τα δεδομένα δεν πέφτουν ακριβώς κατά μήκος μιας ευθείας γραμμής.
Πολλοί άνθρωποι κοιτάζουν το ίδιο
διάγραμμα διασποράς των ζευγαρωμένων δεδομένων θα διαφωνούσε σχετικά με το πόσο κοντά ήταν η παρουσίαση μιας συνολικής γραμμικής τάσης. Εξάλλου, τα κριτήρια μας για αυτό μπορεί να είναι κάπως υποκειμενικά. Η κλίμακα που χρησιμοποιούμε μπορεί επίσης να επηρεάσει την αντίληψή μας για τα δεδομένα. Για αυτούς τους λόγους και περισσότερο χρειαζόμαστε κάποιο είδος αντικειμενικού μέτρου για να πούμε πόσο κοντά είναι τα γραμμικά δεδομένα μας. Ο συντελεστής συσχέτισης το επιτυγχάνει αυτό για εμάς.Μερικά βασικά γεγονότα r περιλαμβάνω:
- Η αξία του r κυμαίνεται μεταξύ οποιουδήποτε πραγματικού αριθμού από -1 έως 1.
- Τιμές του r κοντά στο 0 υποδηλώνουν ότι υπάρχει ελάχιστη έως καμία γραμμική σχέση μεταξύ των δεδομένων.
- Τιμές του r κοντά στο 1 υποδηλώνει ότι υπάρχει θετική γραμμική σχέση μεταξύ των δεδομένων. Αυτό σημαίνει ότι ως Χ αυξάνει αυτό y επίσης αυξάνεται.
- Τιμές του r κοντά στο -1 υποδηλώνουν ότι υπάρχει αρνητική γραμμική σχέση μεταξύ των δεδομένων. Αυτό σημαίνει ότι ως Χ αυξάνει αυτό y μειώνεται.
Η κλίση της γραμμής των ελαχίστων τετραγώνων
Τα τελευταία δύο στοιχεία της παραπάνω λίστας μας δείχνουν προς την κλίση της γραμμής των ελαχίστων τετραγώνων της καλύτερης προσαρμογής. Θυμηθείτε ότι η κλίση μιας γραμμής είναι μια μέτρηση του πόσες μονάδες ανεβαίνει προς τα πάνω ή προς τα κάτω για κάθε μονάδα που κινούμε προς τα δεξιά. Μερικές φορές αυτό δηλώνεται ως η άνοδος της γραμμής διαιρούμενη με το τρέξιμο ή την αλλαγή σε y τιμές διαιρούμενες με την αλλαγή στο Χ αξίες.
Γενικά, οι ευθείες γραμμές έχουν κλίσεις θετικές, αρνητικές ή μηδενικές. Αν έπρεπε να εξετάσουμε τις λιγότερο τετραγωνικές γραμμές παλινδρόμησης και να συγκρίνουμε τις αντίστοιχες τιμές του r, θα παρατηρούσαμε ότι κάθε φορά που τα δεδομένα μας έχουν ένα αρνητικός συντελεστής συσχέτισης, η κλίση της γραμμής παλινδρόμησης είναι αρνητική. Ομοίως, για κάθε φορά που έχουμε θετικό συντελεστή συσχέτισης, η κλίση της γραμμής παλινδρόμησης είναι θετική.
Από την παρατήρηση αυτή θα πρέπει να καταστεί σαφές ότι υπάρχει σίγουρα μια σχέση μεταξύ του σημείου του συντελεστή συσχέτισης και της κλίσης της γραμμής ελάχιστων τετραγώνων. Απομένει να εξηγηθεί γιατί είναι αλήθεια.
Ο τύπος για την κλίση
Ο λόγος για τη σχέση μεταξύ της αξίας του r και η κλίση της γραμμής ελάχιστων τετραγώνων έχει σχέση με τον τύπο που μας δίνει την κλίση αυτής της γραμμής. Για τα ζευγαρωμένα δεδομένα (x, y) υποδηλώνουμε το τυπική απόκλιση απο Χ δεδομένα από μικρόΧ και την τυπική απόκλιση του y δεδομένα από μικρόy.
Ο τύπος για την κλίση ένα της γραμμής παλινδρόμησης είναι:
- a = r (sy/μικρόΧ)
Ο υπολογισμός μιας τυπικής απόκλισης περιλαμβάνει τη λήψη της θετικής τετραγωνικής ρίζας ενός μη αρνητικού αριθμού. Ως αποτέλεσμα, και οι δύο τυπικές αποκλίσεις στον τύπο για την κλίση πρέπει να είναι μη αρνητικές. Εάν υποθέσουμε ότι υπάρχουν κάποια διακύμανση στα δεδομένα μας, θα μπορέσουμε να αγνοήσουμε το ενδεχόμενο μηδενισμού οποιασδήποτε από αυτές τις τυπικές αποκλίσεις. Επομένως το σημάδι του συντελεστή συσχέτισης θα είναι το ίδιο με το σημάδι της κλίσης της γραμμής παλινδρόμησης.