Η γραμμική παλινδρόμηση είναι μια στατιστική τεχνική που χρησιμοποιείται για να μάθετε περισσότερα σχετικά με τη σχέση μεταξύ μιας ανεξάρτητης (predictor) μεταβλητής και μιας εξαρτώμενης (κριτηριακής) μεταβλητής. Όταν έχετε περισσότερες από μία ανεξάρτητες μεταβλητές στην ανάλυσή σας, αυτό αναφέρεται ως πολλαπλή γραμμική παλινδρόμηση. Σε γενικές γραμμές, η παλινδρόμηση επιτρέπει στον ερευνητή να ρωτήσει τη γενική ερώτηση "Ποιος είναι ο καλύτερος προγνωστικός δείκτης ...;"
Για παράδειγμα, ας πούμε ότι μελετούμε τα αίτια ευσαρκία, μετρούμενο με δείκτη μάζας σώματος (ΔΜΣ). Συγκεκριμένα, θέλαμε να δούμε αν οι ακόλουθες μεταβλητές ήταν σημαντικοί παράγοντες πρόβλεψης του BMI ενός ατόμου: αριθμός γρήγορων τροφών τα γεύματα που καταναλώνονται ανά εβδομάδα, τον αριθμό των ωρών παρακολούθησης της τηλεόρασης ανά εβδομάδα, τον αριθμό των εξόδων που περνούν την εβδομάδα, BMI. Η γραμμική παλινδρόμηση θα ήταν μια καλή μεθοδολογία για αυτήν την ανάλυση.
Η εξίσωση παλινδρόμησης
Όταν κάνετε μια ανάλυση παλινδρόμησης με μία ανεξάρτητη μεταβλητή, η εξίσωση παλινδρόμησης είναι Y = a + b * X όπου το Υ είναι η εξαρτώμενη μεταβλητή, το Χ είναι η ανεξάρτητη μεταβλητή, το a είναι η σταθερά (ή το intercept) και το b είναι ο
κλίση της γραμμής παλινδρόμησης. Για παράδειγμα, ας πούμε ότι η GPA είναι καλύτερα να προβλεφθεί από την εξίσωση παλινδρόμησης 1 + 0,02 * IQ. Εάν ένας φοιτητής είχε IQ 130, τότε η ΣΔΣ του θα ήταν 3,6 (1 + 0,02 * 130 = 3,6).Όταν κάνετε μια ανάλυση παλινδρόμησης στην οποία έχετε περισσότερες από μία ανεξάρτητες μεταβλητές, η εξίσωση παλινδρόμησης είναι Y = a + b1 * X1 + b2 * X2 +... + bp * Xp. Για παράδειγμα, εάν θέλαμε να συμπεριλάβουμε περισσότερες μεταβλητές στην ανάλυση GPA, όπως τα μέτρα κινήτρων και αυτοπειθαρχίας, θα χρησιμοποιήσαμε αυτό το εξίσωση.
R-Πλατεία
R-τετράγωνο, επίσης γνωστό ως συντελεστής προσδιορισμού, είναι μια στατιστική που χρησιμοποιείται συνήθως για την αξιολόγηση της προσαρμογής μοντέλου μιας εξίσωσης παλινδρόμησης. Δηλαδή, πόσο καλά είναι όλες οι ανεξάρτητες μεταβλητές σας στην πρόβλεψη της εξαρτώμενης μεταβλητής; Η τιμή του R-τετραγώνου κυμαίνεται από 0,0 έως 1,0 και μπορεί να πολλαπλασιαστεί επί 100 για να ληφθεί ένα ποσοστό από διαφορά εξήγησε. Για παράδειγμα, επιστρέφοντας στην εξίσωση παλινδρόμησης GPA με μόνο μία ανεξάρτητη μεταβλητή (IQ)... Ας πούμε ότι η δική μας Το R-τετράγωνο για την εξίσωση ήταν 0,4. Θα μπορούσαμε να το ερμηνεύσουμε αυτό που σημαίνει ότι το 40% της διακύμανσης της ΣΔΣ εξηγείται από IQ. Αν στη συνέχεια προσθέσουμε και άλλες δύο μεταβλητές (κίνητρο και αυτοπειθαρχία) και το R-square αυξάνεται 0.6, αυτό σημαίνει ότι το IQ, τα κίνητρα και η αυτοπειθαρχία μαζί εξηγούν το 60% της διακύμανσης της ΣΔΣ βαθμολογίες.
Οι αναλύσεις παλινδρόμησης τυπικά γίνονται χρησιμοποιώντας στατιστικό λογισμικό, όπως το SPSS ή το SAS και έτσι το R-square υπολογίζεται για εσάς.
Ερμηνεία των συντελεστών παλινδρόμησης (β)
Οι συντελεστές b από τις παραπάνω εξισώσεις αντιπροσωπεύουν τη δύναμη και την κατεύθυνση της σχέσης μεταξύ των ανεξάρτητων και εξαρτημένων μεταβλητών. Αν εξετάσουμε την εξίσωση GPA και IQ, 1 + 0,02 * 130 = 3,6, 0,02 είναι ο συντελεστής παλινδρόμησης για τη μεταβλητή IQ. Αυτό μας λέει ότι η κατεύθυνση της σχέσης είναι θετική έτσι ώστε όσο αυξάνεται ο IQ, η GPA επίσης αυξάνεται. Αν η εξίσωση ήταν 1 - 0.02 * 130 = Y, τότε αυτό θα σήμαινε ότι η σχέση μεταξύ IQ και GPA ήταν αρνητική.
Υποθέσεις
Υπάρχουν αρκετές υποθέσεις σχετικά με τα δεδομένα που πρέπει να πληρούνται προκειμένου να γίνει μια ανάλυση γραμμικής παλινδρόμησης:
- Γραμμικότητα: Θεωρείται ότι η σχέση μεταξύ ανεξάρτητων και εξαρτημένων μεταβλητών είναι γραμμική. Αν και αυτή η υπόθεση δεν μπορεί ποτέ να επιβεβαιωθεί πλήρως, εξετάζοντας ένα διάγραμμα διασποράς των μεταβλητών σας μπορεί να σας βοηθήσει να κάνετε αυτό τον προσδιορισμό. Εάν υπάρχει καμπυλότητα στη σχέση, μπορείτε να εξετάσετε το ενδεχόμενο μετασχηματισμού των μεταβλητών ή να επιτρέψετε ρητά μη γραμμικά στοιχεία.
- Κανονικότητα: Θεωρείται ότι το υπολείμματα των μεταβλητών σας κατανέμεται κανονικά. Δηλαδή, τα λάθη στην πρόβλεψη της τιμής του Υ (της εξαρτημένης μεταβλητής) κατανέμονται κατά τρόπο που πλησιάζει την κανονική καμπύλη. Μπορείτε να δείτε ιστογράμματα ή κανονικά διαγράμματα πιθανοτήτων για την επιθεώρηση της κατανομής των μεταβλητών σας και των υπολειπόμενων τιμών τους.
- Ανεξαρτησία: Υποτίθεται ότι τα σφάλματα στην πρόβλεψη της τιμής του Υ είναι όλα ανεξάρτητα το ένα από το άλλο (δεν συσχετίζονται).
- Ομοσκεδαστικότητα: Υποτίθεται ότι η διακύμανση γύρω από τη γραμμή παλινδρόμησης είναι η ίδια για όλες τις τιμές των ανεξάρτητων μεταβλητών.
Πηγή
- StatSoft: Ηλεκτρονικό βιβλίο στατιστικών στοιχείων. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.