Ένα scatterplot είναι ένας τύπος γραφήματος που χρησιμοποιείται για να αναπαραστήσει ζευγαρωμένα δεδομένα. Η επεξηγηματική μεταβλητή απεικονίζεται γραφικά κατά μήκος του οριζόντιου άξονα και η μεταβλητή απόκρισης διαβάζεται κατά μήκος του κατακόρυφου άξονα. Ένας λόγος για τη χρήση αυτού του τύπου γραφήματος είναι να αναζητήσετε σχέσεις μεταξύ των μεταβλητών.
Το πιο βασικό μοτίβο που πρέπει να αναζητήσετε σε ένα σύνολο ζευγαρωμένων δεδομένων είναι αυτό μιας ευθείας γραμμής. Μέσω οποιωνδήποτε δύο σημείων, μπορούμε να σχεδιάσουμε μια ευθεία γραμμή. Εάν υπάρχουν περισσότερα από δύο σημεία στο scatterplot μας, τις περισσότερες φορές δεν θα είμαστε πλέον σε θέση να σχεδιάσουμε μια γραμμή που περνάει από κάθε σημείο. Αντ 'αυτού, θα σχεδιάσουμε μια γραμμή που περνάει μέσα από τα σημεία και θα εμφανίζει τη συνολική γραμμική τάση των δεδομένων.
Καθώς εξετάζουμε τα σημεία στο γράφημά μας και επιθυμούμε να σχεδιάσουμε μια γραμμή μέσω αυτών των σημείων, τίθεται ένα ερώτημα. Ποια γραμμή πρέπει να σχεδιάσουμε; Υπάρχει ένας άπειρος αριθμός γραμμών που θα μπορούσαν να σχεδιαστούν. Χρησιμοποιώντας μόνο τα μάτια μας, είναι σαφές ότι κάθε άτομο που κοιτάζει το scatterplot θα μπορούσε να παράγει μια ελαφρώς διαφορετική γραμμή. Αυτή η αμφισημία είναι ένα πρόβλημα. Θέλουμε να έχουμε έναν σωστά καθορισμένο τρόπο ώστε όλοι να αποκτήσουν την ίδια γραμμή. Ο στόχος είναι να έχουμε μια μαθηματικά ακριβή περιγραφή της γραμμής που πρέπει να σχεδιαστεί. Τα ελάχιστα τετράγωνα
γραμμή παλινδρόμησης είναι μια τέτοια γραμμή μέσω των σημείων δεδομένων μας.Λιγότερα τετράγωνα
Το όνομα της γραμμής ελάχιστων τετραγώνων εξηγεί τι κάνει. Ξεκινάμε με μια συλλογή σημείων με συντεταγμένες που δίνουν οι (ΧΕγώ, yΕγώ). Κάθε ευθεία γραμμή θα περάσει μεταξύ αυτών των σημείων και είτε θα πάει πάνω ή κάτω από καθένα από αυτά. Μπορούμε να υπολογίσουμε τις αποστάσεις από αυτά τα σημεία στη γραμμή επιλέγοντας μια τιμή Χ και στη συνέχεια αφαιρώντας τα παρατηρούμενα y που αντιστοιχεί σε αυτό Χ από το y συντονίστε τη γραμμή μας.
Διαφορετικές γραμμές μέσα από το ίδιο σύνολο σημείων θα δώσουν διαφορετικό σύνολο αποστάσεων. Θέλουμε αυτές οι αποστάσεις να είναι τόσο μικρές όσο μπορούμε να τις κάνουμε. Υπάρχει όμως πρόβλημα. Δεδομένου ότι οι αποστάσεις μας μπορεί να είναι είτε θετικές είτε αρνητικές, το άθροισμα όλων αυτών των αποστάσεων θα ακυρωθεί το ένα το άλλο. Το άθροισμα των αποστάσεων θα είναι πάντα μηδενικό.
Η λύση αυτού του προβλήματος είναι να εξαλειφθούν όλοι οι αρνητικοί αριθμοί με τετραγωνισμό των αποστάσεων μεταξύ των σημείων και της γραμμής. Αυτό δίνει μια συλλογή μη αρνητικών αριθμών. Ο στόχος που είχαμε να βρούμε μια γραμμή καλύτερης προσαρμογής είναι το ίδιο με το να κάνουμε το άθροισμα αυτών των τετραγωνικών αποστάσεων όσο το δυνατόν μικρότερο. Ο υπολογισμός έρχεται στη διάσωση εδώ. Η διαδικασία της διαφοροποίησης στον υπολογισμό καθιστά δυνατή την ελαχιστοποίηση του αθροίσματος των τετραγωνικών αποστάσεων από μια δεδομένη γραμμή. Αυτό εξηγεί τη φράση "ελάχιστα τετράγωνα" στο όνομά μας για αυτή τη γραμμή.
Γραμμή καλύτερης προσαρμογής
Δεδομένου ότι η γραμμή των τετραγώνων ελαχιστοποιεί τις τετραγωνικές αποστάσεις μεταξύ της γραμμής και των σημείων μας, μπορούμε να σκεφτούμε ότι αυτή η γραμμή είναι αυτή που ταιριάζει καλύτερα στα δεδομένα μας. Αυτός είναι ο λόγος για τον οποίο η γραμμή των τετραγώνων είναι επίσης γνωστή ως η γραμμή της καλύτερης προσαρμογής. Από όλες τις πιθανές γραμμές που θα μπορούσαν να σχεδιαστούν, η γραμμή των ελαχίστων τετραγώνων είναι πιο κοντά στο σύνολο δεδομένων ως σύνολο. Αυτό μπορεί να σημαίνει ότι η γραμμή μας δεν θα χτυπήσει κανένα από τα σημεία της σειράς δεδομένων μας.
Χαρακτηριστικά της γραμμής των ελαχίστων τετραγώνων
Υπάρχουν μερικά χαρακτηριστικά γνωρίσματα που διαθέτει κάθε γραμμή των τετραγώνων. Το πρώτο στοιχείο ενδιαφέροντος ασχολείται με την κλίση της γραμμής μας. Η κλίση έχει μια σύνδεση με το συντελεστής συσχέτισης των δεδομένων μας. Στην πραγματικότητα, η κλίση της γραμμής είναι ίση με r (sy/μικρόΧ). Εδώ μικρό Χ σημαίνει την τυπική απόκλιση του Χ συντεταγμένες και μικρό y η τυπική απόκλιση του y συντεταγμένες των δεδομένων μας. Το σύμβολο του συντελεστή συσχέτισης σχετίζεται άμεσα με το σημείο της κλίσης της γραμμής ελάχιστων τετραγώνων μας.
Ένα άλλο χαρακτηριστικό της γραμμής ελάχιστων τετραγώνων αφορά ένα σημείο στο οποίο περνάει. Ενώ το y η ανάσχεση της γραμμής ελάχιστων τετραγώνων μπορεί να μην είναι ενδιαφέρουσα από στατιστικής απόψεως, υπάρχει ένα σημείο που είναι. Κάθε γραμμή των τετραγώνων περνάει από το μεσαίο σημείο των δεδομένων. Αυτό το μεσαίο σημείο έχει ένα Χ συντονίστε αυτό είναι το σημαίνω απο Χ και α y συντονίζει αυτός είναι ο μέσος όρος του y αξίες.