Καθαρισμός δεδομένων για ανάλυση δεδομένων στην κοινωνιολογία

Ο καθαρισμός δεδομένων είναι ένα κρίσιμο μέρος της ανάλυσης δεδομένων, ιδιαίτερα όταν συλλέγετε τα δικά σας ποσοτικά δεδομένα. Αφού συλλέξετε τα δεδομένα, πρέπει να τα εισαγάγετε σε ένα πρόγραμμα υπολογιστή όπως SAS, SPSS ή Excel. Κατά τη διάρκεια αυτής της διαδικασίας, είτε γίνεται με το χέρι είτε με έναν σαρωτή υπολογιστή, το κάνει, θα υπάρξουν σφάλματα. Ανεξάρτητα από το πόσο προσεκτικά έχουν εισαχθεί τα δεδομένα, τα λάθη είναι αναπόφευκτα. Αυτό θα μπορούσε να σημαίνει εσφαλμένη κωδικοποίηση, εσφαλμένη ανάγνωση γραπτών κωδικών, εσφαλμένη ανίχνευση μαυρισμένων σημάτων, έλλειψη δεδομένων κ.ο.κ. Ο καθαρισμός δεδομένων είναι η διαδικασία ανίχνευσης και διόρθωσης αυτών των σφαλμάτων κωδικοποίησης.

Υπάρχουν δύο τύποι καθαρισμού δεδομένων που πρέπει να εκτελεστούν σε σύνολα δεδομένων. Είναι πιθανός καθαρισμός κώδικα και καθαρισμός έκτακτης ανάγκης. Και οι δύο είναι κρίσιμης σημασίας για τη διαδικασία ανάλυσης δεδομένων, διότι αν αγνοηθεί, θα έχετε σχεδόν πάντα παραπλανητικές έρευνες.

Καθαρισμός πιθανών κωδικών

instagram viewer

Οποιαδήποτε δεδομένη μεταβλητή θα έχει ένα καθορισμένο σύνολο επιλογών απάντησης και κωδικούς για να ταιριάζει με κάθε επιλογή απάντησης. Για παράδειγμα, τη μεταβλητή γένος θα έχει τρεις επιλογές απάντησης και κωδικούς για κάθε: 1 για άνδρες, 2 για γυναίκες και 0 για μη απάντηση. Αν έχετε ερωτηθέντα κωδικοποιημένο ως 6 για αυτή τη μεταβλητή, είναι σαφές ότι έχει γίνει σφάλμα, επειδή δεν είναι πιθανός κωδικός απάντησης. Ο καθαρισμός με πιθανό κώδικα είναι η διαδικασία ελέγχου για να δείτε ότι στο αρχείο δεδομένων εμφανίζονται μόνο οι κωδικοί που αντιστοιχούν στις επιλογές απάντησης για κάθε ερώτηση (πιθανοί κωδικοί).

Ορισμένα προγράμματα υπολογιστών και πακέτα στατιστικών λογισμικών που είναι διαθέσιμα για τον έλεγχο εισαγωγής δεδομένων για αυτούς τους τύπους σφαλμάτων καθώς εισάγονται τα δεδομένα. Εδώ, ο χρήστης καθορίζει τους πιθανούς κωδικούς για κάθε ερώτηση πριν από την εισαγωγή των δεδομένων. Στη συνέχεια, εάν εισαχθεί ένας αριθμός εκτός των προκαθορισμένων δυνατοτήτων, εμφανίζεται ένα μήνυμα σφάλματος. Για παράδειγμα, αν ο χρήστης προσπάθησε να εισάγει μια τιμή 6 για το φύλο, ο υπολογιστής μπορεί να χτυπήσει και να αρνηθεί τον κωδικό. Άλλα προγράμματα υπολογιστών έχουν σχεδιαστεί για να ελέγχουν για παράνομους κωδικούς σε ολοκληρωμένα αρχεία δεδομένων. Δηλαδή, αν δεν ελέγχθηκαν κατά τη διαδικασία εισαγωγής δεδομένων όπως μόλις περιγράφηκε, υπάρχουν τρόποι για να ελέγξετε τα αρχεία για σφάλματα κωδικοποίησης μετά την ολοκλήρωση της εισαγωγής δεδομένων.

Εάν δεν χρησιμοποιείτε πρόγραμμα υπολογιστή που ελέγχει για σφάλματα κωδικοποίησης κατά τη διαδικασία εισαγωγής δεδομένων, μπορείτε να εντοπίσετε ορισμένα λάθη απλά εξετάζοντας τη διανομή απαντήσεων σε κάθε στοιχείο των δεδομένων σειρά. Για παράδειγμα, θα μπορούσατε να δημιουργήσετε έναν πίνακα συχνότητας για τη μεταβλητή γένος και εδώ θα δείτε τον αριθμό 6 που εισήχθη εσφαλμένα. Στη συνέχεια, θα μπορούσατε να αναζητήσετε αυτή την εγγραφή στο αρχείο δεδομένων και να την διορθώσετε.

Καθαρισμός έκτακτης ανάγκης

Ο δεύτερος τύπος δεδομένα ο καθαρισμός ονομάζεται καθαρισμός έκτακτης ανάγκης και είναι λίγο πιο πολύπλοκος από τον πιθανό καθαρισμό του κώδικα. Η λογική δομή των δεδομένων μπορεί να θέσει ορισμένα όρια στις απαντήσεις ορισμένων ερωτηθέντων ή σε ορισμένες μεταβλητές. Ο καθαρισμός έκτακτης ανάγκης είναι η διαδικασία ελέγχου ότι μόνο εκείνες οι περιπτώσεις που πρέπει να έχουν δεδομένα σχετικά με μια συγκεκριμένη μεταβλητή έχουν στην πραγματικότητα τέτοια δεδομένα. Για παράδειγμα, ας υποθέσουμε ότι έχετε ένα ερωτηματολόγιο στο οποίο ερωτάτε τους ερωτώμενους πόσες φορές ήταν έγκυες. Όλοι οι ερωτώμενοι πρέπει να έχουν κωδικοποιημένη απόκριση στα δεδομένα. Οι άνδρες, ωστόσο, πρέπει είτε να παραμείνουν κενές είτε να έχουν ειδικό κωδικό για να μην απαντήσουν. Εάν κάποιο άτομο στα δεδομένα έχει κωδικοποιηθεί ότι έχει 3 εγκυμοσύνες, για παράδειγμα, γνωρίζετε ότι υπάρχει κάποιο σφάλμα και πρέπει να διορθωθεί.

βιβλιογραφικές αναφορές

Babbie, Ε. (2001). Η πρακτική της κοινωνικής έρευνας: 9η έκδοση. Belmont, CA: Wadsworth Thomson.