Δειγματοληψία με ή χωρίς αντικατάσταση

Στατιστική δειγματοληψία μπορεί να γίνει με διάφορους τρόπους. Εκτός από τον τύπο της μεθόδου δειγματοληψίας που χρησιμοποιούμε, υπάρχει ένα άλλο ερώτημα σχετικά με το τι συμβαίνει συγκεκριμένα σε ένα άτομο που επιλέξαμε τυχαία. Αυτή η ερώτηση που τίθεται όταν η δειγματοληψία είναι: "Αφού επιλέξουμε ένα άτομο και καταγράψουμε τη μέτρηση του χαρακτηριστικού που μελετάμε, τι κάνουμε με το άτομο;"

Υπάρχουν δύο επιλογές:

  • Μπορούμε να αντικαταστήσουμε το άτομο πίσω στην πισίνα από την οποία λαμβάνουμε δειγματοληψία.
  • Μπορούμε να επιλέξουμε να μην αντικαταστήσουμε το άτομο.

Μπορούμε πολύ εύκολα να δούμε ότι αυτές οδηγούν σε δύο διαφορετικές καταστάσεις. Στην πρώτη επιλογή, η αντικατάσταση αφήνει ανοιχτό το ενδεχόμενο το άτομο να επιλέγεται τυχαία για δεύτερη φορά. Για τη δεύτερη επιλογή, εάν εργαζόμαστε χωρίς αντικατάσταση, τότε είναι αδύνατο να επιλέξουμε το ίδιο άτομο δύο φορές. Θα δούμε ότι αυτή η διαφορά θα επηρεάσει τον υπολογισμό των πιθανοτήτων που σχετίζονται με αυτά τα δείγματα.

Επίδραση στις πιθανότητες

instagram viewer

Για να δείτε πώς χειριζόμαστε την αντικατάσταση επηρεάζει τον υπολογισμό των πιθανοτήτων, εξετάστε το ακόλουθο παράδειγμα. Ποια είναι η πιθανότητα να τραβήξετε δύο άσους από ένα τυποποιημένο κατάστρωμα καρτών?

Αυτή η ερώτηση είναι διφορούμενη. Τι συμβαίνει μόλις σχεδιάσουμε την πρώτη κάρτα; Το επαναφέρουμε στο κατάστρωμα ή το αφήνουμε έξω;

Αρχίζουμε με τον υπολογισμό της πιθανότητας με αντικατάσταση. Υπάρχουν τέσσερις άσσοι και 52 κάρτες συνολικά, οπότε η πιθανότητα σύλληψης ενός άσου είναι 4/52. Εάν αντικαταστήσουμε αυτή την κάρτα και ξαναφτιάξουμε, τότε η πιθανότητα είναι και πάλι 4/52. Αυτά τα γεγονότα είναι ανεξάρτητα, έτσι πολλαπλασιάζουμε τις πιθανότητες (4/52) x (4/52) = 1/169, ή περίπου 0,592%.

Τώρα θα το συγκρίνουμε με την ίδια κατάσταση, με την εξαίρεση ότι δεν αντικαθιστούμε τις κάρτες. Η πιθανότητα σύλληψης ενός άσου στην πρώτη ισοπαλία είναι ακόμα 4/52. Για τη δεύτερη κάρτα, υποθέτουμε ότι έχει ήδη τραβηχτεί άσος. Πρέπει τώρα να υπολογίσουμε μια πιθανότητα υπό όρους. Με άλλα λόγια, πρέπει να γνωρίζουμε ποια είναι η πιθανότητα να σχεδιάσουμε έναν δεύτερο άσο, δεδομένου ότι η πρώτη κάρτα είναι επίσης άσος.

Υπάρχουν τώρα τρείς άσσοι που απομένουν από ένα σύνολο 51 καρτών. Έτσι, η υποθετική πιθανότητα ενός δεύτερου άσσου μετά την κατάρτιση ενός άσου είναι 3/51. Η πιθανότητα να τραβήξετε δύο άσους χωρίς αντικατάσταση είναι (4/52) x (3/51) = 1/221 ή περίπου 0.425%.

Βλέπουμε άμεσα από το παραπάνω πρόβλημα ότι αυτό που επιλέγουμε να κάνουμε με την αντικατάσταση έχει σχέση με τις τιμές των πιθανοτήτων. Μπορεί να αλλάξει σημαντικά αυτές τις τιμές.

Μεγέθη πληθυσμού

Υπάρχουν κάποιες καταστάσεις όπου η δειγματοληψία με ή χωρίς αντικατάσταση δεν αλλάζει ουσιαστικά τυχόν πιθανότητες. Ας υποθέσουμε ότι επιλέγουμε τυχαία δύο άτομα από μια πόλη με πληθυσμό 50.000, εκ των οποίων 30.000 είναι γυναίκες.

Αν δείξουμε με αντικατάσταση, τότε η πιθανότητα επιλογής ενός θηλυκού στην πρώτη επιλογή δίνεται από 30000/50000 = 60%. Η πιθανότητα μιας γυναίκας στη δεύτερη επιλογή εξακολουθεί να είναι 60%. Η πιθανότητα και των δύο ατόμων να είναι γυναίκες είναι 0,6 x 0,6 = 0,36.

Αν δείξουμε χωρίς αντικατάσταση τότε η πρώτη πιθανότητα δεν επηρεάζεται. Η δεύτερη πιθανότητα είναι τώρα 29999/49999 = 0.5999919998..., η οποία είναι εξαιρετικά κοντά στο 60%. Η πιθανότητα ότι και τα δύο είναι θηλυκά είναι 0,6 x 0,5999919998 = 0,359995.

Οι πιθανότητες είναι διαφορετικές από τεχνική άποψη, ωστόσο, είναι αρκετά κοντά για να είναι σχεδόν διακριτές. Για το λόγο αυτό, πολλές φορές, παρόλο που δοκιμάζουμε χωρίς αντικατάσταση, αντιμετωπίζουμε την επιλογή κάθε ατόμου σαν ανεξάρτητη από τα άλλα άτομα του δείγματος.

Άλλες εφαρμογές

Υπάρχουν και άλλες περιπτώσεις στις οποίες πρέπει να εξετάσουμε αν πρέπει να δοκιμάσουμε με ή χωρίς αντικατάσταση. Για παράδειγμα, αυτό είναι bootstrapping. Αυτή η στατιστική τεχνική εμπίπτει στην κατηγορία μιας τεχνικής αναδειγματοληψίας.

Στο bootstrapping ξεκινάμε με ένα στατιστικό δείγμα ενός πληθυσμού. Στη συνέχεια, χρησιμοποιούμε λογισμικό υπολογιστή για να υπολογίσουμε τα δείγματα εκκίνησης. Με άλλα λόγια, ο υπολογιστής επαναλαμβάνεται με αντικατάσταση από το αρχικό δείγμα.