Διάστημα εμπιστοσύνης για τη διαφορά των δύο αναλογιών πληθυσμού

Διαστήματα εμπιστοσύνης είναι ένα μέρος του επαγωγική στατιστική. Η βασική ιδέα πίσω από αυτό το θέμα είναι η εκτίμηση της αξίας ενός άγνωστου πληθυσμού παράμετρο χρησιμοποιώντας ένα στατιστικό δείγμα. Δεν μπορούμε μόνο να εκτιμήσουμε την αξία μιας παραμέτρου, αλλά μπορούμε επίσης να προσαρμόσουμε τις μεθόδους μας για να υπολογίσουμε τη διαφορά μεταξύ δύο σχετικών παραμέτρων. Για παράδειγμα, ίσως να θέλουμε να βρούμε τη διαφορά στο ποσοστό του ανδρικού πληθυσμού με δικαίωμα ψήφου στις ΗΠΑ που υποστηρίζει ένα συγκεκριμένο νομοθετικό κείμενο σε σύγκριση με τον πληθυσμό των γυναικών που ψηφίζει.

Θα δούμε πώς μπορούμε να κάνουμε αυτόν τον τύπο υπολογισμού κατασκευάζοντας ένα διάστημα εμπιστοσύνης για τη διαφορά δύο αναλογιών πληθυσμού. Στη διαδικασία θα εξετάσουμε κάποια από τη θεωρία πίσω από αυτόν τον υπολογισμό. Θα δούμε κάποιες ομοιότητες στο πώς κατασκευάζουμε ένα διάστημα εμπιστοσύνης για μια μεμονωμένη αναλογία πληθυσμού καθώς και α διάστημα εμπιστοσύνης για τη διαφορά δύο μέσων πληθυσμού.

instagram viewer

Γενικά

Πριν εξετάσουμε τον συγκεκριμένο τύπο που θα χρησιμοποιήσουμε, ας εξετάσουμε το συνολικό πλαίσιο στο οποίο εντάσσεται αυτός ο τύπος διαστήματος εμπιστοσύνης. Η μορφή του τύπου διαστήματος εμπιστοσύνης που θα εξετάσουμε δίνεται από τον ακόλουθο τύπο:

Εκτίμηση +/- Περιθώριο σφάλματος

Πολλά διαστήματα εμπιστοσύνης είναι αυτού του τύπου. Υπάρχουν δύο αριθμοί που πρέπει να υπολογίσουμε. Η πρώτη από αυτές τις τιμές είναι η εκτίμηση για την παράμετρο. Η δεύτερη τιμή είναι το περιθώριο σφάλματος. Αυτό το περιθώριο λάθους οφείλεται στο γεγονός ότι έχουμε μια εκτίμηση. Το διάστημα εμπιστοσύνης μας παρέχει μια σειρά πιθανών τιμών για την άγνωστη παράμετρο μας.

Συνθήκες

Πρέπει να διασφαλίσουμε ότι πληρούνται όλες οι προϋποθέσεις πριν προβείτε σε οποιονδήποτε υπολογισμό. Για να βρείτε ένα διάστημα εμπιστοσύνης για τη διαφορά των δύο αναλογιών του πληθυσμού, πρέπει να βεβαιωθείτε ότι η ακόλουθη αναμονή:

  • Έχουμε δύο απλά τυχαία δείγματα από μεγάλους πληθυσμούς. Εδώ "μεγάλο" σημαίνει ότι ο πληθυσμός είναι τουλάχιστον 20 φορές μεγαλύτερος από το μέγεθος του δείγματος. Τα μεγέθη του δείγματος θα σημειωθούν με το n1 και n2.
  • Τα άτομα μας έχουν επιλεγεί ανεξάρτητα το ένα από το άλλο.
  • Υπάρχουν τουλάχιστον δέκα επιτυχίες και δέκα αποτυχίες σε κάθε δείγμα μας.

Αν το τελευταίο στοιχείο της λίστας δεν είναι ικανοποιημένο, τότε ίσως υπάρχει τρόπος γύρω από αυτό. Μπορούμε να τροποποιήσουμε το συν-τέσσερα διαστήματα εμπιστοσύνης κατασκευή και απόκτηση ισχυρά αποτελέσματα. Καθώς προχωρούμε, υποθέτουμε ότι όλες οι παραπάνω προϋποθέσεις έχουν ικανοποιηθεί.

Δείγματα και αναλογία πληθυσμού

Τώρα είμαστε έτοιμοι να κατασκευάσουμε το διάστημα εμπιστοσύνης μας. Ξεκινάμε με την εκτίμηση της διαφοράς μεταξύ των αναλογιών του πληθυσμού μας. Και οι δύο αυτές πληθυσμιακές αναλογίες υπολογίζονται με αναλογία δείγματος. Αυτές οι αναλογίες δείγματος είναι στατιστικά στοιχεία που βρίσκονται με τη διαίρεση του αριθμού των επιτυχιών σε κάθε δείγμα και στη συνέχεια με τη διαίρεση από το αντίστοιχο μέγεθος δείγματος.

Η πρώτη αναλογία πληθυσμού υποδηλώνεται από το Π1. Εάν ο αριθμός των επιτυχιών στο δείγμα μας από αυτόν τον πληθυσμό είναι κ1, τότε έχουμε μια αναλογία δείγματος από κ1 / n1.

Δηλώνουμε αυτό το στατιστικό στοιχείο με p1. Διαβάζουμε αυτό το σύμβολο ως "p1- τι "επειδή μοιάζει με το σύμβολο p1 με καπέλο στην κορυφή.

Με παρόμοιο τρόπο μπορούμε να υπολογίσουμε μια αναλογία δείγματος από τον δεύτερο πληθυσμό μας. Η παράμετρος από αυτόν τον πληθυσμό είναι Π2. Εάν ο αριθμός των επιτυχιών στο δείγμα μας από αυτόν τον πληθυσμό είναι κ2, και η αναλογία δειγμάτων μας είναι p2 = k2 / n2.

Αυτές οι δύο στατιστικές αποτελούν το πρώτο μέρος του διαστήματος εμπιστοσύνης μας. Η εκτίμηση του Π1 είναι p1. Η εκτίμηση του Π2 είναι p2. Έτσι, η εκτίμηση για τη διαφορά Π1 - Π2 είναι p1 - Π2.

Δειγματοληψία Κατανομή της διαφοράς των αναλογιών των δειγμάτων

Στη συνέχεια πρέπει να λάβουμε τον τύπο του περιθωρίου σφάλματος. Για να γίνει αυτό, θα εξετάσουμε πρώτα το κατανομή δειγματοληψίας της σ1 . Πρόκειται για διωνυμική κατανομή με πιθανότητα επιτυχίας Π1 και n1 δοκιμές. Ο μέσος όρος αυτής της κατανομής είναι η αναλογία Π1. Η τυπική απόκλιση αυτού του τύπου τυχαίας μεταβλητής έχει διακύμανση Π1 (1 - Π1 )/n1.

Η κατανομή δειγματοληψίας σε p2 είναι παρόμοιο με εκείνο της p1 . Απλά αλλάξτε όλους τους δείκτες από 1 σε 2 και έχουμε μια διωνυμική κατανομή με μέση τιμή p2 και διακύμανση του Π2 (1 - Π2 )/n2.

Χρειαζόμαστε τώρα μερικά αποτελέσματα από τις μαθηματικές στατιστικές για να καθορίσουμε τη διανομή δειγματοληψίας p1 - Π2. Ο μέσος όρος αυτής της κατανομής είναι Π1 - Π2. Λόγω του γεγονότος ότι οι διακυμάνσεις προσθέτουν μαζί, βλέπουμε ότι η διακύμανση της κατανομής δειγματοληψίας είναι Π1 (1 - Π1 )/n1 + Π2 (1 - Π2 )/n2. Η τυπική απόκλιση της κατανομής είναι η τετραγωνική ρίζα αυτού του τύπου.

Υπάρχουν κάποιες προσαρμογές που πρέπει να κάνουμε. Το πρώτο είναι ότι ο τύπος για την τυπική απόκλιση της p1 - Π2 χρησιμοποιεί τις άγνωστες παραμέτρους του Π1 και Π2. Φυσικά αν γνωρίζαμε πραγματικά αυτές τις αξίες, τότε δεν θα ήταν ένα ενδιαφέρον στατιστικό πρόβλημα καθόλου. Δεν θα χρειαζόταν να υπολογίσουμε τη διαφορά μεταξύ Π1 και Π2.. Αντ 'αυτού θα μπορούσαμε απλά να υπολογίσουμε την ακριβή διαφορά.

Αυτό το πρόβλημα μπορεί να διορθωθεί με τον υπολογισμό ενός τυπικού σφάλματος αντί μιας τυπικής απόκλισης. Το μόνο που πρέπει να κάνουμε είναι να αντικαταστήσουμε τις αναλογίες του πληθυσμού ανά αναλογίες δείγματος. Τα τυπικά σφάλματα υπολογίζονται από τα στατιστικά στοιχεία, αντί των παραμέτρων. Ένα τυπικό σφάλμα είναι χρήσιμο επειδή εκτιμά αποτελεσματικά μια τυπική απόκλιση. Αυτό που σημαίνει για εμάς είναι ότι δεν χρειάζεται πλέον να γνωρίζουμε την αξία των παραμέτρων Π1 και Π2. .Δεδομένου ότι αυτές οι αναλογίες δείγματος είναι γνωστές, το τυπικό σφάλμα δίνεται από την τετραγωνική ρίζα της ακόλουθης έκφρασης:

Π1 (1 - σελ1 )/n1 + σ2 (1 - σελ2 )/n2.

Το δεύτερο στοιχείο που πρέπει να αντιμετωπίσουμε είναι η ιδιαίτερη μορφή της κατανομής δειγματοληψίας μας. Αποδεικνύεται ότι μπορούμε να χρησιμοποιήσουμε μια κανονική κατανομή για να προσεγγίσουμε την κατανομή δειγματοληψίας p1 - Π2. Ο λόγος για αυτό είναι κάπως τεχνικός, αλλά περιγράφεται στην επόμενη παράγραφο.

Και οι δύο σελίδες1 και π2 έχουν μια κατανομή δειγματοληψίας που είναι διωνυμική. Κάθε μία από αυτές τις δυαδικές κατανομές μπορεί να προσεγγιστεί αρκετά καλά με μια κανονική κατανομή. Έτσι p1 - Π2 είναι μια τυχαία μεταβλητή. Δημιουργείται ως ένας γραμμικός συνδυασμός δύο τυχαίων μεταβλητών. Καθένα από αυτά προσεγγίζεται με κανονική κατανομή. Συνεπώς, η κατανομή δειγματοληψίας σε p1 - Π2 διανέμεται επίσης κανονικά.

Φόρμουλα διαστήματος εμπιστοσύνης

Τώρα έχουμε όλα όσα χρειαζόμαστε για να συγκεντρώσουμε το διάστημα εμπιστοσύνης μας. Η εκτίμηση είναι (σελ1 - Π2) και το περιθώριο σφάλματος είναι z *1 (1 - σελ1 )/n1 + σ2 (1 - σελ2 )/n2.]0.5. Η αξία που εισάγουμε z * υπαγορεύεται από το επίπεδο εμπιστοσύνης ΝΤΟ. Συνήθως χρησιμοποιούμενες τιμές για z * είναι 1.645 για εμπιστοσύνη 90% και 1.96 για εμπιστοσύνη 95%. Αυτές οι τιμές για z * υποδηλώνουν το μέρος της κανονικής κανονικής κατανομής όπου ακριβώς ντο το ποσοστό της διανομής είναι μεταξύ -z * και z *.

Ο παρακάτω τύπος μας δίνει ένα διάστημα εμπιστοσύνης για τη διαφορά δύο αναλογιών πληθυσμού:

1 - Π2) +/- z *1 (1 - σελ1 )/n1 + σ2 (1 - σελ2 )/n2.]0.5