Η ανάλυση συμπλέγματος είναι μια στατιστική τεχνική που χρησιμοποιείται για να εντοπίσει τον τρόπο με τον οποίο διάφορες ομάδες - όπως οι άνθρωποι, οι ομάδες ή οι κοινωνίες - μπορούν να ομαδοποιηθούν λόγω των κοινών χαρακτηριστικών τους. Επίσης γνωστό ως ομαδοποίηση, είναι ένα εξερευνητικό εργαλείο ανάλυσης δεδομένων που στοχεύει να ταξινομεί διαφορετικά αντικείμενα σε ομάδες με τέτοιο τρόπο ώστε όταν ανήκουν στην ίδια ομάδα, έχουν μέγιστο βαθμό συσχέτισης και όταν δεν ανήκουν στην ίδια ομάδα, είναι ο βαθμός συσχετισμού τους ελάχιστος. Σε αντίθεση με κάποιες άλλες στατιστικές τεχνικές, οι δομές που αποκαλύπτονται μέσω της ανάλυσης συμπλέγματος δεν χρειάζονται καμία εξήγηση ή ερμηνεία - ανακαλύπτει τη δομή των δεδομένων χωρίς να εξηγεί γιατί υπάρχουν.
Τι είναι η ομαδοποίηση;
Η ομαδοποίηση υπάρχει σχεδόν σε κάθε πτυχή της καθημερινής μας ζωής. Πάρτε, για παράδειγμα, αντικείμενα σε ένα μπακάλικο. Διαφορετικοί τύποι αντικειμένων εμφανίζονται πάντα στην ίδια ή κοντινή τοποθεσία - κρέας, λαχανικά, σόδα, δημητριακά, προϊόντα από χαρτί κ.λπ. Οι ερευνητές θέλουν συχνά να κάνουν το ίδιο με δεδομένα και ομάδες αντικειμένων ή αντικειμένων σε συστοιχίες που έχουν νόημα.
Για παράδειγμα, από τις κοινωνικές επιστήμες, ας υποθέσουμε ότι εξετάζουμε τις χώρες και θέλουμε να τις ομαδοποιήσουμε σε ομάδες που βασίζονται σε χαρακτηριστικά όπως καταμερισμός της εργασίας, των στρατευμάτων, της τεχνολογίας ή του μορφωμένου πληθυσμού. Θα διαπιστώσουμε ότι η Βρετανία, η Ιαπωνία, η Γαλλία, η Γερμανία και οι Ηνωμένες Πολιτείες έχουν παρόμοια χαρακτηριστικά και θα συγκεντρωθούν μαζί. Η Ουγκάντα, η Νικαράγουα και το Πακιστάν θα είναι επίσης ομαδοποιημένα σε ένα διαφορετικό σύμπλεγμα επειδή έχουν διαφορετικό σύνολο χαρακτηριστικών, συμπεριλαμβανομένων των χαμηλών επιπέδων πλούτου, των απλούστερων κατανομών της εργασίας, των σχετικά ασταθών και μη δημοκρατικών πολιτικών θεσμών και της χαμηλής τεχνολογίας ανάπτυξη.
Η ανάλυση συμπλέγματος χρησιμοποιείται συνήθως στην διερευνητική φάση της έρευνας όταν ο ερευνητής δεν έχει κανένα προκαταρκτικές υποθέσεις. Συχνά δεν είναι η μόνη στατιστική μέθοδος που χρησιμοποιείται, αλλά γίνεται στα αρχικά στάδια ενός έργου για να βοηθήσει στην καθοδήγηση της υπόλοιπης ανάλυσης. Για το λόγο αυτό, οι έλεγχοι σημαντικών σημείων δεν είναι συνήθως ούτε κατάλληλοι ούτε κατάλληλοι.
Υπάρχουν διάφοροι τύποι ανάλυσης συμπλέγματος. Οι δύο συνηθέστερα χρησιμοποιούμενες είναι η συσσώρευση Κ-μέσων και η ιεραρχική συσσώρευση.
Κ-σημαίνει ομαδοποίηση
Η ομαδοποίηση Κ-μέσων αντιμετωπίζει τις παρατηρήσεις στα δεδομένα ως αντικείμενα που έχουν τοποθεσίες και αποστάσεις το ένα από το άλλο (σημειώστε ότι οι αποστάσεις που χρησιμοποιούνται στην ομαδοποίηση συχνά δεν αντιπροσωπεύουν χωρικές αποστάσεις). Καταμερίζει τα αντικείμενα σε αμοιβαία αποκλειστικά συμπλέγματα K, έτσι ώστε τα αντικείμενα μέσα σε κάθε σύμπλεγμα να είναι τα ίδια όσο το δυνατόν περισσότερο και ταυτόχρονα, όσο το δυνατόν πιο μακριά από αντικείμενα άλλων ομάδων. Κάθε σύμπλεγμα χαρακτηρίζεται στη συνέχεια από την μέσο ή κεντρικό σημείο.
Ιεραρχική ομαδοποίηση
Η ιεραρχική ομαδοποίηση είναι ένας τρόπος για να διερευνηθούν οι ομάδες σε δεδομένα ταυτόχρονα σε μια ποικιλία ζυγών και αποστάσεων. Κάνει αυτό δημιουργώντας ένα δέντρο συμπλέγματος με διάφορα επίπεδα. Σε αντίθεση με την ομαδοποίηση K-means, το δέντρο δεν είναι ένα ενιαίο σύνολο ομάδων. Αντίθετα, το δέντρο είναι μια ιεραρχία πολλαπλών επιπέδων όπου οι συστάδες σε ένα επίπεδο συνδέονται ως ομάδες στο επόμενο υψηλότερο επίπεδο. Ο αλγόριθμος που χρησιμοποιείται αρχίζει με κάθε περίπτωση ή μεταβλητή σε ξεχωριστό σύμπλεγμα και στη συνέχεια συνδυάζει ομάδες έως ότου απομείνει μόνο ένας. Αυτό επιτρέπει στον ερευνητή να αποφασίσει ποιο επίπεδο ομαδοποίησης είναι το πλέον κατάλληλο για την έρευνά του.
Εκτέλεση ανάλυσης συμπλεγμάτων
Πλέον στατιστικά προγράμματα λογισμικού μπορεί να εκτελέσει ανάλυση συμπλέγματος. Στο SPSS, επιλέξτε αναλύει από το μενού, στη συνέχεια ταξινόμηση και ανάλυση συμπλέγματος. Στο SAS, το proc cluster μπορεί να χρησιμοποιηθεί.
Ενημερώθηκε από Nicki Lisa Cole, Ph. D.