συσχέτιση σημαίνει ομοιότητα ή σχέση μεταξύ δύο πραγμάτων, ανθρώπων ή ιδεών. Είναι μια ομοιότητα ή ισοδυναμία που υπάρχει μεταξύ δύο διαφορετικών υποθέσεων, καταστάσεων ή αντικειμένων.
Στον τομέα των στατιστικών και των μαθηματικών, η συσχέτιση αναφέρεται σε ένα μέτρο μεταξύ δύο ή περισσότερων μεταβλητών που σχετίζονται.
Ο όρος συσχέτιση είναι ένα θηλυκό ουσιαστικό που προέρχεται από τα λατινικά συσχετίζω.
Η λέξη συσχέτιση μπορεί να αντικατασταθεί από συνώνυμα όπως: σχέση, ισοδυναμία, σχέση, αλληλογραφία, αναλογία και σύνδεση.
Συντελεστής συσχέτισης
Στα στατιστικά στοιχεία το Συντελεστής συσχέτισης Pearson (r), που ονομάζεται επίσης συντελεστής συσχέτισης προϊόντος-ορμής, μετρά τη σχέση που υπάρχει μεταξύ δύο μεταβλητών στην ίδια μετρική κλίμακα.
Η συνάρτηση του συντελεστή συσχέτισης είναι ο προσδιορισμός της ισχύος της σχέσης που υπάρχει μεταξύ συνόλων γνωστών δεδομένων ή πληροφοριών.
Η τιμή του συντελεστή συσχέτισης μπορεί να κυμαίνεται μεταξύ -1 και 1 και το ληφθέν αποτέλεσμα καθορίζει εάν η συσχέτιση είναι αρνητική ή θετική.
Για την ερμηνεία του συντελεστή, είναι απαραίτητο να γνωρίζουμε ότι 1 σημαίνει ότι η συσχέτιση μεταξύ των μεταβλητών είναι τέλεια θετική και -1 σημαίνει ότι είναι τέλεια αρνητικό. Εάν ο συντελεστής είναι ίσος με 0 σημαίνει ότι οι μεταβλητές δεν εξαρτώνται η μία από την άλλη.
Στα στατιστικά υπάρχει επίσης το Συντελεστής συσχέτισης Spearman, πήρε το όνομά του από τον στατιστή Charles Spearman. Η συνάρτηση αυτού του συντελεστή είναι να μετρήσει την ένταση της σχέσης μεταξύ δύο μεταβλητών, είτε είναι γραμμικές είτε όχι.
Ο συσχετισμός Spearman χρησιμεύει για να εκτιμήσει εάν η ένταση της σχέσης μεταξύ των δύο αναλυόμενων μεταβλητών μπορεί να μετρηθεί με μια μονότονη συνάρτηση (μαθηματική συνάρτηση που διατηρεί ή αναστρέφει τη σχέση τάξης αρχικός).
Υπολογισμός του συντελεστή συσχέτισης του Pearson
Μέθοδος 1) Υπολογισμός του συντελεστή συσχέτισης του Pearson χρησιμοποιώντας συνδιακύμανση και τυπική απόκλιση.
Οπου
μικρόXYείναι η συνδιακύμανση ·
μικρόΧ και μικρόεαντιπροσωπεύουν την τυπική απόκλιση, αντίστοιχα, των μεταβλητών x και y.
Σε αυτήν την περίπτωση, ο υπολογισμός περιλαμβάνει πρώτα την εύρεση της συνδιακύμανσης μεταξύ των μεταβλητών και της τυπικής απόκλισης καθεμιάς από αυτές. Στη συνέχεια, διαιρέστε τη συνδιακύμανση πολλαπλασιάζοντας τις τυπικές αποκλίσεις.
Συχνά, η δήλωση παρέχει ήδη τις τυπικές αποκλίσεις των μεταβλητών, ή τη διακύμανση μεταξύ τους, απλώς εφαρμόζοντας τον τύπο.
Μέθοδος 2) Υπολογισμός του συντελεστή συσχέτισης του Pearson με πρωτογενή δεδομένα (χωρίς συνδιακύμανση ή τυπική απόκλιση).
Με αυτήν τη μέθοδο, ο πιο άμεσος τύπος έχει ως εξής:
Για παράδειγμα, υποθέτοντας ότι έχουμε δεδομένα με παρατηρήσεις n = 6 δύο μεταβλητών: επίπεδο γλυκόζης (y) και ηλικία (x), ο υπολογισμός ακολουθεί τα εξής βήματα:
Βήμα 1) Δημιουργήστε τον πίνακα με τα υπάρχοντα δεδομένα: i, x, y και προσθέστε κενές στήλες για xy, x² και y²:
Βήμα 2: Πολλαπλασιάστε τα x και y για να συμπληρώσετε τη στήλη "xy". Για παράδειγμα, στη γραμμή 1 θα έχουμε: x1y1 = 43 × 99 = 4257.
Βήμα 3: Τετραγωνίστε τις τιμές στη στήλη x και καταγράψτε τα αποτελέσματα στη στήλη x². Για παράδειγμα, στην πρώτη γραμμή θα έχουμε x12 = 43 × 43 = 1849.
Βήμα 4: Κάντε το ίδιο όπως στο Βήμα 3, τώρα χρησιμοποιώντας τη στήλη y και καταγράψτε το τετράγωνο των τιμών σας στη στήλη y². Για παράδειγμα, στην πρώτη γραμμή θα έχουμε: y12 = 99 × 99 = 9801.
Βήμα 5: Λάβετε το άθροισμα όλων των αριθμών στηλών και τοποθετήστε το αποτέλεσμα στο υποσέλιδο στήλης. Για παράδειγμα, το άθροισμα της στήλης Age X ισούται με 43 + 21 + 25 + 42 + 57 + 59 = 247.
Βήμα 6: Χρησιμοποιήστε τον παραπάνω τύπο για να αποκτήσετε τον συντελεστή συσχέτισης:
Έτσι έχουμε:
Υπολογισμός του συντελεστή συσχέτισης του Spearman
Ο υπολογισμός του συντελεστή συσχέτισης του Spearman είναι λίγο διαφορετικός. Για αυτό, πρέπει να οργανώσουμε τα δεδομένα μας στον ακόλουθο πίνακα:
1. Έχοντας στη δήλωση 2 ζεύγη δεδομένων, πρέπει να τα εισαγάγουμε στον πίνακα. Για παράδειγμα:
2. Στη στήλη "Κατάταξη Α", θα ταξινομήσουμε τις παρατηρήσεις που βρίσκονται στο "Ημερομηνία Α" αύξουσα "1" η χαμηλότερη τιμή στη στήλη και n (συνολικός αριθμός παρατηρήσεων) η υψηλότερη τιμή στη στήλη "Ημερομηνία" Ο". Στο παράδειγμά μας είναι:
3. Κάνουμε το ίδιο για να αποκτήσουμε τη στήλη "Κατάταξη Β", χρησιμοποιώντας τώρα τις παρατηρήσεις στη στήλη "Δεδομένα Β":
4. Στη στήλη "d" βάζουμε τη διαφορά μεταξύ των δύο κατατάξεων (A - B). Εδώ το σήμα δεν έχει σημασία.
5. Τετράγωνη καθεμία από τις τιμές στη στήλη "d" και εγγραφή στη στήλη d²:
6. Αθροίστε όλα τα δεδομένα από τη στήλη "d²". Αυτή η τιμή είναι Σd². Στο παράδειγμά μας Σd² = 0 + 1 + 0 + 1 = 2
7. Τώρα χρησιμοποιούμε τον τύπο του Spearman:
Στην περίπτωσή μας, το n είναι ίσο με 4, καθώς εξετάζουμε τον αριθμό των γραμμών δεδομένων (που αντιστοιχεί στον αριθμό των παρατηρήσεων).
8. Τέλος, αντικαταστήσαμε τα δεδομένα στον προηγούμενο τύπο:
γραμμικής παλινδρόμησης
Η γραμμική παλινδρόμηση είναι ένας τύπος που χρησιμοποιείται για την εκτίμηση της πιθανής τιμής μιας μεταβλητής (y) όταν είναι γνωστές οι τιμές άλλων μεταβλητών (x). Η τιμή του "x" είναι η ανεξάρτητη ή επεξηγηματική μεταβλητή και το "y" είναι η εξαρτώμενη μεταβλητή ή απόκριση.
Η γραμμική παλινδρόμηση χρησιμοποιείται για να δει πώς η τιμή του "y" μπορεί να ποικίλει ως συνάρτηση της μεταβλητής "x". Η γραμμή που περιέχει τις τιμές ελέγχου διακύμανσης ονομάζεται γραμμή γραμμικής παλινδρόμησης.
Εάν η επεξηγηματική μεταβλητή "x" έχει μία μόνο τιμή, θα καλείται η παλινδρόμηση απλή γραμμική παλινδρόμηση.