korelace znamená podobnost nebo vztah mezi dvěma věcmi, lidmi nebo nápady. Jedná se o podobnost nebo rovnocennost, která existuje mezi dvěma různými hypotézami, situacemi nebo objekty.
V oblasti statistiky a matematiky se korelace týká míry mezi dvěma nebo více proměnnými, které spolu souvisejí.
Termín korelace je ženské podstatné jméno, které pochází z latiny korelát.
Slovo korelace může být nahrazeno synonymy, jako jsou: relace, ekvivalence, spojitost, korespondence, analogie a spojení.
Korelační koeficient
Ve statistikách Pearsonův korelační koeficient (r), který se také nazývá korelační koeficient produkt-hybnost, měří vztah, který existuje mezi dvěma proměnnými ve stejné metrické škále.
Funkcí korelačního koeficientu je určit sílu vztahu, který existuje mezi sadami známých dat nebo informací.
Hodnota korelačního koeficientu se může pohybovat mezi -1 a 1 a získaný výsledek definuje, zda je korelace záporná nebo pozitivní.
Pro interpretaci koeficientu je nutné vědět, že 1 znamená, že korelace mezi proměnnými je
perfektní pozitivní a -1 znamená, že je perfektní negativní. Pokud je koeficient roven 0, znamená to, že proměnné na sobě nezávisí.Ve statistikách je také Spearmanův korelační koeficient, pojmenovaný podle statistika Charlese Spearmana. Funkce tohoto koeficientu spočívá v měření intenzity vztahu mezi dvěma proměnnými, ať už jsou lineární nebo ne.
Spearmanova korelace slouží k posouzení, zda je intenzita vztahu mezi dvěma analyzovanými proměnnými lze měřit monotónní funkcí (matematická funkce, která zachovává nebo převrací relační řád počáteční).
Výpočet Pearsonova korelačního koeficientu
Metoda 1) Výpočet Pearsonova korelačního koeficientu pomocí kovariance a směrodatné odchylky.
Kde
sXYje kovariance;
sX a sypředstavují směrodatnou odchylku proměnných xay.
V tomto případě výpočet zahrnuje nejprve zjištění kovariance mezi proměnnými a standardní odchylku každé z nich. Pak vydělte kovarianci vynásobením směrodatných odchylek.
Příkaz již často poskytuje buď standardní odchylky proměnných, nebo kovarianci mezi nimi, pouhým použitím vzorce.
Metoda 2) Výpočet Pearsonova korelačního koeficientu se surovými daty (bez kovariance nebo směrodatné odchylky).
S touto metodou je nejpřímější vzorec následující:
Například za předpokladu, že máme data s n = 6 pozorování dvou proměnných: hladiny glukózy (y) a věku (x), výpočet se řídí těmito kroky:
Krok 1) Vytvořte tabulku s existujícími daty: i, x, y a přidejte prázdné sloupce pro xy, x² a y²:
Krok 2: Vynásobením xay vyplňte sloupec „xy“. Například na řádku 1 budeme mít: x1y1 = 43 × 99 = 4257.
Krok 3: Zarovnejte hodnoty ve sloupci x a zaznamenejte výsledky do sloupce x². Například v prvním řádku budeme mít x12 = 43 × 43 = 1849.
Krok 4: Postupujte stejně jako v kroku 3, nyní použijte sloupec y a zaznamenejte druhou mocninu svých hodnot do sloupce y². Například v prvním řádku budeme mít: y12 = 99 × 99 = 9801.
Krok 5: Získejte součet všech čísel sloupců a výsledek vložte do zápatí sloupce. Například součet sloupce Age X se rovná 43 + 21 + 25 + 42 + 57 + 59 = 247.
Krok 6: Použijte výše uvedený vzorec k získání korelačního koeficientu:
Takže máme:
Výpočet Spearmanova korelačního koeficientu
Výpočet Spearmanova korelačního koeficientu je trochu odlišný. Za tímto účelem musíme uspořádat naše data v následující tabulce:
1. Když máme ve výpisu 2 páry dat, musíme je uvést v tabulce. Například:
2. Ve sloupci „Hodnocení A“ seřadíme pozorování, která jsou v „Datum A“ vzestupně „1“ nejnižší hodnota ve sloupci a n (celkový počet pozorování) nejvyšší hodnota ve sloupci „Datum“ ". V našem příkladu je to:
3. Uděláme to samé, abychom získali sloupec „Hodnocení B“, nyní použijeme pozorování ve sloupci „Data B“:
4. Ve sloupci „d“ uvedeme rozdíl mezi dvěma žebříčky (A - B). Tady na signálu nezáleží.
5. Každou z hodnot ve sloupci „d“ zarovnejte na druhou a zaznamenejte do sloupce d²:
6. Součet všech údajů ze sloupce „d²“ Tato hodnota je Σd². V našem příkladu Σd² = 0 + 1 + 0 + 1 = 2
7. Nyní použijeme Spearmanovu formuli:
V našem případě je n rovno 4, protože se díváme na počet datových linek (což odpovídá počtu pozorování).
8. Nakonec jsme nahradili data v předchozím vzorci:
lineární regrese
Lineární regrese je vzorec používaný k odhadu možné hodnoty proměnné (y), jsou-li známy hodnoty jiných proměnných (x). Hodnota „x“ je nezávislá nebo vysvětlující proměnná a „y“ je závislá proměnná nebo odpověď.
Lineární regrese se používá k vidění toho, jak se hodnota „y“ může měnit v závislosti na proměnné „x“. Řádek obsahující hodnoty kontroly odchylky se nazývá lineární regresní čára.
Pokud má vysvětlující proměnná "x" jedinou hodnotu, bude volána regrese jednoduchá lineární regrese.