สหสัมพันธ์ หมายถึง ความคล้ายคลึงกันหรือ ความสัมพันธ์ระหว่างสองสิ่ง คนหรือความคิด. เป็นความคล้ายคลึงหรือเทียบเท่าที่มีอยู่ระหว่างสองสมมติฐาน สถานการณ์หรือวัตถุที่แตกต่างกัน
ในด้านสถิติและคณิตศาสตร์ สหสัมพันธ์หมายถึงการวัดระหว่างตัวแปรสองตัวหรือมากกว่าที่เกี่ยวข้องกัน
คำว่า correlation เป็นคำนามเพศหญิงที่มาจากภาษาละติน สัมพันธ์กัน
ความสัมพันธ์ของคำสามารถแทนที่ด้วยคำพ้องความหมายเช่น: ความสัมพันธ์, ความเท่าเทียมกัน, การเชื่อมต่อ, การโต้ตอบ, ความคล้ายคลึงกันและการเชื่อมต่อ
ค่าสัมประสิทธิ์สหสัมพันธ์
ในสถิติ ค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน (r) ซึ่งเรียกอีกอย่างว่าค่าสัมประสิทธิ์สหสัมพันธ์ผลิตภัณฑ์กับโมเมนตัม วัดความสัมพันธ์ที่มีอยู่ระหว่างตัวแปรสองตัวภายในมาตราส่วนเมตริกเดียวกัน
หน้าที่ของสัมประสิทธิ์สหสัมพันธ์คือการกำหนดความแข็งแกร่งของความสัมพันธ์ที่มีอยู่ระหว่างชุดของข้อมูลหรือข้อมูลที่รู้จัก
ค่าของสัมประสิทธิ์สหสัมพันธ์สามารถเปลี่ยนแปลงได้ระหว่าง -1 ถึง 1 และผลลัพธ์ที่ได้จะกำหนดว่าสหสัมพันธ์เป็นค่าลบหรือค่าบวก
ในการตีความสัมประสิทธิ์จำเป็นต้องรู้ว่า 1 หมายความว่าความสัมพันธ์ระหว่างตัวแปรคือ variable
บวกที่สมบูรณ์แบบ และ -1 หมายความว่า มันคือ เชิงลบที่สมบูรณ์แบบ. หากสัมประสิทธิ์เท่ากับ 0 แสดงว่าตัวแปรไม่พึ่งพาซึ่งกันและกันในสถิติยังมี สัมประสิทธิ์สหสัมพันธ์คนหอกซึ่งตั้งชื่อตามนักสถิติชาร์ลส์ สเปียร์แมน หน้าที่ของสัมประสิทธิ์นี้คือการวัดความเข้มของความสัมพันธ์ระหว่างตัวแปรสองตัว ไม่ว่าจะเป็นแบบเชิงเส้นหรือไม่ก็ตาม
สหสัมพันธ์ Spearman ใช้เพื่อประเมินว่าความรุนแรงของความสัมพันธ์ระหว่างตัวแปรที่วิเคราะห์ทั้งสองตัวหรือไม่ สามารถวัดได้โดยฟังก์ชันที่ซ้ำซากจำเจ (ฟังก์ชันทางคณิตศาสตร์ที่รักษาหรือกลับค่าความสัมพันธ์ของลำดับ เบื้องต้น)
การคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน
วิธีที่ 1) การคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันโดยใช้ความแปรปรวนร่วมและส่วนเบี่ยงเบนมาตรฐาน

ที่ไหน
สXYคือความแปรปรวนร่วม
สx และ สyแทนค่าเบี่ยงเบนมาตรฐานตามลำดับของตัวแปร x และ y
ในกรณีนี้ การคำนวณเกี่ยวข้องกับการค้นหาความแปรปรวนร่วมระหว่างตัวแปรและค่าเบี่ยงเบนมาตรฐานของตัวแปรแต่ละตัวก่อน จากนั้นหารความแปรปรวนร่วมด้วยการคูณค่าเบี่ยงเบนมาตรฐาน
บ่อยครั้ง คำสั่งได้จัดเตรียมค่าเบี่ยงเบนมาตรฐานของตัวแปรไว้อยู่แล้ว หรือความแปรปรวนร่วมระหว่างตัวแปรเหล่านี้ เพียงแค่ใช้สูตร
วิธีที่ 2) การคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันกับข้อมูลดิบ (ไม่มีความแปรปรวนร่วมหรือส่วนเบี่ยงเบนมาตรฐาน)
ด้วยวิธีนี้ สูตรที่ตรงที่สุดมีดังนี้:

ตัวอย่างเช่น สมมติว่าเรามีข้อมูลที่มีการสังเกต n=6 ของสองตัวแปร: ระดับกลูโคส (y) และอายุ (x) การคำนวณจะทำตามขั้นตอนเหล่านี้:
ขั้นตอนที่ 1) สร้างตารางด้วยข้อมูลที่มีอยู่: i, x, y และเพิ่มคอลัมน์ว่างสำหรับ xy, x² และ y²:

ขั้นตอนที่ 2: คูณ x และ y เพื่อเติมคอลัมน์ "xy" ตัวอย่างเช่น ในบรรทัดที่ 1 เราจะมี: x1y1 = 43 × 99 = 4257

ขั้นตอนที่ 3: ยกกำลังสองค่าในคอลัมน์ x และบันทึกผลลัพธ์ในคอลัมน์ x² ตัวอย่างเช่น ในบรรทัดแรก เราจะมี x12 = 43 × 43 = 1849.

ขั้นตอนที่ 4: ทำเช่นเดียวกับในขั้นตอนที่ 3 ตอนนี้ใช้คอลัมน์ y และบันทึกกำลังสองของค่าของคุณในคอลัมน์ y² ตัวอย่างเช่น ในบรรทัดแรก เราจะมี: y12 = 99 × 99 = 9801.

ขั้นตอนที่ 5: รับผลรวมของหมายเลขคอลัมน์ทั้งหมดแล้ววางผลลัพธ์ไว้ในส่วนท้ายของคอลัมน์ ตัวอย่างเช่น ผลรวมของคอลัมน์อายุ X เท่ากับ 43+21+25+42+57+59 = 247

ขั้นตอนที่ 6: ใช้สูตรข้างต้นเพื่อให้ได้ค่าสัมประสิทธิ์สหสัมพันธ์:

ดังนั้นเราจึงมี:

การคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ของสเปียร์แมน
การคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ของสเปียร์แมนนั้นแตกต่างกันเล็กน้อย เพื่อที่เราต้องจัดระเบียบข้อมูลของเราในตารางต่อไปนี้:

1. มีข้อมูล 2 คู่ในคำสั่งเราต้องแนะนำพวกเขาในตาราง ตัวอย่างเช่น:

2. ในคอลัมน์ "อันดับ A" เราจะเรียงลำดับการสังเกตที่อยู่ใน "วันที่ A" จากน้อยไปมากคือ “1” ค่าต่ำสุดในคอลัมน์ และ n (จำนวนการสังเกตทั้งหมด) ค่าสูงสุดในคอลัมน์ “วันที่” เดอะ". ในตัวอย่างของเราคือ:

3. เราทำเช่นเดียวกันเพื่อให้ได้คอลัมน์ "อันดับ B" โดยใช้การสังเกตในคอลัมน์ "ข้อมูล B":

4. ในคอลัมน์ "d" เราใส่ความแตกต่างระหว่างสองอันดับ (A - B) ที่นี่สัญญาณไม่สำคัญ

5. ยกกำลังสองค่าแต่ละค่าในคอลัมน์ "d" และบันทึกในคอลัมน์ d²:

6. รวมข้อมูลทั้งหมดจากคอลัมน์ "d²" ค่านี้คือ Σd² ในตัวอย่างของเรา Σd² = 0+1+0+1 = 2
7. ตอนนี้เราใช้สูตรของสเปียร์แมน:

ในกรณีของเรา n เท่ากับ 4 ขณะที่เราดูจำนวนบรรทัดข้อมูล (ซึ่งสอดคล้องกับจำนวนการสังเกต)
8. สุดท้าย เราแทนที่ข้อมูลในสูตรก่อนหน้า:

การถดถอยเชิงเส้น
การถดถอยเชิงเส้นเป็นสูตรที่ใช้ในการประมาณค่าที่เป็นไปได้ของตัวแปร (y) เมื่อทราบค่าของตัวแปรอื่น (x) ค่าของ "x" เป็นตัวแปรอิสระหรือตัวแปรอธิบาย และ "y" คือตัวแปรตามหรือการตอบสนอง
การถดถอยเชิงเส้นใช้เพื่อดูว่าค่าของ "y" สามารถแปรผันตามฟังก์ชันของตัวแปร "x" ได้อย่างไร เส้นที่มีค่าตรวจสอบความแปรปรวนเรียกว่าเส้นการถดถอยเชิงเส้น
หากตัวแปรอธิบาย "x" มีค่าเดียว การถดถอยจะเรียกว่า การถดถอยเชิงเส้นอย่างง่าย.
