본문 바로가기
인공지능학/확률 및 통계

[확률 및 통계] 7. 회귀분석과 상관분석

by iwbap 2024. 6. 29.
728x90

확률 및 통계 기초 이해하기: 회귀분석과 상관분석

확률과 통계에서 회귀분석과 상관분석은 데이터 간의 관계를 이해하고 예측하는 데 중요한 도구입니다. 이번 글에서는 회귀분석과 상관분석에 대해 알아보겠습니다. 단순 회귀분석과 다중 회귀분석, 상관계수의 계산 및 해석을 중점적으로 설명하겠습니다.

 

1. 회귀분석 (Regression Analysis)

회귀분석은 한 변수(종속 변수)가 다른 변수(독립 변수)에 의해 어떻게 영향을 받는지를 분석하는 통계 기법입니다. 회귀분석은 변수 간의 관계를 모델링하여 예측과 설명에 사용됩니다.

 

단순 회귀분석 (Simple Linear Regression)

단순 회귀분석은 하나의 독립 변수와 하나의 종속 변수 간의 관계를 분석합니다. 단순 회귀모델은 다음과 같은 형태를 가집니다.

 

여기서, Y는 종속 변수, X는 독립 변수, 는 절편, 는 기울기, ϵ은 오차항입니다.

 

예제: 단순 회귀분석

어떤 회사의 광고비와 매출 간의 관계를 분석해보겠습니다. 광고비 X와 매출 Y의 데이터를 바탕으로 단순 회귀분석을 수행합니다.

  1. 광고비와 매출의 데이터 수집
  2. 회귀모델 적합
  3. 절편 와 기울기 추정

Y = 30 + 4X

 

이 회귀식은 광고비가 1 단위 증가할 때 매출이 4 단위 증가한다고 해석할 수 있습니다.

 

 

다중 회귀분석 (Multiple Linear Regression)

다중 회귀분석은 여러 독립 변수와 하나의 종속 변수 간의 관계를 분석합니다. 다중 회귀모델은 다음과 같은 형태를 가집니다.

 

여기서, 는 독립 변수들입니다.

 

예제: 다중 회귀분석

 

주택 가격 Y와 여러 요인(평수 , 방의 개수 , 위치 ) 간의 관계를 분석해보겠습니다.
  1. 주택 가격과 요인의 데이터 수집
  2. 회귀모델 적합
  3. 절편 와 기울기 , , 추정 절편

이 회귀식은 평수가 1 증가할 때 주택 가격이 300 단위 증가하고, 방의 개수가 1 증가할 때 주택 가격이 10000 단위 증가하며, 위치가 좋은 곳으로 바뀔 때 주택 가격이 5000 단위 증가한다고 해석할 수 있습니다.

 

2. 상관분석 (Correlation Analysis)

상관분석은 두 변수 간의 관계의 강도와 방향을 측정하는 방법입니다. 상관계수는 두 변수 간의 선형 관계를 나타내며, 값은 -1에서 1 사이입니다.

 

상관계수 (Correlation Coefficient)

상관계수 r는 다음과 같이 계산됩니다.

여기서 는 각각 XY의 평균입니다.
  • r = 1: 두 변수는 완벽한 양의 선형 관계를 가집니다.
  • r = -1: 두 변수는 완벽한 음의 선형 관계를 가집니다.
  • r = 0: 두 변수는 선형 관계가 없습니다.

 

예제: 상관계수 계산 및 해석

어떤 학생들의 공부 시간 X와 시험 점수 Y 간의 상관계수를 계산해보겠습니다. 데이터는 다음과 같습니다.

학생 공부 시간 X 시험 점수 Y
1 2 50
2 3 60
3 4 70
4 5 80
5 6 90

 

1. 평균 계산: 

 

 

 

 

2. 상관계수 계산: 

 

 

 

 

 

 

 

따라서, 공부 시간과 시험 점수 간에는 완벽한 양의 선형 관계가 있습니다.

 

 

마무리

회귀분석과 상관분석은 데이터 간의 관계를 이해하고 예측하는 데 중요한 도구입니다. 단순 회귀분석과 다중 회귀분석을 통해 변수 간의 관계를 모델링하고, 상관계수를 통해 변수 간의 관계의 강도와 방향을 측정할 수 있습니다. 이러한 기초 개념을 이해하면 데이터 분석에서 중요한 인사이트를 얻을 수 있습니다.

궁금한 점이 있거나 추가 설명이 필요한 부분이 있다면 댓글로 남겨주세요! 함께 학습해 나갑시다.

 

728x90