개발자 일기/일일회고 (TIL)

[Upstage AI Lab]부트캠프 12일차

MS_developer 2024. 11. 29. 19:18

오늘의 생각



확률과 통계 실시간 강의가 이어지고 있다.

 

놀랍게도 아직 기본을 배우고 있다. 기본이 이렇게 많다니...? 라는 생각이 끊임없이 들고 있다.

 

내가 생각했던 것보다 더 복잡하고 어려운 것 같다.

 

복습은 필수고...수학 문제집을 사서 좀 풀어봐야 할 것 같다. 간단한 예시들을 통해 문제를 풀어봐야 이해해야 라이브러리에서 사용하는 기능들을 온전히 이해할 수 있을 것 같다.

 

써야 할 노트가 많기 때문에 LaTex 실력이 나날이 늘고 있다...


오늘의 학습내용

  • 코사인 유사도의 의미와 특징
  • 벡터의 내적
  • 행렬의 곱셈 연산
  • 행렬의 대칭 이동
  • 평균 벡터공분산 행렬
  • 사건, 확률변수, 확률, 확률함수의 정의 및 관계
  • 확률 분포 - 균등분포, 정규분포, 이항분포
  • 추정 - 점추정, 구간추정
  • 검정 - 가설검정, 검정오류, 유의수준
  • 가설검정의 절차
  • t-test - 단일표본 t검정
  • 두 단일표본 t검정

 

추가적으로 알게된 내용

공분산 행렬의 실생활 적용 사례 (feat. GPT)

 

공분산 행렬의 데이터를 활용하여 학생들의 성적을 분석해보고 관계를 파악할 수 있다.

 

목표:

한 학급에서 학생들의 수학, 물리, 화학 점수 데이터를 기반으로 과목 간 상관관계를 파악하여, 성적이 어떤 과목들 간에 밀접하게 관련 있는지 분석

 

데이터:

학생 5명의 점수를 다음과 같이 설정

 

  • 물리: [80,85,82,90,86]

 

$ X = \begin{bmatrix} 85 & 80 & 78 \\ 90 & 85 & 88 \\ 78 & 82 & 80 \\ 92 & 90 & 92 \\ 88 & 86 & 84 \end{bmatrix}$

 

공분산 행렬 계산

 

1. 각 변수의 평균 계산:

 

  • 물리: $\mu_{물리} = \dfrac{80+ 85 + 82 + 90 + 86}{5} = 84.6$

 

2. 평균 중심화:

 

평균을 뺀 중심화된 데이터:

 

$X - \mu = \begin{bmatrix} 85 - 86.6 & 80 - 84.6 & 78 - 84.4 \\ 90 - 86.6 & 85 - 84.6 & 88 - 84.4 \\ 78 - 86.6 & 82 - 84.6 & 80 - 84.4 \\ 92 - 86.6 & 90 - 84.6 & 92 - 84.4 \\ 88 - 86.6 & 86 - 84.6 & 84 - 84.4 \end{bmatrix} = \begin{bmatrix} -1.6 & -4.6 & -6.4 \\ 3.4 & 0.4 & 3.6 \\ -8.6 & -2.6 & -4.4 \\ 5.4 & 5.4 & 7.6 \\ 1.4 & 1.4 & -0.4 \end{bmatrix}$

 

3. 공분산 행렬 계산

 

공식:

$\sum = \dfrac{1}{n-1}(X - \mu)^T(X - \mu)$

 

전치 행렬:

 

$(X - \mu)^T = \begin{bmatrix} -1.6 & 3.4 & -8.6 & 5.4 & 1.4 \\ -4.6 & 0.4 & -2.6 & 5.4 & 1.4 \\ -6.4 & 3.6 & -4.4 & 7.6 & -0.4\end{bmatrix}$

 

곱셈 후 스케일링 $(n - 1 = 4)$ :

 

$\sum = \begin{bmatrix} 28.3 & 21.2 & 25.6 \\ 21.2 & 16.8 & 18.0 \\ 25.6 & 18.0 & 24.8 \end{bmatrix}$

 

결과 해석

 

1. 대각선 요소 (분산):

 

  • 물리: $\sum_{22} = 16.8$

해석:

 

  • 수학 점수의 분산(28.3)이 가장 큼 = 학생들의 수학 성적이 더 넓게 퍼져 있음 (편차가 큼 / 변별력이 있음)
  • 물리 점수의 분산(16.8)이 가장 작음 = 학생들의 물리 성적이 더 집중되어 있음 (편차가 적음 / 변별력이 없음)

 

2. 비대각선 요소 (공분산):

 

  • $\sum_{12} = 21.2$  : 수학과 물리 간 공분산
  • $\sum_{13} = 25.6$  : 수학과 화학 간 공분산
  • $\sum_{23} = 18.0$  : 물리와 화학 간 공분산

해석:

 

  • 수학과 화학 ($\sum_{13} = 25.6$)의 공분산이 가장 큼 = 수학 점수와 화학 점수가 강한 양의 상관관계를 가짐
  • 물리와 화학 ($\sum_{23} = 18.0$)은 비교적 약한 상관관계를 가짐

 

위 내용들을 기반으로 다음과 같은 분석 결과를 내놓을 수 있다:

 

 

  • 수학과 화학 점수가 강한 상관관계를 가지므로, 화학 성적이 낮은 학생들에게 수학 보강 수업을 제공하면 화학 성적도 개선될 가능성이 높음
  • 물리 점수는 비교적 독립적인 경향이 있어, 별도의 맞춤 학습 전략이 필요

 

 

 

마냘 배울 때는 쓰임새가 잘 이해가 되지 않았는데, 실제로 적용해보니 정말 유용하다...!