개발자 일기/일일회고 (TIL)
[Upstage AI Lab]부트캠프 12일차
MS_developer
2024. 11. 29. 19:18
오늘의 생각
확률과 통계 실시간 강의가 이어지고 있다.
놀랍게도 아직 기본을 배우고 있다. 기본이 이렇게 많다니...? 라는 생각이 끊임없이 들고 있다.
내가 생각했던 것보다 더 복잡하고 어려운 것 같다.
복습은 필수고...수학 문제집을 사서 좀 풀어봐야 할 것 같다. 간단한 예시들을 통해 문제를 풀어봐야 이해해야 라이브러리에서 사용하는 기능들을 온전히 이해할 수 있을 것 같다.
써야 할 노트가 많기 때문에 LaTex 실력이 나날이 늘고 있다...
오늘의 학습내용
- 코사인 유사도의 의미와 특징
- 벡터의 내적
- 행렬의 곱셈 연산
- 행렬의 대칭 이동
- 평균 벡터와 공분산 행렬
- 사건, 확률변수, 확률, 확률함수의 정의 및 관계
- 확률 분포 - 균등분포, 정규분포, 이항분포
- 추정 - 점추정, 구간추정
- 검정 - 가설검정, 검정오류, 유의수준
- 가설검정의 절차
- t-test - 단일표본 t검정
- 두 단일표본 t검정
추가적으로 알게된 내용
공분산 행렬의 실생활 적용 사례 (feat. GPT)
공분산 행렬의 데이터를 활용하여 학생들의 성적을 분석해보고 관계를 파악할 수 있다.
목표:
한 학급에서 학생들의 수학, 물리, 화학 점수 데이터를 기반으로 과목 간 상관관계를 파악하여, 성적이 어떤 과목들 간에 밀접하게 관련 있는지 분석
데이터:
학생 5명의 점수를 다음과 같이 설정
- 물리: [80,85,82,90,86]
$ X = \begin{bmatrix} 85 & 80 & 78 \\ 90 & 85 & 88 \\ 78 & 82 & 80 \\ 92 & 90 & 92 \\ 88 & 86 & 84 \end{bmatrix}$
공분산 행렬 계산
1. 각 변수의 평균 계산:
- 물리: $\mu_{물리} = \dfrac{80+ 85 + 82 + 90 + 86}{5} = 84.6$
2. 평균 중심화:
평균을 뺀 중심화된 데이터:
$X - \mu = \begin{bmatrix} 85 - 86.6 & 80 - 84.6 & 78 - 84.4 \\ 90 - 86.6 & 85 - 84.6 & 88 - 84.4 \\ 78 - 86.6 & 82 - 84.6 & 80 - 84.4 \\ 92 - 86.6 & 90 - 84.6 & 92 - 84.4 \\ 88 - 86.6 & 86 - 84.6 & 84 - 84.4 \end{bmatrix} = \begin{bmatrix} -1.6 & -4.6 & -6.4 \\ 3.4 & 0.4 & 3.6 \\ -8.6 & -2.6 & -4.4 \\ 5.4 & 5.4 & 7.6 \\ 1.4 & 1.4 & -0.4 \end{bmatrix}$
3. 공분산 행렬 계산
공식:
$\sum = \dfrac{1}{n-1}(X - \mu)^T(X - \mu)$
전치 행렬:
$(X - \mu)^T = \begin{bmatrix} -1.6 & 3.4 & -8.6 & 5.4 & 1.4 \\ -4.6 & 0.4 & -2.6 & 5.4 & 1.4 \\ -6.4 & 3.6 & -4.4 & 7.6 & -0.4\end{bmatrix}$
곱셈 후 스케일링 $(n - 1 = 4)$ :
$\sum = \begin{bmatrix} 28.3 & 21.2 & 25.6 \\ 21.2 & 16.8 & 18.0 \\ 25.6 & 18.0 & 24.8 \end{bmatrix}$
결과 해석
1. 대각선 요소 (분산):
- 물리: $\sum_{22} = 16.8$
해석:
- 수학 점수의 분산(28.3)이 가장 큼 = 학생들의 수학 성적이 더 넓게 퍼져 있음 (편차가 큼 / 변별력이 있음)
- 물리 점수의 분산(16.8)이 가장 작음 = 학생들의 물리 성적이 더 집중되어 있음 (편차가 적음 / 변별력이 없음)
2. 비대각선 요소 (공분산):
- $\sum_{12} = 21.2$ : 수학과 물리 간 공분산
- $\sum_{13} = 25.6$ : 수학과 화학 간 공분산
- $\sum_{23} = 18.0$ : 물리와 화학 간 공분산
해석:
- 수학과 화학 ($\sum_{13} = 25.6$)의 공분산이 가장 큼 = 수학 점수와 화학 점수가 강한 양의 상관관계를 가짐
- 물리와 화학 ($\sum_{23} = 18.0$)은 비교적 약한 상관관계를 가짐
위 내용들을 기반으로 다음과 같은 분석 결과를 내놓을 수 있다:
- 수학과 화학 점수가 강한 상관관계를 가지므로, 화학 성적이 낮은 학생들에게 수학 보강 수업을 제공하면 화학 성적도 개선될 가능성이 높음
- 물리 점수는 비교적 독립적인 경향이 있어, 별도의 맞춤 학습 전략이 필요
마냘 배울 때는 쓰임새가 잘 이해가 되지 않았는데, 실제로 적용해보니 정말 유용하다...!