3.1 상관관계와 코사인 유사도
상관계수는 두 변수 사이의 선형 관계를 정량화한 하나의 숫자임.
-1부터 1 사이의 값.
▶ 피어슨 상관계수 수학 공식
$\rho = \frac{\sum^{n}_{i=1}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum^{n}_{i=1}(x_{i}-\bar{x})^2}\,\sqrt{\sum^{n}_{i=1}(y_{i}-\bar{y})^2 }}$
- 각 변수의 평균 중심화 : 각 데이터값에서 평균값을 빼는 것
- 벡터 노름 곱으로 내적 나누기 : 이러한 분할 정규화는 측정 단위를 제거하고 상관계수 최대 크기를 |1|로 조정함.
▶ 선형대수학 용어로 나타낸 피어슨 상관계수
$\rho = \frac{\tilde{x}^T\tilde{y}}{||\tilde{x}||\,||\tilde{y}||}$
- 피어슨 상관계수는 변수의 크기로 정규화된 두 변수 사이의 내적임.
- 이 변수에서 변수들이 $||x||\,=\,||y||\,=\,1$이 되도록 단위 정규화 되어 있으면 상관계수는 두 변수의 내적과 같음.
▶ 코사인 유사도 : 내적의 기하학적 공식
$cos(\theta_{x,y}) = \frac{\alpha}{||x||\,||y||}$
- $\alpha$는 $x$와 $y$의 내적임.
- 코사인 유사도에서는 각 변수의 평균 중심화가 되어 있지 않음.
▶ 상관관계와 코사인 유사도의 차이
- 피어슨의 관점에서 변수 [0, 1, 2, 3]과 [101, 102, 103, 104]는 완벽한 상관관계를 가짐. =1
한 변수가 더 큰 숫자라는 것이 중요하지 않음.
- 하지만 코사인 유사도는 이를 반영함. 코사인 유사도는 피어슨 상관계수에 비해 더 낮은 값으로 나올 것임.
3.2 시계열 필터링과 특징 탐지
시계열 필터링은 특징 탐지 기법으로 내적이 사용됨.
→ 템플릿(커널)이 시계열 신호의 일부와 일치하는 특징 찾기
- 커널과 시계열 신호 사이의 내적을 계산하는 것이 필터링 메커니즘임.
- 필터링 시 일반적으로 지역 특징 탐지를 해야 해서 커널은 일반적으로 전체 시계열보다 훨씬 짧음.
- 결론적으로, 커널과 동일한 길이의 짧은 데이터 조각과 커널 사이의 내적을 계산하는 것.
3.3 k-평균 클러스터링
1. 데이터 공간에서 임의의 k개 중심점 초기화. 중심은 클래스 또는 범주임. 각 데이터 관측치를 각 클래스에 할당함.
(중심은 임의의 차원의 수로 일반화된 형태임)
2. 각 데이터 관측치와 각 중심 사이의 유클리드 거리 계산
3. 각 데이터 관측치를 가장 가까운 중심의 그룹에 할당.
4. 각 중심을 해당 중심에 할당된 모든 데이터 관측치의 평균으로 갱신.
5. 수렴 기준을 만족할 때까지 또는 N회까지 2~4단계 반복
'통계학, 인과추론 스터디 > 선형 대수학' 카테고리의 다른 글
선형 대수학 | Chapter 5. 행렬, 파트 2 : 행렬의 확장 개념 (1) | 2024.12.05 |
---|---|
선형 대수학 | Chapter 4. 행렬, 파트 1 : 행렬과 행렬의 기본 연산 (3) | 2024.12.04 |
선형 대수학 | Chapter 2. 벡터, 파트2 : 벡터의 확장 개념 (0) | 2024.12.02 |
선형 대수학 | Chapter 1. 벡터, 파트1 : 벡터와 벡터의 기본 연산 (2) | 2024.11.29 |
선형대수학 Khan Academy | 1단원. 벡터와 공간(2) (1) | 2024.11.04 |
댓글