선형 대수학 | Chapter 3. 벡터 응용 : 데이터 분석에서의 벡터

3.1 상관관계와 코사인 유사도
3.2 시계열 필터링과 특징 탐지
3.3 k-평균 클러스터링
'통계학, 인과추론 스터디 > 선형 대수학' 카테고리의 다른 글

728x90

3.1 상관관계와 코사인 유사도

상관계수는 두 변수 사이의 선형 관계를 정량화한 하나의 숫자임.

-1부터 1 사이의 값.

▶ 피어슨 상관계수 수학 공식

$\rho = \frac{\sum^{n}_{i=1}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum^{n}_{i=1}(x_{i}-\bar{x})^2}\,\sqrt{\sum^{n}_{i=1}(y_{i}-\bar{y})^2 }}$

- 각 변수의 평균 중심화 : 각 데이터값에서 평균값을 빼는 것

- 벡터 노름 곱으로 내적 나누기 : 이러한 분할 정규화는 측정 단위를 제거하고 상관계수 최대 크기를 |1|로 조정함.

▶ 선형대수학 용어로 나타낸 피어슨 상관계수

$\rho = \frac{\tilde{x}^T\tilde{y}}{||\tilde{x}||\,||\tilde{y}||}$

- 피어슨 상관계수는 변수의 크기로 정규화된 두 변수 사이의 내적임.

- 이 변수에서 변수들이 $||x||\,=\,||y||\,=\,1$ 이 되도록 단위 정규화 되어 있으면 상관계수는 두 변수의 내적과 같음.

▶ 코사인 유사도 : 내적의 기하학적 공식

$cos(\theta_{x,y}) = \frac{\alpha}{||x||\,||y||}$

- $\alpha$ 는 $x$ 와 $y$ 의 내적임.

- 코사인 유사도에서는 각 변수의 평균 중심화가 되어 있지 않음.

▶ 상관관계와 코사인 유사도의 차이

- 피어슨의 관점에서 변수 [0, 1, 2, 3]과 [101, 102, 103, 104]는 완벽한 상관관계를 가짐. =1

한 변수가 더 큰 숫자라는 것이 중요하지 않음.

- 하지만 코사인 유사도는 이를 반영함. 코사인 유사도는 피어슨 상관계수에 비해 더 낮은 값으로 나올 것임.

3.2 시계열 필터링과 특징 탐지

시계열 필터링은 특징 탐지 기법으로 내적이 사용됨.

→ 템플릿(커널)이 시계열 신호의 일부와 일치하는 특징 찾기

- 커널과 시계열 신호 사이의 내적을 계산하는 것이 필터링 메커니즘임.

- 필터링 시 일반적으로 지역 특징 탐지를 해야 해서 커널은 일반적으로 전체 시계열보다 훨씬 짧음.

- 결론적으로, 커널과 동일한 길이의 짧은 데이터 조각과 커널 사이의 내적을 계산하는 것.

3.3 k-평균 클러스터링

1. 데이터 공간에서 임의의 k개 중심점 초기화. 중심은 클래스 또는 범주임. 각 데이터 관측치를 각 클래스에 할당함.

(중심은 임의의 차원의 수로 일반화된 형태임)

2. 각 데이터 관측치와 각 중심 사이의 유클리드 거리 계산

3. 각 데이터 관측치를 가장 가까운 중심의 그룹에 할당.

4. 각 중심을 해당 중심에 할당된 모든 데이터 관측치의 평균으로 갱신.

5. 수렴 기준을 만족할 때까지 또는 N회까지 2~4단계 반복

728x90

저작자표시 비영리 동일조건

'통계학, 인과추론 스터디 > 선형 대수학' 카테고리의 다른 글

선형 대수학 \| Chapter 5. 행렬, 파트 2 : 행렬의 확장 개념 (1)	2024.12.05
선형 대수학 \| Chapter 4. 행렬, 파트 1 : 행렬과 행렬의 기본 연산 (3)	2024.12.04
선형 대수학 \| Chapter 2. 벡터, 파트2 : 벡터의 확장 개념 (0)	2024.12.02
선형 대수학 \| Chapter 1. 벡터, 파트1 : 벡터와 벡터의 기본 연산 (2)	2024.11.29
선형대수학 Khan Academy \| 1단원. 벡터와 공간(2) (1)	2024.11.04

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

안나세나 코딩 학습일지

선형 대수학 | Chapter 3. 벡터 응용 : 데이터 분석에서의 벡터

3.1 상관관계와 코사인 유사도

3.2 시계열 필터링과 특징 탐지

3.3 k-평균 클러스터링

'통계학, 인과추론 스터디 > 선형 대수학' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

선형 대수학 | Chapter 3. 벡터 응용 : 데이터 분석에서의 벡터

3.1 상관관계와 코사인 유사도

3.2 시계열 필터링과 특징 탐지

3.3 k-평균 클러스터링

'통계학, 인과추론 스터디 > 선형 대수학' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역