Processing math: 100%

선형 대수학 | Chapter 3. 벡터 응용 : 데이터 분석에서의 벡터

728x90

 

3.1 상관관계와 코사인 유사도

상관계수는 두 변수 사이의 선형 관계를 정량화한 하나의 숫자임.

-1부터 1 사이의 값.

 

피어슨 상관계수 수학 공식

ρ=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2ni=1(yiˉy)2

- 각 변수의 평균 중심화 : 각 데이터값에서 평균값을 빼는 것

- 벡터 노름 곱으로 내적 나누기 : 이러한 분할 정규화는 측정 단위를 제거하고 상관계수 최대 크기를 |1|로 조정함.

 

▶ 선형대수학 용어로 나타낸 피어슨 상관계수

ρ=˜xT˜y||˜x||||˜y||

- 피어슨 상관계수는 변수의 크기로 정규화된 두 변수 사이의 내적임.

- 이 변수에서 변수들이 ||x||=||y||=1이 되도록 단위 정규화 되어 있으면 상관계수는 두 변수의 내적과 같음.

 

▶ 코사인 유사도 : 내적의 기하학적 공식

cos(θx,y)=α||x||||y||

- αxy의 내적임.

- 코사인 유사도에서는 각 변수의 평균 중심화가 되어 있지 않음.

 

▶ 상관관계와 코사인 유사도의 차이

- 피어슨의 관점에서 변수 [0, 1, 2, 3]과 [101, 102, 103, 104]는 완벽한 상관관계를 가짐. =1

한 변수가 더 큰 숫자라는 것이 중요하지 않음.

- 하지만 코사인 유사도는 이를 반영함. 코사인 유사도는 피어슨 상관계수에 비해 더 낮은 값으로 나올 것임.

 

3.2 시계열 필터링과 특징 탐지

시계열 필터링은 특징 탐지 기법으로 내적이 사용됨.

→ 템플릿(커널)이 시계열 신호의 일부와 일치하는 특징 찾기

- 커널과 시계열 신호 사이의 내적을 계산하는 것이 필터링 메커니즘임.

- 필터링 시 일반적으로 지역 특징 탐지를 해야 해서 커널은 일반적으로 전체 시계열보다 훨씬 짧음.

- 결론적으로, 커널과 동일한 길이의 짧은 데이터 조각과 커널 사이의 내적을 계산하는 것.

 

3.3 k-평균 클러스터링

1. 데이터 공간에서 임의의 k개 중심점 초기화. 중심은 클래스 또는 범주임. 각 데이터 관측치를 각 클래스에 할당함.

(중심은 임의의 차원의 수로 일반화된 형태임)

2. 각 데이터 관측치와 각 중심 사이의 유클리드 거리 계산

3. 각 데이터 관측치를 가장 가까운 중심의 그룹에 할당.

4. 각 중심을 해당 중심에 할당된 모든 데이터 관측치의 평균으로 갱신.

5. 수렴 기준을 만족할 때까지 또는 N회까지 2~4단계 반복

 

 

728x90

댓글