선형 대수학 | Chapter 3. 벡터 응용 : 데이터 분석에서의 벡터

    728x90

     

    3.1 상관관계와 코사인 유사도

    상관계수는 두 변수 사이의 선형 관계를 정량화한 하나의 숫자임.

    -1부터 1 사이의 값.

     

    피어슨 상관계수 수학 공식

    $\rho = \frac{\sum^{n}_{i=1}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum^{n}_{i=1}(x_{i}-\bar{x})^2}\,\sqrt{\sum^{n}_{i=1}(y_{i}-\bar{y})^2 }}$

    - 각 변수의 평균 중심화 : 각 데이터값에서 평균값을 빼는 것

    - 벡터 노름 곱으로 내적 나누기 : 이러한 분할 정규화는 측정 단위를 제거하고 상관계수 최대 크기를 |1|로 조정함.

     

    ▶ 선형대수학 용어로 나타낸 피어슨 상관계수

    $\rho = \frac{\tilde{x}^T\tilde{y}}{||\tilde{x}||\,||\tilde{y}||}$

    - 피어슨 상관계수는 변수의 크기로 정규화된 두 변수 사이의 내적임.

    - 이 변수에서 변수들이 $||x||\,=\,||y||\,=\,1$이 되도록 단위 정규화 되어 있으면 상관계수는 두 변수의 내적과 같음.

     

    ▶ 코사인 유사도 : 내적의 기하학적 공식

    $cos(\theta_{x,y}) = \frac{\alpha}{||x||\,||y||}$

    - $\alpha$는 $x$와 $y$의 내적임.

    - 코사인 유사도에서는 각 변수의 평균 중심화가 되어 있지 않음.

     

    ▶ 상관관계와 코사인 유사도의 차이

    - 피어슨의 관점에서 변수 [0, 1, 2, 3]과 [101, 102, 103, 104]는 완벽한 상관관계를 가짐. =1

    한 변수가 더 큰 숫자라는 것이 중요하지 않음.

    - 하지만 코사인 유사도는 이를 반영함. 코사인 유사도는 피어슨 상관계수에 비해 더 낮은 값으로 나올 것임.

     

    3.2 시계열 필터링과 특징 탐지

    시계열 필터링은 특징 탐지 기법으로 내적이 사용됨.

    → 템플릿(커널)이 시계열 신호의 일부와 일치하는 특징 찾기

    - 커널과 시계열 신호 사이의 내적을 계산하는 것이 필터링 메커니즘임.

    - 필터링 시 일반적으로 지역 특징 탐지를 해야 해서 커널은 일반적으로 전체 시계열보다 훨씬 짧음.

    - 결론적으로, 커널과 동일한 길이의 짧은 데이터 조각과 커널 사이의 내적을 계산하는 것.

     

    3.3 k-평균 클러스터링

    1. 데이터 공간에서 임의의 k개 중심점 초기화. 중심은 클래스 또는 범주임. 각 데이터 관측치를 각 클래스에 할당함.

    (중심은 임의의 차원의 수로 일반화된 형태임)

    2. 각 데이터 관측치와 각 중심 사이의 유클리드 거리 계산

    3. 각 데이터 관측치를 가장 가까운 중심의 그룹에 할당.

    4. 각 중심을 해당 중심에 할당된 모든 데이터 관측치의 평균으로 갱신.

    5. 수렴 기준을 만족할 때까지 또는 N회까지 2~4단계 반복

     

     

    728x90

    댓글