선형 대수학 | Chapter 6. 행렬 응용 : 데이터 분석에서의 행렬

    728x90

     

    6.1 다변량 데이터 공분산 행렬

    ▶ 피어슨 상관계수 계산

    : 두 개의 변수 벡터 사이의 내적을 두 벡터 노름의 곱으로 나눔.

    ▶ 공분산 상관 행렬 계산

    만약 변수가 3개 이상이라면? 다변량 데이터 집합에서 공분산 상관 행렬 계산

     

    ▶ 공분산 

    : 상관계수를 구하는 공식에서 분자 부분

    : 두 평균중심화된 변수 사이의 내적

    : 변수가 함께 이동하면 양수, 변수가 따로 이동하면 음수, 변수 사이에 선형 관계가 없을 때 0

     

    ▶ 공분산 방정식

    $c_{a, b} = (n-1)^{-1}\sum^{n}_{i=1}(x_{i}-\bar x)(y_{i}-\bar y)$

    : $\tilde x$를 $x$의 평균중심화된 변수라고 할 때, 공분산은 $\tilde{x}^{T}\tilde{y} / (n-1)$임.

    : 다중 변수에서 이 공식을 구현할 때, 행렬 곱셈이 왼쪽 행렬의 행과 오른쪽 행렬의 열 사이의 내적들로 이루어진 집합이라는 사실을 이용하는 게 핵심.

    - 공분산 행렬에 대한 행렬 방정식

    $C=X^{T}X\frac{1}{n-1}$

    : $ X^{T} $ 행렬의 행은 $X$ 행렬의 열이 됨. $ X^{T}X $는 모든 열과 열 사이의 공분산이 됨.

    - $C$의 대각원소

    : 각 변수의 자기 자신에 대한 공분산, 통계예서는 '분산' 이라고 함. 평균 주변에 흩어진 정도를 정량화한 것.

    ! 공분산 행렬은 항상 '특징 대 특징'이어야 함.

     

    ▶ 공분산 행렬을 상관 행렬로 변환

    : 계산 식 $R = SCS$ , $R$은 공분산 행렬이고, $S$는 변수의 역 표준 편차의 대각 행렬

    : 파이썬 함수

    np.cov()
    np.corrcoef()

     

    6.2 행렬-벡터 곱셈을 통한 기하학적 변환

    행렬-벡터 곱셈의 목적 중에 하나는 좌표 집합을 기하학적으로 변환하는 것.

     

    ▶ '순수 회전 행렬' 

    : 길이를 유지하면서 벡터를 회전시킴.

    $\begin{bmatrix}
        cos(\theta) & sin(\theta) \newline -sin(\theta) & cos(\theta)
    \end{bmatrix}$

    : 기본적으로 직교 행렬임.

    : $T$의 열들은 직교(내적이 $cos(\theta)sin(\theta)\,-\,sin(\theta)cos(\theta)$하고, 단위 벡터(cos^2(\theta)\,+\,sin^2(\theta)\,=\,1인 삼각 항등식)임.

    : 일반적으로 대각선 원소는 $x$축과 $y$축 좌표의 크기를 조정하고,

    대각선 외 원소는 두 축을 모두 늘림.

     

    6.3 이미지 특징 탐지

    ▶ 이미지 필터링

    : 2차원 커널을 설계한 다음 커널과 이미지의 겹쳐진 창 사이의 '내적'으로 구성된 새로운 이미지를 만듦.

    : 두 행렬을 아다마르곱을 한 다음 모든 행렬 원소에 대해 합하면 됨.

     

     

    728x90

    댓글