중심경향성
- 데이터의 중심이 어디 있는지를 나타냄
- 대부분의 경우, 데이터의 값을 데이터 포인트의 개수로 나눈 평균을 사용함
중앙값
- 데이터 포인트의 개수가 홀수라면 중앙값은 전체 데이터에서 가장 중앙에 있는 데이터 포인트를 의미함
- 반면 데이터 포인트의 개수가 짝수라면 중앙값은 전체 데이터에서 가장 중앙에 있는 두 데이터 포인트의 평균을 의미함
- 중앙값을 찾기 위해서는 주어진 데이터를 정렬 해야 함. 만약 데이터 포인트 한 개의 값이 작은 수 e만큼 증가한다면 중앙값은 e만큼 증가할 수도 있고, e보다 작은 값만큼 증가할 수도 있음. 심지어 주어진 데이터에 따라 중앙값이 변하지 않을 수도 있음.
평균
- 중앙값보다 계산하기 간편하며 데이터가 바뀌어도 값의 변화가 더 부드러움
- n개의 데이터 포인트가 주어졌을 때, 데이터 포인트 한 개의 값이 작은 수 e만큼 증가한다면 평균은 e/n 만큼 증가함.
- 그러나 평균은 이상치(outlier)에 매우 민감함 . 이상치가 ‘나쁜’ 데이터(이해하려는 현상을 제대로 나타내고 있지 않은 데이터)라면 평균은 데이터에 대한 잘못된 정보를 줄 수 있음.
분위(quantile)
- 중앙값을 포괄하는 개념인데, 특정 백분위보다 낮은 분위에 속하는 데이터를 의미함.
최빈값(mode)
- 데이터에서 가장 자주 나오는 값을 살펴보기도 함. 이는 흔치 않은 경우임
산포도
- 데이터가 얼마나 퍼져 있는지를 나타냄
- 보통 0과 근접한 값이면 데이터가 거의 퍼져 있지 않다는 의미이고 큰 값이면 매우 퍼져 있다는 것을 의미하는 통계치임 .
- 그래서 여기서 범위가 max와 min이 같은 경우에만 0이 됨. 이 경우 x의 데이터 포인트는 모두 동일한 값을 갖고 있으며 데이터가 퍼져 있지 않다는 것을 의미함.
- 반대로 범위의 값이 크다면 max가 min에 비해 훨씬 크다는 것을 의미하며 데이터가 다 퍼져 있다는 것을 의미함.
분산
REF: [기초통계] 평균과 분산의 의미, 개념 - 로스카츠의 AI 머신러닝 (losskatsu.github.io)
- 분산: 평균에 대한 편차 제곱의 평균을 구한 값.
- 여기서 편차란, 평균 과의 차이를 의미함. 편차는 모두 합하면 0이 됨.
- 따라서 분산을 구하기 위해서는 편차 자체를 그냥 더하지 않고 제곱해서 더 하는 과정을 거침.
- 즉, 데이터가 평균에 가까울수록 편차는 작아지므로 분산은 작아지고, 평균과 멀리 떨어져 있을수록 편차는 커지고 분산 또한 증가하게 되는 것임
표준편차
- 분산의 양의 제곱근
- 분산에 루트를 씌운 형태임. 즉, 제곱 하면서 증가했었던 값을 다시 원래 단위로 맞추는 과정이라고 이해하면 됨.
- 분산을 구할 때 편차를 ‘제곱’하면서 값이 크게 증가하는데, 이렇게 구한 분산은 값 자체의 의미를 파악하기 어려운 경향이 있기 때문에, 분산에 루트를 씌움.
상관계수
공분산
REF: 공분산이란 무엇인가 (정의와 의미) (tistory.com)
여기서 알 수 있는 사실:
만약 x와 y 모두 각각의 평균보다 크거나 작은 경우, 양수가 더해질 것임.
반면 둘 중 하나는 평균보다 크고 다른 하나는 평균보다 작을 경우, 음수가 더해질 것임.
공분산이 양수이면 x의 값이 클수록 y의 값이 크고, x의 값이 작을수록 y의 값도 작다는 의미임.
반면, 공분산이 음수이면 x의 값이 클수록 y의 값이 작고, x의 값이 작을수록 y의 값이 크다는 것을 의미함.
하지만 공분산을 해석하는 것은 다음과 같은 이유 때문에 쉽지 않음.
- 공분산의 단위는 입력 변수의 단위들을 곱해서 계산되기 때문에 이해하기 쉽지 않음.
(예를 들어 친구 수 * 하루 사용량(분) 이라는 단위는 무엇을 의미하는 것일까?)
- 만약 모든 사용자의 하루 사용량은 변하지 않고 친구 수만 두 배로 증가한다면 공분산 또한 두 배로 증가할 것임. 하지만 생각해 보면 두 변수의 관계는 변하지 않았음. 다르게 이야기 하면, 공분산의 절대적인 값만으로는 ‘크다’고 판단하기 어렵다는 것임.
상관관계
- 공분산의 해석 한계를 해결하기 위해 공분산에서 각각의 표준편차를 나누어 준 것임.
- 상관관계는 단위가 없으며, 항상 -1(완벽한 음의 상관관계)에서 1(완벽한 양의 상관관계) 사이의 값을 가짐. 예를 들어 상관관계가 0.25라면 상대적으로 약한 양의 상관관계를 의미함.
'딥러닝 > 통계공부' 카테고리의 다른 글
[인과추론] 1장 공부 (0) | 2025.02.08 |
---|