• 통계 분석의 이해
- 통계의 정의
분석하고자 하는 특정집단을 대상으로 수행한 조사나 실험을 통해 얻은 자료 및 요약된 형태의 표현.
데이터 자체로는 알 수 없기 때문에, 통계를 사용한다.
- 모집단
자료로부터 유용한 정보를 추출할 때, 해당 정보에 대한 대상을 의미
모집단을 구성하는 개체를 추출단위 혹은 원소라고 합니다.
- 통계 자료 획득 방법
• 전수조사 (Census) | ||
-대상십단 '모두'를 조사하는 것 -많은 비용과 시간이 소요된다는 단점 존재 |
||
• 표본조사 (Sample) | ||
-모집단을 대표할 수 있는 표본을 추출하여 조사하는 것 -표본이 대표성을 신뢰할 수 있어야, 표본조사를 통한 모집단의 통계분석 결과도 신뢰할 수 있음 -표본 : 모집단의 일부 -모수(parameter) : 모집단에 대해 알고자 하는 값 (모집단의 특성치) -통계량(statistic) : 모수를 추론하기 위해 구하는 표본의 값. 숫자 하나로 특징을 나타내는 것. |
- 표본추출 방법
추출 방법 | 내용 | 예시 |
단순 랜덤 추출법 (simple random sampling) |
N개의 원소로 구성된 모집단에서 n개의 표본을 추출할 때, 각 원소에 1, 2, 3... N 까지의 번호를 부여한다. 여기서 n개의 번호를 임의로 선택해 그 번호에 해당하는 원소를 표본으로 추출한다. | 사다리타기, 제비뽑기 |
계통 추출법 (systemic sampling) |
모집단의 모든 원소들에게 1, 2, 3...N의 일련번호를 부여하고 이를 순서대로 나열한 후에 K개(K = N/n)씩 n개의 구간으로 나눈다. 첫 구간에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 추출한다. |
|
집락(군집) 추출법 (clustering sampling) |
모집단이 몇개의 집락(cluster)이 결합된 형태로 구성돼 있고, 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우에 이용된다. 집락끼리 동질적인 부분이 있으므로 일부 집락을 선택하고 선택된 각 집락에서 표본을 임의로 선택한다. | |
층화 추출법 (stratified sampling) |
상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다. 이질적인 모집단의 원소들은 서로 유사한 것 끼리 몇개의 층(stratum)으로 나눈 후, 각 층에서 표본을 랜덤하게 추출한다. |
비례 층화 추출법 | 전체 데이터의 분포를 반영하여 각 집락별 데이터를 추출. 예를 들어, A집단 200명, B집단 300명, C집단 500명인 표본을 추출한다면, 각 집락별로 추출되는 데이터의 개수는 A:B:C = 2:3:5 를 유지하여 표본을 추출한다. |
불비례 층화 추출법 | 전체 데이터의 분포를 반영하지 않고 각 집락에서 원하는 개수의 데이터를 추출. 원하는 집락에서 원하는 표본의 개수를 출력한다. |
- 측정과 척도
• 측정 : 추출된 원소들이나 실험 단위로부터 주어진 목적에 부합하도록 관측해 자료를 얻는 것
• 척도 : 관측 대상의 속성을 측정하여, 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구
- 질적척도 : 범주형 자료, 숫자 크기 차이가 계산이 안되는 척도
구분 | 특징 | 예시 |
명목척도 | 측정 대상이 어느 집단에 속하는지 분류할 때 사용되는 척도 | 성별, 출생지, 대학교 등 |
순서척도 | 측정 대상의 특성이 가지는 서열관계를 관측하는 척도 | 선호도, 신용도, 학년, 순위 등 |
- 양적척도 : 수치형 자료, 숫자 크기 차이를 계산할 수 있는 척도
구분 | 특징 | 예시 |
구간척도 | 측정 대상이 갖고 있는 속성의 양을 측정하는 척도 두 구간 사이의 간격이 의미가 있는 자료 절대적 크기는 측정할 수 없기 때문에 사칙연산 중 더하기와 빼기는 가능하지만 비율처럼 곱하거나 나누는 것은 불가능 |
온도, 지수 등 |
비율척도 | 절대적 기준인 0이 존재하고, 모든 사칙연산이 가능 제일 많은 정보를 가지고 있는 척도 |
무게,나이, 매출, 시간, 거리, 가격 등 |
- 통계분석 정의
특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고,
적절한 통계분석 방법을 이용해 의사결정을 하는 과정이다.
- 기술통계(Descriptive Statistic)
-얻어진 데이터에서 특징을 뽑아내기 위한 기술
-수집된 자료를 정리 / 요약하기 위해 사용되는 기초적인 통계
-평균, 표준편자, 중위수, 최빈값, %와 같이 숫자로 표현하는 방식과
막대그래프, 원그래프, 꺾은선그래프 같이 그림으로 표현하는 방식
기술통계를 위한 통계량은 최솟값, 최댓값,평균, 표준편차, 분산, 중앙값, 사분위수범위, 왜도, 첨도 등
- 추리통계 / 통계적 추론 (Inference Statistics)
-통계학과 확률이론의 혼합으로 전체를 파악할 수 없는 큰 대상이나 미래의 일에 대해 추측하는 것
(부분으로 전체를 추측한다)
-수집된 자료들을 이용해 대상 집단(모집단)에 대해 의사결정을 하는 것
-모수 추정
표본에서 얻은 통계치를 바탕으로 오차를 고려하여 모수를 확률적으로 추정하는 통계기법
-가설검증
모집단의 특성을 추정하는 데 초점을 두고 가설을 검증하거나 확률적인 가능성을 파악
-예측
미래의 불확실성을 해결해 효율적인 의사결정을 하기위해 활용
향후 발생할 수 있는 사건 예측
회귀분석, 시계열분석 등의 방법이 있음
• 기초 통계 용어
- 자료(데이터)
- 평균(기댓값)
일반적인 평균은 산술평균을 의미하며 데이터를 요약할 때 가장 대표적으로 사용되는 값
- 표본평균(Sample Mean)
표본으로 추출 된 데이터들의 평균
- 중앙값
평균의 함정을 피하기 위한 하나의 척도로 자료를 순서대로 나열했을 때 가운데 위치한 값
중앙값의 순위 : $ \frac{(n+1)}{2}$
n이 홀수인 경우 : $\frac{(n+1)}{2}$
n이 수인 경우 : $\frac{n}{2}$ 번째 값과 $\frac{n}{2}$ +1 번째 값의 평균
- 최빈값
평균의 함정을 피하기 위한 하나의 척도로 주어진 데이터 집합에서 가장 자주 등장하는 값.
가장 빈번하게 나타나는 값
- 분산
데이터의 흩어진 정도를 나타내는 통계적 측도
데이터의 각 관찰값이 평균으로부터 얼마나 흩어져 있는지를 측정하여 데이터의 변동성 표현
$$S^2=\frac{1}{n-1} \sum_{i=1}^{\lfloor n \rfloor} (X_i-\overline{\vphantom{M}X})^2= \frac{1}{n-1}(\sum_{i=1}^{\lfloor n \rfloor} (X_i^2-n\overline{\vphantom{M}X^2}))$$
- 표준편차
데이터의 흩어진 정도를 나타내는 통계적 측도 중 하나로, 분산의 양의 제곱근
데이터 포인트들이 평균으로부터 얼마나 떨어져 있는지의 평균적인 정도를 측정
$$S=\sqrt{S^2}= \sqrt{\frac{1}{n-1}\sum_{i=1}^{\lfloor n \rfloor}(X_i-\overline{\vphantom{M}X})^2 }$$
- 백분위수 (Percentile)
데이터를 순서대로 정렬했을 때 특정 백분율 위치에 있는 데이터 값으로 데이터의 범위를 파악
- 첨도 (kurtosis)
자료가 평균에 얼마나 많이 밀집해 있는지 나타내는 측도
데이터의 분포 형태를 설명하는 데 사용
- 왜도 (skewness)
확률분포의 비대칭도를 측정하는 통계적 측도
데이터의 분포가 얼마나 비대칭인지를 나타냄
왜도가 0인 경우 : 데이터가 좌우로 대칭되어 있다는 의미이며, 정규분포와 유사한 형태
왜도가 양수인 경우 : 왼쪽으로 밀집, 오른쪽으로 긴 꼬리를 갖는 분포
왜도가 음수인 경우 : 오른쪽으로 밀집, 왼쪽에 긴 꼬리를 갖는 분포
- 상관분석
두 변수 간의 관계를 분석하기 위해서 공분산과 상관계수를 활용할 수 있음
두 변수가 함께 움직이는 방향과 그 크기에 대한것
한 변수의 값이 증가할 때 상대변수의 값이 증가하면 양의 상관,
상대변수의 값이 감소하면 음의 상관이 있다고 해석하며
상관계수를 통해 상관성의 정도를 설명할 수 있음
- 공분산 (Covariance)
두 변수 간의 상관 관계를 나타내는 통계적인 측도
두 변수가 함께 어떻게 변하는지, 즉 한 변수가 증가할 때 다른 변수가 어떻게 변하는지를 측정
양수라면 양의 선형 관계를, 음수라면 음의 선형 관계를 나타냄
- 상관계수 (Correlation)
두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계적 측도
두 변수 간의 상관 정도를 -1에서 1까지의 숫자로 표현해서 측정
'데이터 분석 > 데이터 분석_ADsP' 카테고리의 다른 글
[내배캠] 4일차 - ADsP 자격증 챌린지 10주차 (0) | 2025.02.20 |
---|---|
[내배캠] 4일차 - ADsP 자격증 챌린지 8, 9주차 (0) | 2025.02.20 |
[내배캠] 3일차 - ADsP 자격증 챌린지 6주차 (0) | 2025.02.19 |
[내배캠] 2일차 - ADsP 자격증 챌린지 4주차 (0) | 2025.02.18 |
[내배캠] 2일차 - ADsP 자격증 챌린지 3주차 (0) | 2025.02.18 |