데이터 분석/데이터 분석_ADsP

[내배캠] 3일차 - ADsP 자격증 챌린지 7주차

dataguard 2025. 2. 19. 20:11

통계 분석의 이해

  • 통계의 정의

       분석하고자 하는 특정집단을 대상으로 수행한 조사나 실험을 통해 얻은 자료 및 요약된 형태의 표현.

       데이터 자체로는 알 수 없기 때문에, 통계를 사용한다.

 

 

  • 모집단

       자료로부터 유용한 정보를 추출할 때, 해당 정보에 대한 대상을 의미

       모집단을 구성하는 개체를 추출단위 혹은 원소라고 합니다.

 

 

 

  • 통계 자료 획득 방법
  • 전수조사 (Census)
    -대상십단 '모두'를 조사하는 것

-많은 비용과 시간이 소요된다는 단점 존재
  •  표본조사 (Sample)
    -모집단을 대표할 수 있는 표본을 추출하여 조사하는 것

-표본이 대표성을 신뢰할 수 있어야, 표본조사를 통한 모집단의 통계분석 결과도 신뢰할 수 있음

-표본 : 모집단의 일부

-모수(parameter) : 모집단에 대해 알고자 하는 값 (모집단의 특성치)

-통계량(statistic) : 모수를 추론하기 위해 구하는 표본의 값.
                             숫자 하나로 특징을 나타내는 것.

 

 

 

  • 표본추출 방법
추출 방법 내용 예시
단순 랜덤 추출법
(simple random sampling)
N개의 원소로 구성된 모집단에서 n개의 표본을 추출할 때, 각 원소에 1, 2, 3... N 까지의 번호를 부여한다. 여기서 n개의 번호를 임의로 선택해 그 번호에 해당하는 원소를 표본으로 추출한다. 사다리타기, 제비뽑기
계통 추출법
(systemic sampling)
모집단의 모든 원소들에게 1, 2, 3...N의 일련번호를 부여하고
이를 순서대로 나열한 후에 K개(K = N/n)씩 n개의 구간으로 나눈다.
첫 구간에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 추출한다.
 
집락(군집) 추출법
(clustering sampling)
모집단이 몇개의 집락(cluster)이 결합된 형태로 구성돼 있고, 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우에 이용된다. 집락끼리 동질적인 부분이 있으므로 일부 집락을 선택하고 선택된 각 집락에서 표본을 임의로 선택한다.  
층화 추출법
(stratified sampling)
상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다. 이질적인 모집단의 원소들은 서로 유사한 것 끼리 몇개의 층(stratum)으로 나눈 후, 각 층에서 표본을 랜덤하게 추출한다.  
비례 층화 추출법 전체 데이터의 분포를 반영하여 각 집락별 데이터를 추출.
예를 들어, A집단 200명, B집단 300명, C집단 500명인 표본을 추출한다면,
각 집락별로 추출되는 데이터의 개수는 A:B:C = 2:3:5 를 유지하여 표본을 추출한다.
불비례 층화 추출법 전체 데이터의 분포를 반영하지 않고 각 집락에서 원하는 개수의 데이터를 추출.
원하는 집락에서 원하는 표본의 개수를 출력한다.

 

 

 

  • 측정과 척도

       • 측정 : 추출된 원소들이나 실험 단위로부터 주어진 목적에 부합하도록 관측해 자료를 얻는 것

 

       • 척도 : 관측 대상의 속성을 측정하여, 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구

 

 

 

  • 질적척도 : 범주형 자료, 숫자 크기 차이가 계산이 안되는 척도
구분 특징 예시
명목척도 측정 대상이 어느 집단에 속하는지 분류할 때 사용되는 척도 성별, 출생지, 대학교 등
순서척도 측정 대상의 특성이 가지는 서열관계를 관측하는 척도 선호도, 신용도, 학년, 순위 등
  • 양적척도 : 수치형 자료, 숫자 크기 차이를 계산할 수 있는 척도
구분 특징 예시
구간척도 측정 대상이 갖고 있는 속성의 양을 측정하는 척도
두 구간 사이의 간격이 의미가 있는 자료
절대적 크기는 측정할 수 없기 때문에 사칙연산 중 더하기와 빼기는 가능하지만 비율처럼 곱하거나 나누는 것은 불가능
온도, 지수 등
비율척도 절대적 기준인 0이 존재하고, 모든 사칙연산이 가능
제일 많은 정보를 가지고 있는 척도
무게,나이, 매출, 시간, 거리, 가격 등

 

 

 

 

  • 통계분석 정의

       특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고,

       적절한 통계분석 방법을 이용해 의사결정을 하는 과정이다.

 

 

 

  • 기술통계(Descriptive Statistic)

       -얻어진 데이터에서 특징을 뽑아내기 위한 기술

 

       -수집된 자료를 정리 / 요약하기 위해 사용되는 기초적인 통계

 

       -평균, 표준편자, 중위수, 최빈값, %와 같이 숫자로 표현하는 방식과

        막대그래프, 원그래프, 꺾은선그래프 같이 그림으로 표현하는 방식

        기술통계를 위한 통계량은 최솟값, 최댓값,평균, 표준편차, 분산, 중앙값, 사분위수범위, 왜도, 첨도 등

 

  • 추리통계 / 통계적 추론 (Inference Statistics)

       -통계학과 확률이론의 혼합으로 전체를 파악할 수 없는 큰 대상이나 미래의 일에 대해 추측하는 것

        (부분으로 전체를 추측한다)

 

       -수집된 자료들을 이용해 대상 집단(모집단)에 대해 의사결정을 하는 것

 

       -모수 추정

        표본에서 얻은 통계치를 바탕으로 오차를 고려하여 모수를 확률적으로 추정하는 통계기법

 

       -가설검증

        모집단의 특성을 추정하는 데 초점을 두고 가설을 검증하거나 확률적인 가능성을 파악

 

       -예측

        미래의 불확실성을 해결해 효율적인 의사결정을 하기위해 활용

        향후 발생할 수 있는 사건 예측

        회귀분석, 시계열분석 등의 방법이 있음

 

 

 

 

 

기초 통계 용어

 

  • 자료(데이터)

       

  • 평균(기댓값)

       일반적인 평균은 산술평균을 의미하며 데이터를 요약할 때 가장 대표적으로 사용되는 값

 

  • 표본평균(Sample Mean)

       표본으로 추출 된 데이터들의 평균

 

  • 중앙값

       평균의 함정을 피하기 위한 하나의 척도로 자료를 순서대로 나열했을 때 가운데 위치한 값

 

       중앙값의 순위 :  $ \frac{(n+1)}{2}$

 

        n이 홀수인 경우 :  $\frac{(n+1)}{2}$

 

        n이 수인 경우 :  $\frac{n}{2}$ 번째 값과 $\frac{n}{2}$ +1 번째 값의 평균

 

 

  •  최빈값

        평균의 함정을 피하기 위한 하나의 척도로 주어진 데이터 집합에서 가장 자주 등장하는 값.

        가장 빈번하게 나타나는 값

 

 

  • 분산

       데이터의 흩어진 정도를 나타내는 통계적 측도

       데이터의 각 관찰값이 평균으로부터 얼마나 흩어져 있는지를 측정하여 데이터의 변동성 표현

 

$$S^2=\frac{1}{n-1} \sum_{i=1}^{\lfloor n \rfloor} (X_i-\overline{\vphantom{M}X})^2= \frac{1}{n-1}(\sum_{i=1}^{\lfloor n \rfloor} (X_i^2-n\overline{\vphantom{M}X^2}))$$

 

 

 

  • 표준편차

       데이터의 흩어진 정도를 나타내는 통계적 측도 중 하나로, 분산의 양의 제곱근

       데이터 포인트들이 평균으로부터 얼마나 떨어져 있는지의 평균적인 정도를 측정

 

$$S=\sqrt{S^2}= \sqrt{\frac{1}{n-1}\sum_{i=1}^{\lfloor n \rfloor}(X_i-\overline{\vphantom{M}X})^2 }$$

 

 

 

  • 백분위수 (Percentile)

       데이터를 순서대로 정렬했을 때 특정 백분율 위치에 있는 데이터 값으로 데이터의 범위를 파악

 

 

  • 첨도 (kurtosis)

        자료가 평균에 얼마나 많이 밀집해 있는지 나타내는 측도

        데이터의 분포 형태를 설명하는 데 사용

 

 

  • 왜도 (skewness)

        확률분포의 비대칭도를 측정하는 통계적 측도

        데이터의 분포가 얼마나 비대칭인지를 나타냄

 

        왜도가 0인 경우 : 데이터가 좌우로 대칭되어 있다는 의미이며, 정규분포와 유사한 형태

 

        왜도가 양수인 경우 : 왼쪽으로 밀집, 오른쪽으로 긴 꼬리를 갖는 분포

 

        왜도가 음수인 경우 : 오른쪽으로 밀집, 왼쪽에 긴 꼬리를 갖는 분포

 

 

  • 상관분석

         두 변수 간의 관계를 분석하기 위해서 공분산과 상관계수를 활용할 수 있음

         두 변수가 함께 움직이는 방향과 그 크기에 대한것

 

         한 변수의 값이 증가할 때 상대변수의 값이 증가하면 양의 상관,

         상대변수의 값이 감소하면 음의 상관이 있다고 해석하며

         상관계수를 통해 상관성의 정도를 설명할 수 있음

 

 

  • 공분산 (Covariance)

         두 변수 간의 상관 관계를 나타내는 통계적인 측도

         두 변수가 함께 어떻게 변하는지, 즉 한 변수가 증가할 때 다른 변수가 어떻게 변하는지를 측정

         양수라면 양의 선형 관계를, 음수라면 음의 선형 관계를 나타냄

 

 

  • 상관계수 (Correlation)

         두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계적 측도

         두 변수 간의 상관 정도를 -1에서 1까지의 숫자로 표현해서 측정