[내배캠] 3일차 - ADsP 자격증 챌린지 7주차

데이터 분석/데이터 분석_ADsP

[내배캠] 3일차 - ADsP 자격증 챌린지 7주차

dataguard 2025. 2. 19. 20:11

• 통계 분석의 이해

통계의 정의

분석하고자 하는 특정집단을 대상으로 수행한 조사나 실험을 통해 얻은 자료 및 요약된 형태의 표현.

데이터 자체로는 알 수 없기 때문에, 통계를 사용한다.

모집단

자료로부터 유용한 정보를 추출할 때, 해당 정보에 대한 대상을 의미

모집단을 구성하는 개체를 추출단위 혹은 원소라고 합니다.

통계 자료 획득 방법

	• 전수조사 (Census)
		-대상십단 '모두'를 조사하는 것 -많은 비용과 시간이 소요된다는 단점 존재
	• 표본조사 (Sample)
		-모집단을 대표할 수 있는 표본을 추출하여 조사하는 것 -표본이 대표성을 신뢰할 수 있어야, 표본조사를 통한 모집단의 통계분석 결과도 신뢰할 수 있음 -표본 : 모집단의 일부 -모수(parameter) : 모집단에 대해 알고자 하는 값 (모집단의 특성치) -통계량(statistic) : 모수를 추론하기 위해 구하는 표본의 값. 숫자 하나로 특징을 나타내는 것.

표본추출 방법

추출 방법	내용	예시
단순 랜덤 추출법 (simple random sampling)	N개의 원소로 구성된 모집단에서 n개의 표본을 추출할 때, 각 원소에 1, 2, 3... N 까지의 번호를 부여한다. 여기서 n개의 번호를 임의로 선택해 그 번호에 해당하는 원소를 표본으로 추출한다.	사다리타기, 제비뽑기
계통 추출법 (systemic sampling)	모집단의 모든 원소들에게 1, 2, 3...N의 일련번호를 부여하고 이를 순서대로 나열한 후에 K개(K = N/n)씩 n개의 구간으로 나눈다. 첫 구간에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 추출한다.
집락(군집) 추출법 (clustering sampling)	모집단이 몇개의 집락(cluster)이 결합된 형태로 구성돼 있고, 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우에 이용된다. 집락끼리 동질적인 부분이 있으므로 일부 집락을 선택하고 선택된 각 집락에서 표본을 임의로 선택한다.
층화 추출법 (stratified sampling)	상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다. 이질적인 모집단의 원소들은 서로 유사한 것 끼리 몇개의 층(stratum)으로 나눈 후, 각 층에서 표본을 랜덤하게 추출한다.

비례 층화 추출법	전체 데이터의 분포를 반영하여 각 집락별 데이터를 추출. 예를 들어, A집단 200명, B집단 300명, C집단 500명인 표본을 추출한다면, 각 집락별로 추출되는 데이터의 개수는 A:B:C = 2:3:5 를 유지하여 표본을 추출한다.
불비례 층화 추출법	전체 데이터의 분포를 반영하지 않고 각 집락에서 원하는 개수의 데이터를 추출. 원하는 집락에서 원하는 표본의 개수를 출력한다.

측정과 척도

• 측정 : 추출된 원소들이나 실험 단위로부터 주어진 목적에 부합하도록 관측해 자료를 얻는 것

• 척도 : 관측 대상의 속성을 측정하여, 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구

질적척도 : 범주형 자료, 숫자 크기 차이가 계산이 안되는 척도

구분	특징	예시
명목척도	측정 대상이 어느 집단에 속하는지 분류할 때 사용되는 척도	성별, 출생지, 대학교 등
순서척도	측정 대상의 특성이 가지는 서열관계를 관측하는 척도	선호도, 신용도, 학년, 순위 등

양적척도 : 수치형 자료, 숫자 크기 차이를 계산할 수 있는 척도

구분	특징	예시
구간척도	측정 대상이 갖고 있는 속성의 양을 측정하는 척도 두 구간 사이의 간격이 의미가 있는 자료 절대적 크기는 측정할 수 없기 때문에 사칙연산 중 더하기와 빼기는 가능하지만 비율처럼 곱하거나 나누는 것은 불가능	온도, 지수 등
비율척도	절대적 기준인 0이 존재하고, 모든 사칙연산이 가능 제일 많은 정보를 가지고 있는 척도	무게,나이, 매출, 시간, 거리, 가격 등

통계분석 정의

특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고,

적절한 통계분석 방법을 이용해 의사결정을 하는 과정이다.

기술통계(Descriptive Statistic)

-얻어진 데이터에서 특징을 뽑아내기 위한 기술

-수집된 자료를 정리 / 요약하기 위해 사용되는 기초적인 통계

-평균, 표준편자, 중위수, 최빈값, %와 같이 숫자로 표현하는 방식과

막대그래프, 원그래프, 꺾은선그래프 같이 그림으로 표현하는 방식

기술통계를 위한 통계량은 최솟값, 최댓값,평균, 표준편차, 분산, 중앙값, 사분위수범위, 왜도, 첨도 등

추리통계 / 통계적 추론 (Inference Statistics)

-통계학과 확률이론의 혼합으로 전체를 파악할 수 없는 큰 대상이나 미래의 일에 대해 추측하는 것

(부분으로 전체를 추측한다)

-수집된 자료들을 이용해 대상 집단(모집단)에 대해 의사결정을 하는 것

-모수 추정

표본에서 얻은 통계치를 바탕으로 오차를 고려하여 모수를 확률적으로 추정하는 통계기법

-가설검증

모집단의 특성을 추정하는 데 초점을 두고 가설을 검증하거나 확률적인 가능성을 파악

-예측

미래의 불확실성을 해결해 효율적인 의사결정을 하기위해 활용

향후 발생할 수 있는 사건 예측

회귀분석, 시계열분석 등의 방법이 있음

• 기초 통계 용어

자료(데이터)

평균(기댓값)

일반적인 평균은 산술평균을 의미하며 데이터를 요약할 때 가장 대표적으로 사용되는 값

표본평균(Sample Mean)

표본으로 추출 된 데이터들의 평균

중앙값

평균의 함정을 피하기 위한 하나의 척도로 자료를 순서대로 나열했을 때 가운데 위치한 값

중앙값의 순위 : $ \frac{(n+1)}{2}$

n이 홀수인 경우 : $\frac{(n+1)}{2}$

n이 수인 경우 : $\frac{n}{2}$ 번째 값과 $\frac{n}{2}$ +1 번째 값의 평균

최빈값

평균의 함정을 피하기 위한 하나의 척도로 주어진 데이터 집합에서 가장 자주 등장하는 값.

가장 빈번하게 나타나는 값

분산

데이터의 흩어진 정도를 나타내는 통계적 측도

데이터의 각 관찰값이 평균으로부터 얼마나 흩어져 있는지를 측정하여 데이터의 변동성 표현

$$S^2=\frac{1}{n-1} \sum_{i=1}^{\lfloor n \rfloor} (X_i-\overline{\vphantom{M}X})^2= \frac{1}{n-1}(\sum_{i=1}^{\lfloor n \rfloor} (X_i^2-n\overline{\vphantom{M}X^2}))$$

표준편차

데이터의 흩어진 정도를 나타내는 통계적 측도 중 하나로, 분산의 양의 제곱근

데이터 포인트들이 평균으로부터 얼마나 떨어져 있는지의 평균적인 정도를 측정

$$S=\sqrt{S^2}= \sqrt{\frac{1}{n-1}\sum_{i=1}^{\lfloor n \rfloor}(X_i-\overline{\vphantom{M}X})^2 }$$

백분위수 (Percentile)

데이터를 순서대로 정렬했을 때 특정 백분율 위치에 있는 데이터 값으로 데이터의 범위를 파악

첨도 (kurtosis)

자료가 평균에 얼마나 많이 밀집해 있는지 나타내는 측도

데이터의 분포 형태를 설명하는 데 사용

왜도 (skewness)

확률분포의 비대칭도를 측정하는 통계적 측도

데이터의 분포가 얼마나 비대칭인지를 나타냄

왜도가 0인 경우 : 데이터가 좌우로 대칭되어 있다는 의미이며, 정규분포와 유사한 형태

왜도가 양수인 경우 : 왼쪽으로 밀집, 오른쪽으로 긴 꼬리를 갖는 분포

왜도가 음수인 경우 : 오른쪽으로 밀집, 왼쪽에 긴 꼬리를 갖는 분포

상관분석

두 변수 간의 관계를 분석하기 위해서 공분산과 상관계수를 활용할 수 있음

두 변수가 함께 움직이는 방향과 그 크기에 대한것

한 변수의 값이 증가할 때 상대변수의 값이 증가하면 양의 상관,

상대변수의 값이 감소하면 음의 상관이 있다고 해석하며

상관계수를 통해 상관성의 정도를 설명할 수 있음

공분산 (Covariance)

두 변수 간의 상관 관계를 나타내는 통계적인 측도

두 변수가 함께 어떻게 변하는지, 즉 한 변수가 증가할 때 다른 변수가 어떻게 변하는지를 측정

양수라면 양의 선형 관계를, 음수라면 음의 선형 관계를 나타냄

상관계수 (Correlation)

두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계적 측도

두 변수 간의 상관 정도를 -1에서 1까지의 숫자로 표현해서 측정

'데이터 분석 > 데이터 분석_ADsP' 카테고리의 다른 글

[내배캠] 4일차 - ADsP 자격증 챌린지 10주차 (0)	2025.02.20
[내배캠] 4일차 - ADsP 자격증 챌린지 8, 9주차 (0)	2025.02.20
[내배캠] 3일차 - ADsP 자격증 챌린지 6주차 (0)	2025.02.19
[내배캠] 2일차 - ADsP 자격증 챌린지 4주차 (0)	2025.02.18
[내배캠] 2일차 - ADsP 자격증 챌린지 3주차 (0)	2025.02.18

현재글[내배캠] 3일차 - ADsP 자격증 챌린지 7주차

dataguard 님의 블로그

데이터 분석가를 꿈꾸는 dataguard 님의 블로그 입니다.

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

dataguard 님의 블로그