데이터 분석 27

[내배캠] 12일차 파이썬 문법 뽀개기 - 심화

◉  튜플, 집합튜플 (tuple)리스트와 유사하지만, 내용을 바꿀 수 없는 자료형딕셔너리 대신, 리스트와 튜플로 사용하는 경우가 있음a = (1, 2, 3)a[0] = 99 # 값의 추가는 불가능a_dict = [('bob', '24'),('john', '29'),('smith', '30')] 집합 (set)파이썬에서 집합을 구현하는 방법중복 요소를 없앰a = [1,2,3,4,5,3,4,2,1,2,4,2,3,1,4,1,5,1]a_set = set(a)print(a_set) # [1,2,3,4,5]a = ['사과','감','수박','참외','딸기']b = ['사과','멜론','청포도','토마토','참외']a_set = set(a)b_set = set(b)a_set & b_set # 교..

[내배캠] 11일차 파이썬 문법 뽀개기

◉  파이썬의 특징네덜란드의 프로그래머 Guido van Rossum이 '읽기 쉬운 코드'에 중점을 두어 개발한 프로그래밍 언어 무료/오픈소스로 운영되고 커뮤니티가 크기 때문에 자연어처리, 머신러닝 등 직접 구현하기 어려운 기능들도 다른 개발자의 라이브러리를 이용해 쉽게 코드를 작성 가능     ◉  변수 선언 변수이름 = 값 의 형태로 변수를 선언= 이 같다는 의미가 아닌, 값을 지정(선언) 해주는 의미a = 2 # 2를 a에 넣는다.print(a) # 2b = a # a에 들어 있는 값인 2를 b에 넣는다.print(b) # 2a = 5 # a에 5라는 새로운 값을 넣는다.print(a, b) # 5 2     ◉  자료형자료형이란 프로그래밍을 할..

[내배캠] 5일차 - ADsP 자격증 챌린지 11주차

◉ 분산분석분산분석의 정의여러 그룹간의 평균 차이를 비교하는 통계기법일반적으로 그룹이 3개 이상일 때 사용그룹 간의 차이가 우연에 의해 발생한 것인지 판단하는데 사용(집단 간 분산) / (집단 내 분산) 으로 계산되는 F-value가 사용된다.분산분석의 단점귀무가설을 기각할 경우 어느 집단 간 평균이 같은지, 어느 집단 간 평균이 얼마나 다른지 알 수 없음귀무가설을 기각했을 경우, 사후검정을 통해 알아낸다.Scheffe, Tukey, Duncan, Fisher’s LSD, Dunnett, Bonferroni분산분석의 수행을 위한 3가지 가정등분산성 : 모든 그룹의 오차(잔차) 분산이 동일해야 한다.독립성 : 각 그룹 내 관측치들은 서로 독립적이어야 한다.정규성 : 각 그룹의 오차(잔차)가 정규분포를 따라..

[내배캠] 4일차 - ADsP 자격증 챌린지 10주차

◉ 추정과 가설검정 추정통계적 방법론을 통해서 알고자하는 대상은 모집단의 확률분포이다.모집단의 확률분포의 특징을 표현하는 값들을 모수(parameter)라고 한다.추정은 점추정과 구간추정으로 나뉜다. 점추정가장 참값이라고 여겨지는 하나의 모수의 값을 택하는 것즉, '모수가 특정한 값일 것'이라고 추정하는 것모평균을 추정하기 위한 추정량(estimator)은 표본집단의 표본평균이 대표적이다. 구간추정(Interval Estimation)구간추정은 일정한 크기의 신뢰수준(confidence level)으로 모수가 특정한 구간에 있을 것이라고 선언하는 것항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간안에 신뢰수준이 주어져야 한다.신뢰수준은 90%, 95%, 99%의 확률을 이용하는 경우가 많다...

[내배캠] 4일차 - ADsP 자격증 챌린지 8, 9주차

• 확률과 확률분포  확률특정사건이 일어날 가능성통계적 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합을 표본공간(sample space)라고 하고, 사건이란 표본공간의 부분집합을 말한다.사건 중에서 오직 한 개의 원소로만 이루어진 사건을 근원사건 이라고 한다. 조건부 확률사건A가 발생했다는 것이 사실이라는 조건하에, 사건 B가 발생할 확률0 과 1 사이의 값을 갖는다P(B|A)와 같이 표현한다. 독립사건두 사건이 서로 영향을 미치지 않는 경우.한 사건의 발생 여부가 다른 사건에 아무런 정보를 제공하지 않는 것을 의미한다. 배반사건두 사건 A와 B가 동시에 발생할 수 없는 경우.한 사건이 일어나면, 다른 사건은 일어날 수 없는 관계에 있는 두 사건을 의미한다. 확률변수확률 실험이나 상황에서 발생할 ..

[내배캠] 3일차 - ADsP 자격증 챌린지 7주차

• 통계 분석의 이해 통계의 정의       분석하고자 하는 특정집단을 대상으로 수행한 조사나 실험을 통해 얻은 자료 및 요약된 형태의 표현.       데이터 자체로는 알 수 없기 때문에, 통계를 사용한다.  모집단       자료로부터 유용한 정보를 추출할 때, 해당 정보에 대한 대상을 의미       모집단을 구성하는 개체를 추출단위 혹은 원소라고 합니다.   통계 자료 획득 방법 • 전수조사 (Census)  -대상십단 '모두'를 조사하는 것-많은 비용과 시간이 소요된다는 단점 존재 •  표본조사 (Sample)  -모집단을 대표할 수 있는 표본을 추출하여 조사하는 것-표본이 대표성을 신뢰할 수 있어야, 표본조사를 통한 모집단의 통계분석 결과도 신뢰할 수 있음-표본 : 모집단의 일부-모수(para..

[내배캠] 3일차 - ADsP 자격증 챌린지 6주차

•  데이터 마트데이터 마트       데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을       주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스 입니다. 데이터 전처리       데이터를 정제하는 과정과 분석 변수를 처리하는 과정이 포함됩니다.종류설명예시요약변수 -원래 데이터로부터 기본적인 통계자료를 추출한 데이터마트에서 가장 기본적인 변수-많은 모델을 공통으로 사용할 수 있어 재활용성이 높다-기초적인 통계 자료들이 여기에 속한다상품별 구매 금액, 상품별 구매 순서, 기간별 구매 금액파생변수-범용으로 활용되는 기본적인 통계자료가 아닌  특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미(목적)을 부여한 변수-주관적일 수 있으므로 논리적 타당성을 갖추는 것이 중요..

[내배캠] 2일차 - ADsP 자격증 챌린지 4주차

• 마스터플랜 수립 프레임워크 마스터플랜 수립 개요우선순위 고려요소→적용범위 / 방식 고려요소전략적 중요도적용 우선순위 설정업무 내재화 적용 수준Analytics 구현 로드맵 수립비즈니스 성과/ROI분석 데이터 적용 수준실행 용이성기술 적용 수준  ISP(information Strategy Planning) 기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 정보전략계획.ISP는 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내/외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차이다.분석 마스터 플랜은 일반적인 ISP(정보 전략 계획) 방법론을 활용하되 데이터 분석 기획의 특성을 고려하..

[내배캠] 2일차 - ADsP 자격증 챌린지 3주차

• 데이터 분석 기획분석 대상과 방법에 따른 4가지 분석 주제 분석의 대상 (WHAT)KnownUN-Known분석의 방법(HOW)Known최적화(Optimization)통찰(Insignt)Un-Known해결책(Solution)발견(Discovery)  목표 시점별 분석 기획 과제를 빠르게 해결해야하는 경우지속적인 분석 내재화를 위한 경우1차 목표Speed & TestAccuracy & Deploy과제 유형Quick & WinLong Term View접근 방식Problem Solving문제해결을 위한 단기적 접근방식Problem Definition분석 과제 정의를 위한 중장기적인마스터 플랜 접근방식  분석 기획 시 고려사항   1. 가용 데이터 고려 (Available Data)       - 분석의 기본..

[내배캠] 1일차 - ADsP 자격증 챌린지 2주차

• 빅데이터의 이해 빅데이터의 정의       - 일반적인 빅데이터의 정의         빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는         규모의 데이터다.        - 가트너그룹(Gartner Group)의 더 그래니(Doug Laney)의 정의  3V Volume (데이터의 양) Variety (데이터 유형과 소스의 다양성)Velocity (데이터 수집 · 처리 속도)             추가적으로 Value(가치), Veracity(정확성), Visualization(시각화), Variability(가변성) 을 넣는 견해도 있다.   빅데이터의 출현 배경 출현 배경내용산업계고객 데이터 축적산업계에서 일어난 빅데이터 현상을 양질 전환 법칙으..