• 빅데이터의 이해
- 빅데이터의 정의
- 일반적인 빅데이터의 정의
빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는
규모의 데이터다.
- 가트너그룹(Gartner Group)의 더 그래니(Doug Laney)의 정의 3V
Volume (데이터의 양) | Variety (데이터 유형과 소스의 다양성) | Velocity (데이터 수집 · 처리 속도) |
추가적으로 Value(가치), Veracity(정확성), Visualization(시각화), Variability(가변성) 을 넣는 견해도 있다. |
- 빅데이터의 출현 배경
출현 배경 | 내용 | |
산업계 | 고객 데이터 축적 | 산업계에서 일어난 빅데이터 현상을 양질 전환 법칙으로 설명할 수 있다 이는 양적인 변화가 축척되면 질적인 변화도 이루어진다는 개념이다 |
학계 | 거대 데이터 활용 과학 확산 |
학계에서도 빅데이터를 다루는 현상들이 늘어나면서 필요한 기술 아키텍처 및 통계 도구들이 지속적으로 발전하고 있다 |
기술발전 | 관련 기술의 발달 | 디지털화의 급진전, 저장 기술의 발전과 가격 하락, 인터넷의 발전과 모바일 시대의 진전에 따른 클라우드 컴퓨팅 보편화와 분산처리 기술의 발달 등이 빅데이터 출현과 직간접적인 관련이 있다. 클라우드 컴퓨팅은 빅데이터의 처리 비용을 획기적으로 낮춘 측면에서 그 중요성을 아무리 강조해도 지나치지 않는다 |
- 빅데이터의 기능
비유 | 설명 |
빅데이터는 '산업혁명의 석탄, 철' |
제조업뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려서 사회, 경제, 문화, 생활 전반에 혁명적 변화를 가져올 것으로 기대된다 |
빅데이터는 '21세기의 원유' |
경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 향상시키고 새로운 범주의 산업을 만들어낼 것으로 전망된다 |
빅데이터는 '렌즈' |
렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼, 빅데이터도 산업 발전에 큰 영향을 미칠 것으로 기대된다 |
빅데이터는 '플랫폼' |
공동 활용의 목적으로 구축된 유무형의 구조물을 말하며, 다양한 서드파티 비즈니스에 활용되어 플랫폼 역할을 할 것으로 기대된다. |
- 빅데이터가 만들어내는 변화
변화 | 설명 |
사전처리 → 사후처리 | 기존 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 많은 데이터를 모으고 다양한 방식으로 조합하여 숨은 인사이트를 발굴한다 |
표본조사 → 전수조사 | 데이터 수집비용의 감소와 클라우드 기술의 발전으로 데이터 처리 비용이 감소하게 되면서 데이터 활용 방법이 전수조사로 변화했다 |
질 → 양 | 수집 데이터의 양이 증가할 경우, 양질의 정보가 오류 정보보다 많기에 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 두고 있다 |
인과관계 → 상관관계 | 신속한 의사결정을 원하는 비즈니스에서는 실시간 상관관계 분석에서 도출된 인사이트를 바탕으로 그에 상응하는 행동을 추천하는 일이 점점 늘어나고 있다 |
• 데이터의 가치와 미래
- 빅데이터의 가치 산정이 어려운 이유
가치 산정이 어려운 이유 | 설명 |
데이터 활용 방식 | 빅데이터의 재사용이나 재조함, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 누가, 언제, 어떻게 활용하는지 파악할 수 없게 되었으며 따라서 가치산정이 어려워졌음 |
새로운 가치 창출 | 데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 산정하기 어려워졌음 |
분석 기술의 발전 | 오늘은 가치가 없는 데이터일지라도, 추후 새로운 분석기법이 등장할 경우 거대한 가치를 만들어내는 자료가 될 가능성이 있음 |
- 빅데이터 활용 기본 테크닉 7가지
종류 | 내용 | 예시 |
연관규칙 학습 (Association rule learning) |
변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법 연관분석 혹은 장바구니 분석으로도 불리며, 고객이 구매한 물품들을 분석하여 품목 사이에 어떠한 규칙이 있는지 찾아내는 분석 기법 |
커피를 구매하는 사람이 탄산음료를 더 많이 사는가? 우유 구매자가 기저귀를 더 많이 구매하는가? |
유형분석 (Classification tree analysis) |
새로운 사건이 속할 범주/분류를 찾아내는 방법 | 문서를 어떻게 분류할 것인가? 조직을 어떻게 여러 그룹으로 나눌 것인가? 온라인 수강생들을 특성에 따라 어떻게 분류할 것인가? |
유전 알고리즘 (Genetic alogrithms) |
최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법 진화 이론에서 영감을 받아서 개발되어 유전학의 개념을 모방하여 해결해야 하는 문제의 해를 발견하는 과정에서 개채의 집합을 진화시킴 여러세대를 반복하며 최적해, 좋은 근사해를 찾아나감 |
응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가? 연비가 좋은 자동차를 개발하기 위해서 원자재와 엔지니어링을 어떻게 결합하는 것이 좋을까? 최적화된 택배 차량 배치 |
기계학습 (Machine learning) |
훈련 데이터로부터 얻은 특성을 활용해 예측하는 방법 (데이터 학습 → 예측 모형) 특정한 하나의 분석 방법이 아닌 다양한 분석 알고리즘을 활용해 예측하는 분석 모델 자체를 말함 == 범위가 넓다(딥러닝도 기계학습 중 하나) |
기존의 시청기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고싶어 할까? 스팸메일 필터링에 사용 질병 진단 예측 |
회귀분석 (Regression analysis) |
원인과 결과를 이용한 분석 독립변수를 조작하며 종속변수가 어떻게 변하는지 보고 두 변인의 관계를 파악하는 방법 |
구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? 이웃들과 그 규모가 집값에 어떤 영향을 미치는가? 상품가격은 매출에 어떤 영향을 미치는가? |
감정분석 (Sentiment analysis) |
특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법 비정형 데이터 마이닝의 대표적인 기법 |
새로운 환불 정책에 대한 고객의 평가는 어떤가? 제품의 사용기에 나타난 고객의 감정은 어떠한가? |
소셜 네트워크 분석 (SNA; Social Network Analysis) |
사회관계망 분석으로도 불리며, 유저 사이의 관계를 분석하여 오피니언 리더, 즉 영향력있는 사람을 찾아내는데 활용 | 특정인과 다른 사람이 몇 촌 정도의 관계인가? 이 사람이 어느 정도 영향력 있는 '인플루언서'인가? |
- 빅데이터의 위기요인과 통제 방안
위기 요인 | 내용 | 예시 | 통제방안 |
사생활 침해 | 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해 위협을 넘어 사회/경제적 위협으로도 변형될 수 있다 익명화 기술이 발전되고 있으나 아직 충분하지 않다 |
여행 사실을 SNS에 올린 사람을 대상으로 빈집털이 사건 발생 사람들의 일상생활 전반을 감시할 수 있는 기술적 기반 구축 |
동의에서 책임으로 |
책임 원칙 훼손 | 빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다 민주주의 사회 원칙을 크게 훼손할 수있다 |
범법 행위뿐 아니라 회사의 직원해고, 의사의 환자 수술 거절, 배우자의 이혼 소송제기 특정한 사회/경제적 특성을 가진 집단에 속한다는 이유로 신용도와 무관하게 '부당하게' 대출이 거절되는 상황 |
결과 기반 책임 원칙 |
데이터 오용 | 데이터 과신 혹은 잘못된 지표 사용으로 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실이 일어날 수 있다 과거 일어난 일에 의존하기 때문에, 이를 바탕으로 미래를 예측하는 것은 위험할 수 있다 |
스티브 잡스는 제품을 개발할 때 사람들의 의견을 묻지 않았다. 일반적으로 필요로 하는 것은 현실에 대한 인식에 바탕을 두고 있기 때문이다 | 알고리즘 접근권 허용/인증 |
- 미래 빅데이터 활용의 3요소
3요소 | 내용 |
데이터 | 모든 것을 데이터화하는 추세로 특정 목적없이 축적된 데이터를 통한 창의적인 분석이 가능해져 새로운 가치로 부상하고 있다 |
기술 | 대용량의 데이터를 빠르게 처리하기 위한 알고리즘의 진화와 함께 스스로를 학습하고 데이터를 처리할 수 있는 인공지능 기술이 출현하였다 |
인력 | 빅데이터를 처리하기 위한 데이터 사이언티스트와 알고리즈미스트의 역할을 통해 빅데이터의 다각적 분석을 통한 인사이트 도출이 중요해지고 있다 |
• 가치 창조를 위한 데이터 사이언스와 전략 인사이트
- 산업별 일차원적인 분석
산업 | 일차원적 분석 애플리케이션 |
금융 서비스 | 신용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석 |
에너지 | 트레이딩, 공급/수요 예측 |
병원 | 가격 책정, 고객 로열티, 수익관리 |
정부 | 사기 탐지, 사례관리, 범죄 방지, 수익 최적화 |
소매업 | 판촉, 매대 관리, 수요 예측, 재고 보충, 가격 및 제조 최적화 |
제조업 | 공급사슬 최적화, 수요 예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발, 신상품 개발 |
운송업 | 일정 관리, 노선 배정, 수익관리 |
헬스케어 | 약품 거래, 예비 진단, 질병 관리 |
커뮤니케이션 | 가격 계획 최적화, 고객 보유, 수요 예측, 생산능력 계획, 네트워크 최적화, 고객 수익성 관리 |
서비스 | 콜센터 직원 관리, 서비스/수익 사슬 관리 |
온라인 | 웹 매트릭스, 사이트 설계, 고객 추천 |
모든 사업 | 성과관리 |
- 데이터 사이언스의 핵심 구성요소
Analytics 분석적 영역 | IT(Data Management) 데이터 처리와 관련된 IT 영역 | 비즈니스 분석 |
수학, 확률 모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등 |
시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅 등 |
커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등 |
- 가치 패러다임의 변화
패러다임 변화 단계 | 내용 |
디지털화 | 아날로그의 세상을 어떻게 효과적으로 디지털화하는가가 이 시대의 가치를 창출해 내는 원천 |
연결 | 디지털화된 정보와 대상들이 서로 연결되어 이 연결이 얼마나 효과적이고 효율적으로 제공되느냐가 이 시대의 성패를 가름 |
에이전시 | 사물인터넷(IoT)의 성숙과 함께 연결이 증가하고 복잡해짐 복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가가 이슈이며, 데이터 사이언스의 역량에 따라 좌우됨 |
'데이터 분석 > 데이터 분석_ADsP' 카테고리의 다른 글
[내배캠] 3일차 - ADsP 자격증 챌린지 7주차 (0) | 2025.02.19 |
---|---|
[내배캠] 3일차 - ADsP 자격증 챌린지 6주차 (0) | 2025.02.19 |
[내배캠] 2일차 - ADsP 자격증 챌린지 4주차 (0) | 2025.02.18 |
[내배캠] 2일차 - ADsP 자격증 챌린지 3주차 (0) | 2025.02.18 |
[내배캠] 1일차 - ADsP 자격증 챌린지 1주차 (0) | 2025.02.17 |