• 데이터의 이해
- 데이터는 저장이나 처리에 효율적인 형태로 변환된 정보
- 데이터의 단위
Bit | 데이터 구성의 최소단위. 0 과 1 두가지 값을 나타냄 | |
1 Byte | 8 Bit | |
1 KiloByte | 1024 Byte | 2¹⁰ Byte |
1 MegaByte | 1024 KiloByte | 2²⁰ Byte |
1 GigaByte | 1024 MegaByte | 2³⁰ Byte |
1 TeraByte | 1024 GigaByte | 2⁴⁰ Byte |
1 PetaByte | 1024 TeraByte | 2⁵⁰ Byte |
1 ExaByte | 1024 PetaByte | 2⁶⁰ Byte |
1 ZetaByte | 1024 ExaByte | 2⁷⁰ Byte |
1 YotaByte | 1024 ZetaByte | 2⁸⁰ Byte |
- 데이터의 특성
구분 | 형태 | 예시 |
존재적 특성 | 있는 그대로의 객관적 사실 | 국어 100점, 수학 90점 |
당위적 특성 | 추론, 예측, 전망, 추정을 위한 근거 | 평균 95점 |
- 데이터의 유형
구분 | 형태 | 예시 |
정성적 데이터 | 언어, 문자 등 | 설문조사, sns 데이터 등 |
정량적 데이터 | 수치, 기호, 도형 등 | 41kg, 31세, 29cm 등 |
구분 | 설명 | 예시 |
정형 데이터 (structured) |
고정된 틀이 있으며, 연산이 가능 | CSV, 엑셀, 스프레드시트, 관계형 데이터베이스 등 |
비정형 데이터 (unstructured) |
고정된 틀이 없으며, 연산이 불가능 | NoSQL, 영상, 음성 등 |
반정형 데이터 (semi-structured) |
고정된 틀이 있지만, 연산이 불가능 | HTML, JSON, XML 등 |
- 암묵지와 형식지
[암묵지] | [형식지] | |
개인에게 습득되어 있지만 겉으로 드러나지 않는 지식 | 표출화 → |
교과서, 매뉴얼 등과 같이 형상화된 지식 |
공통화 ↑ |
연결화 ↓ |
|
연결화된 지식을 바탕으로 새로운 경험을 부가 |
내면화 ← |
형상화된 지식을 개인의 지식으로 연결 |
- DIKW 피라미드
분류 | 내용 |
데이터 (Data) |
개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실 |
정보 (Information) |
데이터의 가공 및 처리와 데이터간 연관 관계 속에서 의미가 도출된 것 |
지식 (Knowledge) |
데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것 |
지혜 (Wisdom) |
지식의 축적과 아이디어가 결합된 창의적 산물 (예측) |
• 데이터베이스
- 데이터 베이스의 정의
구분 | 정의 |
EU 「데이터베이스의 법적 보호에 관한 지침」 |
체계적/조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물 |
국내 「저작권법」 |
소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것(=법률적으로 데이터베이스를 기술 기반 저작물로 인정) |
국내 「컴퓨터 용어사전」 「정보통신용어사전 (TTA)」 |
동시에 복수의 적용 엄무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합 |
국내 「위키피디아(Wikipedia)」 |
관련된 레코드의 집합, 소프트웨어로는 데이터베이스관리시스템(*DBMS)을 의미 데이터 양과 이용이 늘어나면서 대용량의 데이터를 저장, 관리, 검색, 이용할 수 있는 컴퓨터 기반의 데이터베이스로 진화 |
국내 「한국데이터산업진흥원」 |
문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보처리 및 정보통신 기기에 의하여 체계적으로 수집, 축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체 |
구분 | 정의 |
DB | 필요로 하는 정보를 체계적으로 수집/축적하여 제공하는 정보의 집합체 |
DBMS | 이용자가 쉽게 데이터베이스를 구축하고 유지할 수 있도록 하는 소프트웨어 |
- 데이터베이스의 종류
- 계층형, 네트워크형, 관계형, NoSQL 등이 있음
관계형 데이터베이스 (Relational Database) | 비관계형 데이터베이스 (NoSQL) | |
설명 | • 데이터를 행과 열로 표현된 표형식으로 저장하며 데이터 간의 관계를 나타내는 테이블을 사용함 • 관계형 데이터베이스는 SQL(Structured Query Language)을 사용하여 데이터를 조작하고 검색 |
• "Not Only SQL" 또는 "Non-SQL"의 약자로, 관계형 데이터베이스(RDB)가 아닌 다른 형태의 데이터 베이스 관리 시스템을 나타내는 용어 • 관계형 데이터베이스와는 다른 데이터 모델과 기술을 사용하여 데이터를 저장, 검색 및 관리 • 비정형 데이터와 대용량의 데이터 분석 및 분산 처리에 용이 |
예시 | Oracle, MySQL, MariaDB, SQLite, Postgresql 등 | MongoDB, ElasticSearch, Redis, Dynamo 등 |
- 데이터베이스의 특징
특징 | 설명 |
통합된 데이터 (integrated data) |
동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미 데이터 중복은 관리상의 복잡한 부작용을 초래 |
저장된 데이터 (stored data) |
컴퓨터 기술을 바탕으로 컴퓨터가 접근할 수 있는 저장매체에 저장되는 것을 의미 |
공용 데이터 (shared data) |
다수의 사용자가 다양한 목적으로 데이터를 이용한다는 것을 의미 |
변화되는 데이터 (changable data) |
데이터의 삽입, 삭제, 갱신으로 변화하면서도 항상 정확한 데이터 상태 유지 |
- 데이터베이스 활용
종류 | 설명 |
OLTP 정보시스템 (Online Transaction Processing) |
데이터베이스의 데이터를 수시로 갱신하는 프로세싱 Transactioin : 데이터를 처리하는 한 사이클 |
OLAP 분석 중심의 시스템 (Online Analytical Processing) |
데이터 조회 위주 → 모아둔 데이터를 활용하는 초점 |
CRM 고객관계 관리 (Consumer Relationship Management) |
고객의 구매이력 데이터를 분석하여 고객에 대한 이해도를 높이고 이를 바탕으로 효과적이고 효율적인 마케팅 전략을 펼치는 것 |
SCM 공급망 관리 (Supply Chain Management) |
유통 단계를 최적화하여 고객에게 제공하는 것이 목적 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계 유통, 판매 및 고객 데이터가 CRM과 연동되어 CRM과 상호 밀접한 관련을 갖는다 |
BI (Business Intelligence) | 기업 의사결정 프로세스 기업의 경영권자가 올바른 의사결정을 내릴 수 있도록 돕는 목적 |
ERP (Enterprise Resource Planning) | 기업이 보유한 자원을 효율적인 활용과 분배를 위한 목적 |
RTE (Real Time Enterprise) | 업무 프로세스 중 발생하는 정보들에 신속한 대응을 하기 위한 목적 |
EAI 기업 어플리케이션 통합 (Enterprise Applycatioin Intergration) |
각각의 서비스를 하나의 중앙시스템으로 연결 후 효율적인 서비스 연결을 위한 목적 |
EDW 데이터 웨어하우스 (Enterprise Data Warehouse) |
여러 애플리케이션 정보를 중앙 집중화하여 조직 전체에서 분석 및 사용할 수 있도록 하는 데이터베이스 |
'데이터 분석 > 데이터 분석_ADsP' 카테고리의 다른 글
[내배캠] 3일차 - ADsP 자격증 챌린지 7주차 (0) | 2025.02.19 |
---|---|
[내배캠] 3일차 - ADsP 자격증 챌린지 6주차 (0) | 2025.02.19 |
[내배캠] 2일차 - ADsP 자격증 챌린지 4주차 (0) | 2025.02.18 |
[내배캠] 2일차 - ADsP 자격증 챌린지 3주차 (0) | 2025.02.18 |
[내배캠] 1일차 - ADsP 자격증 챌린지 2주차 (1) | 2025.02.17 |