1장 데이터의 이해
1.데이터와 정보
1.데이터의 유형
- 데이터의 정의
- 데이터는 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실(fact)
- 추론,예측,전망,추정을 위한 근거(basis)로 기능하는 특성을 갖음
- 다름 객체와의 상호관계 속에서 가치를 갖음
- 데이어 유형
정성적 데이터 (qualitative data) |
자료의 성질, 특징을 자세히 풀어 쓰는 방식 언어,문자로 기술(예:설문조사의 주관식 응답,SNS에 올린 글) 비정형 데이터 형태로 저장,분석에 시간과 비용이 필요함 |
정량적 데이터 (quantitative data) |
수치,기호,도형으로 표시(예:지역별 온도,풍속,강우량) 데이터 양이 증가하더라도 저장,분석이 용이함 |
암묵지 VS 형식지
암묵지
- 학습과 체험을 통해 개인에게 습득(현장 작업과 같은 경험을 통해 획득)
- 시행착오와 오랜 경험을 통해 습득된 무형지식
- 예)김장김치 담그기,자전거 타기
- 공유되기 어려움
형식지
- 교과서,메뉴얼,비디오,DB 등으로 형상화 된 지식을 의미
- 예)회계,재무 관련 대차대조표에 요구되는 지식의 메뉴얼
- 외부로 표출되어 여러 사람이 공유할 수 있는 지식
지식경영
개인의 암묵지와 집단에서의 형식지가 나선형의 형태로 회전하면서 생성,발전,전환되는 지식의 발전을 기반으로 한 기업의 경영
암묵지,형식지의 4단계 지식전환모드
1단계 공통화
- 암묵적 지식 노하우를 다른 사람에게 알려주는 것
2단계 표출화
- 암묵적 지식 노하우를 책이나 교본 등 형식지로 만드는 것
3단계 연결화
- 책이나 교본(형식지)에 자신이 알고 있는 새로운 지식(형식)을 추가하는 것
4단계 내면화
- 만들어진 책이나 교본(형식지)을 보고 다른 직원들이 암묵적 지식(노하우)을 습득
DIKW피라미드(계층구조)
D : Data
I : Information
K : Knowledge
W : wisdom
데이터(Data)
- 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호
정보(Information)
- 데이터의 가공 및 상관/연관 관계 속에서 의미가 도출된 것
지식(Knowledge)
- 상호 연결된 정보 패턴을 이해하며 이를 토대로 예측한 결과물
지혜(Wisdom)
- 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 아이디어
데이터베이스의 특징
-데이터베이스는 "통합,저장,공용,변화되는 데이터"를 특징으로 한다.
통합 데이터(Integrated data) | 데이터베이스에 같은 내용의 데이터가 중복되어 있디 않다는 것을 의미 |
저장데이터(Stored data) | 자기 디스크나 자기테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미 |
공용데이터(Shared data) | 여러 사용자에게 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용되는 것을 의미 |
변화되는 데이터(Changed data) | 새로운 데이터의 추가, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 한다는 것을 의미 |
DBMS
다음의 DBMS의 종류로는 RDBMS,ODBMS가 있습니다.
DBMS
- 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 처리해주고 데이터베이스를 관리해주는 소프트웨어
RDBMS
- 관계형 데이터베이스 관리시스템
- 정형화된 테이블로 구성된 데이터 항목들의 집합체
- MySQL(오픈소스 RDBMS),Oracle Database(상용 RDBMS)
- SQL : RDBMS의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어 챔벌린과 레이먼드 F. 보이스가 처름개발하였음
ODBMS
- 객체지향 데이터베이스 시스템
- 객체들을 생성하여 계층에서 체계적으로 정리하고, 다시 계층들을 하위 계층이 상위계층으로부 터 속성과 방법들을 물려받을 수 있는 DBMS
- 복잡한 데이터 구조를 표현 및 관리하는 DBMS
데이터베이스 설계
- 데이터베이스 설계절차
요구조건분석 -> 개념적 설계 -> 논리적 설계 -> 물리적 설계
요구조건 분석 | 데이터베이스 사용자,사용목적,사용범위,제약조건 등을 정리,명세서 작성 |
개념적 설계 | E-R모델,정보를 추상적 개념으로 표한하는 과정, DBMS 독립적 E-R다이어그램 작성 |
논리적 설계 | 자료를 컴퓨터가 이해할 수 있도록 특정 DBMS의 논리적 자료구조로 변환 |
물리적 설계 | 논리적 구조로 표현된 데이터를 물리적 구조의 데이터로 변환하는 과정 |
NoSQL
-NoDQL(Non-SQL,Non-Relational,Not Only SQL........)
- 관계형 데이터베이스보다 덜 제한적인 일관성 모델을 이용하는 데이터의 저장 및 검색을 위한 메커니즘 제공,디자인 단순화,수평적 확장성,세세한 통제등을 포한
- 기존의 RDBMS가 갖고 있는 특성 뿐만 아니라 다른 특성들을 부가적으로 지원함
-NoSQL 저장방식 도구 :MongoDB,Apache HBase,Redis
- MongoDB : 데이터 교환 시 비산(BSON : Binary JSON)문서 형태로 저장하여 여러 서버에 분산 저장 및 확장이 용이하며, 방대한 데이터 처리가 빠르다는 장점이 있다. C++로 작성됨
- Apache HBase : 하둡 플랫폼을 위한 공개 비관계형 분산 데이터베이스이다. 구글 빅테이블(BigTable)을 본보기로 삼았으며 자바로 쓰여졌다.
- Redis : Remote Dictionary Server의 약자,"키-값"구조의 비정형 데이터를 저장하고 관리하기 위한 오픈 소스기반의 비관계형 데이터베이스 관리시스템(DBMS)이다.
기업 내부 데이터베이스 솔루션
시대별 기업 내부 데이터베이스솔루션
1980년대 : OLTP,OLAP
2000년대 : CRM,SCM
1980년대
OLTP
- On-Line Transaction Processing, 온라인 거래 처리 예)삼품주문,회원정보 수정
- 주 컴퓨터와 통신회선으로 접속되어 있는 복수의 사용자 단말에서 발생한 트랜잭션을 주 컴퓨터에서 처리하여 그 결과를 사용자에게 되돌려 보내주는 처리형태
OLAP
- On-Line Analytical Procession, 온라인 분석 처리 예)10년간 A사의 직급별 임금 상승률
- 다차원으로 이루어진 데이터로부터 통계적인 요약 정보를 제공할 수 있는 기술, 다차원의 데이터를 대화식으로 분석하기 위한 SW
2000년대
CRM
- Customer Relationship Management
- 고객별 구매 이력 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바당으로 각종 마케팅 전략을 통해 보다 높은 이익을 창출할 수 있는 솔루션
SCM
- Supply Chain Management
- 제조,물류,유통업체 등 유통공급망에 참여하는 모든 업체들이 협력을 바탕으로 정보기술(Information Technology)을 활용,재고를 최적화하기 위한 솔루션
- 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화 시키기 위한 것
- 자재구매 데이터,생산,재고 데이터,유통/판매 데이터, 고객 데이터로 구성됨
-분야별 기업 내부 데이터베이스 솔루션 - 제조부문
Data Warehous
- 기업 내의 의사결정 지원 애플리케이션을 위한 정보를 제공하는 하나의 통합된 데이터 저장공간
- ETL : 추출,변환,적재(Extract,transform,load)
주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 정보를 적제함 - 데이터들은 시간적 흐름에 따라 변화하는 값을 유지
데이터웨어하우스의 4대 특성
- 데이터의 통합 : 데이터들은 전사적 차원에서 일관된 형식으로 정의됨
- 데이터의 시계열성 : 관리되는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장함
- 데이터 주제 지항적,비소멸성(비휘발성) : 특정 주제에 따라 데이터들이 분류,저장,관리됨
분야별 기업 내부 데이터베이스 솔루션 - 제조부문
Data Mart
- 전사적으로 구축된 데이터웨어하우스로부터 특정 주제,부서 중심으로 구축된 소규모 단일 주제의 데이터웨어하우스
- 재무,생산,운영과 같이 특정 조직의 특정 업무 분야에 초점을 두고 있음
ERP
- Enterprise Resource Planning, 제조업을 포함한 다양한 비즈니스 분야에서 생산,구매,재고,주문,공급자와의 거래,고객 서비스 제공 등 주요 프로세스 관리를 톱는 여러 모듈로 구성된 통합 애플리케이션 소프트웨어 패키지
BI(Business Intelligence)
- 기업의 Data Wearhouse에 저장된 데이터에 접근해 경영의사결정에 필용한 정보를 획득하고 이를 경영활동에 활용하는 것
- 데이터를 통합/분석하여 기업활동에 연관된 의사결정을 돕는 프로세스를 말함
- 가트너는 '여러곳에 산재하여 있는 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경'으로 정의함
- 하나의 특정 비즈니스 질문에 답볍하도록 설계
ad hoc report
- BI와 빅데이터 분석의 차이점을 표현한 키워드
- Optimization,foirecast,insight : 빅데이터 분석 관련 키워드임
BA(Business Analytics)
- 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
- 성과에 대한 이해와 비즈니스 통찰력에 초점을 둔 분석방법
- 사전에 예측하고 최적화하기 위한 것으로 BI보다 진보된 형태
분야별 기업 내부 데이터베이스 솔루션 - 금융부문
블록체인(Block Chain)
- 기존 금융회사의 중앙 집중형 서버에 거래 기록을 보관하는 방식을 벗어나 거래 참여하는 모든 사용자에게 거래 내용을 보여주며 거래 때마다 대조하는 데이터 위조 방지 기술
- TIP 그외에 EIA,EDW,ERP,e-CRM등이 있다
분야별 기업 내부 데이터베이스 솔루션 - 유통부문
KMS
- Knowledge Management System
- 지식관리시스템의 약자, 조직 내에 지식을 관리하는 시스템을 의미
RFID
- 무선주파수(RF,Radio Frquency)를 이용하여 대상을 식별할 수 있는 기술
- RF태그에 사용 목적에 알맞은 정보를 저장하여 적용 대상에 부착한 후 판독기에 해당되는 RFID리더를 통해 정보를 인식함
'빅데이터분석준전문가자격증' 카테고리의 다른 글
ADsP. PART.2 - 데이터 분석 기획 - 분석마스터 플랜 (0) | 2022.06.23 |
---|---|
ADsP. PART.2 - 데이터 분석 기획 - 데이터분석 기획의 이해 (0) | 2022.06.20 |
ADsP. PART.1 - 데이터의 이해 - 가치 창조를 위한 데이터 사이언스와 전락 인사이트 (0) | 2022.06.20 |
ADsP. PART.1 - 데이터의 이해 - 데이터의 가치와 미래 (0) | 2022.06.18 |
정상시계열(Time series) (0) | 2022.05.16 |