빅데이터분석준전문가자격증

ADsP. PART.1 - 데이터의 이해 - 데이터의 이해

theblack0 2022. 5. 30. 12:17
반응형

1장 데이터의 이해

    1.데이터와 정보

 

     1.데이터의 유형

        - 데이터의 정의 

  • 데이터는 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실(fact)
  • 추론,예측,전망,추정을 위한 근거(basis)로 기능하는 특성을 갖음
  • 다름 객체와의 상호관계 속에서 가치를 갖음

       - 데이어 유형

     

정성적 데이터
(qualitative data)
자료의 성질, 특징을 자세히 풀어 쓰는 방식
언어,문자로 기술(예:설문조사의 주관식 응답,SNS에 올린 글)
비정형 데이터 형태로 저장,분석에 시간과 비용이 필요함
정량적 데이터
(quantitative data)
수치,기호,도형으로 표시(예:지역별 온도,풍속,강우량)
데이터 양이 증가하더라도 저장,분석이 용이함

 

   암묵지  VS  형식지

 

   암묵지

  • 학습과 체험을 통해 개인에게 습득(현장 작업과 같은 경험을 통해 획득)
  • 시행착오와 오랜 경험을 통해 습득된 무형지식
  • 예)김장김치 담그기,자전거 타기
  • 공유되기 어려움

  형식지

  • 교과서,메뉴얼,비디오,DB 등으로 형상화 된 지식을 의미
  • 예)회계,재무 관련 대차대조표에 요구되는 지식의 메뉴얼
  • 외부로 표출되어 여러 사람이 공유할 수 있는 지식

 

지식경영

  개인의 암묵지와 집단에서의 형식지가 나선형의 형태로 회전하면서 생성,발전,전환되는 지식의 발전을 기반으로 한 기업의 경영

 

암묵지,형식지의 4단계 지식전환모드

1단계 공통화 

  • 암묵적 지식 노하우를 다른 사람에게 알려주는 것

2단계 표출화

  • 암묵적 지식 노하우를 책이나 교본 등 형식지로 만드는 것

3단계 연결화

  • 책이나 교본(형식지)에 자신이 알고 있는 새로운 지식(형식)을 추가하는 것

4단계 내면화

  • 만들어진 책이나 교본(형식지)을 보고 다른 직원들이 암묵적 지식(노하우)을 습득

 

DIKW피라미드(계층구조)

D : Data

I  : Information

K : Knowledge

W : wisdom 

 

데이터(Data)

  • 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호

정보(Information)

  • 데이터의 가공 및 상관/연관 관계 속에서 의미가 도출된 것

지식(Knowledge)

  • 상호 연결된 정보 패턴을 이해하며 이를 토대로 예측한 결과물

지혜(Wisdom)

  • 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 아이디어

 

데이터베이스의 특징

  -데이터베이스는 "통합,저장,공용,변화되는 데이터"를 특징으로 한다.

통합 데이터(Integrated data) 데이터베이스에 같은 내용의 데이터가 중복되어 있디 않다는 것을 의미
저장데이터(Stored data) 자기 디스크나 자기테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미
공용데이터(Shared data) 여러 사용자에게 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용되는 것을 의미
변화되는 데이터(Changed data) 새로운 데이터의 추가, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 한다는 것을 의미

 

DBMS

다음의 DBMS의 종류로는 RDBMS,ODBMS가 있습니다.

 

DBMS

  • 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 처리해주고 데이터베이스를 관리해주는 소프트웨어

RDBMS

  • 관계형 데이터베이스 관리시스템
  • 정형화된 테이블로 구성된 데이터 항목들의 집합체
  • MySQL(오픈소스 RDBMS),Oracle Database(상용 RDBMS)
  • SQL : RDBMS의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어 챔벌린과 레이먼드 F. 보이스가 처름개발하였음

ODBMS

  • 객체지향 데이터베이스 시스템
  • 객체들을 생성하여 계층에서 체계적으로 정리하고, 다시 계층들을 하위 계층이 상위계층으로부 터 속성과 방법들을 물려받을 수 있는 DBMS
  • 복잡한 데이터 구조를 표현 및 관리하는 DBMS

 

데이터베이스 설계

  - 데이터베이스 설계절차

    요구조건분석   -> 개념적 설계  -> 논리적 설계   -> 물리적 설계

요구조건 분석 데이터베이스 사용자,사용목적,사용범위,제약조건 등을 정리,명세서 작성
개념적 설계 E-R모델,정보를 추상적 개념으로 표한하는 과정, DBMS 독립적  E-R다이어그램 작성
논리적 설계 자료를 컴퓨터가 이해할 수 있도록 특정 DBMS의 논리적 자료구조로 변환
물리적 설계 논리적 구조로 표현된 데이터를 물리적 구조의 데이터로 변환하는 과정

 

NoSQL

 

-NoDQL(Non-SQL,Non-Relational,Not Only SQL........)

  • 관계형 데이터베이스보다 덜 제한적인 일관성 모델을 이용하는 데이터의 저장 및 검색을 위한 메커니즘 제공,디자인 단순화,수평적 확장성,세세한 통제등을 포한
  • 기존의  RDBMS가 갖고 있는 특성 뿐만 아니라 다른 특성들을 부가적으로 지원함

-NoSQL 저장방식 도구 :MongoDB,Apache HBase,Redis

  • MongoDB : 데이터 교환 시 비산(BSON : Binary JSON)문서 형태로 저장하여 여러 서버에 분산 저장 및 확장이 용이하며, 방대한 데이터 처리가 빠르다는 장점이 있다.   C++로 작성됨
  • Apache HBase : 하둡 플랫폼을 위한 공개 비관계형 분산 데이터베이스이다. 구글 빅테이블(BigTable)을 본보기로 삼았으며 자바로 쓰여졌다.
  • Redis : Remote Dictionary Server의 약자,"키-값"구조의 비정형 데이터를 저장하고 관리하기 위한 오픈 소스기반의 비관계형 데이터베이스 관리시스템(DBMS)이다.

 

기업 내부 데이터베이스 솔루션

시대별 기업 내부 데이터베이스솔루션

    1980년대 : OLTP,OLAP

    2000년대 :  CRM,SCM

 

1980년대

OLTP

  • On-Line Transaction Processing, 온라인 거래 처리 예)삼품주문,회원정보 수정
  • 주 컴퓨터와 통신회선으로 접속되어 있는 복수의 사용자 단말에서 발생한 트랜잭션을 주 컴퓨터에서 처리하여 그 결과를 사용자에게 되돌려 보내주는 처리형태

OLAP

  • On-Line Analytical Procession, 온라인 분석 처리 예)10년간 A사의 직급별 임금 상승률
  • 다차원으로 이루어진 데이터로부터 통계적인 요약 정보를 제공할 수 있는 기술, 다차원의 데이터를  대화식으로 분석하기 위한 SW

 

2000년대

CRM

  • Customer Relationship Management
  • 고객별 구매 이력 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바당으로 각종 마케팅 전략을 통해 보다 높은 이익을 창출할 수 있는 솔루션

SCM

  • Supply Chain Management
  • 제조,물류,유통업체 등 유통공급망에 참여하는 모든 업체들이 협력을 바탕으로 정보기술(Information Technology)을 활용,재고를 최적화하기 위한 솔루션
  • 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화 시키기 위한 것
  • 자재구매 데이터,생산,재고 데이터,유통/판매 데이터, 고객 데이터로 구성됨

 

-분야별 기업 내부 데이터베이스 솔루션 - 제조부문

Data Warehous

  • 기업 내의 의사결정 지원 애플리케이션을 위한 정보를 제공하는 하나의 통합된 데이터 저장공간
  • ETL : 추출,변환,적재(Extract,transform,load) 
    주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 정보를 적제함
  • 데이터들은 시간적 흐름에 따라 변화하는 값을 유지

데이터웨어하우스의 4대 특성

  • 데이터의 통합 : 데이터들은 전사적 차원에서 일관된 형식으로 정의됨
  • 데이터의 시계열성 : 관리되는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장함
  • 데이터 주제 지항적,비소멸성(비휘발성) : 특정 주제에 따라 데이터들이 분류,저장,관리됨

 

분야별 기업 내부 데이터베이스 솔루션 - 제조부문

Data Mart

  • 전사적으로 구축된 데이터웨어하우스로부터 특정 주제,부서 중심으로 구축된 소규모 단일 주제의 데이터웨어하우스
  • 재무,생산,운영과 같이 특정 조직의 특정 업무 분야에 초점을 두고 있음

ERP

  • Enterprise Resource Planning, 제조업을 포함한 다양한 비즈니스 분야에서 생산,구매,재고,주문,공급자와의 거래,고객 서비스 제공 등 주요 프로세스 관리를 톱는 여러 모듈로 구성된 통합 애플리케이션 소프트웨어 패키지

 

BI(Business Intelligence)

  • 기업의 Data Wearhouse에 저장된 데이터에 접근해 경영의사결정에 필용한 정보를 획득하고 이를 경영활동에 활용하는 것
  • 데이터를 통합/분석하여 기업활동에 연관된 의사결정을 돕는 프로세스를 말함
  • 가트너는 '여러곳에 산재하여 있는 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경'으로 정의함
  • 하나의 특정 비즈니스 질문에 답볍하도록 설계

ad hoc report

  • BI와 빅데이터 분석의 차이점을 표현한 키워드
  • Optimization,foirecast,insight : 빅데이터 분석 관련 키워드임

BA(Business Analytics)

  • 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
  • 성과에 대한 이해와 비즈니스 통찰력에 초점을 둔 분석방법
  • 사전에 예측하고 최적화하기 위한 것으로 BI보다 진보된 형태

 

분야별 기업 내부 데이터베이스 솔루션 - 금융부문

블록체인(Block Chain)

  • 기존 금융회사의 중앙 집중형 서버에 거래 기록을 보관하는 방식을 벗어나 거래 참여하는 모든 사용자에게 거래 내용을 보여주며 거래 때마다 대조하는 데이터 위조 방지 기술
  •   TIP 그외에 EIA,EDW,ERP,e-CRM등이 있다

 

분야별 기업 내부 데이터베이스 솔루션 - 유통부문

KMS

  • Knowledge Management System
  • 지식관리시스템의 약자, 조직 내에 지식을 관리하는 시스템을 의미

RFID

  • 무선주파수(RF,Radio Frquency)를 이용하여 대상을 식별할 수 있는 기술
  • RF태그에 사용 목적에 알맞은 정보를 저장하여 적용 대상에 부착한 후 판독기에 해당되는 RFID리더를 통해 정보를 인식함

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형