빅데이터분석준전문가자격증

ADsP. PART.1 - 데이터의 이해 - 데이터의 가치와 미래

theblack0 2022. 6. 18. 11:55
반응형

빅데이터이란?

 1.빅데이터의 정의

  • 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장,관리,분석할 수 있는 범위를 초과하는 규모의 데이터이다.
  • 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집,발굴,분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.
  • 데이터의 양(Volume)데이터 유형과 소스 측면의 다양성(Varirty),데이터 수집과 처리 측면에서 속도(Velocity)각 급격히 증가하면서 나타난 현상이다.

빅데이터 - 4V(RoI - Return On Inveesment,투자자본수익률 관점에서 보는 빅데이터)

Volume(데이터의 양) 데이터의 크기,생성되는 모든 데이터를 수집  
Variety(데이터의 다양성) 데이터의 댜양성,정형화된 데이터를 넘어 텍스트,오디오,비디오 등 모든 유형의 데이터를 대상으로 함
Velocity(데이터의 속도) 데이터의 속도,사용자가 원하는 시간 내 데이터 분석 결과 제공, 업데이터 속도 빠름
Value(데이터의 효과) Value는 비즈니스 효과 요소.Volume,Varirty,Velocity는 투자비용 요소이다.

 빅데이터의 출현 배경

  • 산업계에서 일어난 변화를 보면 빅데이터의 현상은 양질 전환 법칙으로 설명할 수 있다.
  • 학계에서도 빅데이터를 다루는 현상들이 늘어나고 있다, 대표적 사례는 인간 게놈 프로젝트가 있다. (학계의 거대 데어터 활용 과학 확산
  • 디지털화,저장기술,인터넷 보급,모바일 혁명,클라우드 컴퓨팅 등 관련 기술 발전과 관련이 있다.
  •    클라우드 컴퓨텅 : 빅데이터 분석에 경제적 효과를 제공해준 결정적 기술
  • 소설 미디어,영상 등 비정형 데이터의 확산
  • 데이터 처리 기술발전

빅데이터의 역할

  빅데이터는 "석탄/철,원유,렌즈,플랫폼"이다.

 

석탄/철

  • 빅데이터는 석탄,철이 산업혁명에서 했던 역할을 지금의 제조업 뿐만 아니라 서버스 분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 기대된다.

원유

  • 각종 비즈니스.공공기관 대국민 서비스,경제 성장에 필요한  '정보'를 제공하여, 산업 전반의 생산성을 향상시킬 것으로 기대된다.

렌즈

  • 구글 'Ngram Viewer'를 통해 수천만권의 책을 디지털화
  • 현미경의 생물학 발전에 미쳤던 영향만큼 데이터가 산업 전반에 영향을 미칠 것이다.

플랫폼

  • 비즈니스 측면에서는  '공동 활용의 목적으로 구축된 유/무형의 구조물'을 의미함.
  • ***페이스북***은 SNS서비스로 시작했지만, 2006년 F8행사를 기점으로  자신들의 소셜 그래프 자산을 외부 개발자들에게 공개하고 서드-파티 개발자들이 페이스북 위에서 작동하는 앱을 만들기 시작했다.
  • 각종 사용자 데이터나 M2M 센서 등에서 수집된 데이터를 가공,처리,저장해두고, 이 데이터에 접근할 수 있도록 API를 공개하였다.

 

빅데이터의 가치 산정, 본질적 변화

 빅데이터의 가치 산정이 어려운 이유

  데이터의 활용방식

  • 재사용이나 재조합,다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제,어디서,누가 활용할 지 알 수 없다

새로운 가치창출

  • 데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어렵다

분석기술의 발달

  • 분석기술의 발달로 지금은 가치없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들어내는 재고가 될 가능성이 있다.

 

 빅데이터가 만들어내는 본질적인 변화

  • 사전처리     --> 사후처리  
  • 표본조사     -->  전수조사   
  • 질(Quality)  --> 양(Quantity)
  • 인과관계     -->  상관관계

사전처리

  • 표준화된 문서 포맷

사후처리

  • 데이터를 모은 뒤 그안에서 숨은 정보를 찾아냄

 

빅데이터 활용 사례

  • 구글 검색엔진,월마트의 구매패턴 분석,IBM왓슨 - 의료분야 활용
  • 정부의 실시간 교통정보 활용,CCTV국가 안전에 활용 사회관계망분
  • 석을 통한 현장분석,가수의 팬 음악청취 기록 분석 활용
  • 아마존의 킨들(Kindle,전자책 전용 단말기)에 쌓이는 전자책 읽기 관련 데이터 분석해 저자들에게 제공

 

빅데이터 활용기법

연관규칙학습(Association rule Learning)

  • 변수간 주목할 만한 상관관계가 있는지 찾아내는 방법
  • 우유구매자가 기저귀도 같이 구매하는 가?
  • 커피를 사는 사람들이 탄산음료도 많이 구매하는 가?

유형분석(Classification tree Analysis)

  • 사용자는 어떤 특성을 가진 집단에 속하는가?와 같은 문제 해결에 사용함
  • 문서를 분류하거나 조직을 그룹으로 나눌때, 온라인 수강생들을 특성에 따라 분류할 때 사용함

유전 알고리즘(Generic Algorithms)

  • 최적화가 필요한 문제의 해결책지연선택,돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법
  • 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
  • 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?

기계학습

  • 훈련 데이터로부터 패턴을 학습해  "예측"하는 일에 활용되고 있음
  • 기존의 시청기록을 바탕으로 시청자가 현재 보유한 영화 중 어떤 것을 가장 보고 싶어할까?(넷플릭스 추천 시스템)

회귀분석

  • 선형함수로 나타낼 수 있는 수치테이터 분석
  • 사용자의 만족도가 충성도에 어떤 영향을 미치는가?

감정분석

  • 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석함
  • 소셜 미디어에 나타난 의견을바탕으로 고객이 원하는 것을 찾아낼 때 활용함
  • 호텔에서 고객의 논평을 받아 서비스를 개선하기 위해 활용함

소셜 네트워크 분석

  • 사회관계망분석(SNA)
  • 영향력 있는 사람을 찾아낼 수 있으면, 사람들 간 소셜관계를 파악할 수 있다

 

빅데이터 위기요인과 통제방안

1.사생활 침해

  위기요인

  • 우리를 둘러싼 정보 수집 센서들의 수가 점점 늘어나고 있고, 특정 데이터가 본래 목적 외에 가공 처리돼 2차 3차적 목적으로 활용될 가능성이 증가
  • 익명화(Anonymization) : 사생활 침해를 방지하기 위해 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 것

통제요인

  • 동의제에서 책임제로 전환
  • 개인정보의 활용에 대한 개인이 매번 동의하는 것은 경제적으로도 매우 비효율적임
  • 사생활 침해문제를 개인정보 제공자의 동의를 통해 해결하기 보다는 개인정보 사용자에게 책임을 지움으로써 개인정보 사용 주체보다 적극적인 보호장치를 강구하게 하는 효과가 발생할 것으로 기대됨

 

2.책임원칙의 훼손

   위기요인

  • 빅데이터 기반분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 해생양이 될 가능성이 증가함
  • 그러나 잠재적 위험 사항에 대해서도 책임을 추궁하는 사회로 변질될 가능성이 높아 민주주의 사회 원칙을 크게 훼손할 수 있다
  • (예)범죄 예측프로그램을 통해 범죄 전체포

  통제요인

  • 기존의 책임원칙을 강화할 수 밖에 없다

 

3.데이터의 오용

  위기요인

  • 빅데이터는 일어난 일에 대한 데이터에 의존함
  • 그것을 바탕으로 미래를 예측하는 것은 적지않은 정확도를 가질 수 있지만, 항상 맞을 수는 없음
  • 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러 올수 있음

통제요인

  • 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안을 도입 필요성 제기

 

알고리즈미스트

  • 데이터 분석 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위해서 생겨난 직업
  • 데이터 분석 알고리즘으로 인해 피해를 입은 사람을 구제하는 전문가

 

 

개인정보 비식별화 기법

데이터마스킹

  • 다양한 유형의 데이터 관리 시스템에 저장된 정보를 보호하는 데 사용되는 프로세스(카드 뒤 4자리 숨기기, 주민번호 6자리 숨기기)  

데이터범주화

  • 변수가 가질 수 있는 가능한 값들을 몇 개의 구간으로 범주화
  • 홍길동,35세  --> 홍씨,35~40세

가명

  • 개인식별 정보를 삭제, 알아볼 수 없는 형태로 변환
  • 홍길동,국제대 재학 => 임꺽정,한성대 재학

잠음 첨가

  • 자료 값에 잡음을 추가하거나 곱해 원래 자료에 약간의 변형을 가하여 공개

총계처리 / 평균 값 대체

  • 데이터의 총합 값을 보임으로 개별 데이터의 값이 보이지 않도록 함

데이터 값 삭제

  • 데이터 셋의 값 중 필요없는 값 또는 개인 식별에 중요한 값 삭제
반응형