빅데이터분석준전문가자격증
ADsP. PART.1 - 데이터의 이해 - 데이터의 가치와 미래
theblack0
2022. 6. 18. 11:55
반응형
빅데이터이란?
1.빅데이터의 정의
- 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장,관리,분석할 수 있는 범위를 초과하는 규모의 데이터이다.
- 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집,발굴,분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.
- 데이터의 양(Volume)데이터 유형과 소스 측면의 다양성(Varirty),데이터 수집과 처리 측면에서 속도(Velocity)각 급격히 증가하면서 나타난 현상이다.
빅데이터 - 4V(RoI - Return On Inveesment,투자자본수익률 관점에서 보는 빅데이터)
Volume(데이터의 양) | 데이터의 크기,생성되는 모든 데이터를 수집 | ||
Variety(데이터의 다양성) | 데이터의 댜양성,정형화된 데이터를 넘어 텍스트,오디오,비디오 등 모든 유형의 데이터를 대상으로 함 | ||
Velocity(데이터의 속도) | 데이터의 속도,사용자가 원하는 시간 내 데이터 분석 결과 제공, 업데이터 속도 빠름 | ||
Value(데이터의 효과) | Value는 비즈니스 효과 요소.Volume,Varirty,Velocity는 투자비용 요소이다. |
빅데이터의 출현 배경
- 산업계에서 일어난 변화를 보면 빅데이터의 현상은 양질 전환 법칙으로 설명할 수 있다.
- 학계에서도 빅데이터를 다루는 현상들이 늘어나고 있다, 대표적 사례는 인간 게놈 프로젝트가 있다. (학계의 거대 데어터 활용 과학 확산
- 디지털화,저장기술,인터넷 보급,모바일 혁명,클라우드 컴퓨팅 등 관련 기술 발전과 관련이 있다.
- 클라우드 컴퓨텅 : 빅데이터 분석에 경제적 효과를 제공해준 결정적 기술
- 소설 미디어,영상 등 비정형 데이터의 확산
- 데이터 처리 기술발전
빅데이터의 역할
빅데이터는 "석탄/철,원유,렌즈,플랫폼"이다.
석탄/철
- 빅데이터는 석탄,철이 산업혁명에서 했던 역할을 지금의 제조업 뿐만 아니라 서버스 분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 기대된다.
원유
- 각종 비즈니스.공공기관 대국민 서비스,경제 성장에 필요한 '정보'를 제공하여, 산업 전반의 생산성을 향상시킬 것으로 기대된다.
렌즈
- 구글 'Ngram Viewer'를 통해 수천만권의 책을 디지털화
- 현미경의 생물학 발전에 미쳤던 영향만큼 데이터가 산업 전반에 영향을 미칠 것이다.
플랫폼
- 비즈니스 측면에서는 '공동 활용의 목적으로 구축된 유/무형의 구조물'을 의미함.
- ***페이스북***은 SNS서비스로 시작했지만, 2006년 F8행사를 기점으로 자신들의 소셜 그래프 자산을 외부 개발자들에게 공개하고 서드-파티 개발자들이 페이스북 위에서 작동하는 앱을 만들기 시작했다.
- 각종 사용자 데이터나 M2M 센서 등에서 수집된 데이터를 가공,처리,저장해두고, 이 데이터에 접근할 수 있도록 API를 공개하였다.
빅데이터의 가치 산정, 본질적 변화
빅데이터의 가치 산정이 어려운 이유
데이터의 활용방식
- 재사용이나 재조합,다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제,어디서,누가 활용할 지 알 수 없다
새로운 가치창출
- 데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어렵다
분석기술의 발달
- 분석기술의 발달로 지금은 가치없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들어내는 재고가 될 가능성이 있다.
빅데이터가 만들어내는 본질적인 변화
- 사전처리 --> 사후처리
- 표본조사 --> 전수조사
- 질(Quality) --> 양(Quantity)
- 인과관계 --> 상관관계
사전처리
- 표준화된 문서 포맷
사후처리
- 데이터를 모은 뒤 그안에서 숨은 정보를 찾아냄
빅데이터 활용 사례
- 구글 검색엔진,월마트의 구매패턴 분석,IBM왓슨 - 의료분야 활용
- 정부의 실시간 교통정보 활용,CCTV국가 안전에 활용 사회관계망분
- 석을 통한 현장분석,가수의 팬 음악청취 기록 분석 활용
- 아마존의 킨들(Kindle,전자책 전용 단말기)에 쌓이는 전자책 읽기 관련 데이터 분석해 저자들에게 제공
빅데이터 활용기법
연관규칙학습(Association rule Learning)
- 변수간 주목할 만한 상관관계가 있는지 찾아내는 방법
- 우유구매자가 기저귀도 같이 구매하는 가?
- 커피를 사는 사람들이 탄산음료도 많이 구매하는 가?
유형분석(Classification tree Analysis)
- 사용자는 어떤 특성을 가진 집단에 속하는가?와 같은 문제 해결에 사용함
- 문서를 분류하거나 조직을 그룹으로 나눌때, 온라인 수강생들을 특성에 따라 분류할 때 사용함
유전 알고리즘(Generic Algorithms)
- 최적화가 필요한 문제의 해결책을 지연선택,돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법
- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
- 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
기계학습
- 훈련 데이터로부터 패턴을 학습해 "예측"하는 일에 활용되고 있음
- 기존의 시청기록을 바탕으로 시청자가 현재 보유한 영화 중 어떤 것을 가장 보고 싶어할까?(넷플릭스 추천 시스템)
회귀분석
- 선형함수로 나타낼 수 있는 수치테이터 분석
- 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
감정분석
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석함
- 소셜 미디어에 나타난 의견을바탕으로 고객이 원하는 것을 찾아낼 때 활용함
- 호텔에서 고객의 논평을 받아 서비스를 개선하기 위해 활용함
소셜 네트워크 분석
- 사회관계망분석(SNA)
- 영향력 있는 사람을 찾아낼 수 있으면, 사람들 간 소셜관계를 파악할 수 있다
빅데이터 위기요인과 통제방안
1.사생활 침해
위기요인
- 우리를 둘러싼 정보 수집 센서들의 수가 점점 늘어나고 있고, 특정 데이터가 본래 목적 외에 가공 처리돼 2차 3차적 목적으로 활용될 가능성이 증가
- 익명화(Anonymization) : 사생활 침해를 방지하기 위해 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 것
통제요인
- 동의제에서 책임제로 전환
- 개인정보의 활용에 대한 개인이 매번 동의하는 것은 경제적으로도 매우 비효율적임
- 사생활 침해문제를 개인정보 제공자의 동의를 통해 해결하기 보다는 개인정보 사용자에게 책임을 지움으로써 개인정보 사용 주체보다 적극적인 보호장치를 강구하게 하는 효과가 발생할 것으로 기대됨
2.책임원칙의 훼손
위기요인
- 빅데이터 기반분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 해생양이 될 가능성이 증가함
- 그러나 잠재적 위험 사항에 대해서도 책임을 추궁하는 사회로 변질될 가능성이 높아 민주주의 사회 원칙을 크게 훼손할 수 있다
- (예)범죄 예측프로그램을 통해 범죄 전체포
통제요인
- 기존의 책임원칙을 강화할 수 밖에 없다
3.데이터의 오용
위기요인
- 빅데이터는 일어난 일에 대한 데이터에 의존함
- 그것을 바탕으로 미래를 예측하는 것은 적지않은 정확도를 가질 수 있지만, 항상 맞을 수는 없음
- 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러 올수 있음
통제요인
- 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안을 도입 필요성 제기
알고리즈미스트
- 데이터 분석 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위해서 생겨난 직업
- 데이터 분석 알고리즘으로 인해 피해를 입은 사람을 구제하는 전문가
개인정보 비식별화 기법
데이터마스킹
- 다양한 유형의 데이터 관리 시스템에 저장된 정보를 보호하는 데 사용되는 프로세스(카드 뒤 4자리 숨기기, 주민번호 6자리 숨기기)
데이터범주화
- 변수가 가질 수 있는 가능한 값들을 몇 개의 구간으로 범주화
- 홍길동,35세 --> 홍씨,35~40세
가명
- 개인식별 정보를 삭제, 알아볼 수 없는 형태로 변환
- 홍길동,국제대 재학 => 임꺽정,한성대 재학
잠음 첨가
- 자료 값에 잡음을 추가하거나 곱해 원래 자료에 약간의 변형을 가하여 공개
총계처리 / 평균 값 대체
- 데이터의 총합 값을 보임으로 개별 데이터의 값이 보이지 않도록 함
데이터 값 삭제
- 데이터 셋의 값 중 필요없는 값 또는 개인 식별에 중요한 값 삭제
반응형