본문 바로가기
Database/DB

Database Chapter 13 - 데이터 과학과 빅데이터

by Garonguri 2022. 4. 1.
728x90

  • 빅데이터
    • 기존 데이터베이스가 저장하고 관리할 수 있는 범위를 넘어서는 대규모 데이터
    • 대규모의 데이터를 저장, 관리하는 기술과 가치 있는 정보를 만들기 위해 분석하는 기술
  • 빅데이터의 특징 (3V)
    • 데이터 양 : 테라바이트 단위 이상의 대량 데이터
    • 속도 : 많은 양의 데이터가 생성, 전달, 처리되는 속도가 빠르다.
    • 다양성 : 정형, 반정형, 비정형의 데이터를 모두 포함한다.
  • 빅데이터 처리 기술
    • 저장 기술
      • Hadoop(하둡)
        • 대용량 데이터 분산 처리 가능한 자바 기반의 오픈 소스 프레임워크
        • HDFS에 데이터 저장, MapReduce를 이용해 데이터 처리
        • 오픈 소스이기 때문에 비용이 적게 들고, 분산형이기 때문에 처리 속도가 빠르다.
      • NoSQL
        • 관계 데이터 모델, SQL을 사용하지 않는 데이터베이스 시스템
        • 일관성보다는 가용성, 확장성에 중점을 둔다.
        • 저렴한 비용으로 분산, 병렬 처리가 가능하다. 비정형 데이터 저장 및 처리 수월
        • 몽고DB, 카산드라 등.
    • 분석 기술
      • 텍스트마이닝 : 반정형, 비정형 텍스트에서 자연어 처리
      • 오피니언 마이닝 : sns, 게시판 등에 기록된 사용자들의 의견을 수집하고 분석하여, 선호도를 추출한다.
      • 소셜 네트워크 분석 : 소셜 네트워크의 연결 구조와 강도를 바탕으로 행동 패턴, 관심사 등을 추출한다.
      • 군집 분석 : 데이터 간의 유사도를 추출하고 이를 바탕으로 유사 데이터 집합을 추출한다.
    • 표현 기술
      • R을 사용해 데이터 분석을 통해 추출한 정보를 시각적으로 표현한다.

 

  • 빅데이터 저장 기술 예시 - NoSQL
    • 특징
      • 대량의 비정형 데이터 저장 및 처리 
      • 데이터를 분산, 저장, 처리하는 것이 가능한 데이터 베이스
      • 스키마 없이 동작
      • 데이터 구조를 미리 정의할 필요가 없다.
      • 데이터 구조를 수시로 바꿀 수 있어 비정형 데이터를 저장하기에 적합
      • 대부분 오픈소스로 구성
    • 종류
      • key-value
      • 문서 기반
      • 컬럼 기반
      • 그래프 기반
  • 관계 데이터베이스와 NoSQL의 비교
구분 관계 데이터베이스 NoSQL
처리 데이터 정형 정형, 반정형, 비정형
대용량 대용량 처리 시 성능 저하 대용량 처리 지원
스키마 존재 없음, 혹은 변경 자유로움
트랜잭션 트랜잭션을 통해
일관성 유지 보장
트랜잭션 지원하지 않음.
일관성 유지 어려움
검색 join등의 복잡한 검색 기능 제공 단순 데이터 검색 기능
확장성 비적합 적합
라이센스 고가 오픈소스
종류 MySQL, Oracle 등 카산드라, MongoDB
  • 빅데이터 분석 기술 예시 - 데이터 마이닝
    • 기계 학습
      • 수집된 데이터로 프로그램을 학습시켜 유사 성향의 새로운 데이터가 등상 지 결과 예측
    • 데이터 마이닝
      • 데이터 내의 규칙과 패턴을 찾아내는 기술
728x90

댓글