728x90
- 빅데이터
- 기존 데이터베이스가 저장하고 관리할 수 있는 범위를 넘어서는 대규모 데이터
- 대규모의 데이터를 저장, 관리하는 기술과 가치 있는 정보를 만들기 위해 분석하는 기술
- 빅데이터의 특징 (3V)
- 데이터 양 : 테라바이트 단위 이상의 대량 데이터
- 속도 : 많은 양의 데이터가 생성, 전달, 처리되는 속도가 빠르다.
- 다양성 : 정형, 반정형, 비정형의 데이터를 모두 포함한다.
- 빅데이터 처리 기술
- 저장 기술
- Hadoop(하둡)
- 대용량 데이터 분산 처리 가능한 자바 기반의 오픈 소스 프레임워크
- HDFS에 데이터 저장, MapReduce를 이용해 데이터 처리
- 오픈 소스이기 때문에 비용이 적게 들고, 분산형이기 때문에 처리 속도가 빠르다.
- NoSQL
- 관계 데이터 모델, SQL을 사용하지 않는 데이터베이스 시스템
- 일관성보다는 가용성, 확장성에 중점을 둔다.
- 저렴한 비용으로 분산, 병렬 처리가 가능하다. 비정형 데이터 저장 및 처리 수월
- 몽고DB, 카산드라 등.
- Hadoop(하둡)
- 분석 기술
- 텍스트마이닝 : 반정형, 비정형 텍스트에서 자연어 처리
- 오피니언 마이닝 : sns, 게시판 등에 기록된 사용자들의 의견을 수집하고 분석하여, 선호도를 추출한다.
- 소셜 네트워크 분석 : 소셜 네트워크의 연결 구조와 강도를 바탕으로 행동 패턴, 관심사 등을 추출한다.
- 군집 분석 : 데이터 간의 유사도를 추출하고 이를 바탕으로 유사 데이터 집합을 추출한다.
- 표현 기술
- R을 사용해 데이터 분석을 통해 추출한 정보를 시각적으로 표현한다.
- 저장 기술
- 빅데이터 저장 기술 예시 - NoSQL
- 특징
- 대량의 비정형 데이터 저장 및 처리
- 데이터를 분산, 저장, 처리하는 것이 가능한 데이터 베이스
- 스키마 없이 동작
- 데이터 구조를 미리 정의할 필요가 없다.
- 데이터 구조를 수시로 바꿀 수 있어 비정형 데이터를 저장하기에 적합
- 대부분 오픈소스로 구성
- 종류
- key-value
- 문서 기반
- 컬럼 기반
- 그래프 기반
- 특징
- 관계 데이터베이스와 NoSQL의 비교
구분 | 관계 데이터베이스 | NoSQL |
처리 데이터 | 정형 | 정형, 반정형, 비정형 |
대용량 | 대용량 처리 시 성능 저하 | 대용량 처리 지원 |
스키마 | 존재 | 없음, 혹은 변경 자유로움 |
트랜잭션 | 트랜잭션을 통해 일관성 유지 보장 |
트랜잭션 지원하지 않음. 일관성 유지 어려움 |
검색 | join등의 복잡한 검색 기능 제공 | 단순 데이터 검색 기능 |
확장성 | 비적합 | 적합 |
라이센스 | 고가 | 오픈소스 |
종류 | MySQL, Oracle 등 | 카산드라, MongoDB |
- 빅데이터 분석 기술 예시 - 데이터 마이닝
- 기계 학습
- 수집된 데이터로 프로그램을 학습시켜 유사 성향의 새로운 데이터가 등상 지 결과 예측
- 데이터 마이닝
- 데이터 내의 규칙과 패턴을 찾아내는 기술
- 기계 학습
728x90
'Database > DB' 카테고리의 다른 글
Database Chapter 12 - 데이터베이스 응용 기술 (0) | 2022.04.01 |
---|---|
Database Chapter 11 - 보안과 권한 (0) | 2022.03.29 |
Database Chapter 10 - 회복과 병행 제어 (0) | 2022.03.29 |
Database Chapter 9 - 정규화 (0) | 2022.03.26 |
Database Chapter 8 - 데이터베이스 설계 (0) | 2022.03.25 |
댓글