AWS DB Query services

Redshift

PostgreSQL을 기반으로한 클라우드 관계형 데이터 웨어하우스
구조: leader node 한 개와 compute node들로 구성됨
- leader node : 클라이언트 프로그램과 일어나는 통신을 비롯해 컴퓨팅 노드와 일어나는 모든 통신을 관리. 복합 쿼리의 실행 계획 작성. 작성된 실행 계획에 따라 코드를 컴파일하여 컴퓨팅 노드로 배포한 뒤 데이터 구간을 각 컴퓨팅 노드로 할당한다
데이터 분석을 위해 complex한 쿼리 작업을 하기에 적합
Scailing 종류가 두가지 있음
- node 갯수를 늘리기 (auto scailing의 경우 같은 성능의 노드 갯수가 많아짐)
- node 성능을 업그레이드하기
Storage limit: 최대 2PB (가장 큰 type인 ds2.8x large 사용시)
Data load: S3에 업로드한 데이터 COPY 명령어로 load 예시
Pricing: 인스턴스수 & 사용 시간
- 최저 사양 인스턴스 - .25$ per hour에서 시작
- 그 외 dense storage instance(SSD 사용) - .85$ per hour 에서 시작
완전 관리형
데이터 load시 성능 향상을 위해 같은 사이즈의 테이블로 분산시켜 입력할 것이 권장됨
transactional한 작업에는 맞지 않는다
MPP(massive parallel processing) : 다수의 컴퓨팅 노드가 각 노드의 코어마다 전체 데이터를 분할하여 동일하게 컴파일된 쿼리 세그먼트를 실행. 데이터를 병렬로 처리 할 수 있도록 테이블의 행을 계산 노드에 배포.
Columnar data storage : 데이터를 열 기반 방식으로 저장하기 때문에 디스크 i/o 요청 수나 디스크에서 로드하는 데이터 크기를 감소시킬 수 있다.
- 행 기반 스토리지
  
  OLTP에서 효과적이다.
- 열 기반 스토리지
  
  데이터 블록에 저장되는 열 필요 값이 행 방향 스토리지에 저장되는 레코드 수 보다 3배 더 많다. = 레코드 수 동일할 때 행 방향 스토리지에서 읽어야 하는 필드 값 보다 1/3 적은 I/O로 작업이 가능하다.
쿼리 결과를 리더노드의 메모리에 캐시. 이후 사용자의 쿼리 제출 후 캐시 된 쿼리 결과 복사본 발견되면 쿼리를 실행하지 않아 성능이 향상됨

DynamoDB

key-value 타입의 document databse
primary key를 기반으로 사용하는 쿼리 언어 보유
dynamic 하게 프로비젼되는 용량을 변화시키는 오토 스케일링 제공
stream 기능 (event 발생할 때 마다 자동 실행되는 트리거)