공부하는 쏭쏭
04.21. Database on AWS 본문
외부 Resource <-> api로 가져올 수 도 , Scrapping
ETL을 통해 데이터웨어 하우스를 만들 수 있고
S3 같은 데이터 저장소 (Data storge) -> 데이터 레이크 (데이터호수)
데이터를 한곳에 모아두었다 : 데이터 호수
?? 데이터호수를 어떻게 구축할 것이냐?
여러 데이터베이스를
Hive (Athena)
OLAP 조회를 다양하게 볼 수 있는 관점
ex) 지역을 확대해서 본다거나 .... 등
statistics (python , R ..) -> 통계분석 , 머신러닝, 딥러닝
Legacy database providers
- 고비용
- 라이센스 비용
- 고착화
- 징벌적 라이선스 체계
RDS : Relation Data ..?
엘라스틱 서치 (Elastic Search) : 검색엔진
open source
- 검색 인덱싱을 만든다
- Logstash: 정비된 데이터들을 엘라스틱 데이터를 끌어다가 보내는 것
- Kibana - 그래프로 시각화 하는 것
21년 후 : 상업화가 됨
Fork를 한다
-원천 소스를 가지고서 다른 길로 간다 : Open Search (무료)
- 엘라스틱 특정 버전 이전에는 오픈소스 무료, 이후에는 유료
APD
Open Search로 보내면 1. 로그검색 ,
2. 로그시각화 (어떤 시간대에 에러가 많이 나왔는지)
클라우드 서비스 : 좀 더 빠른 문제를 찾기 위해서 클라우드 서비스를 많이 사용한다
관리의 용이성 : Performance Insight
고가용성 : 동기화 해서
서비스 다운 안되게 , 부하 경감 하기 위해서
- kMS : Tier 암호화
NoSQL vs RDBMS
- 형식상 제약이 없다 (상대적으로 빨리 입력하고 조회 가능)
MongoDB는 많이 사용한다
- Sharding
- 데이터 파티셔닝 Data partitioning : 데이터를 나눈다
(데이터가 많으니까 나눠서 저장하자) - horizontal
- 데이터베이스 인덱스
- Elasticshe
Caching :
Real-time analytics
Graming leaderboards
등
효율적으로 갈 수 있게