공부하는 쏭쏭

04.21. Database on AWS 본문

뉴딜_파이썬 수업

04.21. Database on AWS

경제, 코딩 공부하는 쏭이 2023. 4. 25. 14:16

외부 Resource <-> api로 가져올 수 도 , Scrapping

ETL을 통해 데이터웨어 하우스를 만들 수 있고
S3 같은 데이터 저장소 (Data storge) -> 데이터 레이크 (데이터호수)
데이터를 한곳에 모아두었다 : 데이터 호수

?? 데이터호수를 어떻게 구축할 것이냐?

여러 데이터베이스를

Hive (Athena)
OLAP 조회를 다양하게 볼 수 있는 관점
ex) 지역을 확대해서 본다거나 .... 등

statistics (python , R ..) -> 통계분석 , 머신러닝, 딥러닝

Legacy database providers

  • 고비용
  • 라이센스 비용
  • 고착화
  • 징벌적 라이선스 체계

RDS : Relation Data ..?

엘라스틱 서치 (Elastic Search) : 검색엔진
open source

  • 검색 인덱싱을 만든다
  • Logstash: 정비된 데이터들을 엘라스틱 데이터를 끌어다가 보내는 것
  • Kibana - 그래프로 시각화 하는 것

21년 후 : 상업화가 됨

Fork를 한다
-원천 소스를 가지고서 다른 길로 간다 : Open Search (무료)

  • 엘라스틱 특정 버전 이전에는 오픈소스 무료, 이후에는 유료

APD
Open Search로 보내면 1. 로그검색 ,
2. 로그시각화 (어떤 시간대에 에러가 많이 나왔는지)

클라우드 서비스 : 좀 더 빠른 문제를 찾기 위해서 클라우드 서비스를 많이 사용한다

관리의 용이성 : Performance Insight

고가용성 : 동기화 해서
서비스 다운 안되게 , 부하 경감 하기 위해서

  • kMS : Tier 암호화

NoSQL vs RDBMS

  • 형식상 제약이 없다 (상대적으로 빨리 입력하고 조회 가능)
    MongoDB는 많이 사용한다
  • Sharding
  • 데이터 파티셔닝 Data partitioning : 데이터를 나눈다
    (데이터가 많으니까 나눠서 저장하자)
  • horizontal
  • 데이터베이스 인덱스

- Elasticshe

Caching :
Real-time analytics
Graming leaderboards

효율적으로 갈 수 있게