TobeSteady

[AWS] AWS 기반 재해 복구(DR) 아키텍쳐 본문

ETC/IT Documentation

[AWS] AWS 기반 재해 복구(DR) 아키텍쳐

NKUT 2023. 3. 1. 18:03

1부 : 클라우드에서의 재해 복구 전략

 

재해 상황

- 지진이나 홍수와 같은 자연 재해, 전원 또는 네트워크 손실과 같은 기술적인 오류, 우발적이거나 승인되지 않은 수정과 같은 인간의 행동을 포함.

- 워크로드 또는 시스템이 기본 위치에서 비즈니스 목표를 달성하지 못하게 하는 모든 이벤트.

 

재해 복구

- DS : Disaster recovery 

- 재해 복구는 비즈니스 연속성 계획의 중요한 부분.

 

재해 복구의 목표

- 워크 로드를 복구하거나 다운 타임을 완전히 방지하는 것.

  • RTO(Recovery Time Objective) : 서비스 중단과 서비스 복원 사이의 최대로 허용되는 지연시간. 
    • 이에 따라 서비스 다운타임의 허용 가능한 기간이 결정됨.
  • RPO(Recovery Point Objective) : 마지막 데이터 복구 가능한 시점 이후에 장애시 데이터 손실을 허용 할 수 있는 최대시간.
    • 허용가능한 데이터 손실을 결정함.

 

재해 상황의 영향 범위와 대응 전략

  • 다중 가용영역 전략 : 동일 리전내 다중 가용영역. 
    • 모든 AWS 리전은 여러개의 가용 영역(AZ-Availability Zone)으로 구성됨. 
    • 각 가용영역은 각각 독립된 지리적 위치의 하나 이상의 데이터 센터로 구성됨
  • 다중 리전 전략

 

재해 복구 전략 : "액티브/패시브"와 "액티브/액티브 전략"

  1. 액티브/패시브(Passive=Standby)
    • 워크로드는 단일 사이트에서 작동하며 모든 요청은 이 액티브 리전에서 처리됨.
    • 재해상황이 발생하고 액티브 지역이 워크로드를 처리할 수 없는 경우, 패시브 사이트로 시스템이 복구됨.
      • 이후 복구된 시스템이 워크로드를 실행할 수 있도록 장애조치(Failover)을 취함.
      • 장애 조치(Failover) 이후 모든 요청은 이제 새로 복구된 사이트로 전달 되도록 전환됨.
    • RTO/RPO 를 최소화 하여 보다 효율적인 재해 복구를 위해 데이터는 실시간으로 유지되며, 인프라는 “장애 조치(Failover)” 전에 복구 사이트에 전체 또는 부분적으로 생성됨.
    • 백업에서 데이터를 복원해야 하는 경우 백업 시점 혹은 복구 가능 시점 이후의 데이터 손실이 발생가능함.
    • 또한 "장애 조치(Failover)"전에 인프라에서 추가 작업이 필요한 경우 복구 시간이 늘어날 수 있음.
  2. 액티브/액티브
    • 2개 이상의 리전 또는 가용영역에서 워크로드를 나누어 처리하고, 데이터가 복제됨.
      • 한 리전에서 재해 상황이 발생했을 경우, 해당 리전의 트래픽이 나머지 액티브 리전(Region)으로 전달되는 구조.
      • 액티브간에 데이터는 복제되고 있지만, 재해 복구 전략의 일부로 데이터를 백업함.

 

출처

https://aws.amazon.com/ko/blogs/tech/disaster-recovery-dr-architecture-on-aws-part-i-strategies-for-recovery-in-the-cloud-1/

 

AWS 기반 재해 복구(DR) 아키텍처, 1부: 클라우드에서의 재해 복구 전략 | Amazon Web Services

이 글은 AWS Architecture Blog에 게시된 Disaster Recovery (DR) Architecture on AWS, Part I: Strategies for Recovery in the Cloud을 한국어로 번역 및 편집하였습니다. 필자는 AWS Well-Architected 신뢰성 원칙의 수석 솔루션 설

aws.amazon.com