금융권 DR, 수십억의 벽을 넘다: N사가 AWS 클라우드로 10분 복구 체계를 구축한 방법

spc

금융권에서 재해복구(DR) 시스템은 일종의 보험과 같습니다. 평상시에는 눈에 보이지 않지만, 장애가 발생하는 순간 기업의 존속을 결정짓는 핵심 인프라입니다. 2023년부터 2024년까지 국내외에서 데이터센터 화재, 정전, 네트워크 장애가 연이어 발생하면서 "IDC 장애는 남의 일"이라는 인식이 크게 흔들렸습니다. 올해 발생한 국가정보자원관리원 화재 사고로 정부 시스템이 크게 타격을 입은 사례는 DR의 중요성을 다시 한번 일깨워주는 계기가 되었습니다.

문제는 비용입니다. 전통적인 DR 구축 방식은 주 센터와 거의 동급의 서버, 스토리지, 네트워크 장비를 별도 DR 센터에 갖추는 것이었습니다. 금융이나 제조처럼 무중단 서비스를 요구받는 산업에서는 전용 스토리지 어플라이언스까지 도입하면서 투자 규모가 수십억에서 수백억 원 단위까지 커지곤 했습니다. 매출에 직접 영향을 주는 신규 서비스 투자와 비교하면 DR은 항상 후순위로 밀릴 수밖에 없었고, 예산이 한정된 상황에서 경영진은 가시적 성과가 나는 IT 프로젝트에 우선 배분하다 보니 DR 인프라는 아예 착수조차 못하는 경우도 많았습니다.

국내 금융권 N사도 이러한 현실 앞에 서 있었습니다. 그런데 예상치 못한 외부 변수가 오히려 전환의 계기가 되었습니다. N사는 클라우드 기반 DR을 통해 비용의 벽을 넘는 동시에, 10분 이내 복구라는 성과를 달성했습니다. 이 글에서는 그 여정을 따라가 보겠습니다.


 

위기에서 시작된 전환: VMware 라이선스 정책 변경이라는 변수

N사는 금융권 특성에 맞춰 이미 클라우드 DR 환경을 운영하고 있었습니다. 타 CSP(클라우드 서비스 제공자)의 VMware 서비스를 기반으로 재해복구 체계를 갖추고 있었고, VMware SRM(Site Recovery Manager)을 통해 DR 프로세스를 관리해 왔습니다.

그런데 2023년 브로드컴(Broadcom)이 VMware를 인수하면서 상황이 급변했습니다. 기존 영구 라이선스가 종료되고 구독 모델로 전환되면서 라이선스 비용이 급격히 상승했고, 일부 서비스는 사실상 사용이 불가능한 상황에 이르렀습니다. 메타넷티플랫폼의 신민창 매니저는 당시 상황을 이렇게 설명합니다. "브로드컴의 VMware 인수 이후 라이선스 정책이 변경되면서, 기존 DR 환경에서 사용하던 VMware 기반 인프라를 그대로 유지하기 어려운 상황이 되었습니다. 특히 VMware SRM 기반으로 구성된 DR 체계를 대체할 방안이 필요했습니다."

여기에 규제 환경의 변화도 겹쳤습니다. 전자금융감독규정 개정으로 금융권 재해복구센터 구축 의무 대상이 확대되면서, 기존에는 대형 은행과 금융투자업자, 보험회사만 해당되던 규정이 자산 2조 원 이상의 여신전문금융회사와 저축은행, 총 거래 2조 원 이상의 전자금융업자까지 포함하게 되었습니다. 비용은 올라가고, 규제는 강화되는 이중 압박 속에서 N사에게는 근본적으로 새로운 DR 전략이 필요했습니다.


 

전략적 선택: 워크로드별 최적 DR을 조합하다

N사와 메타넷티플랫폼이 함께 내린 핵심 결정은 "모든 시스템에 동일한 DR을 적용하지 않는다"는 것이었습니다. 대신 각 업무 시스템의 비즈니스 중요도와 복구 요구사항을 정밀하게 분석하여, 워크로드별로 최적의 DR 패턴을 조합하는 3-tier 하이브리드 전략을 수립했습니다.

이 전략의 출발점은 RTO(목표 복구 시간)와 RPO(목표 복구 시점)라는 두 가지 핵심 지표였습니다. RTO는 장애 발생 후 서비스를 정상화하기까지 허용 가능한 최대 시간을, RPO는 복구 시 허용 가능한 최대 데이터 손실 범위를 의미합니다. 메타넷티플랫폼 클라우드테크팀의 김동규 이사는 이렇게 설명합니다. "예를 들어 이커머스 사이트에서 RTO가 4시간이고 시간당 매출이 1억 원이라면, 한 번의 장애로 최대 4억 원의 손실이 발생할 수 있습니다. 이처럼 비즈니스 영향도를 정량화할 수 있기 때문에 RTO와 RPO는 DR 전략 수립의 핵심이 됩니다."

분석 결과, N사의 시스템은 세 가지 등급으로 분류되었습니다. 대국민 서비스처럼 단 1초의 중단도 허용할 수 없는 미션크리티컬 시스템, 빠른 복구가 필요하지만 상시 가동까지는 불필요한 일반 업무 시스템, 그리고 상대적으로 복구 우선순위가 낮은 시스템이었습니다.

김동규 이사는 이러한 접근의 합리성을 강조합니다. "금융권의 경우에도 코어 서비스는 액티브-액티브를 사용해야 하지만, 일반적인 내부 업무나 배치 업무 같은 것들은 파일럿 라이트를 사용하는 식으로 하이브리드 DR을 고려해 볼 수 있습니다." 모든 시스템에 가장 높은 수준의 DR을 적용하면 안정성은 확보되지만 비용이 기하급수적으로 증가합니다. 반대로 비용만 고려하면 핵심 서비스의 복구 시간이 길어져 비즈니스 리스크가 커집니다. N사의 3-tier 전략은 이 사이에서 최적의 균형점을 찾은 것이었습니다.


 

아키텍처의 실체: 세 가지 DR 패턴이 만드는 비용 혁신

N사의 DR 아키텍처는 온프레미스와 AWS 클라우드를 전용선으로 연결하고, Transit Gateway를 중심으로 Stage VPC(복제용)와 Recovery VPC(복구용)를 분리한 구조입니다. 금융권 특성상 모든 통신은 전용선과 AWS PrivateLink를 활용해 프라이빗 네트워크 환경에서 이루어지도록 설계되었습니다.

미션크리티컬 서비스: 액티브-액티브

대국민 서비스를 담당하는 핵심 시스템에는 액티브-액티브 방식이 적용되었습니다. 온프레미스와 동일한 규모의 서비스가 AWS에서도 상시 가동되며, GSLB(Global Server Load Balancer)를 통해 트래픽이 분배됩니다. 평상시에는 온프레미스 100, 클라우드 0의 비율로 운영하다가, 재해 발생 시 이 비율을 즉시 역전시켜 클라우드로 전체 트래픽을 전환합니다. 데이터 동기화는 CI/CD 솔루션 또는 별도 복제 솔루션을 통해 실시간으로 이루어지며, DB의 경우 별도 DB 복제 솔루션을 활용합니다. 다만 고객 원장과 같은 민감 데이터는 자체 솔루션으로 처리하여 금융권의 보안 요구사항을 충족했습니다.


 

업무 시스템: 파일럿 라이트(AWS DRS), 10분 복구의 핵심

비용 혁신의 핵심은 파일럿 라이트 방식에 있었습니다. AWS Elastic Disaster Recovery(AWS DRS)를 활용한 이 방식은 보일러의 파일럿 램프에서 이름을 따왔습니다. 보일러의 작은 점화 불꽃이 평소에는 최소한으로 유지되다가, 가동 시 전체 시스템을 빠르게 켜는 것처럼, DR 시스템도 평상시에는 최소한의 복제 인프라만 유지하다가 재해 발생 시 필요한 규모로 빠르게 확장하는 구조입니다.

작동 과정은 이렇습니다. 먼저 온프레미스 서버에 AWS DRS 에이전트를 설치합니다. 이 에이전트는 서버 디스크를 블록 단위로 AWS의 Stage VPC에 있는 복제 서버로 지속적으로 증분 복제합니다. 데이터는 EBS(Elastic Block Store) 볼륨 형태로 저장됩니다. 이때 복제 서버는 T3.micro와 같은 소형 인스턴스를 사용하며, 원본 서버 5대당 복제 서버 1대를 두는 구성이 일반적입니다.

재해가 발생하면 관리 콘솔 또는 자동화 정책에 따라 Recovery VPC에 EC2 인스턴스가 자동으로 생성되고, 미리 복제해 둔 EBS 볼륨이 해당 인스턴스에 할당되면서 서비스가 복구됩니다. 실제 테스트에서 RPO(데이터 손실 범위)는 10분 이내, RTO(서비스 복구 시간)는 약 10~20분 수준을 달성했습니다.

비용 측면에서 이 방식의 장점은 명확합니다. 평상시에는 스토리지, 데이터 전송, 소형 복제 서버 위주로만 비용이 발생합니다. DRS를 통한 서버 복제 비용은 1대당 시간당 0.028달러 수준이며, 여기에 디스크 용량에 따른 스토리지 비용이 추가됩니다. 신민창 매니저는 "상시 서비스 관점에서 액티브-액티브 구성 대비 컴퓨팅 비용이 거의 발생하지 않는 수준"이라고 설명합니다. 기존의 상시 액티브-액티브 방식과 비교하면 총소유비용(TCO)을 약 10분의 1 수준까지 줄일 수 있는 셈입니다.


 

보조 시스템: 백업 앤 리스토어

상대적으로 복구 우선순위가 낮은 시스템에는 넷백업(Veritas NetBackup) 솔루션을 활용한 백업 앤 리스토어 방식이 적용되었습니다. 온프레미스의 백업 대상 서버에서 넷백업 서버를 통해 정책 주기별로 데이터를 백업하고, 이를 S3에 저장해 두었다가 재해 발생 시 Recovery VPC의 서버로 복원하는 구조입니다. RTO는 24시간 이내로, 비용이 가장 저렴한 대신 복구 시간이 가장 긴 방식입니다.

이 세 가지 패턴의 조합이 N사 DR 전략의 핵심이었습니다. 모든 시스템에 액티브-액티브를 적용했다면 구축과 운영 비용이 두 배로 늘어났을 것입니다. 하지만 워크로드별로 적정 수준의 DR 패턴을 매칭함으로써, 핵심 서비스의 무중단 운영을 보장하면서도 전체 DR 비용을 획기적으로 절감할 수 있었습니다.


 

현장의 교훈: 예상하지 못했던 도전과 해결

프로젝트는 원래 1~2개월 내 완료를 목표로 했으나, 실제로는 약 4개월이 소요되었습니다. 메타넷티플랫폼에서도 AWS DRS를 실전 프로젝트에 처음 적용하는 사례였기 때문에, 예상치 못한 기술적 이슈들이 발생했습니다.

가장 큰 도전은 온프레미스 환경의 설정이 그대로 복제되는 DRS의 특성에서 비롯되었습니다. 디스크를 통째로 복제하는 구조이다 보니, 온프레미스에서 사용하던 OS 레벨의 네트워크 인터페이스, 라우팅, 환경 변수 등의 설정이 AWS의 신규 EC2 인스턴스에 그대로 적용된 상태로 기동되었습니다. 당연히 AWS 환경에서는 이러한 설정들이 맞지 않았고, 하나하나 점검하고 재구성해야 하는 추가 작업이 필요했습니다.

신민창 매니저는 이 경험을 솔직하게 공유합니다. "온프레미스에 있는 모든 설정이 그대로 복사되기 때문에, AWS 환경에서는 OS 설정을 변경해야 하는 부분이 있습니다. 이 부분은 초기 설계 단계에서 완전히 예상하지 못했던 이슈였습니다."

해결의 실마리는 AWS DRS가 제공하는 자동 스크립트 실행 기능이었습니다. DRS 에이전트 설치 후 지정된 디렉토리에 스크립트를 배치하면, 복구된 EC2 인스턴스가 최초 기동될 때 해당 스크립트를 자동으로 실행합니다. 프로젝트 팀은 이 기능을 활용해 AWS 환경에 맞는 네트워크 재구성, 불필요한 온프레미스 전용 설정 정리, 기타 OS 및 환경 변수 변경을 자동화하는 스크립트를 작성했습니다. 이를 통해 DR 전환 과정에서의 수작업과 리스크를 크게 줄일 수 있었습니다.

이러한 시행착오에서 얻은 노하우는 메타넷티플랫폼의 중요한 자산이 되었습니다. 이후 유사 프로젝트에서는 설계 단계부터 OS 설정 자동화 스크립트를 사전에 준비함으로써, 구축 기간을 단축하고 복구 안정성을 높이는 데 기여하고 있습니다.


 

구축 성과: 비용 절감과 규제 준수, 두 마리 토끼를 잡다

프로젝트 완료 후 N사가 달성한 성과는 여섯 가지 영역으로 정리됩니다.

첫째, 각 시스템별 목표 RTO/RPO를 충족하여 신속한 업무 복구를 실현했습니다. 특히 AWS DRS를 활용한 파일럿 라이트 영역에서는 10분 이내 복구를 달성하여 서비스 신뢰성과 만족도를 극대화했습니다. 둘째, DRS 솔루션 도입으로 평상시에는 최소 리소스만 사용하고, 장애 발생 시 즉각적으로 자원을 확장하는 사용량 기반 과금 모델을 통해 온프레미스 대비 운영비를 절감했습니다.

셋째, FSC(금융위원회)와 FSS(금융감독원)의 엄격한 규제를 준수하여 금융권 보안 및 컴플라이언스 요건을 충족했으며, 정기적인 DR 테스트 지원을 통해 규제 대응 체계를 강화했습니다. 넷째, 실시간 데이터 복제와 빠른 복구, 재해 발생 시 자동 전환 체계를 통해 비즈니스 연속성을 확보했습니다.

다섯째, 전송 및 저장 과정에서의 암호화와 전용망 적용으로 보안성을 강화했고, Private Network를 활용하여 외부 위협을 차단하고 데이터 무결성을 보장했습니다. 여섯째, 자동화된 관리 도구와 전문 기술 지원을 통해 운영 부담을 경감하고 장애 대응 효율성을 향상시켰습니다.


 

DR은 구축이 끝이 아니다: 지속적인 운영과 진화

N사의 사례가 보여주는 가장 중요한 교훈은 DR이 한 번 구축하고 끝나는 프로젝트가 아니라는 점입니다. 조직 개편, 시스템 변경, 신규 서비스 오픈에 따라 복구 절차와 우선순위도 달라지기 때문에, 최소 연 1회 이상은 전사 또는 주요 시스템 단위의 DR 훈련을 수행하는 것이 필수적입니다.

메타넷티플랫폼은 이러한 지속적 관리의 필요성에 대응하기 위해, DR과 마이그레이션 전문 협력 서비스를 운영하고 있습니다. AWS를 비롯한 클라우드 파트너, 관계사들과 함께 전략 협의체를 구성하여 컨설팅, 아키텍처 설계, 구축, 백업, MSP 운영, IDC 장비 폐기까지 전체 라이프사이클을 원스톱으로 지원하는 모델입니다. 네트워크, 보안, 애플리케이션, 데이터베이스 등 여러 조직이 강하게 의존하는 프로젝트 특성상, 어느 한 영역이 늦거나 방향을 바꾸면 전체 일정과 품질에 영향을 미치기 때문입니다.

김동규 이사는 DR에 대한 인식 전환이 필요하다고 강조합니다. "이제 화재나 기타 재난으로 인한 서비스 중단 리스크는 더 이상 남의 일이 아닙니다. DR의 부재는 곧 비즈니스 리스크에 직결됩니다. 백업만으로 안심하던 시대는 지났습니다. 지금은 재난 사고 발생 시 얼마나 빨리 서비스를 다시 올릴 수 있는가가 경쟁력인 만큼, 지금이 바로 DR 로드맵을 수립할 때입니다."

N사의 프로젝트는 클라우드 DR이 더 이상 대기업만의 선택지가 아님을 보여줍니다. AWS DRS와 같은 클라우드 네이티브 서비스를 활용하면, 기존 인프라의 두 배를 투자하지 않고도 실질적인 DR 체계를 갖출 수 있습니다. 중요한 것은 자사 워크로드의 비즈니스 영향도를 정확히 분석하고, 그에 맞는 최적의 DR 패턴을 선택하는 전략적 접근입니다.

N사가 위기를 기회로 전환한 이 여정의 전체 과정, 구체적인 아키텍처 설계 과정, DR 패턴별 상세 비용 비교, 금융권 컴플라이언스 체크리스트, 그리고 프로젝트 현장에서의 생생한 인사이트는 아래 웨비나 영상에서 확인하실 수 있습니다.

[웨비나 다시보기 →]