1,000개 Kubernetes 클러스터를 AI가 운영한다: 삼성전자의 Cast AI 도입기

클라우드 비용 절감, '정석'만으로는 부족한 순간이 온다
클라우드 비용 최적화하면 대부분의 기업이 떠올리는 방법은 정해져 있습니다. Reserved Instance를 구매하거나 Savings Plan에 커밋하는 것. AWS에 일정 기간 사용을 약속하고 할인을 받는 이 전통적인 방식은 수년간 비용 절감의 정석으로 통해왔습니다.
그런데 이 정석이 더 이상 충분하지 않은 환경이 있습니다. Kubernetes 클러스터가 1,000개를 넘고, 그 위에서 돌아가는 애플리케이션이 50개 이상이며, 수만 대의 가상 머신이 4개의 클라우드에 분산되어 있는 환경. Samsung Wallet처럼 서비스가 1초라도 멈추면 사용자가 마트에서 결제를 못 하는, 그런 수준의 미션크리티컬 서비스가 그 위에서 돌아가고 있는 환경입니다.
삼성전자 Cloud Team의 Next Gen. Cloud Group을 이끄는 Tylor Kim(김교탁) 그룹장은 이 문제의 본질을 정확히 꿰뚫고 있었습니다. 작년까지 RI와 Savings Plan에만 의존해왔지만, AWS에 대한 장기 커밋먼트가 전제되는 이 방식은 멀티클라우드 환경에서 충분히 매력적이지 않았다는 것입니다.
김교탁 그룹장이 찾은 답은 AI 에이전트였습니다. 인프라를 사람이 모니터링하고 수동으로 조정하는 방식이 아니라, AI가 실시간으로 워크로드를 분석하고 자동으로 최적화하는 구조. 그 중심에 Cast AI가 있었습니다.
삼성전자가 직면한 세 가지 도전과제
삼성전자의 클라우드 인프라를 이해하려면 먼저 그 규모를 파악해야 합니다. 김교탁 그룹장이 이끄는 Core SRE 파트는 Bixby, Galaxy AI, Samsung Wallet, Samsung Account 같은 삼성전자의 핵심 AI 서비스와 미션크리티컬 프로젝트를 운영합니다. 이 서비스들이 올라가 있는 인프라의 규모는 일반적인 엔터프라이즈의 상상을 넘어섭니다.
첫 번째 도전은 규모와 복잡성 그 자체였습니다. AWS, Google Cloud, Azure, 그리고 삼성 프라이빗 클라우드까지 4개의 클라우드 프로바이더를 동시에 운영하고, AWS 위에서만 50개 이상의 애플리케이션이 돌아가며, EKS 클러스터는 1,000개를 넘고, 가상 머신은 수만 대에 달합니다. 이 환경에서 Kubernetes 버전 업그레이드 하나를 수행하는 것조차 엄청난 시간과 리소스가 소요됩니다. 멀티클라우드 위에서 보안 정책을 일관되게 유지하고, 개발자와 운영자 각각에게 적절한 권한을 설계하는 것도 별도의 도전이었습니다.
두 번째 도전은 CPU와 GPU 워크로드의 공존이었습니다. AI 학습(Training)팀은 단일 대형 클러스터에서 안정적으로 학습을 돌릴 수 있는 환경을 원했고, 추론(Inference)팀은 비용 효율적인 GPU를 더 많이 확보하기를 원했습니다. 전통적인 백엔드 개발팀은 이 모든 것을 통합적으로 관리할 수 있는 도구를 요구했습니다. 서로 다른 요구사항을 가진 팀들이 하나의 인프라 위에서 공존해야 하는 구조적 과제였습니다.
세 번째 도전은 비용 절감 전략의 근본적 한계였습니다. RI와 Savings Plan은 장기 커밋먼트를 전제로 합니다. 삼성전자처럼 멀티클라우드를 운영하면서 워크로드가 수시로 변하는 환경에서는 이 커밋먼트 자체가 리스크가 됩니다. 특정 클라우드에 대한 의존도를 높이지 않으면서도 비용을 줄일 수 있는, 근본적으로 다른 접근이 필요했습니다.
Agentic AI, 인프라 운영의 패러다임을 바꾸다
삼성전자가 선택한 접근법은 단순히 비용 최적화 도구를 하나 도입하는 것이 아니었습니다. 인프라 운영 전체를 AI 에이전트 기반으로 전환하는 것이었습니다.
삼성전자의 Agentic AI 프레임워크는 인프라 관리, 보안, 변경관리, 모니터링 등 각 영역에 특화된 AI 에이전트들이 독립적으로 작동하면서도 서로 협업하는 구조입니다. 이 에이전트들 위에는 전체를 조율하는 Supervisor Agent가 존재합니다. 김교탁 그룹장은 이 구현이 완료되면 운영 시스템 자체가 한 차원 높은 수준의 지능을 갖추게 될 것으로 전망합니다.
이 프레임워크의 핵심 실행 엔진으로 선택된 것이 Cast AI입니다. Cast AI는 Amazon EKS 위에서 AIOps와 워크로드 관리를 동시에 수행하는 통합 최적화 플랫폼으로, 삼성전자의 아키텍처 중앙에 위치합니다. 김교탁 그룹장이 Cast AI를 선택한 이유는 명확했습니다. 50개 이상의 애플리케이션을 운영하는 환경에서는 아키텍처가 단순해야 하는데, Cast AI는 인프라에 하나의 컴포넌트만 추가하면 되기 때문입니다. 그것만으로 Agentic AI 아키텍처를 실현할 수 있었다는 것이 그의 설명입니다.
다만 이 '단순함'을 실현하기까지의 과정은 결코 단순하지 않습니다. 1,000개 이상의 EKS 클러스터에 걸쳐 Cast AI를 안정적으로 배포하고, 멀티클라우드 환경과의 정합성을 검증하며, 미션크리티컬 서비스의 보안 가이드라인과 충돌 없이 운영하려면 Kubernetes 운영에 대한 깊은 전문성과 대규모 엔터프라이즈 환경에서의 실행 경험이 전제되어야 합니다. 솔루션의 기능만으로는 충분하지 않고, 그것을 현실의 복잡한 환경에 안착시킬 수 있는 실행력이 함께 필요한 영역입니다.
핵심 구현: 세 가지 축이 만드는 비용 최적화
1)빈 패킹 최적화: “이것만으로 30%가 절감됐다”
Cast AI 도입을 검토하는 기업들이 가장 먼저 관심을 갖는 것은 보통 스팟 인스턴스입니다. 더 싼 인스턴스를 쓰면 비용이 줄어드는 것은 직관적으로 이해되기 때문입니다. 그런데 김교탁 그룹장의 팀이 먼저 시도한 것은 빈 패킹(Bin Packing)이었습니다. 그리고 결과는 예상을 뛰어넘었습니다.
빈 패킹은 쉽게 말해 '짐을 상자에 빈틈없이 채우는 것'입니다. Kubernetes 환경에서는 Pod(워크로드)를 노드(서버)에 얼마나 효율적으로 배치하느냐의 문제입니다. 대부분의 환경에서 노드의 리소스는 놀라울 정도로 비효율적으로 사용됩니다. CPU 할당은 30%인데 실제 사용은 5%인 노드가 수백 대씩 존재하는 것이 현실입니다.
Cast AI의 빈 패킹 에이전트는 워크로드의 실제 리소스 사용 패턴을 분석하고, 가장 비용 효율적인 노드에 최적으로 배치합니다. 단순히 빈 공간을 채우는 것이 아니라, 노드의 비용 대비 리소스 효율을 계산해서 전체 인프라의 가성비를 극대화하는 지능형 배치입니다.
김교탁 그룹장에 따르면, 빈 패킹 자동화에만 집중했을 때 비용 절감이 30% 이상에 달했습니다. 스팟 인스턴스까지 병행하면 절감 효과는 더 커질 것으로 보고 있습니다.
2)스팟 인스턴스: “커밋먼트 없이 더 싸게”
빈 패킹이 '기존 리소스를 효율적으로 쓰는 것'이라면, 스팟 인스턴스는 '리소스 자체를 더 싸게 확보하는 것'입니다. AWS 스팟 인스턴스는 온디맨드 대비 최대 90%까지 저렴하지만, AWS가 언제든 회수할 수 있다는 리스크가 있습니다. 이 때문에 대부분의 엔터프라이즈는 스팟 사용을 꺼려왔습니다.
Cast AI가 이 방정식을 바꿨습니다. Cast AI는 스팟 인스턴스의 가용성과 가격을 실시간으로 모니터링하면서, 회수 신호가 감지되면 자동으로 워크로드를 다른 노드로 이동시킵니다. 삼성전자에게 이것은 특히 매력적이었습니다. RI나 Savings Plan처럼 AWS에 장기 커밋먼트를 할 필요 없이, 그보다 더 저렴한 인프라를 확보할 수 있었기 때문입니다.
김교탁 그룹장은 올해부터 스팟 인스턴스를 본격적으로 고려하기 시작했다고 밝혔습니다. Cast AI 솔루션 도입 이후 스팟이 매우 매력적인 선택지가 되었다는 것이 그의 판단입니다.
3)실시간 라이트사이징: “50명의 SRE가 매일 아침 하던 일”
세 번째 축은 실시간 라이트사이징입니다. Cast AI 에이전트는 24시간 내내 워크로드의 리소스 사용량을 모니터링하면서, 필요에 따라 노드를 추가하거나 축소합니다. 이것이 삼성전자의 운영 현실에서 왜 중요했는지를 이해하려면, Samsung Wallet의 사례를 떠올리면 됩니다.
한국의 소비자들은 이제 플라스틱 카드를 들고 다니지 않습니다. Samsung Wallet이 멈추면 마트에서 결제 자체가 불가능해집니다. 이런 서비스에서 성능 저하나 레이턴시 증가는 곧 장애입니다. 그래서 삼성전자의 SRE 팀은 50명 이상의 엔지니어가 매일 아침 시스템 상태를 모니터링하는 것이 일상이었습니다.
Cast AI 도입 이후, 이 일상이 바뀌었습니다. 김교탁 그룹장에 따르면, Cast AI를 설치한 이후 SRE 엔지니어들이 매일 아침 수행하던 모니터링 업무가 사실상 불필요해졌습니다. Cast AI의 모니터링 대시보드를 통해 인프라 상태와 최적화 진행 상황을 한눈에 파악할 수 있게 되었고, AI 에이전트가 워크로드 변화에 따라 자동으로 노드를 조절하면서 오버프로비저닝과 언더프로비저닝이 동시에 해소되었습니다.
이 자동화가 만드는 진짜 가치는 비용 절감 그 이상입니다. 김교탁 그룹장은 자동화 덕분에 팀이 다른 일에 집중할 수 있게 되었다고 말합니다. 실제로 운영에서 해방된 엔지니어들은 현재 새로운 AI 에이전트를 개발하는 데 시간을 쏟고 있습니다. 운영에서 해방된 엔지니어들이 다시 혁신에 투입되는, 선순환 구조가 만들어진 것입니다.
성과: AI 자동화, 빈 패킹, 스팟의 3축 결합
삼성전자가 Cast AI를 통해 얻은 성과를 정리하면 세 가지로 압축됩니다.
첫째, 운영 오버헤드의 근본적 감소입니다. AI 기반 자동화가 인프라 관리를 간소화하면서, 수동 스케일링, 프로비저닝, 최적화에 들어가던 엔지니어링 리소스가 해방되었습니다. 50명 이상의 SRE가 모니터링에 쏟던 시간을 새로운 에이전트 개발과 AI 운영 환경 고도화에 투입할 수 있게 된 것은, 단순한 효율화가 아니라 조직의 역량 방향 자체가 전환된 것입니다.
둘째, 애플리케이션 효율의 실질적 향상입니다. 실시간 라이트사이징이 리소스를 지속적으로 적정 수준으로 유지하면서, 과잉 할당으로 인한 비용 낭비와 부족 할당으로 인한 성능 저하가 동시에 해소되었습니다. 물리적인 리소스를 최대한 활용하는 구조가 만들어진 것입니다.
셋째, 유의미한 비용 절감입니다. AI 자동화, 스마트 빈 패킹, 스팟 인스턴스 활용이라는 세 가지 축의 결합이 Kubernetes 환경 전반에 걸쳐 상당한 비용 절감을 가능하게 했습니다. 빈 패킹만으로 30% 이상의 절감을 확인한 것은 시작점이며, 스팟 인스턴스 전략이 본격화되면 절감 폭은 더 확대될 전망입니다.
이 프로젝트가 보여주는 성공의 핵심 요인은 '복잡한 문제를 단순한 아키텍처로 풀었다'는 점입니다. 4개 클라우드, 1,000개 클러스터, 50개 이상의 앱이라는 압도적 복잡성 속에서, Cast AI라는 하나의 컴포넌트를 중심으로 전체 최적화를 달성한 설계 철학. 그리고 이 단순한 설계를 현실의 복잡한 엔터프라이즈 환경에 안착시키기 위해서는, 멀티클라우드 운영 경험과 대규모 Kubernetes 환경에서의 실행 역량을 갖춘 전문 파트너의 역할이 결정적이었습니다.
미래: 완전 자율 클라우드 운영을 향해
삼성전자가 그리는 미래는 명확합니다. 완전한 AI 기반 자율 클라우드 운영입니다.
현재도 Samsung Wallet이나 Galaxy AI 같은 미션크리티컬 서비스는 24시간, 7일 내내 모니터링이 필요합니다. 사람이 이것을 지속적으로 수행하는 데는 본질적인 한계가 있습니다. Cast AI 도입 이후 삼성전자는 이 인간 개입을 최소화하는 방향으로 빠르게 이동하고 있습니다. Cast AI가 수집하는 인프라 로그와 최적화 데이터를 기반으로 더 고도화된 AI 자율 운영 체계를 구축하는 것이 다음 단계입니다.
GPU 처리 역시 중요한 확장 방향입니다. NVIDIA GB200, GB300 같은 차세대 하드웨어가 등장하면서 CPU와 GPU의 결합 워크로드가 더욱 중요해지고 있습니다. 삼성전자는 이미 GPU와 CPU 혼합 워크로드를 운영하고 있으며, 이 운영을 더 체계적으로 최적화하는 것에 높은 관심을 두고 있습니다.
멀티클라우드 환경에서의 통합 최적화도 핵심 과제입니다. 하나의 퍼블릭 클라우드에 장애가 발생했을 때 워크로드를 다른 클라우드로 자동 전환하는 오케스트레이션은 운영팀에게 가장 도전적인 과제 중 하나입니다. 삼성전자는 이 복잡한 오케스트레이션을 단순화하기 위해 아키텍처 중심에 Cast AI를 두는 전략을 계속 확장할 계획입니다.
김교탁 그룹장이 바라보는 방향은 분명합니다. 비용 효율적이면서도 AI가 주도하는 클라우드 운영, 그것이 삼성전자가 나아가는 길입니다.
삼성전자의 사례는 1,000개 이상의 Kubernetes 클러스터를 운영하는 초대형 환경에서 Cast AI가 만들어내는 실질적인 변화를 보여줍니다. 빈 패킹, 스팟 인스턴스, 실시간 라이트사이징이라는 세 가지 축의 결합이 어떻게 운영 효율과 비용 절감을 동시에 달성하는지, 그 구체적인 아키텍처와 구현 과정은 아래 영상에서 더욱 생생하게 들어보실 수 있습니다.
Cast AI 도입 검토, Kubernetes 비용 최적화 전략 수립, 멀티클라우드 환경에서의 운영 고도화에 대한 상담이 필요하시면, Cast AI 공식 파트너인 메타넷엑스를 통해 문의하실 수 있습니다.