케임브리지 Akamai, AI 추론을 4,400개 엣지로 분산…‘학습’보다 ‘실행’ 인프라에 무게
케임브리지에 본사를 둔 Akamai가 16일(미 동부시간) NVIDIA의 AI Grid 레퍼런스 설계를 자사 인프라에 적용한 ‘Akamai Inference Cloud’ 확장안을 공개했다. 회사 발표의 핵심은 대규모 모델을 한곳에서 학습시키는 구조와 별도로, 실제 서비스 응답이 발생하는 지점 가까이에서 AI 추론(inference)을 처리하도록 설계를 넓혔다는 데 있다. Akamai는 전 세계 4,400개 엣지 거점과 다수의 NVIDIA Blackwell 계열 GPU 클러스터를 묶는 오케스트레이션 체계를 내세웠고, 이 플랫폼이 현재는 자격을 갖춘 기업 고객을 대상으로 제공된다고 설명했다.
회사가 제시한 논리는 비교적 단순하다. 모든 AI 요청을 중앙 데이터센터로 보내면 운영은 일관될 수 있지만, 지연시간과 비용 측면에서 불리할 수 있다. 반대로 추론을 엣지로 분산하면 사용자와 가까운 위치에서 응답을 처리해 속도를 낮출 여지가 생긴다. Akamai는 이를 설명하며 어떤 요청을 고성능 GPU로 보내고, 어떤 요청을 상대적으로 저렴한 자원으로 보낼지 실시간으로 나누는 방식의 ‘토크노믹스(tokenomics)’를 언급했다. 회사 설명대로라면 비용, 처리량, 응답속도를 함께 조정하는 구조다.
적용 사례로는 게임, 금융, 미디어, 리테일이 제시됐다. 예를 들어 게임에서는 AI 기반 NPC 상호작용처럼 지연시간에 민감한 워크로드를, 금융에서는 로그인 직후 개인화 추천이나 사기 탐지처럼 짧은 시간 안에 결론을 내야 하는 요청을 겨냥하고 있다고 밝혔다. 미디어 영역에서는 실시간 트랜스코딩과 더빙, 리테일에서는 매장 내 AI 애플리케이션과 판매 보조 도구를 예로 들었다. 다만 이 대목은 회사가 제시한 활용 시나리오라는 점을 구분해 볼 필요가 있다. 실제 성능 개선 폭이나 비용 절감 폭은 고객의 트래픽 패턴, 모델 크기, 데이터 이동 구조에 따라 달라질 가능성이 있다.
상업적 신호도 함께 제시됐다. Akamai는 앞서 4년간 2억달러 규모의 서비스 계약을 공개한 바 있는데, 이번 발표에서는 이를 다수의 Blackwell GPU를 활용하는 클러스터와 분산 클라우드 서비스를 함께 제공하는 더 큰 추론 플랫폼 전략의 일부로 연결했다. 즉, 단순히 GPU 인프라를 확보했다는 수준보다, 학습과 파인튜닝 이후 실제 배포·운영 단계까지 매출화하겠다는 방향을 더 분명히 한 셈이다.
이 발표가 보스턴권 테크 업계에서 갖는 의미는 사실과 해석을 나눠 볼 필요가 있다. 확인 가능한 사실은 Akamai가 CDN으로 키운 분산 네트워크 역량을 AI 추론용 컴퓨팅과 오케스트레이션으로 확장해 설명하고 있다는 점이다. 반면, 이를 두고 보스턴권 클라우드 경쟁축이 곧바로 ‘학습’에서 ‘실행’으로 이동했다고 단정하기는 아직 이르다. 다만 업계 흐름 차원에서는, 최근 AI 인프라 논의가 모델 학습용 초대형 클러스터뿐 아니라 실제 서비스 운영 단계의 추론과 배포로 넓어지고 있다는 해석은 가능하다. 같은 날 NVIDIA가 공개한 방향 역시 AI 시장의 무게가 학습 중심에서 실시간 추론 수요로 이동하고 있음을 시사한다.
채용이나 프로젝트 수요에 대한 해석도 같은 선에서 보는 편이 적절하다. 이번 발표만으로 보스턴권 채용 수요가 즉시 확대된다고 말하기는 어렵다. 다만 기업이 추론 운영을 더 가까운 지점에서 처리하려는 흐름이 이어질 경우, 분산시스템, GPU 운영, 플랫폼 엔지니어링, API 보안, 관측성(observability) 같은 역량의 중요도가 높아질 가능성은 있다. 유학생이나 이직 준비자 입장에서는 모델 연구 자체만이 아니라 배포·운영 영역까지 포트폴리오를 넓혀 두는 접근이 현실적일 수 있다.
보안 부담도 함께 커진다. Akamai가 17일 공개한 별도 연구자료에 따르면, 2025년에 API 관련 보안 사고를 겪었다고 답한 조직은 87%였고, 일평균 API 공격은 전년 대비 113% 증가했다. AI 서비스를 더 많은 거점에 배치할수록 연결 지점과 운영 복잡성이 늘어난다는 점을 감안하면, 추론 인프라 확장과 API 보안 강화는 사실상 함께 검토해야 할 과제로 보인다. 성능이 개선되더라도 인증, 라우팅, 관측, 정책 집행이 뒤따르지 않으면 운영 리스크가 커질 수 있다는 의미다.
기업 실무 관점에서는 한 가지 장면을 떠올리면 이해가 쉽다. 예를 들어 본사 한곳에만 AI 추론을 몰아넣는 구조는 관리가 단순하지만, 여러 지역 사용자가 동시에 접속하는 서비스에서는 왕복 지연이 누적될 수 있다. 반대로 엣지와 중앙 클러스터를 혼합하면 빠른 응답을 기대할 수 있지만, 모델 배치, 캐시 일관성, 보안 정책, 비용 통제는 더 복잡해진다. 이번 Akamai 발표는 이 두 구조 중 하나를 완전히 대체하겠다는 주장이라기보다, 워크로드별로 중앙과 엣지를 섞는 운영 모델을 전면에 내세운 사례로 보는 편이 더 정확하다.
정리하면, 이번 발표의 핵심 사실은 Akamai가 자사의 분산 네트워크를 AI 추론 인프라로 확장하고, 이를 NVIDIA AI Grid와 Blackwell 기반 GPU 클러스터와 연결해 상용화 단계로 밀어붙이고 있다는 점이다. 그 위에서 가능한 해석은, 보스턴권 대표 인프라 기업 가운데 하나가 AI 경쟁의 다음 단계를 ‘더 큰 학습 클러스터’보다 ‘더 가까운 실행 인프라’에서 찾고 있다는 정도다. 다만 그 해석이 지역 전체 시장의 즉각적 이동이나 광범위한 채용 확대로 곧바로 이어진다고 보기는 어렵고, 실제 수요 확산 속도는 고객 적용 사례와 운영 성과가 더 쌓인 뒤 가늠하는 편이 적절하다.