💬
카카오 오픈채팅방에서 함께해요!

생활정보, 맛집, 학업, 취업 등 Boston 한인 커뮤니티의 유용한 정보를 실시간으로 공유받아 보세요.

채팅방 참여하기 →
Published

‘한 종류 GPU 대량 구매’에서 ‘혼합 칩 운영’으로…Callosum 1,025만달러 유치, AI 추론 인프라의 관심이 이동한다

작성자: Daniel Lee · 02/26/26
참고 이미지

AI 인프라의 무게중심이 ‘대형 모델 학습(Training)을 위한 동일 GPU 대량 구축’에서 ‘추론(Inference) 비용·지연시간 최적화’로 옮겨가는 흐름이 다시 확인됐다. Fortune은 2월 26일(미 동부시간) 런던 기반 스타트업 Callosum이 1,025만달러(10.25M) 규모의 자금 조달을 마쳤다고 보도했다. 이번 라운드는 유럽 초기 VC Plural이 주도했다.

Callosum은 엔비디아 GPU, AMD 프로세서, AWS Trainium/Inferentia, Cerebras·SambaNova 등 서로 다른 가속기/칩이 섞인 환경에서 AI 워크로드를 분산·스케줄링하는 소프트웨어를 만든다. 회사가 강조하는 지점은 단순하다. ‘한 종류의 칩을 많이 깔아 성능을 올리는 방식’만으로는 비용·전력·공급망 리스크가 커졌고, 앞으로는 업무 성격에 맞춰 이기종 가속기를 조합해 시스템 단에서 효율을 뽑아야 한다는 주장이다.

다만 원문에서 함께 언급된 영국 정부의 ARIA(Advanced Research and Invention Agency) 자금은, 투자 라운드에 참여한 ‘투자금’이라기보다 연구자금(R&D funding) 성격의 지원(그랜트/보조금)으로 보도되는 흐름이 일반적이다. 즉, Callosum의 자금 조달은 (1) VC 투자(Plural 주도)와 (2) 별도의 연구자금 지원(ARIA)이라는 두 축으로 이해하는 편이 오해를 줄인다.

보스턴·케임브리지 권역 독자에게 중요한 이유는 채용·역량의 초점이 ‘모델을 더 크게 만드는 연구’에서 ‘같은 모델을 더 싸고 안정적으로 굴리는 운영 설계’까지 확장되기 때문이다. Deloitte는 2026년에 AI 컴퓨팅에서 추론 비중이 약 3분의 2 수준까지 커질 수 있다고 전망했다. 이 경우, 인프라·플랫폼·옵저버빌리티(관측성)·보안·비용관리까지 포함한 ‘추론 운영’이 예산과 성과를 좌우하는 비중이 커질 수 있다.

현장에서 벌어질 수 있는 변화(사례)

사례 1) PoC가 ‘GPU 추가 구매’에서 ‘대체 가속기 혼합’으로 바뀌는 경우 스타트업 A가 고객사 PoC를 준비하면서 GPU를 추가 구매하려 했지만 리드타임과 단가가 걸림돌이 된다. 이때 일부 추론 구간을 클라우드의 다른 가속기(예: 커스텀 실리콘)로 분산해 목표 지연시간과 비용을 맞추려 한다. 문제는 “어떤 단계는 어떤 칩이 유리한지”를 자동으로 판단해 배치하는 오케스트레이션 계층이 필요해진다는 점이다.

사례 2) 에이전트형 워크플로가 ‘단일 모델·단일 가속기’ 전제를 흔드는 경우 중견기업 B가 여러 단계의 판단·툴 호출이 포함된 에이전트형 자동화를 도입한다. 단일 모델/단일 가속기만으로는 지연시간·비용 목표가 흔들리면서, 라우팅·캐스케이드(작은 모델→큰 모델) 설계나 단계별 실행환경 분리가 늘어난다. 이때도 관건은 ‘워크플로 단’에서 비용과 안정성을 제어할 수 있는 운영 설계다.

보스턴권 팀이 함께 보는 리스크와 대안(정보 중심)

  • 리스크: 벤더가 제시하는 “n배 빠름/저렴함” 수치가 자사 트래픽 패턴, 데이터 이동, 보안·컴플라이언스 제약에서 그대로 재현되지 않을 수 있다.
  • 리스크: 멀티클라우드·혼합칩 구성은 운영 복잡도를 올려 장애 원인 추적과 책임 경계(RACI)가 흐려질 수 있다.
  • 대안(현실적 접근): 핵심 KPI(지연시간·단가·정확도)를 업무 시나리오로 고정한 뒤, 제한된 구간에서만 A/B 검증을 하고, 관측성(로그·트레이싱)과 롤백 플랜을 먼저 갖춘 후 확장 여부를 판단하는 순서가 흔히 비용을 줄인다.

단계별 실행 항목(조직/개인 공통)

  1. 현재 워크로드를 학습/추론으로 구분하고, 추론을 온라인(실시간)·배치(오프라인)로 다시 나눈다.
  2. 병목 단계를 전처리/모델 호출/후처리/검색·툴 호출 등으로 쪼개, 비용과 지연의 주범을 특정한다.
  3. 한 번에 전부를 바꾸기보다 병목 1개 구간에만 이기종 가속기 또는 대체 실행환경을 붙여 성과를 측정한다.
  4. 성과가 나오면 운영 복잡도(온콜·장애 대응·보안 감사) 비용까지 합산해 확장 여부를 결정한다.

Callosum 사례는 ‘GPU를 대체할 칩’ 경쟁이라기보다, 칩이 다양해질수록 가치가 커지는 ‘조정자(오케스트레이션) 소프트웨어’ 경쟁에 가깝다. 보스턴권에서도 AI 도입팀의 질문이 “어떤 모델을 쓸까”에서 “어떻게 더 싸고 안정적으로 굴릴까”로 이동하면서, 인프라·플랫폼·옵저버빌리티·보안까지 포함한 운영 설계 역량의 중요도가 높아지는 흐름은 더 분명해질 가능성이 있다.


댓글 작성

댓글 (0)

등록된 댓글이 없습니다.