아마존 AI 사용률 압박 논란, 보스턴 직장인이 봐야 할 기준은 토큰 수가 아니다

작성자: Daniel Lee · 05/15/26

아마존 일부 직원들이 사내 AI 도구 사용량을 높이기 위해 실제 필요성이 낮은 업무까지 AI에 맡겼다는 보도가 나왔다. 쟁점은 AI 도구를 쓰느냐의 문제가 아니라, 기업이 AI 도입 성과를 무엇으로 측정하느냐에 있다. 보스턴권 테크, 금융 IT, 바이오, 연구기관에서 일하거나 취업을 준비하는 독자에게도 이 흐름은 면접 답변, 성과평가, 업무 방식 변화와 맞닿아 있다.

TechRadar, Tom’s Hardware, PYMNTS 등은 5월 12~14일 전후 보도에서 아마존 직원들이 내부 AI 에이전트 도구인 MeshClaw를 활용해 토큰 사용량을 늘리는 사례가 나타났다고 전했다. 이들 보도는 Financial Times를 인용해 아마존이 개발자의 80% 이상이 매주 AI 도구를 쓰도록 하는 목표를 세웠고, 내부 리더보드에서 토큰 소비량을 추적했다고 설명했다. 아마존은 사용 통계가 성과평가에 직접 반영되지는 않는다는 입장을 보였지만, 일부 직원들은 관리자가 해당 수치를 보고 있다는 압박을 느꼈다고 전해졌다.

여기서 토큰은 AI 모델이 문장을 읽고 답을 만드는 데 쓰는 작은 단위다. 단어 하나가 여러 토큰으로 나뉘기도 하고, 입력한 내용과 AI가 생성한 답변 모두 토큰으로 계산된다. 기업 입장에서는 토큰이 곧 비용과 연결된다. 많이 쓸수록 모델 사용료와 컴퓨팅 비용이 늘기 때문이다.

이번 논란에서 거론된 ‘tokenmaxxing’은 AI로 실제 성과를 내는 것보다 토큰 소비량을 키우는 행동을 뜻한다. 예를 들어 AI가 필요하지 않은 단순 업무를 일부러 에이전트에 맡기거나, 반복 호출을 늘려 사용량 지표를 높이는 방식이다. AI 에이전트는 이메일, 코드 저장소, 협업 도구, 업무 앱을 오가며 사용자를 대신해 작업을 수행하는 소프트웨어다. 제대로 쓰면 생산성을 높일 수 있지만, 잘못 측정하면 ‘얼마나 썼는가’가 ‘무엇을 개선했는가’를 밀어낼 수 있다.

보스턴 기반 엔지니어링 분석 기업 Jellyfish의 2026년 1분기 분석도 이 문제를 보여준다. Jellyfish는 200개 기업의 개발자 1만2,000명을 분석한 결과, 토큰 사용량이 많은 개발자일수록 병합된 풀리퀘스트(PR) 수가 늘어나는 경향은 있었지만 증가 폭이 비용 증가와 비례하지는 않았다고 밝혔다. 하위 20% 사용군은 분기 전체 토큰 비용이 약 3달러이고 평균 11개의 PR을 병합한 반면, 상위 20% 사용군은 약 1,822달러를 쓰고 평균 23개의 PR을 병합했다. PR당 비용은 낮은 사용군의 0.28달러에서 높은 사용군의 89.32달러로 커졌다.

이 수치는 AI 도구가 효과가 없다는 뜻이 아니다. 오히려 AI 사용이 산출물 증가와 연결될 수 있다는 점을 보여준다. 다만 토큰 사용량만으로 생산성을 판단하기 어렵고, 비용 대비 결과를 함께 봐야 한다는 의미에 가깝다. 기업들이 AI를 실험용 도구가 아니라 운영비 항목으로 보기 시작하면서 이 구분은 더 중요해지고 있다. 클라우드 비용, 모델 사용료, 보안 검토, 데이터 관리 비용이 모두 붙기 때문이다.

보스턴권에는 금융, 헬스케어, 바이오, 대학 연구기관처럼 민감한 데이터를 다루는 조직이 많다. 이런 환경에서는 AI를 많이 썼다는 사실보다 민감정보를 보호하면서 정확도, 처리 시간, 검증 절차를 어떻게 개선했는지가 더 중요한 평가 기준이 된다. 특히 의료 데이터, 연구 데이터, 고객 금융정보처럼 규제가 강한 영역에서는 AI 사용량 자체가 성과 지표가 되기 어렵다.

유학생과 신입 지원자에게는 이력서와 면접에서 AI 경험을 설명하는 방식이 달라질 수 있다. 단순히 ChatGPT, Claude, Copilot을 써봤다고 적는 것보다 어떤 반복 업무를 줄였는지, 결과물을 어떻게 검증했는지, 오류와 비용을 어떻게 관리했는지를 말하는 편이 더 설득력 있다. 코드 작성 직무라면 테스트, 코드 리뷰, 배포 안정성까지 연결해 설명할 필요가 있다. 데이터 분석이나 바이오인포매틱스 직무라면 AI가 만든 결과를 원자료와 어떻게 대조했는지가 중요하다.

현직자에게는 성과평가 방식이 더 현실적인 문제다. 회사가 AI 사용률 대시보드나 내부 리더보드를 운영하면 직원은 사용량을 의식할 수밖에 없다. 하지만 장기적으로는 토큰 수보다 업무 처리 시간 단축, 고객 응답 품질, 코드 결함 감소, 문서 정확도, 규제 리스크 축소 같은 결과 지표를 남겨두는 편이 안정적이다. AI를 많이 호출하는 사람보다 AI 결과를 검토하고 실제 업무 흐름에 맞게 통합하는 사람이 더 필요한 조직도 늘어날 수 있다.

이직 준비자와 H-1B, OPT, STEM OPT를 고려하는 독자에게도 참고할 지점이 있다. 비자 문제는 개인 상황과 회사 정책에 따라 달라지므로 일반화하기 어렵다. 다만 채용 시장에서는 스폰서십 가능성뿐 아니라 직무의 지속성, 팀의 예산 구조, AI 도입 목적을 함께 살펴볼 필요가 있다. AI 도입을 강조하는 회사라면 어떤 팀을 늘리고 어떤 업무를 줄이는지, AI 도구가 제품 경쟁력 강화인지 단순 비용 절감인지 면접 과정에서 확인해볼 만하다.

창업 관심자에게는 비용 구조가 핵심이다. AI 에이전트를 제품에 넣으면 초기 개발 속도는 빨라질 수 있다. 그러나 사용자가 늘수록 토큰 비용과 클라우드 비용이 매출보다 빠르게 커질 수 있다. 스타트업의 burn rate, 즉 매달 소모되는 현금 규모를 계산할 때 인건비뿐 아니라 AI 사용료, 모델 호출 비용, 데이터 보관 비용도 함께 봐야 한다. 투자자들도 앞으로는 ‘AI를 붙였다’는 설명보다 고객 한 명을 서비스하는 데 드는 AI 비용과 실제 업무 완료율을 더 구체적으로 물을 가능성이 있다.

독자가 지금 확인할 부분은 비교적 분명하다. AI 도구를 썼다는 사실보다 AI로 줄인 시간, 줄인 오류, 높아진 품질, 관리한 비용을 숫자나 사례로 정리할 수 있어야 한다. 개발자는 테스트와 코드 리뷰를, 데이터 직무 지원자는 검증 절차를, 운영·기획 직무 지원자는 업무 흐름 개선과 비용 관리를 함께 설명하는 연습이 필요하다. 보안과 컴플라이언스가 중요한 보스턴권 산업에서는 AI 사용 경험에 더해 데이터 취급 원칙을 이해하고 있다는 점도 경쟁력이 될 수 있다.

이번 논란은 AI가 직장을 곧바로 대체한다는 단순한 이야기와는 거리가 있다. 더 중요한 변화는 기업들이 AI 사용을 기본 업무 방식에 포함시키면서도, 그 효과를 어떻게 측정해야 하는지 아직 조정 중이라는 점이다. 보스턴의 직장인과 취업 준비생이 봐야 할 핵심은 토큰 수가 아니라 성과 지표다. AI를 업무에 넣되 품질, 보안, 비용, 검증까지 관리할 수 있는 사람이 더 분명한 역할을 갖게 되는 방향으로 채용과 평가 기준이 움직이고 있다.

[보스턴 인사이트 뉴스 홈] > [테크·비즈] > [AI]

아마존 AI 사용률 압박 논란, 보스턴 직장인이 봐야 할 기준은 토큰 수가 아니다

댓글 작성

댓글 (0)

관련 기사

같은 카테고리 최신