2026.05.28 AI AI Cost ko

AI 구독제도 결국 사용량 관리 게임이 됐다

ChatGPT Plus/Pro, Claude Pro/Max, Google AI Pro/Ultra와 Codex, Claude Code, Gemini CLI의 한도 구조를 비교하고, 개인 사용자가 토큰과 사용량을 덜 낭비하는 방법을 정리합니다.

목차

처음 AI 구독제를 쓸 때는 단순하게 생각했습니다.

"월 구독료 내면 많이 쓸 수 있겠지?"

그런데 실제로 Codex, Claude Code 같은 코딩 에이전트형 도구를 쓰기 시작하면 느낌이 조금 달라집니다. 채팅 몇 번 한 것 같은데 한도가 생각보다 빨리 줄어듭니다. 특히 큰 코드베이스를 읽히거나, 긴 대화에서 계속 이어가거나, 파일을 많이 열고 도구를 많이 쓰면 체감 사용량이 확 올라갑니다.

정확히 말하면 기반은 모두 토큰입니다. 모델은 결국 입력 토큰을 읽고 출력 토큰을 만들고, API 과금도 보통 입력/출력 토큰 단위로 계산됩니다. 다만 소비자용 구독제 화면에서는 이 토큰을 그대로 보여주기보다, 서비스마다 크레딧, 메시지/사용량 한도, 세션 한도, compute 기반 한도처럼 다른 이름으로 감싸서 보여줍니다.

OpenAI는 Codex 쪽에서 토큰 기반 크레딧 구조를 비교적 직접적으로 설명하고 있고, Claude는 API에서는 토큰 단위 과금을 쓰지만 Pro/Max 구독에서는 사용량 한도, 대화 길이 한도, Claude Code 작업량을 중심으로 설명합니다. Google Gemini는 compute 기반 사용 한도와 Gemini CLI/Code Assist 쿼터를 따로 설명합니다.

그래도 사용자 입장에서는 결론이 비슷합니다.

AI 구독제 가격대

월 20달러는 이제 입문권에 가깝다

공식 문서 기준으로 보면 세 서비스 모두 비슷한 가격대를 갖고 있습니다.

서비스기본 유료권상위 작업형확인한 포인트
ChatGPT / CodexPlus $20Pro $100 / $200Codex는 Plus/Pro에서 사용할 수 있고, 사용량은 agentic usage limit과 연결됩니다.
Claude / Claude CodePro $20Max 5x $100 / Max 20x $200API는 토큰 기반이고, Pro/Max 구독은 사용량 한도 형태로 제공됩니다. Claude Code는 코드베이스 크기와 작업 복잡도도 크게 영향을 줍니다.
Google GeminiAI Pro $19.99AI Ultra $99.99 / $199.99Gemini 앱, Google 앱, 개발자 도구 쪽 한도가 요금제에 따라 확장됩니다.

여기서 중요한 건 가격표 자체보다 상위 요금제가 왜 생기는가입니다.

예전에는 월 20달러 정도면 "개인 AI 구독제"라는 느낌이었습니다. 그런데 코딩 에이전트, 딥리서치, 긴 컨텍스트, 파일 분석, 브라우저/도구 호출이 들어오면 사용량이 훨씬 빨리 늘어납니다.

AI 회사 입장에서도 무제한처럼 보이는 월정액을 계속 유지하기 어렵습니다. 그래서 이제는 월 20달러는 가볍게 쓰는 기본권, 월 100~200달러는 실제 작업을 오래 돌리는 사람을 위한 작업형 요금제처럼 나뉘는 흐름으로 보입니다.

(AI 구독료도 슬슬 고정비 항목으로 들어오는 중..)

Codex는 토큰 기반 크레딧으로 더 직접적으로 간다

OpenAI 문서를 보면 Codex는 ChatGPT Plus, Pro, Business, Enterprise/Edu 플랜 등에 포함되고, 사용량은 agentic usage limit에 포함됩니다. 또 Codex의 크레딧 계산은 2026년 4월부터 메시지 평균값보다 토큰 기반 구조로 바뀐 것으로 설명되어 있습니다.

공식 Codex rate card는 입력 토큰, 캐시 입력 토큰, 출력 토큰을 나눠서 크레딧을 계산합니다.

이건 꽤 중요한 변화입니다.

예전에는 "프롬프트 몇 번 보냈나"를 생각하기 쉬웠습니다. 하지만 토큰 기반으로 보면 질문 횟수보다 이런 요소가 더 중요해집니다.

  • 얼마나 긴 파일을 읽혔는가
  • 이전 대화 맥락을 얼마나 오래 끌고 가는가
  • 출력이 얼마나 길어지는가
  • fast mode나 고급 모델을 쓰는가
  • 여러 에이전트나 자동화를 동시에 돌리는가

즉, 같은 질문 한 번이라도 작은 코드 조각을 보는 것과 큰 레포지토리를 읽고 수정하는 것은 전혀 다른 비용 구조가 됩니다.

같은 구독제, 다른 사용량 계산법

Claude도 토큰 기반이지만, 구독제에서는 한도로 보인다

Claude 쪽도 방향은 비슷합니다.

Claude Pro는 미국 기준 월 $20이고, Max는 5x가 $100, 20x가 $200로 안내되어 있습니다. Claude Code는 Pro/Max 구독으로 연결해 사용할 수 있고, Claude 웹/데스크톱/Claude Code 활동이 같은 사용량 한도에 포함된다고 설명합니다.

여기서 먼저 분리해야 할 것이 있습니다.

  • Claude API: 입력 토큰과 출력 토큰 기준으로 과금됩니다.
  • Claude Pro/Max 구독: 사용자에게 토큰 수를 그대로 보여주기보다, 일정 시간/주간 사용량 한도와 대화 길이 한도 형태로 관리됩니다.
  • Claude Code CLI: 길이만 보는 구조가 아니라 프로젝트 복잡도, 코드베이스 크기, 파일 읽기, auto-accept 설정, 병렬 실행 여부, 모델 선택이 함께 영향을 줍니다.

그러니까 "Claude도 토큰 기반인가?"라고 물으면 답은 맞습니다. 다만 사용자가 Pro/Max에서 체감하는 화면은 "내가 몇 토큰 썼다"보다 "사용량 한도에 가까워졌다"에 가깝습니다.

체감상 중요한 건 "Claude Code만 따로 무한히 쓰는 구조가 아니다"라는 점입니다.

Claude에서 글도 쓰고, 리서치도 하고, Claude Code로 코딩도 하면 이 사용량이 서로 영향을 줍니다. 긴 대화, 첨부 파일, 사용하는 모델, 기능에 따라 보낼 수 있는 메시지 수도 달라지고, Claude Code에서는 레포지토리 크기와 작업 난이도에 따라 프롬프트 가능 횟수도 달라집니다.

또 Claude 문서는 사용량 한도와 길이 한도를 구분합니다.

  • 사용량 한도: 일정 시간 동안 얼마나 많이 상호작용할 수 있는가
  • 길이 한도: 한 대화가 얼마나 길어질 수 있는가
  • Claude Code 작업량: 프로젝트를 얼마나 많이 읽고, 수정하고, 도구를 실행하는가

긴 대화를 자동 요약해 계속 이어갈 수 있더라도, 그 과정 자체가 사용량에 영향을 줄 수 있다고 설명합니다. 결국 오래 이어지는 대화는 편하지만 공짜는 아닙니다.

Gemini도 CLI 에이전트 경쟁에 들어왔다

Google 쪽도 단순 채팅 구독만 보는 단계가 아닙니다.

Gemini CLI는 공식 문서에서 터미널에서 Gemini를 쓰는 오픈소스 AI 에이전트로 설명됩니다. ReAct 루프, 내장 도구, 로컬/원격 MCP 서버를 활용해 버그 수정, 기능 구현, 테스트 개선 같은 작업을 처리할 수 있다고 안내합니다.

또 Gemini Code Assist의 agent mode와 Gemini CLI는 quota를 공유합니다. Google Cloud 문서에는 agent mode나 Gemini CLI에서 프롬프트 하나가 여러 모델 요청으로 이어질 수 있고, Standard는 사용자당 하루 1,500 요청, Enterprise는 2,000 요청으로 안내되어 있습니다.

Gemini 앱 쪽도 compute 기반 사용 한도라는 표현을 씁니다. 프롬프트 복잡도, 사용하는 모델과 기능, 대화 길이가 한도에 영향을 주고, 5시간 단위로 갱신되다가 주간 한도에 걸릴 수 있습니다.

제가 보기엔 이 흐름이 꽤 중요합니다.

Codex, Claude Code, Gemini CLI가 모두 터미널/IDE/에이전트 흐름으로 들어오면 경쟁은 더 심해질 수밖에 없습니다. 다만 이게 단순히 "무제한에 가까워진다"로만 가기보다는, 더 좋은 모델을 더 오래 쓰려면 사용량 관리가 필요하다는 쪽으로 갈 가능성이 큽니다.

CLI 에이전트 경쟁이 바꿀 것

왜 한도가 빨리 줄어드는가

AI 구독제가 아깝게 느껴지는 순간은 보통 비슷합니다.

"별로 많이 안 쓴 것 같은데 왜 벌써 줄었지?"

그런데 에이전트형 AI에서는 사람이 보는 요청 수와 실제 내부 작업량이 다를 수 있습니다.

예를 들어 "이 프로젝트 전체적으로 봐줘"라고 하면 AI는 여러 파일을 읽고, 구조를 파악하고, 필요한 명령을 실행하고, 결과를 다시 해석합니다. 사용자는 한 번 요청했지만, 내부적으로는 여러 번의 읽기와 판단이 이어질 수 있습니다.

특히 사용량이 빨리 닳는 패턴은 이렇습니다.

토큰이 빨리 닳는 순간

패턴왜 많이 쓰는가줄이는 방법
긴 대화 계속 이어가기이전 맥락을 계속 들고 갑니다.작업이 바뀌면 새 대화로 나눕니다.
큰 파일 전체 투입필요 없는 코드까지 읽습니다.관련 파일만 먼저 추립니다.
"전체적으로 봐줘" 요청범위가 넓어 탐색량이 커집니다.함수/화면/오류 단위로 좁힙니다.
긴 설명과 코드 출력출력 토큰이 커집니다.원하는 출력 형식을 먼저 정합니다.
여러 에이전트 병렬 실행동시에 사용량을 태웁니다.병렬은 필요한 작업에만 씁니다.

여기서 핵심은 질문을 줄이라는 뜻이 아닙니다. 흐릿한 큰 요청을 줄이고, 선명한 작은 요청으로 나누는 게 낫다는 뜻입니다.

내가 쓰는 사용량 절약 기준

AI를 효율적으로 쓰려면 프롬프트를 예쁘게 쓰는 것보다 먼저 작업 단위를 잘라야 합니다.

저는 앞으로 이런 기준을 쓰려고 합니다.

토큰을 아끼는 작업 흐름

1. 계획 먼저 받기 바로 수정이나 실행을 맡기기보다, 먼저 어떤 순서로 할지 계획을 받습니다. 계획이 틀리면 실행도 틀어집니다.

2. 읽을 파일을 좁히기 전체 레포지토리보다 관련 파일 몇 개를 먼저 지정합니다. 모르면 파일 목록을 먼저 뽑고, 그다음 필요한 파일만 읽게 합니다.

3. 출력 형식을 제한하기 "자세히 설명해줘"보다 "문제 3개와 수정 방향만 표로 정리해줘"가 훨씬 낫습니다.

4. 도구 사용을 필요한 순간으로 미루기 웹 검색, 브라우저, MCP, 긴 파일 분석은 강력하지만 비용도 커질 수 있습니다. 최신 정보나 실제 검증이 필요한 순간에만 켭니다.

5. 초안과 최종 검토를 나누기 초안은 빠른 모델이나 가벼운 흐름으로 만들고, 최종 판단만 강한 모델에 맡기는 방식이 현실적입니다.

6. 긴 작업은 중간 체크포인트를 둔다 "다 알아서 해줘"보다 "여기까지 하고 결과 보고"가 낫습니다. 잘못된 방향으로 오래 달리는 걸 막을 수 있습니다.

이건 돈을 아끼는 문제이기도 하지만, 작업 품질을 지키는 방법이기도 합니다.

결국 AI 구독제는 고르는 기준이 바뀐다

예전에는 AI 구독제를 고를 때 "어느 모델이 더 똑똑한가"를 많이 봤습니다.

이제는 그 기준만으로 부족합니다.

앞으로는 이런 질문이 더 중요해질 것 같습니다.

  • 같은 돈으로 실제 작업을 얼마나 오래 할 수 있는가
  • 한도가 얼마나 예측 가능한가
  • 한도에 가까워졌을 때 크레딧을 유연하게 살 수 있는가
  • 웹/앱/CLI/IDE 사용량이 서로 어떻게 합산되는가
  • 자동화나 병렬 에이전트를 돌릴 때 비용 통제가 가능한가
  • 내가 쓰는 작업 패턴과 요금제가 맞는가

개인적으로는 AI 구독제 시장이 더 치열해질수록 가격 경쟁도 생기겠지만, 동시에 각 회사가 사용량을 더 정교하게 계산할 거라고 봅니다.

사용자 입장에서는 "무제한처럼 보이는 월정액"을 믿기보다, 내 작업 습관을 기준으로 구독제를 골라야 합니다.

정리하면 이렇습니다.

[!CHECK] 내 결론

AI 구독제는 이제 단순히 월 얼마짜리 서비스가 아니라, 한정된 고성능 작업 시간을 어떻게 배분할지 정하는 도구에 가깝습니다.

그래서 저도 앞으로는 AI를 쓸 때 "이 모델이 제일 좋은가"만 보지 않으려고 합니다.

"이 작업에 이 정도 사용량을 태울 가치가 있는가?"

이 질문을 같이 봐야 할 것 같습니다. (구독료는 작아 보이다가 카드값에서 존재감을 드러냄)

확인한 공식 문서

댓글

0

댓글 작성

댓글은 공개로 등록된다. 비밀댓글은 관리자만 내용을 확인할 수 있다.