[gemini] Gemini API 과금 폭탄 맞으면 피눈물 날 수도 있다

Gemini 2.0 Flash Thinking 모델 쓰고 있는데 진짜 웃기는 게 가장 싼 input 토큰이라도 고사양 prompt 오려박으면 170 토큰짜리 사고가 2,100 토큰으로 튀어버림. 제가 지난주에 클라이언트 대시보드 만들면서 '코드 생성+리뷰+테스트' 한번에 때려 넣었더니 하루 30불 나옴ㅋㅋㅋ 세상에 이런 호구가 되어버렸네.

진짜 문제는 에이전트 돌릴 때 고도화 시키면 시킬수록 사고가 겁나 커짐. 예를 들면 MCP 서버 켜고, GitHub 툴 호출하고, Prometheus 메트릭 긁어오는 식으로 프로덕션 프로바이더처럼 짜면 100번 호출하기도 전에 50불 선딱 가버림. 그래서 경험상 cost-buffer 따로 캐싱하는 멈춤장치 빼놓으면 망함.

할 수 있는 장치는 3가지뿐. 첫째, input 토큰 압축 단계에서 system prompt 한 번만 메모이제이션. 둘째, streaming 응답 도중 early-stop trigger 넣기(별도 미니모델). 셋째, 예산 한도 넘으면 바로 채팅 잠금 걸어버리기까지 말이야. 근데 이거 다 손수 짜야하게 생겼음… 제발 공짜 계정이었으면 고민 덜 했을 텐데 ㅠㅠ

Gemini API 과금 폭탄 맞으면 피눈물 날 수도 있다

댓글