Gemini 2.0 Flash Thinking 모델 쓰고 있는데 진짜 웃기는 게 가장 싼 input 토큰이라도 고사양 prompt 오려박으면 170 토큰짜리 사고가 2,100 토큰으로 튀어버림. 제가 지난주에 클라이언트 대시보드 만들면서 '코드 생성+리뷰+테스트' 한번에 때려 넣었더니 하루 30불 나옴ㅋㅋㅋ 세상에 이런 호구가 되어버렸네.
진짜 문제는 에이전트 돌릴 때 고도화 시키면 시킬수록 사고가 겁나 커짐. 예를 들면 MCP 서버 켜고, GitHub 툴 호출하고, Prometheus 메트릭 긁어오는 식으로 프로덕션 프로바이더처럼 짜면 100번 호출하기도 전에 50불 선딱 가버림. 그래서 경험상 cost-buffer 따로 캐싱하는 멈춤장치 빼놓으면 망함.
할 수 있는 장치는 3가지뿐. 첫째, input 토큰 압축 단계에서 system prompt 한 번만 메모이제이션. 둘째, streaming 응답 도중 early-stop trigger 넣기(별도 미니모델). 셋째, 예산 한도 넘으면 바로 채팅 잠금 걸어버리기까지 말이야. 근데 이거 다 손수 짜야하게 생겼음… 제발 공짜 계정이었으면 고민 덜 했을 텐데 ㅠㅠ
출처
- Ask HN: What is thick black row above top of header? (community_intel)
- Ask HN: What's the best computer science book you've read recently? (community_intel)
- Ask HN: How are people forecasting AI API costs for agent workflows? (community_intel)