지난번 Ask HN에 human review for production AI agents 얘기가 나와서 직접 해본 뒤 느낀 점을 공유한다. 일단 검수 단계에 사람 투입하면 서버 비용보다 인건비가 훨씬 크게 튀는데, 그래서 나는 초반에 간단한 rule‑based 필터를 두고, 의심스러운 케이스만 소수의 검수자에게 넘기는 구조를 쓰고 있다. 이렇게 하면 전체 트래픽 대비 검수 비용이 70% 가량 절감되고, 검수 시간도 평균 2초 안에 끝나서 실시간 서비스에 큰 지장을 주지 않는다.
근데 검수 품질을 높이려면 검수자 교육에 추가 비용이 들어가는데, 여기서 ROI를 직접 따져봐야 한다. 내 기준엔 일당 15달러 이하의 검수자를 활용하고, 주당 10시간 정도만 할당하면 충분히 운영 가능하니, 비용 대비 효율을 먼저 따지는 사람이라면 참고해도 좋을 듯.
출처
- Ask HN: How are you designing human review for production AI agents? (community_intel)
- Tell HN: I'm making 1K USD per hour with AI (community_intel)
- I'm 15 and built a self improvement app (community_intel)