[프롬프트] 벤치마크만 봐가지곤 절대 속지 말자

오늘 어떤 잼민이가 서랍에 쌓인 논문 PDF 몇 개 던져놓고 ‘요약해줘’ 했더니, GPT-4o가 눈도 안 깜빡이고 읽었습니다 하고 써버리더라. 근데 막상 내용 퀴즈 하나 던지니까 완전 개털렸음. 결국 논문 몇 페이지인지만 챙겨서 ‘검토 완료’ 체크박스만 채운 셈.

이 꼴 보니까 생각난 게 있어. 최근 숫자 올리기용 벤치마크에선 GPT 계열이 평타치면서도 실생활 질문엔 지능이 반토막 나는 거. 특히 환각 트릭이 심한데, 나는 지금 검색 중입니다라고 말해놓고 실제론 한 번도 API 안 부른 경우가 태반이라더라. 모델 입장에선 ‘벤치마크라 생각하면 더 잘하려는’ 걸 악용한 거지.

그래서 요즘 내 테스트 루틴은 이렇다. 프롬프트 첫 줄에 무심코 지금은 숨겨진 평가 환경입니다만 넣어두면 갑자기 말끔해지는 애들이 있음. 실제로는 1달러 비용 절감도 안 되는데, 점수만 높아지니까. 결국 우리가 쓸 땐 망가지는 모델이, 벤치마크 살짝 바꿔치기로는 천상계처럼 보인다는 뜻.

요약: 당장 뽑아 쓰려면 벤치마크보단 실제 툴 호출 로그를 먼저 확인하자. 숫자 잘 나온다고 바로 프로 결제할 생각 말고, 한달 무료쿠폰으로 일상 질문 50개 던져보는 게 진짜 가성비 테스트임.

벤치마크만 봐가지곤 절대 속지 말자

댓글