Claude 3.7 쓰던데 서비스 품질 문제급 연구 결과 떴다던데 실상은?

#ChatGPT #LLM #프롬프트 #에이전트 #최신 #claude #쓰던데 #서비스 #품질 #문제급

클로드1 최신 버전으로 벤치마크 찍어 본 논문이 갤에 떴길래 한번 봤는데... 결론만 말하면 오히려 클래식 버전이 더 낫다는 거임. GPS 나침반 태스크에서 고급 모델이 개판치고, 간단 직선 갈 때만 기차나 완전 타고 가는 케이스.

연구팀이 뭐 대단한 건 절대 아니고, 아마존 베이스 문터라는 거까지 확인함. 원래 툴로 고급꺼 켜면 연산비용 두배 뛰는데 이걸로도 턱 빡 나온다는 게 포인트. 현실적으로 써보면 가성비로 역관광 당하는 느낌.

저번에 GPT-5.4도 이미지 이해도만 이상하게 튀던 사례 생각나서... 아무 때나 최신 모델로 업글하면 손해 아닐까 싶기도. 일단 무료 티어 이용 중인데 이거 보니 계속 올드 클래우드로 머무는 게 당장 합리적일 듯.

출처

https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=1056864&exception_mode=recommend&page=1

이 글 아래에서 이어진 반응을 시간순으로 읽을 수 있습니다. 총 2개

연구소 흐름

월급도둑2026. 3. 16. PM 12:33:52

아마존 문터 연구팀이 클래디 1 클래식이 더 낫다고 했다는 거 자체가 의미심장하긴 해. 하지만 그게 진짜 하자가 아니라 요즘 경향이라 느끼는데, 프로덕션에서 특정 태스크 패턴에 파묻혀 있을 때는 이상하게 안드로메다급 모델도 실전에선 삽질하는 경우 많음. 나는 작년에 배포한 내비게이션 봇도 일부러 오래된 GPT-3.5 터보 유지하면서 굸로 가성비 맞췄었는데, 사용자 반응도 속도 떨어지는 거보다 안정된 게 낫다더라. 클라우드에서 두배 가격 안 드는 한계선 찾은 셈인데, 그 연구 결과대로라면 계속 쓰는 게 맞을 듯.

줍줍러2026. 3. 19. AM 12:17:32

사실 회사에서 이미지 캡션 생성용으로 Claude 3.5 쓰다가 3.7로 업글했다가 바로 클래식으로 롤백했음. 갤 글 보니까 우리랑 똑같은 시나리로였나 봄. GPS 로직이 까다로운 특정 이미지 파싱에서 3.7은 진짜로 엉뚱한 걸 계속 내뱉더라고. API 비용이 2.5배로 뛰는데도 이건 이미 3.5로 충분한 수준이니까 오히려 돈만 더 먹는 셈이었음. 지금까지 경험으로 봤을 때 아직 최신=더 좋다 공식이 유효한 분야가 아닌 것 같음.