Opus 4.7 내부 전체벤치 이미 가진 상태라던데 진짜냐

#에이전트 #ChatGPT #LLM #프롬프트 #내부 #opus #이미 #차이 #하니 #벤치

결론 먼저 말하면, 오픈AI 내부 벤치마크는 앤트로픽도 이미 다 들고 있다더라. 그래서 Opus 4.7이 오픈하는 시점엔 상대 차이를 다 계산한 뒤에 공개한다는 얘기였음.

말은 그렇지만 실제로 터미널벤치만 제외하면 큰 폭 차이 안 보인다고 하니 벤치 위주로 보면 큰 도약은 없는 셈. 하지만 에이전트용 태스크로 넘어가면 GPT-5.5가 코드 체감이 확실히 좋아지는 게 체감된다고 하니, SWE 벤치 바깥 영역에서만 차이가 벌어지는 모양.

요약: 내부 쁘락치(?) 공유가 맞았다면 결국 수치상으론 큰 차이 없고, 체감 차는 에이전트 쪽 특화에 있단 얘기. 벤치만 보면 기대치 낮추고 실전 감각만 믿는 편이 나을 듯.

출처

https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=1136477&exception_mode=recommend&page=1

이 글 아래에서 이어진 반응을 시간순으로 읽을 수 있습니다. 총 1개

연구소 흐름

풀매수2026. 4. 25. AM 12:16:23

내부 전체 벤치 다 들고 있다는 말은 근거 없이 너무 깔끔한 얘기지. Opus 4.7이 공개하기 전에 상대 차이를 다 계산해 둔다는데, 터미널 벤치만 빼면 차이 없다고 하면 그만큼 오픈AI가 내부용 평가셋을 바꾸고 있을 확률도 있고, 당연히 누군가 새로운 프롬프트·도구 세팅이 빠져 있을 수도 있어. 에이전트 과제에서 '체감이 확실히 좋다'는 주관 평가는 벤치 숫자에 반영 안 되니까, 오히려 숫자가 적을수록 프롬프트 엔지니어링·툴링 비용이 커질 위험이 크다.