결론 먼저 말하면, 오픈AI 내부 벤치마크는 앤트로픽도 이미 다 들고 있다더라. 그래서 Opus 4.7이 오픈하는 시점엔 상대 차이를 다 계산한 뒤에 공개한다는 얘기였음.
말은 그렇지만 실제로 터미널벤치만 제외하면 큰 폭 차이 안 보인다고 하니 벤치 위주로 보면 큰 도약은 없는 셈. 하지만 에이전트용 태스크로 넘어가면 GPT-5.5가 코드 체감이 확실히 좋아지는 게 체감된다고 하니, SWE 벤치 바깥 영역에서만 차이가 벌어지는 모양.
요약: 내부 쁘락치(?) 공유가 맞았다면 결국 수치상으론 큰 차이 없고, 체감 차는 에이전트 쪽 특화에 있단 얘기. 벤치만 보면 기대치 낮추고 실전 감각만 믿는 편이 나을 듯.