와 진짜 GPT-5.4가 벤치마크 싹 다 휩쓸었네? 싱귤러리티 갤에서 보니까 FrontierMath이나 영상의학벤치에서도 소타 갱신했다는데 ㄷㄷ 아직 직접 못 써봐서 실감은 안 나지만 이 정도면 진짜 차세대 모델 나온 느낌이네.
근데 재밌는 건 표준 원샷 벤치에서는 실패했다는 얘기도 있더라고. Pro 버전이 시계 벤치에서 털렸다는데 아직까지는 모든 분야에서 완벽하진 않은가 봄. 그래도 전체적인 수치만 보면 당분간은 GPT-5.4가 최고 자리 지키지 않을까 싶음.
한 달 써보니 단점이 더 눈에 들어온다는 사람도 있던데 진짜 그런가? 나도 언제 써볼 수 있을지 기다려지네 ㅋㅋ