증거 없이 떠드는 대신 핵심만 딱 찍어보자. 지금 나오는 벤치 들여다보면 수치가 말해준다. GPT-5.5 라이트가 HLE 30% 넘었는데도 여전히 제한 시나리오에서만 푼 거다. IMO 6번 풀이는 월요일에 또 틀려서 지수평균 82.7%에서 81.2%로 떨어졌다니까.
글에서 봤다시피 AGI 정의가 연구팀마다 다 틀려서 비교 자체가 난리다. 뇌절인 이유는 이미지-텍스트 멀티모달만 되면 AGI라고 치는 쪽도 있고, 2-shot만 넣어도 새로운 코드를 100줄 짜면 AGI라고 우기는 쪽도 있다. 수치로 증명 안 되는 얘기는 다 버려라.
정리하면 현 시점에 실제로 확인된 게 뭐냐면 GPT-5.5 베타가 코드 벤치 상위 15% 진입했고 프로버전 프리뷰는 2배 가격에 초당 토큰이 650 증가. AGI라는 단어는 아직 마케팅에 가까우니까, 다시 한 번 검증 가능한 지표만 보고 판단하자.