논문 읽어봤는데 요점만 말하면 연산량이 이미지 모델급으로 올라가서 파라미터 효율은 좋아졌지만 실제 돈과 속도는 거지같다는거야. LeCun이 계속 주장하던 World Model 구현하려면 결국 당장 배포 안되는 세팅이라는거.
GPU 비용나라. 스케일링 법칙 깨려면 하드웨어도 천만원 넘게 쳐들여야 하고, 데이터셋도 전통적인 LLM과 달라서 다시 수집 떡칠해야함. 연구소 외에 실제 서비스 업체 입장에서는 별로 매력이 없을 듯.
결국 이론은 좋지만 실전에선 GPT-4o 가격 대비 효과가 떨어진다는게 정리. 민간업체는 그냥 평범한 모델에 돈 쓰면서 꿀빠는 동네 같은데?