[llm] LLM 비교하면 무슨 기준 믿어야 할까

나도 개발자인데 LLM 성능측정 보면 항상 누가 이렇게 점수 매겼다만 보고 끝이더라. 딥페이스트 같은 멀티모달 벤치는 계속 오락가락 그래서 진짜 뭘 믿어야 할지 모르겠음.

근데 지난주에 회사 모바일앱에 Transformers.js 올려서 로컬 추론 테스트했다가 발견한게 있는데, 내 S23에서 7B 모델 돌릴 때 배터리 소모가 시걱거리던 그래프랑 실제 응답품질이 별개였어. 배터리 팍팍 깎아도 답변은 GPT-4 40% 수준이라고 할까.

아무튼 클라우드 API 쓰면 벤치 점수는 높아도 래터시 땜에 실무용이 아닌 경우 많고, 반면에 내 핸드폰에서는 믿을 수 없는 점수가 나와서 혼란스러움. 진짜 믿을 만한 지표가 뭔지 고민이네. 누가 솔직한 후기 좀 주면 안될까?

LLM 비교하면 무슨 기준 믿어야 할까