[발견한] 로컬 LLM 테스트하다 발견한 흥행 요소

작은 모델로 실험하다가 꽤 재미있는 패턴 발견했어. Gemma 2B 모델로 하루 50번씩 API 호출해서 반복시도하면, 대형 모델의 절반 성능은 아주 쉽게 치고 나간다는 거야. 특히 번역이나 코드 리뷰 요약은 Claude Turbo보다 빠르면서도 가끔 더 낫다.

물론 실패도 많지. 25% 정도는 말을 너무 꿰겨서 포기. 하지만 이건 설정 조금 바꾸면 될 듯. 지금은 output token 제한이 512인데, 요즘 나온 Phi-3.5나 Llama 3.2 애들은 2048까지 잘 만든다더라.

사실 이게 큰 의미는 아닐 수 있어. 단순히 '작은 모델도 괜찮을 수 있다'라는 말 말고는. 근데 실무에서 쓰니까 진짜 주목할 만해. 클라우드 요금 절반으로 끊고도 초반 품질 테스트는 충분히 가능하더라.

혹시 이거 더 테스트 해본 사람 있어? 내가 방금 발견한 패턴이 진짜 일반적일지 궁금하다.

로컬 LLM 테스트하다 발견한 흥행 요소