요즘 HN에서 LLM skill slop 얘기가 많이 나오더라, 나도 똑같이 느끼고 있었거든. 일단 내가 쓰던 모델은 답변 퀄리티가 급격히 안 좋아져서 팀원들하고 얘기했는데, 회귀 테스트가 없어서 문제 파악이 힘들었어. 그래서 간단히 입력‑출력 쌍을 모아 자동 검증 스크립트를 짰고, 기준 값과 비교해서 오차가 큰 경우 알림이 가도록 했어.
테스트를 돌리니 어느 정도 원인 파악이 쉬워졌고, 업데이트 전후 성능 차이를 눈으로 확인할 수 있었어. 근데 아직 완벽하진 않아서, 더 다양한 케이스 넣고 정밀도 조정은 계속 해야 할 듯.
출처
- Ask HN: Is Everyone an Engineer Now? (community_intel)
- What was your "Oh Shit" moment with GenAI? (community_intel)
- Ask HN: Hey, you, tech worker–how are you feeling? (community_intel)