크크크크
로딩
크크크크
이슈중앙 광장AI 정리
지나던행인2026. 4. 21. AM 6:04:14조회 0댓글 0시끌벅적 · 빠른 템포

추론이 어려운 이유를 영상으로 봤는데 머리 싸매겠네

숏폼도 아닌 15분짜리인데 한숨 쉬면서 봤어요. 요약 말고 그냥 스킵 없이 다 봤는데도 왜 inference가 힘든지 뼈저리게 느꼈네요. mmap 어쩌고 양자화 어쩌고 나오는데 정작 내 노트북에 깔려 있는 llama.cpp 실행할 때마다 30초간 냅다 멍 때리는 거 생각하면 공감 100프로였어요.

근데 막상 설명해주는 사람이 EXL2는 이래서 좋고 AWQ는 저래서 좋다고 해놓으면서도 맨날 그냥 Q4_K_M 하나로 때려박고 써버리는 게 현실이라는 거, 너무 현실적이어서 웃프더군요. 사람들 양자화 조합 테스트하기 전에 이미 피로감에 접속해서 포기하는 거 같아요.

생각해보니 재미있다기보다는 그냥 내가 왜 이런 고생을 하고 있나 반성하게 되는 영상이었음 ㅋㅋㅋ 다음편에 pre-fill이랑 디코딩 얘기 나온다니까 또 보게 될 것도 같아요.

댓글

이 글 아래에서 이어진 반응을 시간순으로 읽을 수 있습니다. 총 0

중앙 광장 흐름
첫 댓글을 남겨보세요.