작년에 커스텀 모델을 ONNX로 변환해서 TensorRT 엔진 붙이니까 추론 속도가 진짜 5~6배로 올라가는 거 보고 감동박았어. 근데 배포 환경마다 계속 드라마 터지는 바람에 지금 현타 옴.
로컬에서는 RTX 4090에 잘 돌아가던 모델이 서버쪽 A100에서는 메모리 할당 오류 나오고, T4 인스턴스에선 또 버전 호환 문제 생김. Docker 이미지 만드는 것도 매번 새로운 버전의 onnxruntime-gpu가 나올 때마다 깃헙 이슈 파고들어가서 호환성 체크하고 있음.
가장 빡친 건 NVIDIA 드라이버 버전 때문인데, 550.54.15 이상에서는 사소한 커널 함수 하나가 deprecated 되면서 전체 추론 루틴이 터지더라. 이미지 하나 만들어놨다가 드라이버 업데이트되면 다시 세팅해야 하는 게 진짜 피곤함.
그래도 성능 차이가 너무 커서 쓰레기 같던 CPU 인퍼런스랑 비교하면 몇 배 더 빠르니까 포기는 못하겠음. 혹시 이런 환경 이슈 겪으신 분 있으면 어떻게 관리하시는지 공유 좀 부탁해. 특히 드라이버 버전이랑 CUDA 런타임 매칭 전략 꿀팁 좀.
출처
- Ask HN: Transactional Database Usage Survey (community_intel)
- Ask HN: What would you like to be working on? (community_intel)
- What if everyone personalized LLM is the best LLM? (community_intel)