사내 테스트용 서버로 돌렸던 ONNX 모델을 메인으로 옮기고 나니 예상과 달리 3초가 꼬박 걸린다. 로컬에서는 300ms 나온 게 클라우드 인스턴스 하나 붙이니까 10배 느어지니 운영팀에서 눈치 줬다. 원인은 GPU 메모리 풀사이징인데 CUDA 프로파일링 돌려보니까 매 요청마다 cudaMalloc이랑 cudaFree가 초당 수천 번씩 튄다. 캐시를 그냥 핫하게 붙잡고 싶은데 파이썬 gil 때문에 멀티프로세스 안 되는 게 아이러니다.
지금은 redis에 미리 올려둔 모델 가중치를 바이트 단위로 잘라서 보내는 방식으로 테스트 중인데 왠지 서버가 코어 4개짜리라 더 병목일 것 같다. 혹시 풀다운 구현 자체를 Rust로 빼서 CUDA stream 풀을 미리 만들어두면 얼마나 빠르더라? 작업 끝나고 나면 1초 안에 받아보는 게 목표다. 아직 클라우드 컨피그 열면 어딘가 터지는 냄새는 나는데 일단 저녁에 백업체커를 끄지 않으면 겹쳐서 뻗으니까 메모리 맵을 좀 더 단순하게 만들어야겠다.
출처
- Ask HN: What Are You Working On? (March 2026) (community_intel)
- Clawhub Is Down? (community_intel)
- Ask HN: Most beautiful personal blog UI you have ever seen? (community_intel)