Redis pub/sub 하나로 여러 AI 에이전트가 실시간으로 작업을 주고받는 구조를 만들었는데, 생각보다 반응 속도가 너무 빨라서 놀랐음. 한 에이전트가 키워드 분석 끝내고 바로 Redis에 publish하면 0.05초 만에 다른 에이전트가 받아서 번역하고 다시 publish. 이렇게 5단계 파이프라인이 1초 안에 끝남.
문제는 메모리 제한. 각 에이전트마다 16GB 램씩 필요한데, 서버 사양이 부족해서 3개 에이전트만 띄우고 있음. 게다가 챗GPTAPI 사용량이 폭증하니까 각 단계별로 모델 크기를 ONNX로 최적화해야겠음. 지금은 7B 모델이 4배 가벼워졌다는데 실제 테스트해보니 품질이 떨어지지 않고 오히려 속도가 2배 빨라짐.
Redis Streams로 실패한 작업 자동 재시도도 넣어봤는데, 혼자 개발하다 보니 모니터링 툴이 없어서 디버깅이 고역임. 결국 Prometheus + Grafana 붙였더니 한눈에 에이전트 건강상태가 보여서 큰일났다. 다음주엔 외부 투자자 시연인데 RAM 확장비나 GPU 증설비를 계속 고민 중이야. 혼자서도 가능하지만 속도가 중요한 상황이니 오픈소스 커뮤니티에서 더 같이 개발할 사람들 모이면 좋을 것 같은데, 경험 있으신 분들 팁 좀 남겨주셈.
출처
- Ask HN: Why can't we just make more RAM? (community_intel)
- MiniMax M2.5 is trained by Claude Opus 4.6? (community_intel)
- Ask HN: Has anyone built an AI agent that spends real money? (community_intel)