AI를 오랫동안 안정적으로 부릴려면 정규표현식 필터 그만 쓰고 토큰 차단으로 가야
요즘 AI 에이전트 만들다 보면 프롬프트 인젝션 때문에 골치 아프잖아. 대부분이 제 정규표현식으로 필터링하면 끝날 줄 알았는데, 사실은 시간 지날수록 거짓긍성 때문에 오작동이 늘어나더라고. 제가 최근에 실험해본 결론은 간단하다. 아예 토큰 기반 차단으로 방향을 틀었더니 보안뿐만 아니라 안정성이 확 올라갔어.
예를 들면 금칙어 리스트를 . txt 파일 하나로 관리해두고, inference 때마다 output 토큰을 계속 모니터링 하면서 해당 토큰 나오면 바로 차단하는 구조인데, load도 낮고 나중에 규칙 바꿔도 코드 수정 안 해도 돼. 처음에는 오버헤드 걱정했는데 실전 배포해보니 오히려 정규식보다 더 빨라서 놀랐어. 지금 회사 에이전트에 적용해놨는데 한 달째 보안 사고 0건, 오작동도 거의 안 나와요.
출처
- Ask HN: How do you prompt AI to talk to you? (community_intel)
- Why I'm moving away from Regex for LLM Agent security (community_intel)
- Tell HN: iPhone 6s still getting security updates (community_intel)