엔지니어링 결정들이 흩어진 조직에서 전문가님들은 로그 패턴 찾을 때마다 왜 이렇게 고생하죠
우리팀은 근래 3년간 47개 마이크로서비스를 띄우면서 결정 과정을 어디에도 안 적어뒀어요. 그래서 지금 새로 온 개발자가 실수 없이 선택지를 따라가려니 카데고 페이지가 모자라요.
문제는 비정상 로그가 튄 순간이죠. ELK 스택으로 흩어진 로그를 키워드 검색만 한다고 튄 실수는 나오질 않아요. 2년 전 누군가가 캐시 전략을 바뀐다고 했던 그런 결정 흔적이 없으니 대역폭이 느려진 요인이 안 보인다니 값싼 결정이죠.
우리는 지금 실제로 슬렁덩 넘겼던 엔지니어링 결정 히스토리를 무시하니까, 레어 패턴을 마주칠 때마다 왜 저 조합을 선택했는지 다시 되짚느라 고통초를 씹는 겁니다. 이대로 가면 레거시의 냄새가 아니라 구조적 더미로 변할 게 뻔해요. 지금 방어 안 하면 나중에야 투자하는 비용이 훨씬 더 크다는 사실을 모르는 척하나요.
출처
- How do you capture WHY engineering decisions were made, not just what? (community_intel)
- Ask HN: How do you look for rare log patterns and RCA? (community_intel)
- Ask HN: Why is USA starting world war 3 now? (community_intel)