본문 바로가기

Private

20190107

새해 첫 주말이 끝나기 무섭게 월요일 하루종일 신나는 장애 퍼레이드를 겪었다.


원인은 새롭게 교체되는 컨슈머가 특정 큐에 대해서 컨슘하지 않아 메시지가 쌓일대로 쌓여서, 해당 큐를 사용하는 서비스들에 행이 걸렸고, 도미노처럼 다른 서비스들도 영향을 받은 탓이다.


일단, 컨슈머가 붙지 않은 amqp 서버의 스펙이 낮았다.

작년 한해동안 작업한 화이트박스 텔레메트리들도 해당 큐에 대해서는 모니터링을 하고 있지 않았던 것이 가장 크다고 생각된다. 한편으로는 스펙이 낮았기에 문제가 더 커지진 않은 것 같다.


해당 메트릭 시스템은 간접적으로 서비스 디스커버리 목적으로도 사용되는 시스템인데, 작업 당시에 마이그레이션 하면서 해당 큐에 대한 설정을 가볍게 여기고 넘어간 탓도 있다.


이실직고 하자면, 당시에 amqp 서버에 메트릭을 붙이면서 문제가 되었던 amqp의 버전이 낮아 일부 옵션을 조정해 주어야 했는데, 귀찮아서 그냥 다음에 하지 라는 식으로 넘어가 버렸던 것이 화근인 것 같다.. -.,-;


어쨌든 리뉴얼 된 컨슈머를 붙여서 문제는 일단락 되었지만, 이후 웹서버 세션이 제대로 유지되지 않는 문제도 있었다. 이런 경우도 이곳에서 처음이라, 이곳저곳 헤메다 단순히 세션 캐시를 재시작 함으로써 이 문제도 해결할 수 있었다.


어쨌든, 이 문제는 더 빠르게 해결 될 수도 있었을 것이라 생각된다. 기존 시스템, 새롭게 적용되는 시스템에 대한 공유가 잘 이루어 지지 않았던 것 같다.


- 어떻게 하면 버스 팩터를 올릴 수 있을까?

- 좋은 공유 문화는 무엇일까?

- 공유하는 방식의 개선 만으로도, 팀 내부에 정보들이 올바르게 공유될 수 있을까?


사실 팀 인원에 비해 꽤 거대한 시스템을 운영하고 개발하고 있는 현실 속에서, 문제가 생기게 되면 당연히 로드가 치솟을 수 밖에 없는 경우라고 생각한다.


장애난 와중에도 묵묵히 열심히 하는 팀원들 보면 대단해 보인다.

내일부터는 다시 문서정리좀 해야겠다..

'Private' 카테고리의 다른 글

20170609  (1) 2017.06.09
20161217  (1) 2016.12.17
20160621  (0) 2016.06.21
20160505  (0) 2016.05.05
20160428  (0) 2016.04.28