[기타] 서버가 죽었다 살아났…

그간 포스팅을 못했던건 자의가 아닌 타의다. 물론 이 사이트를 찾는 사람도 없겠지만 나의 바보같은 점을 되새기기 위해 간단히 작성한다.

이번 10월까지 윈도우 서버에 hyper-v 로 이 워드프레스를 돌렸다. 해당 서버는 iscsi 로 디스크를 공유하고 있기에 뭐든 좋다. 그러다가 집에 안쓰는 메모리가 있어 해당 서버에 메모리를 증설했고, 잘 작동했다. 하지만 이 때는 몰랐다. 엄청난 삽질의 시작인줄을.

11월 초 갑자기 사이트에 접속이 안되었다. 그것도 금요일 저녁부터. 할 수 있는 것은 원격으로 보는 것 뿐이고, ILO를 포함해 해당 서버와 연결된 모든 랜 포트의 UP/DOWN 을 반복하였다. 느낌이 이상해 확인해 보니 운영체제의 무한 재부팅 이였다. 근데 아직도 왜 ILO의 링크 또한 UP/DOWN을 반복했는지는 모르겠다. 어쨋든 해당 서버를 콜드부팅(전원을 모두 제거하고 다시 부팅)하여 ILO는 살아났지만 서버는 계속 무한 재부팅 상태에 빠지기에 결국 증설했던 메모리를 제거하였다.

이렇게 윈도우 서버가 살아나고 이 워드프레스도 정상적으로 접속되었다. 그렇게 함부로 서버의 하드웨어를 변경하는 것에 위험함과 HA의 중요성을 깨달았다. 그래서 워드프레스를 운영하는 서버의 구성을 바꿨다.

이 hyper-v 서버를 제외하고 ESXI 서버 3대가 있다. ESXI들은 1대의 가상 vCenter로 제어가 된다. vCenter 는 특이하게 약 15개 정도의 별도의 가상디스크로 구성되어 작동한다. 이번 장애로 HA의 중요성을 깨달은 지금, 기존 구성했던 RDS 로는 장애를 대응할 수 없다고 판단해 vCenter 을 iscsi 로 저장소를 옮기고 어떤 서버가 죽더라도 최소한 수동으로 vCenter VM의 정보를 불러와 구동할 수 있도록 했다.

또한 워드프레스 서버도 iscsi 위에 설치하여 vCenter 에 의한 서버 상태 체크 및 HA 구성을 했다. 이제 vCenter 가 먹통되지 않는 한 워드프레스는 언제든 고가용성을 유지할 수 있도록 이론적으로 완벽한 상태에 갖춰졌다 판단했다. 하지만 여기서 또 나의 무지와 멍청함을 후에 가서 알 수 있었다.

한 일주일 되었나? 아무 이상이 없었다. 아무런 증상도 없었다. 정말 안정적이였다. 물론 내가 dns 를 건들기 전까지 말이다. 그 날은 유독 화창했던 것 같다. 날씨는 푸르고 없던 새의 지저귐도 귓가에 맴돌았던 날이다. 로드벨런싱 및 부하분산 테스트 등으로 dns 를 몇 개 정리를 했다. 근데 정리 대상이였던 dns 를 ESXI가 바라보고 있었다. 서버를 수정하고 DNS 를 죽이는 순간 까진 아무런 문제도 없었으나 작업한 이후 캐싱된 데이터가 만료될 쯔음 발생했다. 바로 ESXI 가 iscsi 를 정상적으로 찾지 못해 iscsi 위에 작동하던 vCenter 와 워드프레스 서버가 모두 박살이 난 것이다. 증상을 확인할 때는 이미 너무 늦어 vCenter가 복구할 수 없는 오류를 뿜뿜 하고 있었고 vCenter 는 백업본도 없기에 복구조차 못하는 것이다. 그땐 이미 워드프레스 서버는 눈에 들어오지도 않았고 짜증이 너무 난 나머지 모든 ESXI 초기화를 진행했다. 그렇게 옛 vCenter 또한 사라졌다.

순식간에 수번의 장애를 겪다 보니 이젠 노이로제에 걸릴 것 같다. 워드프레스는 10월 중순에 통 백업을 받아두었지만 그 후로 몇 번 게시글을 올렸고, 그 글은 시간 내에 작성해야 하는 과제 같은 글이였기에 모두가 쉴 때 쉬지 못하고 작성했었다. 다행이 이번 일로 직업이 바뀌진 않겠지만 당분간 모든 작업에 대해 자신감을 갖고 작업할 수 있을진 모르겠다.

결론적으로 워드프레스 서버의 구성은 두번의 서버 재설치와 두개의 설치된 서버를 날린 끝에 이전으로 회귀했고 vCenter 는 어떡해야 할지 모르겠다.

더 화가 나는건 이번 ESXI 초기화 한 후 ESXI 서버중 한 대에 대해 DISK IO 이슈가 발생했다. BIOS 또는 ILO 상에선 정상으로 나오나 디스크 읽기 쓰기를 시키면 RAID 가 끊겨 디스크의 연결도 끊어지는 이슈다. 근데 이와 별개로 이 서버는 서버를 종료할 때도 정상적으로 종료되지 않고 홀딩된다. 이는 ESXI 클린 재설치를 해도 똑같은 증상이다. 짜증난다.

Leave a comment