SRE Platform팀은 요기요에서 제공하는 모든 서비스를 안정적이고 효율적으로 운영할 수 있도록 인프라를 구성하고 개발팀과 협력하여 시스템을 운영합니다. 현재 AWS 환경에 EKS기반에서 대부분의 서비스가 운영중이며 일부 EC2기반 서비스들도 Container환경으로 전환중입니다.
서비스 전반에 걸쳐 다양한 툴을 사용하여 모니터링 하며, 시스템의 위험 신호를 빠르게 캐치하고 문제가 커지기 전에 해결하기 위해 노력합니다. 하지만 예상치 못한 문제가 발생할 때도 있습니다. 그럴 때는 신속하게 문제를 해결하기 위해 합리적인 의사결정을 도울 수 있는 정보를 제공하고 서비스를 안정화 시키는 것이 우리의 역할이기도 합니다. 기술과 성장에 대한 욕심을 갖고 있고 서로에게 배우며 성장할 수 있는 동료와 함께 일하고 있습니다.
Cloud 기반의 대규모 트래픽 DB system을 무중단 서비스로 운영하는 경험
DevOps, SRE(Site Reliability Engineering)를 기반으로한 도전적인 과제 수행 경험
최신 Tech Trend 를 가장 빠르게 적용하여 신기술에 대한 경험과 빠른 성장 가능
빠르게 성장하며 다양한 요구사항이 있는 환경과 협업하여 많은 경험을 쌓고 시야를 넓힘
DB 백업, 복구, 성능 모니터링/진단/튜닝, 버전업 등의 운영 업무
신규 feature 테스트 및 적용
HA 및 Auto scale솔루션 구성 및 운영
각종 DB 운영 작업 자동화
무중단 DB 물리 스키마 변경 배포
자동화 스크립트 작성 가능 (Python, Shell 등)
다양한 오픈소스 사용 경험
Infrastructure As Code에 익숙하신 분 (Terraform, Salt 등)
CDC 구성/운영 경험