Site Reliability Engineer (SRE)

工作內容 我們的遊戲平台處於高速成長階段,服務全球玩家,並且對 高可用性、高併發處理、低延遲 以及 雲端架構最佳化 有極高要求。我們正在尋找一位 Site Reliability Engineer (SRE) ,協助提升遊戲平台的可靠性與運營效率。 設計、開發及維護自動化運維工具,提高部署效率與系統穩定性,減少 Toil(重複性工作)。 監控並提升系統的 可用性 (Availability) 、 可擴展性 (Scalability) 、 效能 (Performance) ,確保系統穩定運行。 設計並實施 SLI/SLO/SLA ,確保服務可靠性符合商業需求。 優化 CI/CD 流程 ,確保新功能部署順暢,並能迅速回滾異常版本。 與開發團隊合作,針對 高流量、高併發的遊戲平台架構 進行最佳化,提高應用程式效能與可靠性。 設計並執行 混沌工程 (Chaos Engineering) 測試,驗證系統在異常狀況下的韌性。 規劃與執行 Incident Response ,包括 On-Call 輪值機制 ,快速應對異常狀況並進行 根本原因分析 (RCA) 。 進行 雲端資源優化 (AWS/GCP