【JD】網站可靠性工程師 SRE / 雲端工程師
系統維護與監控:負責設計、構建和維護高可靠性的生產系統。持續監控系統性能,並確保系統達到既定的服務水平目標(Service Level Objectives, SLOs) 2. 故障分析與解決:快速響應系統中斷和性能問題,進行根本原因分析(Root Cause Analysis, RCA),並實施長期解決方案以防止問題再次發生 3. 自動化與工具開發:開發和部署自動化工具來提高系統效率和減少人為錯誤。這包括自動化部署、故障恢復和其他常規維護任務 4. 跨部門協作:與開發、運營和產品管理團隊緊密合作,以確保技術解決方案滿足功能和性能要求。積極參與產品的設計和改進過程,提供可靠性和可維護性的反饋 5. 性能優化:分析現有系統的性能,識別瓶頸並實施優化策略,以提高效率和降低成本 6. 持續學習與技術更新:保持對業界發展的敏感性,學習和實施新技術以不斷提升系統的可靠性和性能 7. 文件編制與維護:編制詳細的系統架構、配置文檔和操作手冊,以支持團隊成員的瞭解和操作 — 1. System Maintenance and Monitoring: Responsible for desig