職位描述
該職位還未進行加V認證,請仔細了解后再進行投遞!
【崗位職責】
1、K8s集群全生命周期管理:負責大規(guī)模K8s集群的規(guī)劃、部署、升級及災備,主導資源調度優(yōu)化,確保業(yè)務的高可用與穩(wěn)定性。
2、可觀測性體系建設:搭建并維護覆蓋基礎設施至應用粒度的監(jiān)控與日志平臺,實現故障秒級告警、根因定位及海量日志的高效檢索。
3、自動化與CMDB建設:推行IaC(基礎設施即代碼)實現環(huán)境一鍵交付;建設動態(tài)CMDB,確保資產數據實時準確,支撐成本核算與容量規(guī)劃。
4、平臺化開發(fā):基于CRD/Operator模式定制開發(fā)自動化組件,將運維經驗代碼化,提升平臺自動化水平。
5、AI算力支持:負責GPU節(jié)點的基礎運維與故障排查,協助算法團隊解決容器化訓練中的資源與環(huán)境問題。
【任職要求】
1. 硬性門檻
統(tǒng)招本科及以上學歷,3–5年運維/SRE經驗,其中至少3年K8s生產環(huán)境實戰(zhàn)經驗。
核心技能:精通K8s架構原理,必須具備 Python 或 Go 開發(fā)能力,有 CRD、Controller 或 Operator 實際開發(fā)經驗。
2. 技術棧要求
可觀測性:精通 Prometheus/Grafana 監(jiān)控體系及 ELK/Loki 日志棧的搭建、調優(yōu)與告警治理。
云與資產:熟悉主流公有云(華為/騰訊/阿里)產品,有CMDB系統(tǒng)設計或維護經驗優(yōu)先。
3. 加分項(AI方向)
熟悉 Volcano、KubeFlow、MLflow 等至少一種MLOps工具。
了解GPU驅動、CUDA環(huán)境及多卡通信原理,有AI訓練場景支持經驗。
工作地點
地址:廣州天河區(qū)建中路66號佳都商務大廈東塔5層01
??
點擊查看地圖
詳細位置,可以參考上方地址信息
求職提示:用人單位發(fā)布虛假招聘信息,或以任何名義向求職者收取財物(如體檢費、置裝費、押金、服裝費、培訓費、身份證、畢業(yè)證等),均涉嫌違法,請求職者務必提高警惕。
職位發(fā)布者
劉加濤HR
卓越教育集團
-
請選擇
-
公司規(guī)模未知
-
公司性質未知
-
廣州市越秀區(qū)中山三路33號中華國際中心B塔35樓(地鐵烈士陵園站a出口)

應屆畢業(yè)生
本科
2026-03-06 17:53:11
286人關注
注:聯系我時,請說是在云南人才網上看到的。
