/tencentmusic/cube-studio
cube云原生机器学习平台-架构(一)
cube云原生机器学习平台-架构(二)
cube云原生机器学习平台-架构(三)
cube云原生机器学习平台-架构(四)
cube云原生机器学习平台-架构(五)
cube一站式云原生机器学习平台-加速模型工程化落地
cube一站式云原生机器学习平台-加速分布式任务的运行效率
cube一站式云原生机器学习平台-推理服务的工程化加速
使用rancher自建k8s集群
rancher 使用部分运维操作
fab 低代码框架
k8s prometheus/grafana 监控系统建设
cube是tme开源的云原生机器学习平台,目前包含特征平台,支持在/离线特征;数据源管理,支持结构数据和媒体标注数据管理;在线开发,在线的vscode/jupyter代码开发;在线镜像调试,支持免dockerfile,增量构建;任务流编排,在线拖拉拽;开放的模板框架,支持tf/pytorch/spark/ray/horovod/kaldi等分布式训练任务;task的单节点debug,分布式任务的批量优先级调度,聚合日志;任务运行资源监控,报警;定时调度,支持补录,忽略,重试,依赖,并发限制,定时任务算力的智能修正;nni,katib,ray的超参搜索;多集群多资源组,算力统筹,联邦调度;tf/pytorch/onnx模型的推理服务,serverless流量管控,tensorrt gpu推理加速,依据gpu利用率/qps等指标的 hpa能力,虚拟化gpu,虚拟显存等服务化能力。 目前开源到github:/tencentmusic/cube-studio