1.工作职责
(1)负责大模型平台的系统架构设计和研发,包括模型训练、数据集管理、模型管理、模型评测、模型部署
(2)针对数据处理、存储、数据同步、模型训练等方面的问题,进行技术方案的制定及技术难题的攻关
(3)对模型进行优化和部署,提高模型的效率和性能
(4)充分了解业内先进技术和前沿技术发展动态,驱动团队技术提升
(5)与团队成员共同攻克技术难题,持续迭代项目能力输出,提高服务质量。
2.任职要求
(1)本科及以上学历,计算机相关专业,3年及以上的Linux平台下的开发经验
(2)有扎实的编程基础,良好的数据结构和算法功底,熟悉C++/Java/Python至少一种编程语言
(3)有较强的系统架构设计和性能优化能力,优秀的分析和解决问题的能力。
(4)熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch),熟悉开源社区、善于挖掘和整合开源能力者优先
(5)具备较强的学习能力、沟通协作能力,有良好的团队精神
(6)有创新精神,勇于挑战未知技术领域
3.具备以下者优先:
(1)有实际大模型训练平台开发经验(标注平台、数据管理平台、模型管理系统、模型评测系统、模型自动化部署);
(2)具有实际模型训练加速经验,熟悉训练框架、分布式训练方案(Pytorch、Megatron、Deep-Speed);
(3)熟悉模型部署框架(Triton、FasterTransformer等)。
4.工作地点
上海市,北京市