工作职责:
设计和构建可扩展的AI基础设施,支持机器学习和深度学习模型的训练和部署。
管理AI计算资源,包括GPU、TPU和其他硬件资源。
优化AI应用的性能,包括模型训练和推理速度。
维护和更新AI平台和工具,确保技术栈的现代化和安全性。
与团队合作,解决复杂的技术问题,提升系统稳定性和可靠性。
编写技术文档,为团队成员提供指导和培训。
跟踪最新的AI基础设施技术趋势,评估和集成新技术。
任职要求:
计算机科学、软件或相关专业的本科及以上学历。
熟练掌握Linux操作系统和Shell脚本编程。
熟悉Docker、Kubernetes等容器化和编排技术。
熟悉至少一种编程语言,如C++、Python。
对机器学习和深度学习框架(如TensorFlow、PyTorch)有深入理解。
至少3年在AI基础设施领域的工作经验。
自我驱动,能够独立工作并管理多个项目,对新技术有强烈的学习兴趣和适应能力。