职位概述
我们正在寻找一位对大语言模型和智能代理技术充满热情的初级数据工程师。您将参与构建和优化基于LLM的数据处理管道,开发智能代理系统,并为AI驱动的应用提供数据基础设施支持。
主要职责
1.设计和实现数据ETL管道,处理结构化和非结构化数据,为LLM应用提供高质量数据支持
2.开发和维护基于Flask/FastAPI的数据服务接口,支持LLM和Agent系统的数据交互需求
3.参与RAG(检索增强生成)系统的构建,包括向量数据库集成、文档处理和检索优化
4.编写和优化网络爬虫程序,收集和整理训练数据或知识库内容设计和优化Prompt模板,提升LLM在特定场景下的表现
5.协助构建和维护Agent系统的数据流转机制,支持多Agent协作场景监控数据质量,确保数据管道的稳定性和可靠性参与技术文档编写和知识分享
任职要求
1.本科及以上学历,硕士优先;国内985/211高校或海外高校背景优先
2.熟练掌握Python编程,能够编写清晰、高效且可维护的代码
3.熟悉至少一种主流数据库(MySQL、MongoDB、Redis等),具备数据操作和优化能力
3.具备数据ETL基础经验,能独立完成数据清洗、转换与加载任务,对数据质量有敏感性
4.有使用Flask或FastAPI开发RESTful API的经验
5.能在Linux环境下进行开发调试,熟悉命令行工具和日志分析
6.对GPT等大语言模型有深入了解,具备prompt engineering实践经验
7.了解RAG(检索增强生成)技术原理和应用场景
8.熟悉Python并发编程(多线程、多进程、协程)
9.掌握基本爬虫技术,会使用DrissionPage、Playwright等现代爬虫框架
加分项:
有MCP(Model Context Protocol)使用经验
熟悉browser-use、computer-use等自动化工具
了解Multi-Agents架构,有相关项目实践经验
熟悉Dify等LLM应用开发平台
有向量数据库(如Pinecone、Weaviate、Qdrant)使用经验
了解LangChain、LlamaIndex等LLM框架
有参与开源项目的经历
我们提供
与AI前沿技术紧密接触的工作机会
开放包容的技术氛围