岗位职责:
1.教育OCR大模型研发:
研发基于LLM/VLM的文档理解引擎,实现作业/试卷/教辅的多模态结构化识别(文本/公式/图表/手写体),攻克教育场景特殊挑战:模糊拍摄、倾斜变形、密集手写笔记、复杂数学公式的鲁棒识别
,构建教育领域专用OCR大模型(如基于LLaMA/Qwen架构微调)
2.教育场景算法优化:
设计学科知识增强的OCR后处理框架:数学公式LaTeX生成(支持分式/矩阵/积分等复杂结构),作文手写体纠错与评分特征提取,物理电路图/化学方程式语义解析,开发自适应降噪算法处理低质量作业拍摄图像
3.大模型能力融合
实现OCR+LLM协同框架:利用大模型进行题目语义理解(从识别文本中提取考点、难度标签)构建作业批改推理链(OCR识别 → 答案提取 → 解题步骤分析 → 错因生成)
4.教育数据体系建设
主导百万级教育文档数据集构建(教材/试卷/手写笔记)
设计数据合成引擎生成逼真训练数据(模拟不同纸张、笔迹、拍摄角度)
岗位要求:
1.精通OCR技术栈:
2.传统方法:OpenCV/Tesseract/版面分析(LayoutParser)
3.深度学习:PP-OCR/MASTER/TROCR + Transformer/CNN混合架构
4.大模型实战经验:
5.微调过≥7B参数模型(LLaMA/Qwen/Baichuan等)
6.掌握LoRA/P-Tuning/RLHF等适配技术
7.代码能力:
Python工程化开发(PyTorch + ONNX部署)
C++高性能推理优化(熟悉TensorRT/OpenVINO)