岗位职责:
1.基于业务场景(行为识别)对InternVL、QwenVL等VLM模型进行领域适配性微调,优化图像理解、动作识别、多模态推理能力;
2.构建零售场景专属数据集,设计数据增强策略,解决遮挡、光照变化等实际场景挑战;
3.实现CV&VLM模型在边缘设备(如Jetson系列)/云端的轻量化部署,优化推理速度与资源占用;
4.开发模型服务化接口,支持实时视频流分析与行为事件触发机制;
5.设计时序行为分析框架,融合目标检测(如定位、姿态估计、动作分类等多模块协同工作;
6.构建基于VLM的异常行为识别系统(违规操作等场景);
7.跟进VLM前沿技术(如多模态prompt工程、模型蒸馏),探索3D视觉与VLM的融合方案;
8.输出可复用的算法组件库,建立零售场景算法基准测试体系;
岗位要求:
1.熟练掌握PyTorch框架及HuggingFace生态,具有InternVL/QwenVL等开源VLM实战调优经验;
2.精通模型压缩技术(量化/剪枝/知识蒸馏),有VLLM/LMdeploy等部署工具实战经验;
3.熟悉视频理解技术栈(OpenCV/FFmpeg/Decord),具备多线程视频处理系统开发能力;
4.具备强工程实现能力,主导过至少1个完整AI项目从研发到落地的全生命周期;
5.理解行为场景特性:能通过算法设计应对监控视角差异、制服相似度、复杂背景干扰等挑战;