本发明属于服务机器人视觉问答领域,提供了一种云服务机器人的视觉问答方法及系统,包括获取待查询的信息交互图片数据及其包含的视觉信息;基于改进后的视觉问答模型,得到融合预测结果;将待查询的信息交互数据与融合预测结果进行匹配,得到最相似组的信息交互参考预测结果,并作为视觉问答系统的输出结果;本发明利用了偏差消除与对比学习方法的独特优势,更聚焦于图片中重要元素信息,优化得分元素占比,充分利用参考样本信息,强化实体嵌入,消弭语义偏差,改进服务机器人的视觉问答模型,从而提高了实际服务器人的人机交互问答的准确性,使得服务器人的体验性更好①