本发明属于图像分类领域,提供了一种基于跨模态语义表征学习和融合的图像分类方法及系统,包括将获取的图像编码为视觉表征;将获取的图像编码为视觉表征;采用部分异构迁移算法从视觉表征学习与分类紧密相关的视觉分类表征;基于视觉表征,通过跨模态语义信息推理得到跨模态的语义信息推理结果,采用类感知信息选择算法对跨模态的语义信息推理结果计算高阶语义表征;融合视觉分类表征和高阶语义表征生成融合表征,基于融合表征进行图像识别分类;本发明通过表征对齐和跨模态推理提升模型表征学习,能够与常用的视觉识别方法ResNet、ATNet等相结合,在多模态数据有限的条件下有效提升模型的识别准确率。