本发明涉及一种基于ConvLSTM卷积神经网络的视频语义分割方法,包括以下步骤:A、构建并训练视频语义分割网络(1)获取数据集;(2)构建视频语义分割网络;(3)训练视频语义分割网络;(4)测试视频语义分割网络分割的准确度;B、通过训练好的视频语义分割网络结构进行视频语义分割。本发明通过采用ConvLSTM模块考虑视频相邻帧之间的相关性,提高视频语义分割的准确度。本发明还采用了密集连接块、密集连接的空洞空间金字塔池化模块,使得特征和梯度的传递更加有效,解决了深度网络训练过程中的梯度消失问题,并且能够系统地聚合多尺度上下文信息,扩大感受野。