本发明属于自然语言处理的技术领域,更具体地,涉及一种面向数据增强的词汇组合知识建模方法及装置。所述方法包括:S1、构造句法空间的映射函数;S2、构造词汇组合的评分函数;S3、基于所述映射函数和评分函数,构建词汇组合知识模型,并利用词汇组合样本对所述词汇组合知识模型进行训练,以得到词汇组合知识目标模型;S4、利用所述词汇组合知识目标模型进行基于词汇组合知识的文本改写与数据增强。本发明基于依存句法和词汇语用的词汇组合知识,对细粒度的词汇语用知识进行建模,能够产生语义一致且句法合理的改写样本,适用于数据增强任务。