一种面向数据增强的词汇组合知识建模方法及装置

专利信息

专利权人:山东大学

第一发明人:孙宇清

专利号:ZL202410330986.2

授权日:2024-6-7

专利类型:发明

国别:中国

专利简介

专利权人 山东大学 第一发明人 孙宇清
专利号 ZL202410330986.2 授权日 2024-6-7
专利类型 发明 国别 中国
所属领域 开放许可开始日期
开放许可截止日期 单次许可期限
许可费支付方式
本发明属于自然语言处理的技术领域,更具体地,涉及一种面向数据增强的词汇组合知识建模方法及装置。所述方法包括:S1、构造句法空间的映射函数;S2、构造词汇组合的评分函数;S3、基于所述映射函数和评分函数,构建词汇组合知识模型,并利用词汇组合样本对所述词汇组合知识模型进行训练,以得到词汇组合知识目标模型;S4、利用所述词汇组合知识目标模型进行基于词汇组合知识的文本改写与数据增强。本发明基于依存句法和词汇语用的词汇组合知识,对细粒度的词汇语用知识进行建模,能够产生语义一致且句法合理的改写样本,适用于数据增强任务。