专利权人:山东大学
第一发明人:郭伟
专利号:ZL201710176931.0
授权日:2021-01-29
专利类型:发明
国别:中国
所属领域:计算机
开放许可开始日期:2024-01-11
开放许可截止日期:2026-04-30
单次许可期限:三年
许可费支付方式:入门费结合提成费
本发明公开了一种定制数据爬取工作流的方法及系统,其中,该定制数据爬取工作流的方法包括:配置网页的参数及存储路径,生成定制网页并同步存储至XML文件中;采用DOM方式来解析XML文件并生成爬虫树;编译运行爬虫树,进而抓取出相应网页数据。本发明在数据抽取的通用性、灵活性方面的得到巨大改进,能够让用户在短时间内准确的筛选出需要的内容。