一种定制数据爬取工作流的方法及系统

专利信息

专利权人:山东大学

第一发明人:郭伟

专利号:ZL201710176931.0

授权日:2021-01-29

专利类型:发明

国别:中国

所属领域:计算机

开放许可开始日期:2024-01-11

开放许可截止日期:2026-04-30

单次许可期限:三年

许可费支付方式:入门费结合提成费

专利简介

专利权人 山东大学 第一发明人 郭伟
专利号 ZL201710176931.0 授权日 2021-01-29
专利类型 发明 国别 中国
所属领域 计算机 开放许可开始日期 2024-01-11
开放许可截止日期 2026-04-30 单次许可期限 三年
许可费支付方式 入门费结合提成费

本发明公开了一种定制数据爬取工作流的方法及系统,其中,该定制数据爬取工作流的方法包括:配置网页的参数及存储路径,生成定制网页并同步存储至XML文件中;采用DOM方式来解析XML文件并生成爬虫树;编译运行爬虫树,进而抓取出相应网页数据。本发明在数据抽取的通用性、灵活性方面的得到巨大改进,能够让用户在短时间内准确的筛选出需要的内容。