项目介绍

下载说明

技术服务

信息反馈

 

HTML-结构化数据引擎

通过 HTML 直接得到结构化数据的访问技术


1. 项目介绍

    HTML-结构化数据引擎项目,是一个利用正则技术对HTML进行分析提取数据的开源项目。通过一组配置规则,本引擎可以自动跟踪链接,获取html源代码,分析html源代码,提取结构化数据。

    本项目包含以下特点:

    1) 可进行功能强大的逻辑定义和配置

     通过配置,可以定义需要提取的字段内容;可以跟踪链接;可以在一个页面提取多条记录;也可以在多个页面提取数据并组成一条记录。

    2) 使用灵活

    HTML 结构化数据引擎,可以嵌入项目内部或者作为单独的服务运行。 当嵌入项目内部时,本引擎可作为一个轻量级的“HTML to 结构化数据”远程调用接口。当做为单独服务使用时,可以计划进行抓取,将数据存储作为后续使用。


2. 背景介绍

    在当前信息化时代,对数据的分析和提取非常重要和实用。当前比较普遍的数据抓取技术,只能做到对html源代码的跟踪和提取。 对于精确数据的分析是一个难点。 很难将“功能强大”且“使用灵活”兼顾。 由于需要在页面中找到所需的精确数据,因此任何项目都无法完全采用自动方式进行。

    本站研究正则表达式多年,对正则表达式的理解和运用有比较丰富的经验。 本项目核心技术采用正则表达式的原理来进行既“强大”又“灵活”的数据提取。

    本开源项目授权方式为 GPL 授权。如果需要用于商业用途,请参见 技术服务


3. 下载说明

    本项目采用 Google Code 管理代码。可通过压缩包下载稳定版源代码,也可以通过 svn 下载开发版本。

    [ 下载说明]  - 下载相关说明。


4. 技术服务

    本站提供收费技术支持服务。 可提供开源代码之外的增强功能,可以获得完整的技术文档,增强功能源代码(包括注释),技术培训,故障问题解决等支持。 项目组可完整掌握技术代码实现细节,并方便开展后续的扩展开发工作,一次性投入成本较低。

    [ 技术服务] - 技术服务说明。


5. 相关赞助商链接

 
 

RegExLab.com © 2005 -   渝ICP备05015140号