2024年11月文档格式解析系统I3S DocAnalyze 1.0下载

发布时间:

  ⑴在计算机和互联网的世界里,文件的格式林林总总不下几千种,常见的文档格式有:.doc文件.ppt文件.pdf文件.rar文件.eml文件,等等。在这些文档中,数据以各自不同表示规则进行存储,还常常包含嵌套定义,因此需要对每个文档格式进行具体的分析,提取用户感兴趣的数据。IS DocAnalyze提供了丰富的文档格式分析功能,能够准确解析当前互联网上的主流文档格式,包括:PDF格式CHM格式RAR格式EML格式RTF格式ZIP格式Office系列格式,等等。此外,IS DocFormat还提供网络流式的格式分析功能,无需等待文档的全部数据到来,即可对部分数据进行分析,并及时返回分析结果。

  ⑵此外,在网络传输过程中,信息是以网络包为单位进行传输的,一个文档常常由多个网络包组成。在某些实时网络应用中,等待所有的网络包到齐然后才进行文档格式分析是不现实的,它们要求每到来一个网络包,就分析一段文档,这就要求提供增量式的流式的文档格式分析功能。