分类

编程工具

poi.jar包

poi.jar包 3.8/3.9/3.10 免费版

大小:39.7 MB

语言:简体中文系统:WinXP, Win7, Win8, Win10, WinAll

类别:编程工具时间:2017-03-21

  poi.jar是一款运用于Excel中的开发程序,一共拥有四个程序组件,每一个都对应相关的开发过程,主要用途是用于文本提取应用程序,如Web蜘蛛程序,索引构建器和内容管理系统,允许您使用Java轻松读取和写入各种Excel文件(XLS和XLSX)、允许以内存优化的方式编写非常大的Excel(XLSX)文件,让您在使用Java程序开发Excel扩展项目的时候可以浏览更多的格式,poi在开发与扩展项目的运用中是非常稳定和完整的,用户可以直接将下载的组件加载到开发程序中就可以使用了,非常方便。

poi.jar包 3.8/3.9/3.10 免费版

软件功能

  可以使用Java读取和写入MS Excel文件

  可以使用Java读取和写入MS PowerPoint文件。

  Apache POI是您的Java Excel解决方案(适用于Excel 97-2008

  OLE2文件包括大多数Microsoft Office文件,如XLS,DOC和PPT以及基于MFC序列化API的文件格式

  对于每个MS Office应用程序,存在一个组件模块,尝试为OLE2和OOXML文档格式提供公共的高级Java API

  Office OpenXML格式是在Microsoft Office 2007和2008中找到的新的基于标准的XML文件格式。

  这包括XLSX,DOCX和PPTX。该项目提供了一个低级别的API来支持使用openxml4j的开放式包装约定

软件特色

  POI夜间构建在Jenkins持续集成服务器上运行。

  这些构建不应在生产中使用:它们主要用于开发人员帮助解决错误和评估新功能或想要尝试最新版本的用户。

  Apache POI在2007年6月成为顶级项目,POI 3.0工件被重新发布。在此日期之前,POI是Apache Jakarta的一个子项目。

  POI允许远程攻击者通过特制OOXML文件(也称为XML实体扩展(XEE)攻击)造成拒绝服务(CPU消耗)

  多年来,Apache POI已经为所有项目支持的文件格式提供了基本的文本提取。此外,以及(纯)文本,这些提供对与给定文件相关联的元数据的访问,例如标题和作者。

  对于更高级的文本提取需求,包括富文本提取(如格式化和样式),以及XML和HTML输出,Apache POI与Apache Tika密切合作, 为所有项目支持的文件格式提供POI驱动的Tika解析器。

  如果你是在交钥匙文本提取之后,包括最新的支持,样式等,强烈建议使用 Apache Tika,它建立在POI之上,提供文本和元数据提取。如果您希望有非常简单和独立的东西,或者您希望进行重大修改,那么下面提供的POI提供的文本提取器可能更适合您的需要。

使用方法

  很多人都困惑POI那么多Jar到底应该导入哪一个。

  实际上很多时候我们只利用POI来操作Excel。甚至只用xls这一种格式。

  那么就没有必要全部都导入了。具体应该使用哪个JAR包请参考以下内容:

poi.jar包 3.8/3.9/3.10 免费版

  当我们只要使用xls格式时、只要导入poi-version-yyyymmdd.jar就可以了;

  当我们还要使用xlsx格式、还要导入poi-ooxml-version-yyyymmdd.jar;

  至于poi-ooxml-schemas-version-yyyymmdd.jar这个jar基本不太会用到的;

  当我们需要操作word、ppt、viso、outlook等时需要用到poi-scratchpad-version-yyyymmdd.jar

使用说明

  所有POI文本提取器都从org.apache.poi.POITextExtractor扩展 。这提供了一个跨所有提取器,getText()的通用方法。在许多情况下,返回的文本将是所有你需要的。然而,许多提取器确实提供更有针对性的文本提取方法,因此您可能希望在某些情况下使用这些方法。

  所有基于POIFS / OLE 2的文本提取器也从org.apache.poi.POIOLE2TextExtractor扩展 。此外,还提供了获取HPFS文档元数据的常用方法。

  所有基于OOXML的文本提取器也从org.apache.poi.POIOOXMLTextExtractor扩展 。这还提供了获取OOXML元数据的常用方法。

  文本提取器工厂

  POI提供了一个公共类,根据提供的文档内容为您选择适当的文本提取器。 org.apache.poi.extractor.ExtractorFactory提供了一个类似于WorkbookFactory的函数。您只需传递一个InputStream,一个文件,一个POIFSFileSystem或一个OOXML包。它为你找出正确的文本提取器,并返回它。

  对于完全检测和文本提取程序自动选择,强烈建议用户调查 Apache Tika。

  Excel

  对于.xls文件,有 org.apache.poi.hssf.extractor.ExcelExtractor,它将返回文本,可选择使用公式而不是其内容。类似地,对于.xlsx文件,有 org.apache.poi.xssf.extractor.XSSFExcelExtractor,它提供相同的功能。

  对于在受限内存占用中工作的用户,还有两个可用的Excel文本提取器。对于.xls文件,它是 org.apache.poi.hssf.extractor.EventBasedExcelExtractor,基于流式EventUserModel代码,并且通常会提供较低的内存占用来进行提取。然而,它会有问题正确地输出更复杂的公式,因为它在记录通过时工作,因此不能访问复杂和共享公式的所有部分。对于.xlsx文件,等效的是 org.apache.poi.xssf.extractor.XSSFEventBasedExcelExtractor,它基于XSSF SAX Event代码库。

  对于来自Word 97 - Word 2003的.doc文件,在暂存器中有 org.apache.poi.hwpf.extractor.WordExtractor,它将返回文档的文本。

  使用POI 3.7的用户还可以使用scratchpad类org.apache.poi.hwpf.extractor.Word6Extractor从较旧的Word 6和Word 95文件中提取简单的文本内容 。

  对于.docx文件,相关类是 org.apache.poi.xwpf.extractor.XPFFWordExtractor

  PowerPoint

  对于.ppt文件,在暂存器中有 org.apache.poi.hslf.extractor.PowerPointExtractor,它将返回幻灯片的文本,可选地仅限于幻灯片文本或注释文本。对于.pptx文件,要使用的类是 org.apache.poi.xslf.extractor.XSLFPowerPointExtractor

  发布商

  对于.pub文件,在scratchpad中有 org.apache.poi.hpbf.extractor.PublisherExtractor,它将为您的文件返回文本。

  Visio

  对于.vsd文件,在scratchpad中有 org.apache.poi.hdgf.extractor.VisioTextExtractor,它将为您的文件返回文本。

∨ 展开

网友评论

我要跟帖
取消
所有评论 共 0