PDFxStream被廣大嚴(yán)苛的軟件開發(fā)組織所運(yùn)用,應(yīng)用于提取文本、圖像以及每年數(shù)十億的PDF文件格式數(shù)據(jù)。PDFxStream提供了完整的PDF格式兼容性和的性能集成到您的應(yīng)用程序只需10分鐘或更少。Java和.NET平臺(tái)都可以使用。
功能描述
需要培訓(xùn)、定制、外包?
請(qǐng)聯(lián)系我們!:800018081
慧都專業(yè)技術(shù)團(tuán)隊(duì)幫助您提高效率,節(jié)省成本,降低風(fēng)險(xiǎn)!
* 關(guān)于本產(chǎn)品的分類與介紹僅供參考,精準(zhǔn)產(chǎn)品資料以介紹為準(zhǔn),如需購買請(qǐng)先行測試。
Java或.NET-PDFxStream應(yīng)用自如
PDFxStream for Java由純Java語言撰寫,沒有本地化組件和依賴性,的要求就是需在Java1.5(或更高)JVM虛擬機(jī)上。當(dāng)然,作為一個(gè)Java庫,PDFxStream可用于任何支持互用Java API的任何JVM語言,包括Clojure, Scala, Groovy, JRuby, Jython等等。
PDFxStream for .NET是由標(biāo)準(zhǔn)的PDFxStream for Java二進(jìn)制轉(zhuǎn)換來的純托管.NET組件。這個(gè)轉(zhuǎn)換過程是完整的,不管是功能、固定性、API還是性能方面都沒有任何的影響。所有PDFxStream for Java有的并發(fā)和并行性它都具有,可用于任意的.Net語言,包括C#, VB.NET, F#, 托管C++等。
PDFxStream適用于嚴(yán)苛的桌面和服務(wù)器應(yīng)用程序,包括有重大意義的并發(fā)性要求。它被設(shè)計(jì)成易于并行化,使您在處理PDF文檔時(shí)可以充分利用您的硬件和基礎(chǔ)設(shè)施投入,而不必?fù)?dān)心卡住和速度的限制。
從PDF文檔提取文本和元數(shù)據(jù)的組件
PDFTextStream從PDF文檔提取數(shù)據(jù)時(shí)有兩個(gè)目標(biāo):精準(zhǔn)和快速。哪一個(gè)屬性對(duì)你的應(yīng)用程序更重要是自己決定的東西。然而,在許多情況下,文本的提取性能沒那么容易:它是項(xiàng)目成功的關(guān)鍵。
PDFxStream:四大組件合成一個(gè)API
每一個(gè)組件都包含在PDFxStream的API中,且有一個(gè)不同的類從PDF文檔中提取數(shù)據(jù):
PDFTextStream提供全面的PDF文本提取功能
PDFImageStream提供綜合PDF圖像提取功能
PDFFormStream提供易提取和交互填充功能
PDFxStream Base是基礎(chǔ),所有的其他的PDFxStream功能都是在此之上建立的。它實(shí)現(xiàn)了基本的PDF文件功能,并提供了的PDF文件基礎(chǔ)。
PDFImageStream
Unicode文本提取,包括支持中文、日文、韓文(CJK)在水平和垂直的寫作模式
OutputHandler API定制PDF文本格式的有效提取
區(qū)域文本提取,的從固定格式提取數(shù)據(jù)
對(duì)嵌入式和標(biāo)準(zhǔn)字體和字符編碼完整支持:
類型0,1和1C
TrueType
Identity-H和Identity-V編碼
CMap編碼(包括數(shù)以百計(jì)的中文、日文、韓文的字符集上,橫向和縱向的寫作模式)
自動(dòng)布局處理,提供了一個(gè)遍歷PDF文檔模型,包括塊、行、列和表結(jié)構(gòu)
支持從“搜索圖像”PDF中提取文本
支持所有種類的旋轉(zhuǎn)文本
基本檢測,表格數(shù)據(jù)推理以及一組表提取實(shí)用程序
PDFImageStream
減壓和解碼數(shù)十種PDF圖像
繪制圖像算法上下文圖像并保存到熟悉的磁盤文件格式:
JPEG
TIFF
GIF
PNG
BMP
自動(dòng)拼接圖像
PDFFormStream
支持從所有類型的字段提取“acroform”(互動(dòng))表單數(shù)據(jù)
文本
下拉菜單
無線按鈕
復(fù)選框
按鈕
簽名
自動(dòng)拼接圖像
支持XFA表單數(shù)據(jù)提取
支持填充"Acroform"字段,寫更新文件
PDFxStream Base
PDFxStream Base實(shí)現(xiàn)了大部分PDF的基礎(chǔ)功能以及提供了許多的PDF數(shù)據(jù)類型:
兼容所有的PDF文檔的所有版本,從1.0版本(對(duì)應(yīng)Acrobat 1)到1.7版本(對(duì)用Acrobat 8或者更高)
支持對(duì)PDF文檔加密使用40位、128位、256位以及變化的個(gè)位長度密碼(包括RC4和AES)
對(duì)PDF文檔常見的畸形和不規(guī)則自動(dòng)修復(fù)
提取PDF注釋(鏈接、文本注釋等)
提取嵌入式文件和附件
提取PDF書簽(大綱,表目錄)
提取文檔元數(shù)據(jù)
提取原始字符數(shù)據(jù)
圖像元數(shù)據(jù)的提取,包括圖像的尺寸,位置和類型
PDF文件合并
所有其他組件均是建立在PDFxStream Base基礎(chǔ)之上。