久久亚洲国产成人影院_亚洲va欧美va天堂v国产综合_午夜精品久久久久久毛片_无码国产69精品久久久久孕妇 ,欧美一区日韩二区亚洲三区_欧美成人精品高清视频在线观看_欧美日产国产精品_欧美大战日韩91综合一区婷婷久久青草 ,国产片91-国产精品视频2020-亚洲国产成人精品久久-99在线精品免费视频九九视 ,&

PDFlib TET（文本內(nèi)容提取工具包）是一款可以從任意PDF文檔格式中可靠地提取文本信息的軟件。它不僅可以作為一種庫/控件，還可以一種命令行工具。該工具包可以使得PDF格式的文本內(nèi)容轉(zhuǎn)換成Unicode（統(tǒng)一的字符編碼標準）字符串，并附加詳細的字形和字體信息。一旦擁有了TET，你就可以從PDF文檔中的文本獲取相應的Unicode字符值，以及它在頁面的位置。

特征綜述 About Feature

PDFlib TET 特征：
除了低水平的文字獲取功能外，TET還包含有文本內(nèi)容分析算法——鑒別單詞邊界，去除冗余和重復文本（比如文字陰影和字體加粗）。使用輔助的PCOS接口，你就可以從PDF格式文本獲取任意格式的對象，比如元數(shù)據(jù)，超文本等。
- 一旦擁有PDFlib,你就可以實現(xiàn)以下功能：
  - 從PDF格式文本中提取內(nèi)容，然后存儲到數(shù)據(jù)庫中
  - 執(zhí)行搜索引擎來處理PDF格式文本
  - 將PDF格式的文本頁面轉(zhuǎn)換成XML格式文本，以便其他工具處理
  - 基于PDF格式的文本內(nèi)容進行處理
- 支持的PDF文本格式輸入
  - 版本1.6以下的所有PDF版本（Acrobat7）
  - 所有的字體和編碼類型：base 14字體，TrueType字體，PostScript字體， CID字體用40-128位密鑰加密的PDF（適當?shù)臋嘞廾艽a設置）
- Unicode
  - 盡管PDF文檔中的文本并不是經(jīng)常用Unicode進行編碼，PDFlib TET將會使PDF文檔中的文本統(tǒng)一規(guī)格化為Unicode字符。
  - TET轉(zhuǎn)換所有的文本內(nèi)容為Unicode字符。中文文本將會轉(zhuǎn)換成UTF-8或UTF16格式，同樣地，其他語言的文本將會轉(zhuǎn)換成本地的Unicode字符串。
  - 連字符和其他多字符字形將會分解成一系列的Unicode 字符串。
  - 沒有適當?shù)腢nicode映射的字形可以被識別并且被映射到可配置的替換字符
- *支持CJK（中文，日文，韓文）語種
  - TET包含有對中文，日文，韓文文本提取功能的全面支持。識別所有預先定義的CJK映射（編碼）；支持橫向和縱向書寫模式。
- 內(nèi)容分析和單詞識別
  TET不僅可以獲取低水平的字形信息，還包含對內(nèi)容分析的高級算法：
  - 檢查單詞邊界來獲得單詞而不是字符串。
  - 重新組合帶有連字符號的單詞的各部分。
  - 去除重復的文本內(nèi)容，比如陰影效果文本和加粗效果的文本
  - 按照閱讀順序重新整合段落
  - 對頁面上散亂的文本內(nèi)容進行重排
  - 重建文本行
- 幾何功能
  TET對文本提供精確的幾何功能，比如頁面定位，字形寬度，文字方位。在文字提取過程中，可以頁面某區(qū)域被提取或不被提取，比如忽略頭注，腳注或頁邊空白區(qū)域。
- 簡單訪問PDF對象的pCOS接口
  TET包含有獲取任意PDF對象的pCOS（PDFlib綜合性對象系統(tǒng)）接口。擁有了pCOS，只要一個簡單的查詢接口，不需要任何底層編程，你就可以獲取PDF元數(shù)據(jù)，超文本，或是除實際頁面描述之外的其他任意信息。
- 編程和性能
  TET是基于輕便性，高性能，健壯性思想進行開發(fā)的。TET在多線程服務器應用程序開發(fā)部署中保證線程級安全。核心庫是由具有高性能和低成本的并且高度優(yōu)化過的C代碼編寫的。附加的語言包對COM,C,C++,Java和.NET均有效。TET命令行工具和TET庫TET在不同的開發(fā)環(huán)境中可以作為一種編程庫（控件），以及在批處理命令中作為一種命令行工具。兩者都提供了相同的基本功能，并且適合不同的部署任務。以下提供選擇的參考指南：
  - TET編程庫可以整合到你的桌面或服務器端應用程序。關于使用包含所有支持的語言包的編程庫的實例都包含在TET包中。
  - TET命令行工具適合批處理PDF文檔。它不需要任何的編程，只需要提供能夠整合到復雜的工作流程中的命令行參數(shù)。TET命令行工具可以將PDF格式的頁面內(nèi)容轉(zhuǎn)換為Unicode文本格式的XML文檔（有或沒有字符幾何特征）