PDF Data Extractor是一款非常不錯(cuò)的PDF數(shù)據(jù)提取軟件,用戶能夠使用這款軟件對(duì)pdf文件的文本信息進(jìn)行提取,在軟件中用戶能夠設(shè)置信息提取規(guī)則,可自定義信息提取范圍,并且支持對(duì)文字進(jìn)行過(guò)濾處理等。
基本簡(jiǎn)介
PDF Data Extractor 可以提取 PDF 中的某些文本信息,如果您有例如需要提取帳號(hào)、姓名、地址等數(shù)據(jù)并將這些信息輸出到 Excel CSV 文件的 PDF 語(yǔ)句,這是一個(gè)理想的產(chǎn)品。它使用水平、垂直文本位置匹配,對(duì)于更高級(jí)的匹配,它具有用于條件匹配的規(guī)則系統(tǒng),例如僅當(dāng)帳號(hào):文本在同一頁(yè)面上時(shí)才匹配。不同的字段也可以合并為一個(gè),因此可以將名字和姓氏作為一個(gè)字段輸出到 CSV 文件中。許多選項(xiàng)可用:數(shù)據(jù)提取、OCR pdf 選項(xiàng)、OCR 數(shù)字校正、調(diào)整傾斜的 pdf 頁(yè)面選項(xiàng)、對(duì)其他語(yǔ)言文件的完整 Uni code 支持,例如希伯來(lái)語(yǔ),從右到左閱讀順序選項(xiàng),頁(yè)面上的單詞偏移,用于處理切碎的掃描 PDF,數(shù)字、日期和貨幣過(guò)濾,數(shù)據(jù)列順序分配,在命令行上運(yùn)行,標(biāo)題輸出,頁(yè)碼字段,文件名字段, 批處理文件列表,32 位和 64 位版本。
現(xiàn)在還可以根據(jù)提取的數(shù)據(jù)重命名文件或?qū)⑽募?fù)制到新位置。
功能介紹
支持 Windows XP、2003、2008、2012、2016、2019、Windows 7、Vista、8 和 Windows 10
32 位和 64 位版本用于更快的處理
對(duì)所有語(yǔ)言的 Uni code 支持,例如文件名和文本中的英語(yǔ)、日語(yǔ)、中文、希伯來(lái)語(yǔ)
子彈從多頁(yè)pdf中提取數(shù)據(jù)
來(lái)自源pdf的多個(gè)輸出字段,通過(guò)文本之前,位置,第一次匹配和最后一次匹配向下和向上匹配選項(xiàng)。
bullet 條件匹配規(guī)則系統(tǒng)
項(xiàng)目符號(hào)輸出字段,例如:總頁(yè)數(shù)、匹配的頁(yè)碼、文件名
項(xiàng)目符號(hào)列輸出位置選項(xiàng)
子彈 OCR pdf 第一個(gè)選項(xiàng)
項(xiàng)目符號(hào)日期/金錢/字母/數(shù)字輸出過(guò)濾
項(xiàng)目符號(hào) 將文本復(fù)制到剪貼板選項(xiàng)以放入其他軟件
用于處理掃描的 pdf 文件的偏移位置開始,例如標(biāo)題被切斷或傾斜,因此可以從某個(gè)穩(wěn)定的文本點(diǎn)計(jì)算所有位置
項(xiàng)目符號(hào)修復(fù)略微傾斜的掃描位置的垂直文本選項(xiàng)四舍五入到最接近的 5 點(diǎn)
用于向后鏡像掃描的項(xiàng)目符號(hào)反向文本選項(xiàng)
對(duì)希伯來(lái)語(yǔ)等語(yǔ)言的從右到左單詞選項(xiàng)支持
使用批處理列表處理處理 pdf 的批處理列表
可選在命令行上運(yùn)行以實(shí)現(xiàn)自動(dòng)化
根據(jù)提取的數(shù)據(jù)將文件重命名或復(fù)制到新位置
項(xiàng)目符號(hào) 支持除加密和保護(hù)之外的所有 pdf 類型。
項(xiàng)目符號(hào) 自動(dòng)保存設(shè)置以備后用
項(xiàng)目符號(hào) 完整記錄已處理、錯(cuò)誤和移動(dòng)的文件。
子彈安裝程序
完整的 HTML 和 PDF 幫助
軟件特色
直觀的圖形界面,帶有大量工具
該應(yīng)用程序的安裝時(shí)間并不長(zhǎng),并且沒有復(fù)雜的設(shè)置,您在實(shí)際使用它的功能之前就需要完成該設(shè)置。它具有一個(gè)真正直觀的圖形界面,并帶有大量工具和功能。
該應(yīng)用程序允許您從PDF文檔中提取某些文本信息。例如,如果您有一個(gè)PDF語(yǔ)句,您需要提取諸如帳號(hào),名稱,地址之類的數(shù)據(jù)并將此信息輸出到Excel csv文件中,則它將是一個(gè)有用的程序。
從PDF文檔中提取文本
啟動(dòng)應(yīng)用程序后,您需要做的第一件事是瀏覽計(jì)算機(jī)并找到您要處理的PDF文檔。然后,您必須選擇頁(yè)碼,應(yīng)用程序?qū)⒃谟浭卤局酗@示文本,以便您可以提取它。
它使用水平,垂直文本位置匹配,并且對(duì)于更高級(jí)的匹配,它具有用于條件匹配的規(guī)則系統(tǒng)。
更多功能和工具
您可以根據(jù)提取的數(shù)據(jù)將文件重命名或復(fù)制到新位置。它帶有更多選項(xiàng),例如數(shù)據(jù)提取,在命令行上運(yùn)行,標(biāo)頭輸出,頁(yè)碼字段,文件名字段,要處理的文件批處理列表等等。
總而言之,PDF Data Extractor是一個(gè)非常不錯(cuò)的應(yīng)用程序,您可以使用它來(lái)從各種PDF文檔中提取文本。