SysNucleus WebHarvy是一款網(wǎng)頁(yè)數(shù)據(jù)抓取工具,擁有自動(dòng)檢測(cè)模式,可提取多個(gè)頁(yè)面的數(shù)據(jù),并將其導(dǎo)出到數(shù)據(jù)庫(kù)或文件夾中。WebHarvy中支持運(yùn)行JavaScript和表達(dá)式,讓你可以靈活抓取數(shù)據(jù),需要的朋友趕緊下載吧!
WebHarvy 特點(diǎn)
點(diǎn)擊界面
WebHarvy是一個(gè)視覺網(wǎng)絡(luò)刮板。絕對(duì)不需要編寫任何腳本或代碼來(lái)抓取數(shù)據(jù)。您將使用WebHarvy的內(nèi)置瀏覽器瀏覽網(wǎng)頁(yè)。您可以選擇要點(diǎn)擊的數(shù)據(jù)。這很容易!
自動(dòng)模式檢測(cè)
WebHarvy自動(dòng)識(shí)別網(wǎng)頁(yè)中發(fā)生的數(shù)據(jù)模式。因此,如果您需要從網(wǎng)頁(yè)上刮取項(xiàng)目列表(名稱,地址,電子郵件,價(jià)格等),則無(wú)需執(zhí)行任何其他配置。如果數(shù)據(jù)重復(fù),WebHarvy會(huì)自動(dòng)刪除它。
導(dǎo)出抓取的數(shù)據(jù)
您可以以多種格式保存從網(wǎng)頁(yè)中提取的數(shù)據(jù)。WebHarvyWebScraper的當(dāng)前版本允許您將抓取的數(shù)據(jù)導(dǎo)出為Excel,XML,CSV,JSON或TSV文件。您也可以將抓取的數(shù)據(jù)導(dǎo)出到SQL數(shù)據(jù)庫(kù)。
從多個(gè)頁(yè)面提取數(shù)據(jù)
通常,網(wǎng)頁(yè)在多個(gè)頁(yè)面上顯示產(chǎn)品列表等數(shù)據(jù)。WebHarvy可以自動(dòng)抓取并從多個(gè)頁(yè)面提取數(shù)據(jù)。只需指出“鏈接到下一頁(yè)”,WebHarvyWebScraper就會(huì)自動(dòng)從所有頁(yè)面中抓取數(shù)據(jù)。
基于關(guān)鍵字的Scraping
通過自動(dòng)提交搜索表單的輸入關(guān)鍵字列表來(lái)抓取數(shù)據(jù)。任何數(shù)量的輸入關(guān)鍵字可以提交給多個(gè)輸入文本字段來(lái)執(zhí)行搜索??梢蕴崛∷休斎腙P(guān)鍵字組合的搜索結(jié)果數(shù)據(jù)。
通過代理服務(wù)器
為了匿名抓取并防止網(wǎng)絡(luò)抓取軟件被網(wǎng)絡(luò)服務(wù)器阻止,您可以選擇通過代理服務(wù)器或V PN訪問目標(biāo)網(wǎng)站??梢允褂脝蝹€(gè)代理服務(wù)器地址或代理服務(wù)器地址列表。
類別提取
WebHarvyWebScraper允許您從鏈接列表中獲取數(shù)據(jù),從而導(dǎo)致網(wǎng)站中出現(xiàn)類似的頁(yè)面/列表。這使您可以使用單一配置來(lái)刮取網(wǎng)站內(nèi)的類別和子類別。
正則表達(dá)式
WebHarvy允許您在網(wǎng)頁(yè)的文本或HTML源代碼上應(yīng)用正則表達(dá)式(RegEx)并刪除匹配的部分。這種強(qiáng)大的技術(shù)為您提供更多的靈活性,同時(shí)抓取數(shù)據(jù)。
運(yùn)行JavaScript
在提取數(shù)據(jù)之前在瀏覽器中運(yùn)行您自己的JavaScript代碼。這可以用來(lái)與頁(yè)面元素交互或者調(diào)用已經(jīng)在目標(biāo)頁(yè)面中實(shí)現(xiàn)的JavaScript函數(shù)。
下載圖片
可以下載圖像或者提取圖像URL。WebHarvy可以自動(dòng)提取電子商務(wù)網(wǎng)站的產(chǎn)品詳細(xì)信息頁(yè)面中顯示的多個(gè)圖像。
自動(dòng)瀏覽器交互
WebHarvy可以很容易地配置執(zhí)行任務(wù),如點(diǎn)擊鏈接,選擇列表/下拉選項(xiàng),輸入文本到一個(gè)字段,滾動(dòng)頁(yè)面等。
安裝教程
1、下載并安裝SysNucleus WebHarvy
2、安裝完成后將Crck文件夾中的WebHarvy.exe復(fù)制到安裝目錄中替換
3、破解完成