SysNucleus WebHarvy
詳情介紹
WebHarvy是一款專業(yè)的網(wǎng)頁數(shù)據(jù)抓取工具。可以自動抓取并從多個頁面提取數(shù)據(jù),你可以直接在網(wǎng)頁上選擇需要選擇的資源,也可以直接將整個網(wǎng)頁保存為HTML的格式,可以幫助用戶快速從網(wǎng)頁上提取數(shù)據(jù)并保存在不同的格式,允許您將抓取的數(shù)據(jù)導(dǎo)出為Excel,XML,CSV,JSON或TSV文件。智能地識別數(shù)據(jù)模式發(fā)生在web頁面。 SysNucleus WebHarvy自動提取文字、圖片、網(wǎng)址和電子郵件從網(wǎng)站,并保存了各種格式的內(nèi)容。從網(wǎng)頁上采集數(shù)據(jù)作為導(dǎo)航到包含數(shù)據(jù)和點擊數(shù)據(jù)被捕獲的網(wǎng)頁一樣簡單??梢宰詣幼ト〔亩鄠€網(wǎng)頁中提取數(shù)據(jù)。只是指出了“鏈接到下一頁'和WebHarvy網(wǎng)站刮板將自動刮從所有頁面的數(shù)據(jù)。使用這款軟件,您可以從各種網(wǎng)站提取數(shù)據(jù),例如產(chǎn)品目錄或搜索結(jié)果,這些網(wǎng)站可能涉及房地產(chǎn),電子商務(wù),學(xué)術(shù)研究,娛樂,技術(shù)等不同類別。
通過 WebHarvy 的點擊界面,網(wǎng)頁抓取變得非常簡單。無需編寫代碼或腳本來抓取數(shù)據(jù)。您將使用 WebHarvy 的內(nèi)置瀏覽器加載和導(dǎo)航網(wǎng)站,并且可以通過單擊鼠標(biāo)選擇要抓取的數(shù)據(jù)。
2、智能模式檢測
WebHarvy 自動識別網(wǎng)頁中出現(xiàn)的數(shù)據(jù)模式。要從網(wǎng)頁中抓取項目列表或表格(名稱、地址、電子郵件、價格等),不需要額外的配置。如果數(shù)據(jù)重復(fù),WebHarvy 會自動抓取它。
3、保存到文件或數(shù)據(jù)庫
抓取的數(shù)據(jù)可以以多種格式保存。當(dāng)前版本的 WebHarvy 網(wǎng)頁抓取軟件允許您將抓取的數(shù)據(jù)保存為 Excel、XML、CSV、JSON 或 TSV 文件。您還可以將數(shù)據(jù)導(dǎo)出到 SQL 數(shù)據(jù)庫。
4、處理分頁
網(wǎng)站通常會在多個頁面中顯示產(chǎn)品列表或搜索結(jié)果等數(shù)據(jù)。WebHarvy 可以自動從多個頁面爬行和抓取數(shù)據(jù)。只需指出“下一頁的鏈接”,WebHarvy 就會自動從所有頁面中抓取數(shù)據(jù)。
5、提交關(guān)鍵詞
通過自動向搜索表單提交輸入關(guān)鍵字列表來抓取數(shù)據(jù)??梢詫⑷我鈹?shù)量的輸入關(guān)鍵字提交到多個輸入文本字段來執(zhí)行搜索??梢詮妮斎腙P(guān)鍵字的所有組合的搜索結(jié)果中抓取數(shù)據(jù)。
6、保護(hù)隱私
為了匿名抓取數(shù)據(jù)并防止網(wǎng)絡(luò)抓取軟件被網(wǎng)絡(luò)服務(wù)器阻止,您可以選擇通過代理服務(wù)器或 VPN 訪問目標(biāo)網(wǎng)站??梢允褂脝蝹€代理服務(wù)器或代理服務(wù)器列表。
7、類別抓取
WebHarvy 允許您從指向網(wǎng)站內(nèi)類似頁面/列表的鏈接列表中抓取數(shù)據(jù)。這允許您使用單一配置來抓取網(wǎng)站內(nèi)的類別和子類別。
8、常用表達(dá)
正則表達(dá)式 (RegEx) 可以應(yīng)用于網(wǎng)頁的文本或 HTML 源來抓取匹配部分。這種強大的技術(shù)為您在抓取數(shù)據(jù)時提供了更大的靈活性和控制力。
9、JavaScript 支持
在抓取數(shù)據(jù)之前,在瀏覽器中運行您自己的 JavaScript 代碼。這可用于與頁面元素交互、修改 DOM 或調(diào)用目標(biāo)頁面中已實現(xiàn)的 JavaScript 函數(shù)。
10、圖像抓取
可以下載圖像或抓取圖像 URL。WebHarvy 可以自動抓取電子商務(wù)網(wǎng)站產(chǎn)品詳細(xì)信息頁面中顯示的多張圖像。
11、自動執(zhí)行瀏覽器任務(wù)
WebHarvy 可以輕松配置為執(zhí)行諸如 單擊鏈接、 選擇列表/下拉選項、在字段中輸入文本、 滾動頁面、 打開彈出窗口等任務(wù)。
WebHarvy 需要 Windows 操作系統(tǒng)才能運行。如果您想在 Mac 上運行 WebHarvy,您應(yīng)該通過 BootCamp 安裝 Windows 或通過 Parallels 運行 WebHarvy。目前不支持 OS X / macOS。
2、基于 Chrome 構(gòu)建
最新版本的 WebHarvy 是使用 Google 的開源 Chrome 瀏覽器項目構(gòu)建的,這使得它更加安全、穩(wěn)定和更快。
3、從云運行
WebHarvy 可以在 Amazon AWS EC2 Windows 實例中運行
功能特點
1、簡單的網(wǎng)頁抓取通過 WebHarvy 的點擊界面,網(wǎng)頁抓取變得非常簡單。無需編寫代碼或腳本來抓取數(shù)據(jù)。您將使用 WebHarvy 的內(nèi)置瀏覽器加載和導(dǎo)航網(wǎng)站,并且可以通過單擊鼠標(biāo)選擇要抓取的數(shù)據(jù)。
2、智能模式檢測
WebHarvy 自動識別網(wǎng)頁中出現(xiàn)的數(shù)據(jù)模式。要從網(wǎng)頁中抓取項目列表或表格(名稱、地址、電子郵件、價格等),不需要額外的配置。如果數(shù)據(jù)重復(fù),WebHarvy 會自動抓取它。
3、保存到文件或數(shù)據(jù)庫
抓取的數(shù)據(jù)可以以多種格式保存。當(dāng)前版本的 WebHarvy 網(wǎng)頁抓取軟件允許您將抓取的數(shù)據(jù)保存為 Excel、XML、CSV、JSON 或 TSV 文件。您還可以將數(shù)據(jù)導(dǎo)出到 SQL 數(shù)據(jù)庫。
4、處理分頁
網(wǎng)站通常會在多個頁面中顯示產(chǎn)品列表或搜索結(jié)果等數(shù)據(jù)。WebHarvy 可以自動從多個頁面爬行和抓取數(shù)據(jù)。只需指出“下一頁的鏈接”,WebHarvy 就會自動從所有頁面中抓取數(shù)據(jù)。
5、提交關(guān)鍵詞
通過自動向搜索表單提交輸入關(guān)鍵字列表來抓取數(shù)據(jù)??梢詫⑷我鈹?shù)量的輸入關(guān)鍵字提交到多個輸入文本字段來執(zhí)行搜索??梢詮妮斎腙P(guān)鍵字的所有組合的搜索結(jié)果中抓取數(shù)據(jù)。
6、保護(hù)隱私
為了匿名抓取數(shù)據(jù)并防止網(wǎng)絡(luò)抓取軟件被網(wǎng)絡(luò)服務(wù)器阻止,您可以選擇通過代理服務(wù)器或 VPN 訪問目標(biāo)網(wǎng)站??梢允褂脝蝹€代理服務(wù)器或代理服務(wù)器列表。
7、類別抓取
WebHarvy 允許您從指向網(wǎng)站內(nèi)類似頁面/列表的鏈接列表中抓取數(shù)據(jù)。這允許您使用單一配置來抓取網(wǎng)站內(nèi)的類別和子類別。
8、常用表達(dá)
正則表達(dá)式 (RegEx) 可以應(yīng)用于網(wǎng)頁的文本或 HTML 源來抓取匹配部分。這種強大的技術(shù)為您在抓取數(shù)據(jù)時提供了更大的靈活性和控制力。
9、JavaScript 支持
在抓取數(shù)據(jù)之前,在瀏覽器中運行您自己的 JavaScript 代碼。這可用于與頁面元素交互、修改 DOM 或調(diào)用目標(biāo)頁面中已實現(xiàn)的 JavaScript 函數(shù)。
10、圖像抓取
可以下載圖像或抓取圖像 URL。WebHarvy 可以自動抓取電子商務(wù)網(wǎng)站產(chǎn)品詳細(xì)信息頁面中顯示的多張圖像。
11、自動執(zhí)行瀏覽器任務(wù)
WebHarvy 可以輕松配置為執(zhí)行諸如 單擊鏈接、 選擇列表/下拉選項、在字段中輸入文本、 滾動頁面、 打開彈出窗口等任務(wù)。
軟件優(yōu)勢
1、需要 WindowsWebHarvy 需要 Windows 操作系統(tǒng)才能運行。如果您想在 Mac 上運行 WebHarvy,您應(yīng)該通過 BootCamp 安裝 Windows 或通過 Parallels 運行 WebHarvy。目前不支持 OS X / macOS。
2、基于 Chrome 構(gòu)建
最新版本的 WebHarvy 是使用 Google 的開源 Chrome 瀏覽器項目構(gòu)建的,這使得它更加安全、穩(wěn)定和更快。
3、從云運行
WebHarvy 可以在 Amazon AWS EC2 Windows 實例中運行
下載地址
- 電腦版
SysNucleus WebHarvy v7.2.0.217
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
同類軟件
網(wǎng)友評論
共0條評論(您的評論需要經(jīng)過審核才能顯示)
分類列表
精彩發(fā)現(xiàn)
換一換精品推薦
-
QuiteRSS(RSS閱讀器) v0.19.4 網(wǎng)絡(luò)輔助 / 37.63M
查看 -
ProxyCap(代理服務(wù)器工具)官方版 v5.3.90 網(wǎng)絡(luò)輔助 / 7.28M
查看 -
ssport高速端口掃描器中文版 v1.1官方版 網(wǎng)絡(luò)輔助 / 579K
查看 -
Acrylic WiFi professional(網(wǎng)絡(luò)檢測分析工具)官方版 v3.3.6621.26352 網(wǎng)絡(luò)輔助 / 8.4M
查看 -
WireEdit(網(wǎng)絡(luò)數(shù)據(jù)包編輯工具) v1.10.118官方版 網(wǎng)絡(luò)輔助 / 23.2M
查看
專題推薦
本類排行
月排行總排行