引言
如果您仔細(xì)分析過(guò)任何一個(gè)網(wǎng)站的請(qǐng)求日志,您肯定會(huì)發(fā)現(xiàn)一些可疑的流量,那可能就是爬蟲(chóng)流量。根據(jù) Imperva 發(fā)布的《2023 Imperva Bad Bot Report》在 2022 年的所有互聯(lián)網(wǎng)流量中,47.4% 是爬蟲(chóng)流量。與 2021 年的 42.3% 相比,增長(zhǎng)了 5.1%。在這些爬蟲(chóng)流量中,30.2% 是惡意爬蟲(chóng),比 2021 年的 27.7% 增長(zhǎng)了 2.5%。
從國(guó)內(nèi)外公開(kāi)的數(shù)據(jù)中可以得出,惡意爬蟲(chóng)幾乎出現(xiàn)在各個(gè)行業(yè),無(wú)論是傳統(tǒng)行業(yè)、泛互聯(lián)網(wǎng),還是政企、金融等,都各種程度遭受著爬蟲(chóng)的攻擊,并且爬蟲(chóng)流量還在逐年增長(zhǎng)。
大部分正常的爬蟲(chóng)可以幫助我們提高生產(chǎn)力,而惡意的爬蟲(chóng)不僅會(huì)造成數(shù)據(jù)泄漏還會(huì)影響正常用戶體驗(yàn)。合適的反爬服務(wù)可識(shí)別惡意爬蟲(chóng)并攔截,京東云 WAF 的 BOT 管理提供了多種爬蟲(chóng)防護(hù)功能。
惡意爬蟲(chóng)的危害
爬蟲(chóng)(Web Crawler),又稱(chēng)網(wǎng)絡(luò)爬蟲(chóng)、網(wǎng)絡(luò)蜘蛛、網(wǎng)頁(yè)蜘蛛,是一種自動(dòng)化程序或腳本,用于在互聯(lián)網(wǎng)上自動(dòng)地獲取網(wǎng)頁(yè)內(nèi)容,并從中提取信息。
爬蟲(chóng)分為合法爬蟲(chóng)和非法爬蟲(chóng)或惡意爬蟲(chóng)。合法爬蟲(chóng)是遵守網(wǎng)絡(luò)道德和法律規(guī)定,以合法、合規(guī)和友好的方式運(yùn)行的網(wǎng)絡(luò)爬蟲(chóng)。這些爬蟲(chóng)在進(jìn)行數(shù)據(jù)采集和信息獲取時(shí),遵循網(wǎng)站的 robots.txt 協(xié)議,尊重網(wǎng)站的隱私政策和使用條款,以及遵守相關(guān)的法律法規(guī)。合法爬蟲(chóng)的目的通常是為了收集網(wǎng)站上公開(kāi)可見(jiàn)的信息,并且爬取的頻率和速率是合理且可控的。這些爬蟲(chóng)的使用符合網(wǎng)站的訪問(wèn)規(guī)則,不會(huì)對(duì)網(wǎng)站造成嚴(yán)重的帶寬壓力或資源浪費(fèi)。例如平時(shí)我們用的百度、必應(yīng)等搜索引擎就離不開(kāi)爬蟲(chóng),搜索引擎爬蟲(chóng)每天會(huì)在網(wǎng)絡(luò)上爬取大量的網(wǎng)頁(yè)進(jìn)行分析處理收收錄,當(dāng)用戶通過(guò)關(guān)鍵詞搜索時(shí),就會(huì)按照一定的排序把相關(guān)的網(wǎng)頁(yè)快照展現(xiàn)給用戶。
惡意爬蟲(chóng)是一類(lèi)不遵守網(wǎng)絡(luò)道德和法律規(guī)定,以非法、破壞性或有害的方式運(yùn)行的網(wǎng)絡(luò)爬蟲(chóng)。這些爬蟲(chóng)通常不遵循網(wǎng)站的 robots.txt 協(xié)議、不尊重網(wǎng)站的隱私政策,以及不遵守網(wǎng)站的使用條款和服務(wù)協(xié)議。惡意爬蟲(chóng)的目的可能包括但不限于:
- 漏洞探測(cè):攻擊者利用爬蟲(chóng)程序掃描網(wǎng)站尋找漏洞,利用漏洞可實(shí)現(xiàn)網(wǎng)站提權(quán)安裝后門(mén)等。
- 數(shù)據(jù)盜?。汗粽卟渴鹋老x(chóng)非法的方式獲取網(wǎng)站的敏感數(shù)據(jù)、個(gè)人信息、商業(yè)機(jī)密等,可用于欺詐、垃圾郵件、身份盜竊等不良用途。
- 刷票、薅羊毛:攻擊者通過(guò)爬蟲(chóng)程序搶優(yōu)惠券、秒殺商品等,影響活動(dòng)效果。密碼撞庫(kù):大規(guī)模暴力破解或撞擊密碼,獲取用戶賬戶的訪問(wèn)權(quán)限,對(duì)網(wǎng)站用戶的賬戶安全造成嚴(yán)重威脅。
- 暴力破解:攻擊者利用大規(guī)模僵死網(wǎng)絡(luò),高速、大規(guī)模攻擊網(wǎng)站,導(dǎo)致服務(wù)器過(guò)載、帶寬浪費(fèi),影響網(wǎng)站的正常運(yùn)行。
綜上,惡意爬蟲(chóng)對(duì)網(wǎng)站和企業(yè)影響嚴(yán)重,輕則影響網(wǎng)站正常運(yùn)行重則影響企業(yè)正常運(yùn)營(yíng)。因此,通過(guò)部署反爬服務(wù)阻止惡意爬蟲(chóng)請(qǐng)求,保護(hù)網(wǎng)站免受威脅非常重要。京東云 WAF Bot 管理提供了多種爬蟲(chóng)防護(hù)手段,可有效幫你應(yīng)對(duì)各種爬蟲(chóng)。
惡意爬蟲(chóng)防護(hù) —— 京東云 WAF Bot 管理
京東云 WAF Bot 管理支持對(duì)爬蟲(chóng)程序進(jìn)行甄別分類(lèi),并采取針對(duì)性的流量管理策略,例如,放行搜索引擎蜘蛛流量,對(duì)惡意爬取商品信息、秒殺價(jià)格、庫(kù)存信息等核心數(shù)據(jù)進(jìn)行阻斷,還可以應(yīng)對(duì)惡意機(jī)器人程序爬取帶來(lái)的資源消耗、查詢業(yè)務(wù)數(shù)據(jù)等問(wèn)題。
京東云 WAF 提供了常見(jiàn)爬蟲(chóng) UA 庫(kù),提供 11 大類(lèi)上百種商業(yè)爬蟲(chóng)防護(hù),可快速高效攔截這類(lèi)爬蟲(chóng)。
京東云 WAF 提供了惡意 IP 懲罰,結(jié)合 Web 攻擊防護(hù)利用大數(shù)據(jù)算法,可及時(shí)識(shí)別并攔截惡意 IP 掃描行為,有效防護(hù)漏掃描、文件遍歷等爬蟲(chóng)行為。
京東云 WAF 反爬蟲(chóng)引擎利用算法和模型自動(dòng)學(xué)習(xí)并分析網(wǎng)站請(qǐng)求流量,提供了寬松、正常、嚴(yán)格 3 種等級(jí)的防護(hù)模式,并支持配置配置觀察、人機(jī)交互、攔截返回自定義頁(yè)面等,可有效防護(hù)數(shù)據(jù)類(lèi)爬蟲(chóng)和刷券類(lèi)爬蟲(chóng)。
京東云 WAF 提供了賬戶安全,通過(guò)提取請(qǐng)求中的賬號(hào)和密碼自動(dòng)分析,可有效防護(hù)弱密碼探測(cè)、暴力破解和撞庫(kù)攻擊。
京東云 WAF 提供了 IDC 威脅情報(bào),可攔截云上有過(guò)惡意行為的 IP 訪問(wèn);偽造蜘蛛情報(bào),可攔截偽裝成搜索引擎蜘蛛的爬蟲(chóng)請(qǐng)求。
京東云 WAF 提供了偽造 UA 評(píng)分,可識(shí)別惡意爬蟲(chóng)偽裝成瀏覽器的請(qǐng)求行為。
京東云 WAF 提供了自定義 BOT 規(guī)則,支持多種條件疊加、同時(shí)還可以疊加前端技術(shù)、疊加威脅情報(bào),結(jié)合多維度頻次統(tǒng)計(jì),可靈活支持多種業(yè)務(wù)場(chǎng)景下的爬蟲(chóng)行為,為攻防對(duì)抗提供了可配性。
2023 年 H1,京東云 WAF 幫助云上多個(gè)客戶防護(hù)了上億次爬蟲(chóng)攻擊,攻擊的峰值 QPS 達(dá)到 20W+/s。攻擊的手段和目的也多種多樣,有掛小區(qū)基站 IP 池的、有偽裝成正常用戶的、有常態(tài)化掃描探測(cè)的、有刷優(yōu)惠券的、有刷特價(jià)商品的、有爬商品價(jià)格的。
前段時(shí)間云 WAF 有個(gè)客戶發(fā)優(yōu)惠券,剛開(kāi)始的時(shí)候刷子利用公有云的函數(shù)服務(wù)和云主機(jī)刷券,客戶開(kāi)啟云 WAF 的 IDC 威脅情報(bào)輕松應(yīng)對(duì);刷子升級(jí)了策略使用了小區(qū)基站 IP 池偽裝成 Chrome 瀏覽器用戶大量的請(qǐng)求優(yōu)惠券接口,指導(dǎo)客戶開(kāi)啟了反爬蟲(chóng)引擎并配置了自定義 Bot 規(guī)則,平時(shí)的峰值 QPS 只有 2K,發(fā)券時(shí)候峰值 QPS 打到了 11W。5 分鐘進(jìn)來(lái) 1405W 請(qǐng)求,云 WAF 攔截了 1401W。其中被反爬蟲(chóng)引擎識(shí)別了 59%,被自定義 BOT 規(guī)則攔截了 38%,被威脅情報(bào)攔截了 3%,識(shí)別并攔截惡意爬蟲(chóng)率達(dá)到 99.7%。
總結(jié)
互聯(lián)網(wǎng)上一半的流量來(lái)自于爬蟲(chóng),如果您的網(wǎng)站沒(méi)發(fā)現(xiàn)爬蟲(chóng)行為或者您的網(wǎng)站正遭受惡意爬蟲(chóng)攻擊,那么您可以試試云 WAF 的爬蟲(chóng)管理,不僅可以幫您發(fā)現(xiàn)爬蟲(chóng)行為還可以幫您防護(hù)爬蟲(chóng)攻擊。詳細(xì)可以參考:官網(wǎng)文檔。
作者:京東科技 李文強(qiáng)
來(lái)源:京東云開(kāi)發(fā)者社區(qū) 轉(zhuǎn)載請(qǐng)注明來(lái)源