近日,第四屆“數(shù)據(jù)智能創(chuàng)新與實(shí)踐人工智能大會(huì)”在北京舉辦。火山引擎DataTester數(shù)據(jù)科學(xué)家就“傳統(tǒng)視角下的AB實(shí)驗(yàn)與互聯(lián)網(wǎng)實(shí)驗(yàn)平臺(tái)演進(jìn)”這一話題作了分享,從宏觀層面介紹了AB實(shí)驗(yàn)平臺(tái)的發(fā)展?fàn)顟B(tài),及未來(lái)演進(jìn)趨勢(shì)。
互聯(lián)網(wǎng)AB實(shí)驗(yàn)平臺(tái)期望解決的問(wèn)題是:通過(guò)結(jié)果數(shù)據(jù)度量業(yè)務(wù)方案收益,并做出最優(yōu)決策。但由于AB實(shí)驗(yàn)結(jié)果的合理性保障,是在假設(shè)隨機(jī)及滿(mǎn)足SUTVA假設(shè)兩個(gè)點(diǎn)的基礎(chǔ)上存在的,因此當(dāng)前的AB試驗(yàn)實(shí)驗(yàn)平臺(tái)亟待解決的問(wèn)題,絕大部分都與二者有關(guān)。
目前互聯(lián)網(wǎng)AB實(shí)驗(yàn)平臺(tái)的建設(shè),圍繞分流能力、數(shù)據(jù)追蹤與計(jì)算能力、統(tǒng)計(jì)分析與結(jié)果可視化能力以及標(biāo)準(zhǔn)實(shí)驗(yàn)流程4塊核心能力展開(kāi)。大多數(shù)互聯(lián)網(wǎng)公司都有自建的實(shí)驗(yàn)平臺(tái),但成熟度參差不齊。其中,火山引擎DataTester完善度相對(duì)較高。在C端場(chǎng)景下,火山引擎DataTester SUTVA假設(shè)滿(mǎn)足較好,實(shí)驗(yàn)?zāi)芰Πl(fā)展相對(duì)成熟,可滿(mǎn)足80%以上C端實(shí)驗(yàn)需求,且額外投入的人力相對(duì)較少。
但在社交、直播等違背SUTVA假設(shè)的場(chǎng)景下,互聯(lián)網(wǎng)公司雖有嘗試,但都未建成標(biāo)準(zhǔn)化能力。現(xiàn)階段上述場(chǎng)景進(jìn)行AB實(shí)驗(yàn)仍需要投入大量人力,“如何實(shí)現(xiàn)隨機(jī)化”和“配套通用統(tǒng)計(jì)分析方法”成為實(shí)驗(yàn)平臺(tái)發(fā)展的痛點(diǎn)。與此同時(shí),現(xiàn)階段的實(shí)驗(yàn)平臺(tái)在易用性方面,如何降低使用成本和提升效率仍需提升。
DoE是Design of Experiment 的縮寫(xiě),旨在描述在假設(shè)反應(yīng)變化的條件下,信息變化的任何任務(wù)的設(shè)計(jì)。DoE可以分為單因素實(shí)驗(yàn)和多因素實(shí)驗(yàn),有4大基本原則:對(duì)照原則、隨機(jī)化原則、重復(fù)性原則以及均衡性原則。而DoE的4大基本原則可以分別對(duì)應(yīng)到互聯(lián)網(wǎng)實(shí)驗(yàn)的“對(duì)照組”“流量分層 hash”“多天觀測(cè)、擴(kuò)流”以及“SRM問(wèn)題”。
在DoE的啟示下,可以分析出AB實(shí)驗(yàn)平臺(tái)可能的六個(gè)演進(jìn)方向:
1. C端場(chǎng)景實(shí)驗(yàn)深度發(fā)展:從分流服務(wù)、實(shí)驗(yàn)結(jié)果精度以及實(shí)驗(yàn)分析縱橫發(fā)展三個(gè)方面分別演進(jìn)。
2. 增加正交分層:完善實(shí)驗(yàn)平臺(tái)正交性,實(shí)驗(yàn)正交的作用是兩個(gè)實(shí)驗(yàn)沒(méi)有相互影響時(shí),可以在各個(gè)兩個(gè)實(shí)驗(yàn)層獨(dú)立進(jìn)行,獨(dú)立評(píng)估效果。
3. 健全實(shí)驗(yàn)分析能力:完善平臺(tái)數(shù)據(jù)歸因解讀能力,同時(shí)發(fā)展平臺(tái)正態(tài)分布外分析能力。
4. 實(shí)驗(yàn)工程成本優(yōu)化:采用正交設(shè)計(jì)框架,并且建設(shè)標(biāo)準(zhǔn)數(shù)據(jù)源。
5. 拓展實(shí)驗(yàn)?zāi)芰吔纾?/strong>減少流量場(chǎng)及業(yè)務(wù)之間的相互影響。
6. 完善非標(biāo)場(chǎng)景推進(jìn)準(zhǔn)因果實(shí)驗(yàn)方法:平臺(tái)非 C 端實(shí)驗(yàn)類(lèi)型都不同程度具備業(yè)務(wù)系統(tǒng)的侵入性,平臺(tái)建設(shè)難度陡增。目前此方面優(yōu)化在抖音 & 火山引擎,已有一定的嘗試和基礎(chǔ)建設(shè)。
會(huì)上,火山引擎的數(shù)據(jù)科學(xué)家也介紹了DataTester。據(jù)了解,火山引擎DataTester源自字節(jié)跳動(dòng)長(zhǎng)期沉淀,截至2023年6月,字節(jié)跳動(dòng)已通過(guò)DataTester累計(jì)做過(guò)240萬(wàn)余次AB實(shí)驗(yàn),日新增實(shí)驗(yàn) 4000余個(gè),同時(shí)運(yùn)行實(shí)驗(yàn)5萬(wàn)余個(gè)。
目前,DataTester服務(wù)了包括美的、得到、凱叔講故事等在內(nèi)的上百家企業(yè),為業(yè)務(wù)的用戶(hù)增長(zhǎng)、轉(zhuǎn)化、產(chǎn)品迭代、運(yùn)營(yíng)活動(dòng)等各個(gè)環(huán)節(jié)提供科學(xué)的決策依據(jù),將成熟的“數(shù)據(jù)驅(qū)動(dòng)增長(zhǎng)”經(jīng)驗(yàn)賦能給各行業(yè)。(作者:熊問(wèn)蘭)