【前言】
一般情況下,網站或者廣告聯盟都會非常想要一種技術方式可以在網絡上精確定位到每一個個體,這樣可以通過收集這些個體的數據,通過分析后更加精準的去推送廣告(精準化營銷)或其他有針對性的一些活動。Cookie技術是非常受歡迎的一種。當用戶訪問一個網站時,網站可以在用戶當前的瀏覽器Cookie中永久植入一個含有唯一標示符(UUID)的信息,并通過這個信息將用戶所有行為(瀏覽了哪些頁面?搜索了哪些關鍵字?對什么感興趣?點了哪些按鈕?用了哪些功能?看了哪些商品?把哪些放入了購物車等等)關聯起來。
而隨著網民對個人隱私的重視,Cookie越來越不受待見。不少安全工具甚至是瀏覽器都開始允許或引導用戶關閉Cookie功能,比如很多主流瀏覽器都有一個“隱私模式瀏覽”功能。這樣以來,網站就很難追蹤用戶行為了。但仍然有一些方法可以讓網站去追蹤每一個訪問者的行為,比如通過flash cookie的方式也可以達到唯一標識和追蹤的目的。
筆者近期注意到,國外媒體報道了一種非常難以擺脫的新型在線追蹤工具被用來尾隨從白宮官網到色情網站YouPorn.com的熱門網站的訪問者。經過分析,這個就是另一種比較新的訪客追蹤技術:“帆布指紋識別”技術,具體代碼見附錄6。這個技術的獨特之處是:它不像通過Cookie或者Flash Cookie等之類的方式,你基本是無法屏蔽它的。
【原理分析】
筆者收集整理了很多知名站點上的類似代碼,詳見附錄4,從這些“帆布指紋識別”代碼可以看出,均使用到了html5專屬標簽<canvas>的一個現狀:在繪制canvas圖片時,同樣的canvas繪制代碼,不同機器和瀏覽器繪制的圖片特征是相同并且獨一無二的,這樣以來,提取最簡單的md5值便可以唯一標識和跟蹤這個用戶。
一段產生canvas元素的JAVAscript代碼:
Default
var canvas = document.createElement(‘canvas’);
var ctx = canvas.getContext(‘2d’);
var txt = ‘http://security.tencent.com/’;
ctx.textBaseline = “top”;
ctx.font = “14px ‘Arial'”;
ctx.textBaseline = “tencent”;
ctx.fillStyle = “#f60”;
ctx.fillRect(125,1,62,20);
ctx.fillStyle = “#069”;
ctx.fillText(txt, 2, 15);
ctx.fillStyle = “rgba(102, 204, 0, 0.7)”;
ctx.fillText(txt, 4, 17);
var canvas = document.createElement(‘canvas’);
var ctx = canvas.getContext(‘2d’);
var txt = ‘http://security.tencent.com/’;
ctx.textBaseline = “top”;
ctx.font = “14px ‘Arial'”;
ctx.textBaseline = “tencent”;
ctx.fillStyle = “#f60”;
ctx.fillRect(125,1,62,20);
ctx.fillStyle = “#069”;
ctx.fillText(txt, 2, 15);
ctx.fillStyle = “rgba(102, 204, 0, 0.7)”;
ctx.fillText(txt, 4, 17);
獲取繪畫的內容,需要使用到canvas.toDataURL()方法,該方法返回的是圖片內容的base64編碼字符串。對于PNG文件格式,以塊(chunk)劃分,最后一塊是一段32位的CRC校驗,提取這段CRC校驗碼便可以用于用戶的唯一標識:
Default
var b64 = canvas.toDataURL().replace(“data:image/png;base64,”,””);
var bin = atob(b64);
var crc = bin2hex(bin.slice(-16,-12));
console.log(crc);
var b64 = canvas.toDataURL().replace(“data:image/png;base64,”,””);
var bin = atob(b64);
var crc = bin2hex(bin.slice(-16,-12));
console.log(crc);
chrome隱身模式測試:
同一機器的chrome瀏覽器,無論正常模式還是隱身模式,得到的crc值始終一致。而對于不同機器得到的值是不同的,追蹤效果顯而易見。
看到這里,相信很多人想問,Why?為什么會出現這樣的情況?同樣的js代碼,在不同設備的瀏覽器上,結果是唯一并且各不相同的。這到底是為什么?其實原因很簡單,同樣的HTML5 Canvas元素繪制操作,在不同的操作系統不同的瀏覽器上,產生的圖片內容其實是不完全相同的。出現這種情況可能是有幾個原因:
1、在圖片格式上,不同web瀏覽器使用了不同的圖形處理引擎、不同的圖片導出選項、不同的默認壓縮級別等。
2、在像素級別來看,操作系統各自使用了不同的設置和算法來進行抗鋸齒和子像素渲染操作。
因此,即使是相同的繪圖操作,最終產生的圖片數據在hash層面上依然是不同的。這個具體代碼層面,恐怕要去搞懂各個主流瀏覽器的實現和以及操作系統的渲染。筆者精力所限,短期很難給出。大家可以自行摸索下,歡迎交流J
【后話】
HTML5千變萬化,利用canvas 這一特性來實現用戶追蹤,目前并沒有好的對抗方案,未來也只能依靠廣大瀏覽器廠商自行了斷,實現canvas繪圖機制的隨機化或許可以很好的保護用戶隱私,防止被追蹤。
文中涉及到的代碼和技術細節,只限用于技術交流,切勿用于非法用途。另外,如果想要研究更多的用戶追蹤技術,推薦去研究下大名鼎鼎的專注于訪客追蹤的開源項目:evercookie【附錄5】,這個猥瑣的小工具,通過幾乎所有你想到和想不到的方式(Cookie、Flash、Silverlight、Web History、HTTP ETags、Web cache、window.name caching、userData storage、HTML5、甚至是java的漏洞等)來跟蹤訪問網站的用戶行為。