本文介紹了R中最快的高-寬旋轉(zhuǎn)的處理方法,對(duì)大家解決問(wèn)題具有一定的參考價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)吧!
問(wèn)題描述
我正在處理一個(gè)表單的簡(jiǎn)單表格
date variable value
1970-01-01 V1 0.434
1970-01-01 V2 12.12
1970-01-01 V3 921.1
1970-01-02 V1 -1.10
1970-01-03 V3 0.000
1970-01-03 V5 312e6
... ... ...
對(duì)(日期、變量)是唯一的。我想把這張桌子改成寬幅的。
date V1 V2 V3 V4 V5
1970-01-01 0.434 12.12 921.1 NA NA
1970-01-02 -1.10 NA NA NA NA
1970-01-03 0.000 NA NA NA 312e6
我希望以盡可能快的方式完成此操作,因?yàn)槲冶仨氃诎?e6條記錄的表上重復(fù)該操作。在R原生模式中,我認(rèn)為tapply()
、reshape()
和d*ply()
都由data.table
控制速度。我想用基于SQLite的解決方案(或其他數(shù)據(jù)庫(kù))來(lái)測(cè)試后者的性能。以前有人這么做過(guò)嗎?是否有性能提升?另外,當(dāng)”寬”字段的數(shù)量(日期)可變且事先未知時(shí),如何在SQLite中將高到寬轉(zhuǎn)換為寬?
推薦答案
我使用的方法基于tapply
所做的工作,但速度大約快一個(gè)數(shù)量級(jí)(主要是因?yàn)闆](méi)有每個(gè)單元的函數(shù)調(diào)用)。
從Prasad的帖子使用tall
計(jì)時(shí):
pivot = function(col, row, value) {
col = as.factor(col)
row = as.factor(row)
mat = array(dim = c(nlevels(row), nlevels(col)), dimnames = list(levels(row), levels(col)))
mat[(as.integer(col) - 1L) * nlevels(row) + as.integer(row)] = value
mat
}
> system.time( replicate(100, wide <- with(tall, tapply( value, list(dt,tkr), identity))))
user system elapsed
11.31 0.03 11.36
> system.time( replicate(100, wide <- with(tall, pivot(tkr, dt, value))))
user system elapsed
0.9 0.0 0.9
關(guān)于訂單可能出現(xiàn)的問(wèn)題,應(yīng)該不會(huì)有任何問(wèn)題:
> a <- with(tall, pivot(tkr, dt, value))
> b <- with(tall[sample(nrow(tall)), ], pivot(tkr, dt, value))
> all.equal(a, b)
[1] TRUE
這篇關(guān)于R中最快的高-寬旋轉(zhuǎn)的文章就介紹到這了,希望我們推薦的答案對(duì)大家有所幫助,