問題內(nèi)容
polars.read_csv
與 polars.read_csv_batched
與 polars.scan_csv
有什么區(qū)別?
polars.read_csv
看起來等同于 pandas.read_csv
因為它們具有相同的名稱。
在哪種場景下使用哪一個以及它們與 pandas.read_csv
的相似/不同之處?
正確答案
polars.read_csv_batched
非常相當(dāng)于 pandas.read_csv(iterator=True)
一個>.
polars.scan_csv
不會執(zhí)行任何操作,直到您對數(shù)據(jù)框執(zhí)行類似 dask.dataframe.read_csv
(延遲加載)。
場景:
我使用 pandas.read_csv
時我的數(shù)據(jù)比較雜亂或者結(jié)構(gòu)比較復(fù)雜,而且數(shù)據(jù)量不太大
我使用polars.read_csv
當(dāng)我的數(shù)據(jù)文件非常大時(> 10GB)。
這是完全基于我(謙虛)意見的答案。