大量のデータをバッチ処理するようなプログラムを用意するときに、PythonとGolangのどちらを使うべきかいつも悩む。処理速度は悩むポイントの一つだ。近々大量のCSVを扱うプログラムを書く予定があったので、PythonとGolangでどの程度CSVの処理速度に違いがあるのか実験してみた。
実験は手元のiMac (Intel Core i5 3.4GHz / 40GB 2400MHz DDR4 RAM / Fusion Drive) で行った。
実験1: CSVファイルの書き出し(実験用のCSVデータの準備)
5列, 10列, 20列, 40列 × 10,000行, 100,000行, 1,000,000行 のCSVファイルを用意する。1列目には、後のフィルタリングのテスト用にtype0, type1, type2, type0…といった3行ずつループする文字列の値を、2列目には集計のテスト用に行番号を10で割った余りの数値を、それ以外の列には「{行}_{列}」という文字列が入るようなファイルを用意する。一番大きい40列 × 1,000,000行のCSVファイルで360MBほど、
Python(csv.writerを使用)
for cols in [5, 10, 20, 40]:
col_headers = list(map(lambda x: f"col{x}", range(1, cols + 1)))
for rows in [10000, 100000, 1000000]:
with open(os.path.join(out_dir, f"cols_{cols}_rows_{rows}.csv"), 'w') as f:
writer = csv.writer(f)
writer.writerow(col_headers)
for j in range(0, rows):
row = [f"{j}_{x}" for x in range(1, cols + 1)]
row[0] = f"type{j%10}"
row[1] = j%10
writer.writerow(row)
処理時間(単位ms / 10回実行の平均値)
5列 | 10列 | 20列 | 40列 | |
10,000行 | 33.5 | 57.3 | 119.0 | 197.1 |
100,000行 | 365.7 | 638.9 | 1123.8 | 2166.8 |
1,000,000行 | 3733.4 | 6557.2 | 11768.0 | 22734.5 |
Golang
start := time.Now()
f, err := os.Open(filePath)
if err != nil {
log.Fatal(err)
}
defer f.Close()
w := csv.NewWriter(f)
header := []string{}
for j := 0; j < cols; j++ {
header = append(header, fmt.Sprintf("col%d", j+1))
}
w.Write(header)
for j := 0; j < rows; j++ {
row := []string{}
for k := 0; k < cols; k++ {
row = append(row, fmt.Sprintf("%d_%d", j, k))
}
row[0] = fmt.Sprintf("type%d", j%10)
row[1] = fmt.Sprintf("%d", j%10)
w.Write(row)
}
w.Flush()
timeElapsed := time.Since(start)
処理時間(単位ms / 10回実行の平均値)
5列 | 10列 | 20列 | 40列 | |
10,000行 | 13.4 | 22.5 | 40.3 | 75.6 |
100,000行 | 134.7 | 224.5 | 409.9 | 734.6 |
1,000,000行 | 1352.3 | 2258.3 | 4040.2 | 7618.4 |
比較
Pythonに比べて、Golangの処理時間は1/3程度。PythonではPandasを使ってもCSV出力は可能だが、メモリー上で書き出し用のDataFrameを生成する処理の時間が大きくなるため、省略。
実験2: CSVファイル読み込み
次に、書き出したファイルを使ってCSVファイルの読み込みにかかる時間を調べる。
Python(csv.readerを使用)
start = time.time()
rows_count = 0
with open(path) as f:
reader = csv.reader(f)
next(f) # skip header
for row in reader:
rows_count += 1
time_elapsed = time.time() - start
処理時間(単位ms / 10回実行の平均値)
5列 | 10列 | 20列 | 40列 | |
10,000行 | 7.8 | 15.4 | 30.8 | 63.1 |
100,000行 | 88.5 | 166.2 | 344.7 | 671.8 |
1,000,000行 | 899.4 | 1767.3 | 3569.3 | 7263.9 |
参考: Python(Pandas DataFrameを使用)
メモリに全て展開/保持される形になるため、ただ一行ずつ読み込んで処理する場合では非効率だが参考値として計測しておく。
start = time.time()
rows_count = len(pd.read_csv(path, dtype=str).index)
time_elapsed = time.time() - start
処理時間(単位ms / 10回実行の平均値)
5列 | 10列 | 20列 | 40列 | |
10,000行 | 20.5 | 33.2 | 75.1 | 153.8 |
100,000行 | 120.6 | 326.7 | 800.4 | 1754.2 |
1,000,000行 | 1279.5 | 3352.0 | 8236.6 | 18224.0 |
Golang
start := time.Now()
f, err := os.Open(filePath)
if err != nil {
log.Fatal(err)
}
defer f.Close()
r := csv.NewReader(f)
rowsCount := 0
// skip header
if _, err := r.Read(); err != nil {
log.Fatal(err)
}
for {
_, err := r.Read()
if err == io.EOF {
break
}
if err != nil {
log.Fatal(err)
}
rowsCount++
}
timeElapsed := time.Since(start)
処理時間(10回実行の平均値)
5列 | 10列 | 20列 | 40列 | |
10,000行 | 2.5 | 5.9 | 6.8 | 12.5 |
100,000行 | 24.7 | 47.8 | 71.8 | 130.1 |
1,000,000行 | 249.4 | 399.9 | 720.2 | 1333.2 |
比較
読み取りの処理だけをみてみると、Golangが圧倒的に速い。Pythonのcsv.readerの1/5程度の時間で処理が終わった。
実験3: 集計
特定の列の数値の合計の計算にかかる時間を調べる。
Python(csv.readerを使用)
start = time.time()
sum = 0
with open(path) as f:
reader = csv.reader(f)
next(f) # skip header
for row in reader:
sum += int(row[1])
time_elapsed = time.time() - start
処理時間(単位ms / 10回実行の平均値)
5列 | 10列 | 20列 | 40列 | |
10,000行 | 10.0 | 17.0 | 32.7 | 65.5 |
100,000行 | 106.6 | 185.5 | 356.7 | 686.1 |
1,000,000行 | 1093.8 | 1976.5 | 3784.3 | 7475.1 |
Python(Pandas DataFrameを使用)
start = time.time()
sum = pd.read_csv(path)["col2"].sum()
time_elapsed = time.time() - start
処理時間(10回実行の平均値)
5列 | 10列 | 20列 | 40列 | |
10,000行 | 25.8 | 39.4 | 90.2 | 186.0 |
100,000行 | 130.1 | 360.0 | 973.5 | 1970.2 |
1,000,000行 | 1385.4 | 3853.0 | 9460.0 | 19974.4 |
Golang
start := time.Now()
f, err := os.Open(filePath)
if err != nil {
log.Fatal(err)
}
defer f.Close()
r := csv.NewReader(f)
sum := 0
// skip header
if _, err := r.Read(); err != nil {
log.Fatal(err)
}
for {
row, err := r.Read()
if err == io.EOF {
break
}
if err != nil {
log.Fatal(err)
}
v, err := strconv.Atoi(row[1])
if err != nil {
log.Fatal(err)
}
sum += v
}
timeElapsed := time.Since(start)
処理時間(単位ms / 10回実行の平均値)
5列 | 10列 | 20列 | 40列 | |
10,000行 | 2.7 | 3.9 | 7.0 | 12.7 |
100,000行 | 25.4 | 40.5 | 81.6 | 131.7 |
1,000,000行 | 256.6 | 397.9 | 740.7 | 1327.8 |
比較
処理時間から、実験1で計測したCSVの読み込みにかかる時間を引いた時間の比較。Golangの1,000,000行の処理については、結果が僅かにマイナスになってしまうほど処理にかかる時間が少なかったため、もはや比率の計算ができない。
実験4: フィルタリング
特定の値を持つ行だけを抽出する処理にかかる時間を調べる。
Python(csv.readerを使用)
start = time.time()
type0count = 0
with open(path) as f:
reader = csv.reader(f)
next(f) # skip header
for row in reader:
if row[0] == "type0":
type0count += 1
time_elapsed = time.time() - start
処理時間(単位ms / 10回実行の平均値)
5列 | 10列 | 20列 | 40列 | |
10,000行 | 7.9 | 15.0 | 30.9 | 61.8 |
100,000行 | 85.6 | 166.4 | 333.0 | 676.7 |
1,000,000行 | 903.1 | 1746.7 | 3548.1 | 7145.8 |
Python(Pandas DataFrameを使用)
start = time.time()
type0 = len(pd.read_csv(path, dtype=str).query('col1 == "type0"').index)
time_elapsed = time.time() - start
処理時間(単位ms / 10回実行の平均値)
5列 | 10列 | 20列 | 40列 | |
10,000行 | 22.9 | 38.5 | 82.9 | 169.2 |
100,000行 | 133.1 | 350.3 | 815.6 | 1740.4 |
1,000,000行 | 1351.1 | 3430.8 | 8313.0 | 18157.4 |
Golang
start := time.Now()
f, err := os.Open(filePath)
if err != nil {
log.Fatal(err)
}
defer f.Close()
r := csv.NewReader(f)
type0Count := 0
for {
row, err := r.Read()
if err == io.EOF {
break
}
if err != nil {
log.Fatal(err)
}
if row[0] == "type0" {
type0Count += 1
}
}
timeElapsed := time.Since(start)
処理時間(単位ms / 10回実行の平均値)
5列 | 10列 | 20列 | 40列 | |
10,000行 | 2.9 | 4.2 | 6.8 | 13.0 |
100,000行 | 25.4 | 40.5 | 73.0 | 131.7 |
1,000,000行 | 255.5 | 401.8 | 727.9 | 1369.3 |
比較
こちらも処理時間から、実験1で計測したCSVの読み込みにかかる時間を引いた時間の比較。フィルタリングの処理は、どの実装でも場合によっては単純なCSV読み込みよりも処理時間が短くなって実験結果がマイナスになってしまうなど「誤差」としか言えないような処理時間でパフォーマンスに大きな差が現れなかった。
まとめ/考察
CSVファイルの読み書きでは、PythonとGolangで3倍〜5倍程度のパフォーマンスの差があった。シンプルな集計やフィルタリングについては、処理の内容にも寄るだろうが極端に大きなパフォーマンスの差はないようだった。全体的にGolangが最もパフォーマンスとしては優れているが、やはりPythonに比べると書かなければいけないコードの量は増える。
Pythonではcsv.reader / csv.writerを使う場合とPandasのDataFrameを使う場合でも大きなパフォーマンスの差が現れた。DataFrameを使うと、複雑で高度な処理を簡素に書くことができるが、それが必要ない場合はcsv.reader / csv.writerを使うことで、少なくとも読み込みの部分だけでも1/2〜1/3程度に処理時間を短縮できそうだ。
高度で複雑なデータ集計をしたい場合や、パフォーマンスが問題にならず簡素にデータ処理を書きたい場合はPythonでPandasのDataFrameを、パフォーマンスが最優先の場合はGolangを、コードの生産性/保守性とパフォーマンスのバランスを取りたい場合はPythonでcsv.reader / csv.writerを使うのが良さそう。