Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見 (#19, #20)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

#19と#20では、joker1007さんに、「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見」について、前後編でお話をうかがいました。

Repro チーフアーキテクト

host: @simosako (下佐粉昭)

AWSのソリューションアーキテクト。専門はデータレイク、データウェアハウス。

※感想は #OTFTalk でポストいただけると励みになります。

※発言は各個人のものであり、所属組織を代表するものではありません。

既存システムとその特性/将来に向けて解消したい課題/OTF(Hudi)に着目した理由

Hudiを選択した背景/検証環境/インデックス設定による変化/結果と考察

joker1007さんXアカウント https://x.com/joker1007

更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説)

本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料)

Apache HudiのMerge on Readテーブルのパフォーマンス特性とチューニングについて(上記資料の解説ブログ)

OTF Talk - Open Table Format をテーマとするPodcast