スキップしてメイン コンテンツに移動

Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見 (#19, #20)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。

#19と#20では、joker1007さんに、「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見」について、前後編でお話をうかがいました。

guest:@joker1007

Repro チーフアーキテクト 


host: @simosako (下佐粉 昭)

AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。


※感想は #OTFTalk でポストいただけると励みになります。

※発言は各個人のものであり、所属組織を代表するものではありません。


第19回: Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(前編)

既存システムとその特性/将来に向けて解消したい課題/OTF(Hudi)に着目した理由

https://creators.spotify.com/pod/show/otftalk/episodes/19-Apache-Hudi-e2rmfea

https://youtu.be/Z9kT1xmSqN4


第20回:Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(後編)

Hudiを選択した背景/検証環境/インデックス設定による変化/結果と考察

https://creators.spotify.com/pod/show/otftalk/episodes/20-Apache-Hudi-e2rmfj2

https://youtu.be/cNpG_XfTRbo



参考)

joker1007さんXアカウント https://x.com/joker1007

Repro https://repro.io/


更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説)

https://tech.repro.io/entry/2024/07/26/141233


本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料)

https://speakerdeck.com/joker1007/ben-fan-notorahuitukuliang-dehudiwojian-zheng-sitejian-etekitake-ti


Apache HudiのMerge on Readテーブルのパフォーマンス特性とチューニングについて(上記資料の解説ブログ)

https://tech.repro.io/entry/2024/10/28/170721


コメント

このブログの人気の投稿

OTF (Open Table Format)入門 (#01~#03)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 この#01~#03では、AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。 #01 OTF (Open Table Format)入門 - OTF誕生の背景  (youtubeは こちら ) #02  OTF (Open Table Format)入門 - OTFの今 (youtubeは こちら ) #03 OTF (Open Table Format)入門 - OTFのこれから  (youtubeは こちら ) guest: @_Bassari (疋田 宗太郎/べりんぐ) AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。 host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) ■全般 べりんぐさんブログでのOTFへの全般的な解説 https://bering.hatenadiary.com/entry/2023/07/17/235246 Iceberg, Hudi, Delta Lakeの比較記事 ※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。 https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/ ■ Apache Iceberg ホームページ https://iceberg.apache.org/ べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953 Iceberg: a fast table...

Open Table Format (OTF) のユースケース (#6, #7)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。この#6~#7では、AWS Glue プロダクトチームの関山 宜孝さんをゲストにOpen Table Format (OTF) のユースケースについてお話を伺いました。 ※今回録音環境に問題があったため、ゲストの声が聴きづらくなっています。 ゲスト: Noritaka Sekiyama ( @moomindani ) AWS Glue product team 所属の Principal Big Data Architect host:  @simosako  (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 第6回:OTFのユースケース:CDCによるニアリアルタイムデータ連携 OTF Talk 第6回は、AWS Glue プロダクトチームの関山 宜孝さんをゲストに、OTFのユースケースの1つであるCDC (Change Data Capture)の活用についてお話をうかがいました。 ※今回録音環境に問題があったため、ゲストの声が聴きづらくなっています。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 RDBをリアルタイムにdata lakeに連携したい/CDC (Change Data Capture)/なぜ実現困難だったのか/Upsertとトランザクション/データレイクをデータソースにする https://podcasters.spotify.com/pod/show/otftalk/episodes/06-CDC-e2ntfg8/a-abgp2pr https://youtu.be/rc-DmRLeEFU?si=rPakLaQpNIdwEeU0 第7回:OTFのユースケース:個人情報保護のためのデータ削除 OTF Talk 第7回は、AWS Glue プロダクトチームの関山 宜孝さんをゲストに、OTFのユー...

Iceberg へのコントリビューション/Delta Lake UniForm (#4, #5)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。この#4~#5ではAWSの田中 智大 (tomtan) さんをゲストにお話を伺いました。 guest: Tomohiro Tanaka   AWSのシニア・クラウドサポートエンジニア(Bigdata profile) host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 #04 Apache Iceberg へのコントリビューション OTF Talk 第4回は、AWSの田中 智大 (tomtan) さんをゲストに、Apache Iceberg へのコントリビューションの経験や、Icebergコミュニティについてお話を伺いました。 Apache Iceberg との出会い/はじめてのコントリビューション/どうすれば貢献できる?/Good first issue/Iceberg コミュニティ https://podcasters.spotify.com/pod/show/otftalk/episodes/04-Apache-Iceberg-e2n9ljk https://youtu.be/wxn9YPdZyrI #05 Delta Lake UniForm (Universal Format) OTF Talk 第5回は、AWSの田中 智大(tomtan) さんをゲストに Delta Lake UniForm  (Universal Format) についてと、カンファレンスに登壇する意義についてお話を伺いました。 Data + AI Summit で登壇/UniForm (Universal Format)ってなに?/UniFormの仕組みと、活用領域/ カンファレンスに登壇するモチベーション/物理的に会ったあとに何が変わったか https://podcasters.spotify.com/pod/show/otftalk/episodes/05-Delta-Lake-UniFor...