スキップしてメイン コンテンツに移動

投稿

Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見 (#19, #20)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 #19と#20では、joker1007さんに、「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見」について、前後編でお話をうかがいました。 guest: @joker1007 Repro チーフアーキテクト  host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 第19回: Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(前編) 既存システムとその特性/将来に向けて解消したい課題/OTF(Hudi)に着目した理由 https://creators.spotify.com/pod/show/otftalk/episodes/19-Apache-Hudi-e2rmfea https://youtu.be/Z9kT1xmSqN4 第20回:Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(後編) Hudiを選択した背景/検証環境/インデックス設定による変化/結果と考察 https://creators.spotify.com/pod/show/otftalk/episodes/20-Apache-Hudi-e2rmfj2 https://youtu.be/cNpG_XfTRbo 参考) joker1007さんXアカウント https://x.com/joker1007 Repro https://repro.io/ 更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説) https://tech.repro.io/entry/2024/07/26/141233 本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料) https://speakerdeck.com/j...
最近の投稿

LINEヤフーにおけるHiveからIcebergへの移行(#17, #18)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 #17と#18では、奥田さんに、「LINEヤフーにおけるHiveからIcebergへの移行」について、前後編でお話をうかがいました。 guest:奥田 輔さん  @okdtsk   LINEヤフー  データグループ host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 第17回: LINEヤフーにおけるHiveからIcebergへの移行(前編) OTF Talk 第17回は奥田さんに、「LINEヤフーにおけるHiveからIcebergへの移行(前編)」についてお話をうかがいました。 Cloudera Evolve 2024での登壇/HDFSで900PB超のデータ基盤/現状の構成と課題/なぜApache Iceberg? https://podcasters.spotify.com/pod/show/otftalk/episodes/17-LINEHiveIceberg-e2qsibl https://youtu.be/3vFUHL2myD0 第18回:LINEヤフーにおけるHiveからIcebergへの移行(後編) OTF Talk 第18回は、奥田さんに「LINEヤフーにおけるHiveからIcebergへの移行(後編)」についてお話をうかがいました。 Iceberg導入のモチベーション/HiveからIcebergへインプレースでの移行/一部移行した感触/ユーザーコミュニケーションの重要性 https://podcasters.spotify.com/pod/show/otftalk/episodes/18-LINEHiveIceberg-e2qsieg https://youtu.be/M1uTaWQVqOU 参考文献) Cloudera Evolve 2024 https://www.cloudera.com/events/evolve/singapore.html LIN...

Apache Hadoopから見たOTF / AWS GlueのOTFサポート (#15,#16)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 第15回と第16回では、鯵坂 明さんに、「Apache Hadoopから見たOTF」や「AWS Glueの OTFサポート」いついてお話をうかがいました。 guest:鯵坂 明さん @ ajis_ka  AWS Glue サービスチーム シニアソフトウェアエンジニア / Hadoop PMC host: @ simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 第15回:Apache Hadoopから見たOTF OTF Talk 第15回は鯵坂さんに、「Apache Hadoopから見たOTF」についてお話をうかがいました。 鯵坂さんとHadoopとの関わり/OTF環境で利用されるHadoopソフトウェア/OTF実装とHiveカタログ https://podcasters.spotify.com/pod/show/otftalk/episodes/15-Apache-HadoopOTF-e2qf4ec https://youtu.be/nw1s3A33Sio 第16回:AWS GlueのOTFサポート OTF Talk 第16回は、鯵坂さんに「AWS Glueの OTFサポート」についてお話をうかがいました。 AWS Glue概要/AWS GlueのOTFサポート/開発におけるOTFトピック(Hudi, Iceberg) https://podcasters.spotify.com/pod/show/otftalk/episodes/16-AWS-GlueOTF-e2qf4fe https://youtu.be/pzXEuV_wPng 参考文献) Apache PMC (Project Management Committee) https://www.apache.org/dev/pmc.html Apache Ozone https://ozone.apache.org/ AWS Glue https://aws.amazon.com/jp/glue/ Hudiのログメッセージ改善Pull Request https://github.co...

DWH利用者からみた Iceberg の魅力、 Iceberg本の輪読会 (#13, #14)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 第13回と14回ではケビンさんをゲストに、DWH利用者からみた Iceberg の魅力や、 Iceberg本の輪読会のトピックについてお話をうかがいました。 2024年12月追記:Iceberg本の輪読会が完了し、ケビンさんの方で輪読会のまとめブログを出されました。発表資料もまとめられているので以下をぜひご覧ください。 -  Apache Iceberg: The Definitive Guide 輪読会まとめ guest: @kevinrobot34 (ケビン) ナウキャスト データプラットフォームエンジニア  host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 第13回:DWH利用者からみた、Apache Icebergの魅力 OTF Talk 第13回はケビンさんに、DWH利用者からみた、Apache Icebergの魅力についてお話を伺いました。 SnowflakeのIceberg対応/Icebergの学習を通してDWHの内部を想像する/DWHとIcebergの使いわけ https://podcasters.spotify.com/pod/show/otftalk/episodes/13-DWHApache-Iceberg-e2pt9n9 https://youtu.be/PyEQxQHv7Uw 第14回:Apache Iceberg The Definitive Guide 輪読会とIcebergのパフォーマンス最適化 OTF Talk 第14回は、ケビンさんに、Apache Iceberg The Definitive Guide 輪読会と、その輪読会での学習内容であるIceberg概要やIcebergのパフォーマンス最適化についてお話をうかがいました。 輪読会を運営中/なぜSnowflakeコミュニティがIcebergの勉強会を?/第1章:Icebergとは何か/第4章...

Trino概要とOTF対応のコネクタ (#11,12)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 #11と#12ではStarburst の 蛯原 裕弥 さんをゲストに、Trinoの成り立ちやフェデレーション機能、TrinoコネクタのIceberg, Delta lake対応についてお話をうかがいました。 guest: @ebyhr (蛯原 裕弥) Starburst Engineer / Trino, Apache Polaris committer host: @ simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 第11回:Trinoの成り立ちとコネクタの役割 OTF Talk 第11回は、Starburst の 蛯原 裕弥 さんに、OTFのデータをクエリする際によく利用されている分散SQLエンジンであるPresto/Trinoの成り立ちや、Trinoのフェデレーション機能と各種コネクタについてお話をうかがいました。 PrestoとTrinoの成り立ち/Trinoの特徴/フェデレーション機能とコネクタ/実装はどこが担うのか https://podcasters.spotify.com/pod/show/otftalk/episodes/11-Trino-e2p8r58/a-abiia6n https://youtu.be/vvfo60ZCq1M?si=OfG9ZXSVRqMgN08q ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 第12回:Trinoコネクタからみた OTF (Iceberg, Delta lake) OTF Talk 第12回は、Starburst の 蛯原 裕弥 さんに、OTF(Iceberg, Delta lake)をサポートするTrinoのコネクタについて、概要やその実装方法についてお話をうかがいました。 Trinoコネクタの役割/Icebergコネクタ/Trino+コネクタの特徴/Delta la...

OTFのコミュニティ/Polris Catalog/Icebergのセキュリティ (#08~#10)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 #08~#10では、マイクロアド 永富 安和 さんをゲストに、OTFのコミュニティやIcebergの今後の機能追加、Polaris Catalog、セキュリティ機能など、多様なトピックについてお話をうかがいました。 guest: @yassan168 (永富 安和) マイクロアド シニアエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 第8回:OTFSGとCloudera Evolve 2024 OTF Talk 第8回は、”やっさん”こと、永富安和さんに、日本のOTFコミュニティであるOTFSGや、シンガポールで開催されたIceberg meet-upでの話題についてお話を伺いました。 日本のコミュニティOTFSG/Cloudera Evolve 2024 Singapore/Iceberg Meetupでの今後の方向性/ https://podcasters.spotify.com/pod/show/otftalk/episodes/08-OTFSGCloudera-Evolve-2024-e2o4lcl https://youtu.be/qHc9E5TgJdc 第9回:Polaris Catalog OTF Talk 第9回は、”やっさん”こと、永富安和さんに、Icebergのカタログ周りやPolaris Catalogについてお話をうかがいました。 Icebergにとってのカタログの位置づけ/Polaris Catallog/OSS化の動きと意義/Iceberg REST API 仕様を内包する動き https://podcasters.spotify.com/pod/show/otftalk/episodes/09-Polaris-Catalog-e2o4le0 https://youtu.be/HP_uItt840k 第10回:Icebergとセキュリティ OTF Talk ...

Open Table Format (OTF) のユースケース (#6, #7)

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。この#6~#7では、AWS Glue プロダクトチームの関山 宜孝さんをゲストにOpen Table Format (OTF) のユースケースについてお話を伺いました。 ※今回録音環境に問題があったため、ゲストの声が聴きづらくなっています。 ゲスト: Noritaka Sekiyama ( @moomindani ) AWS Glue product team 所属の Principal Big Data Architect host:  @simosako  (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 第6回:OTFのユースケース:CDCによるニアリアルタイムデータ連携 OTF Talk 第6回は、AWS Glue プロダクトチームの関山 宜孝さんをゲストに、OTFのユースケースの1つであるCDC (Change Data Capture)の活用についてお話をうかがいました。 ※今回録音環境に問題があったため、ゲストの声が聴きづらくなっています。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 RDBをリアルタイムにdata lakeに連携したい/CDC (Change Data Capture)/なぜ実現困難だったのか/Upsertとトランザクション/データレイクをデータソースにする https://podcasters.spotify.com/pod/show/otftalk/episodes/06-CDC-e2ntfg8/a-abgp2pr https://youtu.be/rc-DmRLeEFU?si=rPakLaQpNIdwEeU0 第7回:OTFのユースケース:個人情報保護のためのデータ削除 OTF Talk 第7回は、AWS Glue プロダクトチームの関山 宜孝さんをゲストに、OTFのユー...