あまりこの分野は詳しくないので、メモ程度にはなりますが…
勉強会URL
データマネジメント新年会 〜去年のしくじりを共有し、正月ボケを解消する〜
https://sansan.connpass.com/event/303723/
資料
公開されていたものの Connpass に紐づけられていなかったっぽいので、拾ったものを貼っておきます。
- データ基盤開発における技術負債と返却戦略 / Technical Debt and Return Strategies for Data Infrastructure Development - Speaker Deck
- データマネジメント新年会 〜去年のしくじりを共有し、正月ボケを解消する〜 - Speaker Deck
メモ
- どこも貯めたデータのやりくりに苦戦している
- サイロ化しやすく、データが分散しがち
- プロダクトごとに思ったデータを各々ためている印象
- データの保管先も DB, S3, BigQuery, Redshift, Spreadsheet など様々
- サイロ化しやすく、データが分散しがち
- データマートを作るにも、データマートを作った根拠が分からなくなりがち
- 運用が長くなると最初に携わっていた人がいなくなる、その結果データの出所が分からなくなる
- そもそもこのデータをなぜ見たかったのか、の背景なども失われがち
- 基盤の整備も大事、共通化され整理された新基盤に移動してもらう
- 責務の移譲の重要性
- データを触りやすい環境だけ整えて、プロダクト関係者が自分でデータを見れるようにする
- 全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog
- dbt
- dbt Labs | Transform Data in Your Warehouse
- 自分は知らなかったツール
- DB に対してのパイプライン周りを担当しているらしい
- データウェアハウスの構築などで使われている
- データレイヤー
- データ分析基盤(概念モデル)におけるサービスレイヤー #データ分析 - Qiita
- DAMA-DMBOK とかに関連する話のようだ
- レイヤー的に扱ってデータ管理を行い、それぞれの用途に合わせた使い方をする
- なんとなくこうあったらいいなと思っていたが、モデル的な名前がついていることを知らなかった
- ヒアリングとコミュニケーション
- あるデータを可視化することはやろうと思えばできるが…
- 本当に見たかったもの・分析したかったものは何か? の問いに答えるのは難しい
- プロダクト開発の機能追加と同じように、データ分析も要件をヒアリングして詰めていく必要がある
- いつどうやって使われるかも大事
- 特需的なものは、その時にすぐに使えるようにしておく
- あるデータを可視化することはやろうと思えばできるが…
- CUIで簡単に見れる状態が理想か?
- 会社組織や分析対象に寄ってしまうところが多い
- 複雑なデータは複雑な抽出が今でも必要で、仕組み自体をまずは見直す必要がある
まとめ
DB とか BigQuery とかは自分も生かしていろいろ作っているものの、データマネジメントという観点で見るとまだまだ知らないことばかりでした。 dbt は知らなかったので、ちょっと触ってみたい、何に使うかはわかりませんが…。 DMBOK はかなり気になりますね、読んでみたい。
そんな感じで新鮮な目線でたくさんインプットできてよかったです。