募集要項
- 仕事内容
-
〈TX-25-06-50-M(2/4公開)〉データエンジニア / データ品質管理・パイプライン開発
(1)担当業務内容
AI検索サービス向けデータ基盤において、データの品質保証(Data Quality)、およびETLパイプラインの実装・運用を担当します。
1.データ品質管理(Data Quality)の実装と監視:40%
AIモデルが常に「正しいデータ」を利用できるよう、データの品質を監視・維持する仕組みを実装します。
データテストの実装: Dataformやdbt等を用い、データの欠損・重複・異常値を検知するテストコード(Assertion)の作成と実装。
モニタリング環境の整備: データの鮮度や品質低下を検知した際、即座にSlack等へ通知し、原因を特定できるダッシュボードや監視フローの構築。
データリネージの管理: データの発生源から利用箇所までの流れ(リネージ)を整理し、メタデータ管理ツールへの登録・更新を行い、トレーサビリティを確保する。
2.データパイプライン(ETL/ELT)の開発・改善:40%
設計されたアーキテクチャに基づき、実際のデータ処理フローを開発します。
ETL処理の実装: PythonやSQLを用いて、ログデータや商品データを収集・加工する処理のコーディング。
ワークフローの移行・自動化: 手動で行われている既存のデータ処理を、Workflow Engine(Airflow/Vertex AI Pipelines)上での自動実行ジョブへと書き換える。
パフォーマンスチューニング: クエリの最適化を行い、データ処理時間の短縮やコスト削減(BigQueryのコスト管理等)を行う。
3.データサイエンティストとの連携・サポート:20%
データサイエンティストからの「こんな特徴量が欲しい」「データがおかしい」といった要望・問い合わせに対し、SQLを用いた調査やデータ抽出、マート作成を行う。
(2)仕事のやりがい(面白さ)
AIの精度向上に直結: 自身が整備・クレンジングしたデータによって、検索精度やレコメンドの質が向上する様子をダイレクトに感じられます。
モダンな技術スタックでの経験: GCP (BigQuery, Vertex AI) や D
- 応募資格
-
- 必須
-
(1)必須要件(and条件)
・SQLを用いたデータ抽出・集計・加工作業の実務経験(目安:1年以上 / 複雑なJOINやウィンドウ関数が書けるレベル)
・Python等のスクリプト言語を用いた開発経験
・何らかのDB(RDBまたはDWH)におけるテーブル設計やデータ管理の基礎知識
・データの不整合やエラーに対し、根気強く原因を調査し解決した経験
(2)歓迎要件
・GCP (BigQuery) または AWS (Redshift, Athena) でのデータ処理経験
・Dataform, dbt 等のELTツールを用いたデータモデリング・テスト実装経験
・Airflow 等のワークフローエンジンを用いたジョブ管理の経験
・Git / GitHub を用いたチーム開発経験
・データ品質(Data Quality)に関する関心・知識
・Webサービスのログ設計やデータ収集に関する知識
(3)求める人物像
「正確さ」に拘れる方: 1つのデータミスがAIの挙動を変えてしまうことを理解し、細部まで確認を怠らない方
改善マインドを持つ方: 同じエラーや手作業が繰り返されることを嫌い、「次はどう自動化するか」「どう検知するか」を主体的に考えられる方
コミュニケーション力: データサイエンティストやリーダーと連携し、仕様の確認やアラート報告をスムーズに行える方
- 雇用形態
- 正社員
- 勤務地
- 東京都
- 年収・給与
- 650~850万円
