募集要項
- 仕事内容
-
〈TX-25-07-50-L(2/4公開)〉
データアーキテクト・開発リーダー /「データ基盤・パイプライン」 の構築・自動化 #管理職ポジション
(1)担当業務内容
AI検索サービスの根幹となるデータアーキテクチャの設計、およびデータ管理プロセスの最適化・自動化をリードします。
1.AIモデルのためのデータ基盤構築・パイプライン設計:50%
AI/MLモデルの学習・推論に必要なデータを、高品質かつタイムリーに供給するための基盤を作ります。
データ収集・加工: 多様なログデータや商品データを収集し、モデルが学習可能な形式へ加工(ETL/ELT)するパイプラインの設計・構築
特徴量管理(Feature Store): 特徴量の作成・管理を一元化し、学習時と推論時のデータ不整合(Training-Serving Skew)を防ぐ仕組みの導入
データ品質管理: データの欠損や異常を検知し、常にクリーンなデータを維持するための監視・通知システムの構築
2.データ管理プロセスの最適化および自動化推進:30%
属人化しがちなデータ抽出・加工作業を排除し、自動化されたワークフローを確立します。
データ運用の自動化: 手動SQLやスクリプトに依存しているデータ作成フローを、Workflow Engine(Airflow等)を用いて自動化・コード化(IaC)
MLOps基盤の強化: データサイエンティストがスムーズにモデル実験・デプロイを行えるよう、インフラ側からの環境整備
メタデータ管理: どのデータがどこにあり、どう加工されたかを追跡可能にするデータカタログの整備
3.チームマネジメント・戦略策定:20%
セクションリーダーとしてメンバー(正社員・パートナー)のタスク管理、技術指導、評価
事業目標に基づいた中長期的なデータ戦略・アーキテクチャロードマップの策定
(2)仕事のやりがい(面白さ)
単にデータを溜める箱を作るのではなく、「AIを賢くするためのデータ戦略」を技術面からリードできるポジションです。
3000万点の商品データと年間1億件の検索ログという膨大な資産を使い、いかに効率よく特徴量を作り出し、モデルに供給するか。この「データエンジニアリング×MLOps」の領域におい
- 応募資格
-
- 必須
-
(1)必須要件(and条件)
・大規模データの収集・蓄積・加工(ETL/ELT)基盤の設計・構築経験
・Python/SQLを用いたデータ処理の実務経験(目安:3年以上)
・AWS/GCP等のパブリッククラウドを活用したデータパイプラインの構築経験
・開発チームのリーダーまたはマネジメント経験(3名以上、進捗管理・技術指導含む)
(2)歓迎要件
・GCP (BigQuery, Vertex AI等) を活用したデータパイプラインおよびMLOps基盤の構築経験
・Dataform または dbt を用いたデータモデリング・ELT処理の開発経験
・OpenMetadata や DataHub 等のツールを用いたデータカタログ・データガバナンス基盤の導入・運用経験
・機械学習モデルのライフサイクル管理(実験管理、モデルデプロイ、監視)の自動化経験
・モダンデータスタック(Modern Data Stack)に関する最新の知見
・データ品質(Data Quality)やデータリネージの可視化に関する知識
・Infrastructure as Code (Terraform) によるGCPインフラ管理スキル
・ビジネスレベルの英語力(ドキュメント読解等)
(3)求める人物像
「データはAIの燃料である」と理解し、その燃料をいかに効率よく、高品質に供給し続けるかに情熱を持てる方。
現状の泥臭いデータ加工作業を「仕方ない」と諦めず、「どうすれば自動化できるか?」「どうすればプロセスを最適化できるか?」を常に考え、チームを巻き込んで改善を実行できるリーダーシップを持った方を求めています。
<使用ツール>
クラウド・インフラ : Google Cloud Platform (GCP) を主軸にAWSとハイブリッド構
- 雇用形態
- 正社員
- 勤務地
- 東京都
- 年収・給与
- 700~1000万円
