募集要項
- 仕事内容
-
〈TX-25-05-50-ML(2/4公開)〉SRE(リーダー候補~メンバー)/ AI検索プラットフォームの信頼性向上
(1)担当業務内容
AI検索機能(キーワード検索、ベクトル検索、AIレコメンド等)を提供するプラットフォームの信頼性向上、パフォーマンス改善、開発効率化をリードして頂きます
1.信頼性向上・スケーラビリティ確保(Reliability & Infrastructure):40%
グローバル展開(10→100のスケール)に耐えうるインフラ基盤の設計・構築・運用をリードします。
コンテナ基盤の高度化: GKE (Kubernetes) / Cloud Run を活用した、高負荷に耐えうるオートスケーリング基盤の構築と運用。
SLI/SLOの導入・運用: サービスの信頼性を定義し、エラーバジェットに基づいた運用ルールの策定と、開発チームへの信頼性文化(Reliability Culture)の浸透。
グローバルインフラ設計: 各国のレイテンシ要件を満たすマルチリージョン構成やCDN戦略、ネットワーク設計の最適化。
2.パフォーマンス・エンジニアリング・可観測性(Performance & Observability):40%
「AIの賢さ」と「検索エンジンの速さ」を両立させるためのチューニングと監視環境を整備します。
検索基盤の高速化: Elasticsearchやベクトル検索エンジンのインデックス設計、クエリパフォーマンスのボトルネック特定と解消。
分散トレーシングの確立: マイクロサービスとAIモデルを横断するリクエストフローを可視化し、障害発生時の原因特定時間を短縮する。
コスト最適化 (FinOps): クラウドコストやAIリソース(GPU等)の使用状況を監視し、性能を維持しつつのコスト削減を提案・実行する。
3.DevEx向上・チームマネジメント(Developer Experience & Management):20%
開発チーム全体の生産性を最大化するための環境整備と、技術的なリードを行います
Toil(労苦)の削減: 手作業によるオペレーションを自動化し、エンジニアが創造的な作業に集中できる時間を創出する。
CI/CDパイプラインの進化: テスト自
- 応募資格
-
- 必須
-
(1)必須要件
・パブリッククラウド(GCPまたはAWS)におけるインフラ設計・構築・運用経験(目安:3年以上)
・コンテナ技術(Docker, Kubernetes)を用いた本番環境の運用経験
・Terraform 等のIaCツールを用いたインフラ構成管理の経験
・Webアプリケーションの開発・運用プロセス(CI/CD、バージョン管理)への深い理解
・スクリプト言語(Python, Go, Bash等)を用いた運用自動化の経験
(2)歓迎要件
・Elasticsearch / Solr 等の検索エンジンの運用・チューニング経験(特に歓迎)
・SLI/SLOの策定・運用や、トイル削減などのSREプラクティスの実践経験
・大規模トラフィック(高負荷)環境下でのパフォーマンスチューニング経験
・マイクロサービスアーキテクチャにおける可観測性(Distributed Tracing等)の設計・導入経験
・機械学習パイプライン(MLOps)に関連するインフラ構築経験
(3)求める人物像
「守り」だけでなく「攻め」のインフラ運用ができる方:
安定稼働を守るだけでなく、アプリケーションのパフォーマンスを最大限引き出すための技術選定や改善提案ができる方。
全体最適の視点を持てる方:
「インフラ担当」という枠に閉じこもらず、アプリケーションエンジニアやデータサイエンティストと連携し、サービス全体の価値向上にコミットできる方。
変化を楽しめる方:
10→100への急拡大フェーズや、AI技術の進展に伴うアーキテクチャの変化を楽しみ、柔軟に対応できる方。
<業務上の課題>
基盤のマイクロサービス化やAI機能の融合は完了していますが、SRE視点では以下の課題が待ち受けています。これを共に解決してくれる方を求
- 雇用形態
- 正社員
- 勤務地
- 東京都
- 年収・給与
- 700~1000万円
