募集要項
- 仕事内容
-
【職務内容】
GPUクラウド基盤の企画・設計・構築・運用を深い知見を活かして自らを中心に進め、品質の高いサービスを開発するフルスタックエンジニアとしての業務をお任せします。各フェーズで適切に外部パートナーと連携しながら、新規事業の技術面全般を統括いただきます。
【具体的には】
1.GPUクラウド基盤のアーキテクチャ設計・実装
GPUノード構成、ネットワーク(IB/RoCE/Ethernet)、NVLink/NVSwitchを含むクラスタ設計。
VM/Bare-metal/Kubernetes など実行基盤の設計・実装。
2.オーケストレーション/スケジューリング基盤の構築
Kubernetes/Slurm/Ray などの選定・導入、GPU割当(MIG/vGPU等)、マルチテナンシー設計。
3.課金・メータリング機能の設計
GPU利用時間課金、ノード/VRAM課金モデル、顧客ポータルの仕様策定。
4.セキュリティ・コンプライアンス対応
IAM/RBAC、Zero Trust、監査ログ管理、ISMS等の認証準拠。
5.サービス全体のSLO/SLI設計と運用
障害対応、監視(Prometheus/Grafana等)、高可用性/DR設計、GPU利用効率の最適化。
運用プロセス整備(設計書・構築手順・運用手順のレビュー含む)
6.社内体制構築および外部パートナー管理
社内DevOps/MLopsチームの組成、SIer/MSP/DC事業者との連携、スケジュール・品質管理、コスト管理。
7.事業推進支援
コスト分析、サービスメニュー企画、営業支援、PoC対応。
【募集背景】
生成AI開発のニーズが高まる中、当社はこれまでAI開発インフラとしてGPUボード等の物理的な機器をご提供してきました。
今後は機器の提供に留まらず、クラウド経由で計算資源そのものを提供したり、機器の置き場に困るお客さまに向けてデータセンターをご提案するなど、AIインフラの価値提供範囲を拡大していく計画です。現在、当社では以下2点のサービスローンチに向けて準備を進めています。
(1)AIデータセンター:
モジュール型で早期に立上げ可能な形態を中心に、中長期的にはコアシェ
- 応募資格
-
- 必須
-
【必須要件】
■GPUクラスタの構築または運用経験(H100/A100世代以上に触れていると尚良し)
■Linux(RHEL/Ubuntu/CentOS)に深い知見
■Kubernetesベースのクラウド基盤構築経験
■ネットワーク(L2/L3、IB/RoCE)に強い知識
■IaC(Terraform / Ansible など)の実務経験
■オブザーバビリティ(Prometheus, Grafanaなど)の知識
■事業成長を前提としたスケーラビリティ設計の経験
【歓迎要件】
■NVIDIA製GPU(NVLink、MIG、NCCL、DGX等)への詳しい理解
■分散学習・LLM推論基盤の設計経験(DeepSpeed / FSDP / Triton)
■GPU課金モデル・利用率最適化の実務経験
■日本国内DCでののIaaS構築経験
■L3/4 LB, BGP, VXLAN, EVPNの設計経験
■監視・SRE文化の導入経験
- 雇用形態
- 正社員
- 勤務地
- 東京都
- 年収・給与
- 1000~1200万円
