募集要項
- 仕事内容
-
【職務内容】
GPUクラウド基盤の企画・設計・構築・運用まで、Sier等外部パートナーとの連携を通じて進め、品質の高いサービス開発を推進いただきます。
【具体的には】
1.GPUクラウド基盤のアーキテクチャ設計・実装
GPUノード構成、ネットワーク(IB/RoCE/Ethernet)、NVLink/NVSwitchを含むクラスタ設計。VM/Bare-metal/Kubernetes など実行基盤の設計・実装。
2.オーケストレーション/スケジューリング基盤の構築
Kubernetes/Slurm/Ray などの選定・導入、GPU割当(MIG/vGPU等)、マルチテナンシー設計。
3.課金・メータリング機能の設計
GPU利用時間課金、ノード/VRAM課金モデル、顧客ポータルの仕様策定。
4.セキュリティ・コンプライアンス対応
IAM/RBAC、Zero Trust、監査ログ管理、ISMS等の認証準拠。
5.サービス全体のSLO/SLI設計と運用
障害対応、監視(Prometheus/Grafana等)、高可用性/DR設計、GPU利用効率の最適化。
運用プロセス整備(設計書・構築手順・運用手順のレビュー含む)
6.外部パートナー管理
MSP・SIer・DC事業者との技術折衝、スケジュール・品質管理、コスト管理。
7.事業推進支援
顧客向け技術資料の作成支援、PoC対応。
【募集背景】
生成AI開発のニーズが高まる中、同社はこれまでAI開発インフラとしてGPUボード等の物理的な機器をご提供してきました。
今後は機器の提供に留まらず、クラウド経由で計算資源そのものを提供したり、機器の置き場に困るお客さまに向けてデータセンターをご提案するなど、AIインフラの価値提供範囲を拡大していく計画です。現在、同社では以下2点のサービスローンチに向けて準備を進めています。
(1)AIデータセンター:
モジュール型で早期に立上げ可能な形態を中心に、中長期的にはコアシェルの開発も視野に入れて規模を拡大していく予定です。
(2)AI用途のクラウドサービス:
NVIDIA社のGPUや新興のAI半導体メーカーとも連携しながら、AI開発に必要な計算資源を提供
- 応募資格
-
- 必須
-
【必須要件】
■GPUサーバもしくはAI/HPCクラスタの構築/運用経験
■Linux(RHEL、 Ubuntuなど)の実務経験
■Kubernetesの運用経験
■ネットワーク基礎(L2/L3、VLAN、BGP/EVPNが理解できる)
■IaC(Terraform、Ansibleなど)の利用経験
■協力ベンダーや外注の技術コントロール経験
【歓迎要件】
■NVIDIA製GPU(NVLink、MIG、NCCL、DGX等)への理解
■Kubernetes+GPU Operator、Slurm、Kubeflowの運用経験
■分散学習基盤(PyTorch/DeepSpeed)の運用経験
■SRE文化(監視、可観測性、信頼性向上)の経験
■DC側の基礎知識(ラック、電源、IBネットワークなど)
- 雇用形態
- 正社員
- 勤務地
- 東京都
- 年収・給与
- 700~1200万円
