ModelEngine/app-platform：国际化本地化策略

gitblog_00051

984人浏览 · 2025-08-31 13:50:58

gitblog_00051 · 2025-08-31 13:50:58 发布

nvidia_gpu_exporter配置全攻略：从命令行参数到远程监控的实用技巧

【免费下载链接】nvidia_gpu_exporter Nvidia GPU exporter for prometheus using nvidia-smi binary 项目地址: https://gitcode.com/gh_mirrors/nv/nvidia_gpu_exporter

nvidia_gpu_exporter是一款专为Prometheus设计的Nvidia GPU监控工具，通过nvidia-smi二进制文件收集GPU metrics，帮助用户轻松实现GPU性能数据的采集与监控。本文将详细介绍从基础安装到高级配置的完整流程，让你快速掌握这款强大工具的使用方法。

快速安装指南：多平台部署方案

nvidia_gpu_exporter提供了多种安装方式，可根据不同操作系统和使用场景选择最适合的方案：

Windows一键安装

对于Windows用户，可使用PowerShell安装脚本快速部署完整监控环境（包含Exporter、Prometheus和Grafana）：

下载安装脚本
以管理员身份运行PowerShell
执行脚本：C:\Users\<用户名>\Downloads\windows.ps1
验证服务：访问http://localhost:9090(Prometheus)和http://localhost:3000(Grafana)

Linux系统安装

Debian/Ubuntu系统：

sudo dpkg -i nvidia-gpu-exporter_1.3.1_linux_amd64.deb

RedHat/CentOS系统：

sudo rpm -i nvidia-gpu-exporter_1.3.1_linux_amd64.rpm

二进制安装：

VERSION=1.3.1
wget https://github.com/utkuozdemir/nvidia_gpu_exporter/releases/download/v${VERSION}/nvidia_gpu_exporter_${VERSION}_linux_x86_64.tar.gz
tar -xvzf nvidia_gpu_exporter_${VERSION}_linux_x86_64.tar.gz
mv nvidia_gpu_exporter /usr/bin

容器化部署

Docker方式：

docker run -d \
--name nvidia_smi_exporter \
--restart unless-stopped \
--device /dev/nvidiactl:/dev/nvidiactl \
--device /dev/nvidia0:/dev/nvidia0 \
-v /usr/lib/x86_64-linux-gnu/libnvidia-ml.so:/usr/lib/x86_64-linux-gnu/libnvidia-ml.so \
-v /usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1:/usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1 \
-v /usr/bin/nvidia-smi:/usr/bin/nvidia-smi \
-p 9835:9835 \
utkuozdemir/nvidia_gpu_exporter:1.3.1

核心命令行参数解析

nvidia_gpu_exporter提供了丰富的命令行参数，可根据需求灵活配置：

usage: nvidia_gpu_exporter [<flags>]

Flags:
  -h, --help                显示帮助信息
      --web.config.file=""  [实验性] TLS或认证配置文件路径
      --web.listen-address=":9835"  监听地址，默认:9835
      --web.telemetry-path="/metrics"  metrics暴露路径，默认/metrics
      --nvidia-smi-command="nvidia-smi"  nvidia-smi可执行文件路径或命令
      --query-field-names="AUTO"  查询字段列表，AUTO表示自动检测
      --log.level=info  日志级别(debug, info, warn, error)
      --log.format=logfmt  日志格式(logfmt, json)
      --version             显示版本信息

常用配置示例：

自定义监听端口：nvidia_gpu_exporter --web.listen-address=":9999"
调试模式运行：nvidia_gpu_exporter --log.level=debug
指定查询字段：nvidia_gpu_exporter --query-field-names="name,temperature.gpu,utilization.gpu"

实用配置技巧：打造高效监控系统

系统服务配置

Linux Systemd服务：

创建系统用户：

sudo useradd --system --no-create-home --shell /usr/sbin/nologin nvidia_gpu_exporter

复制服务文件：

sudo cp systemd/nvidia_gpu_exporter.service /etc/systemd/system/

启用并启动服务：

sudo systemctl daemon-reload
sudo systemctl enable --now nvidia_gpu_exporter

Windows服务：使用NSSM工具将exporter安装为Windows服务，确保开机自启动和后台运行。

远程监控配置

nvidia_gpu_exporter支持通过SSH等方式监控远程GPU设备，只需指定远程执行nvidia-smi的命令：

nvidia_gpu_exporter --nvidia-smi-command "ssh -o StrictHostKeyChecking=no SSH_USER@SSH_HOST nvidia-smi"

这种方式特别适合监控家庭网络中的多台GPU设备，或在Kubernetes集群中监控GPU节点。

可视化监控：Grafana仪表盘配置

成功部署exporter后，可通过Grafana创建直观的GPU监控仪表盘。项目提供了预配置的仪表盘模板grafana/dashboard.json，导入后即可获得全面的GPU监控视图：

仪表盘包含以下关键指标：

GPU利用率和温度
显存使用情况
功耗和风扇速度
时钟频率和性能状态

常见问题解决与最佳实践

权限问题

确保运行exporter的用户具有访问nvidia-smi的权限，Linux系统建议使用专用系统用户运行服务。

防火墙配置

开放exporter监听端口（默认9835），确保Prometheus能够正常抓取metrics：

# Linux防火墙配置
sudo ufw allow 9835/tcp

性能优化

对于多GPU系统，可调整查询字段减少不必要的指标收集
使用--query-field-names参数指定需要监控的指标，降低系统开销

通过本文介绍的配置方法，你可以快速搭建起专业的Nvidia GPU监控系统，实时掌握GPU运行状态，为AI训练、游戏服务器或其他GPU密集型应用提供可靠的性能监控支持。无论是本地单GPU环境还是大规模GPU集群，nvidia_gpu_exporter都能提供高效、灵活的监控解决方案。

【免费下载链接】nvidia_gpu_exporter Nvidia GPU exporter for prometheus using nvidia-smi binary 项目地址: https://gitcode.com/gh_mirrors/nv/nvidia_gpu_exporter

ModelEngine社区

更多推荐

从崩溃到自愈：Temporal+MCP-Agent构建永不中断的AI工作流

你是否遇到过AI工作流执行到90%突然崩溃的绝望？训练了数小时的模型因服务器重启前功尽弃？团队协作时因某人未及时审批导致整个流程停滞？本文将展示如何通过Temporal与MCP-Agent的深度集成，彻底解决这些痛点，构建真正企业级的可靠AI工作流系统。读完本文你将掌握：- 3行代码实现工作流故障自愈- 零停机升级正在运行的AI任务- 跨团队协作的工作流信号机制- 从本地开发到生产集群