🎯 Présentation
Stack de monitoring complète pour surveiller l'état de santé de toute l'infrastructure homelab : métriques système, availability des services, logs centralisés et alerting en temps réel.
📊 Grafana - Visualisation
Dashboards personnalisés pour visualiser toutes les métriques importantes :
- Utilisation CPU, RAM, disque de chaque serveur
- Performance réseau (bande passante, latence)
- Température des serveurs et disques
- Statistiques Docker (conteneurs actifs, ressources)
- Métriques applicatives (temps de réponse, erreurs)
- Dashboards Proxmox (VMs, LXC, stockage)
🔍 Prometheus - Métriques
Collecte et stockage des métriques depuis tous les services :
- Node Exporter (métriques système Linux)
- cAdvisor (métriques conteneurs Docker)
- Blackbox Exporter (monitoring HTTP/HTTPS)
- Exporters personnalisés (services spécifiques)
- Rétention des données : 30 jours
- Scraping toutes les 15 secondes
⏱️ Uptime Kuma - Availability
Surveillance de la disponibilité des services :
- Monitoring HTTP/HTTPS de tous les services exposés
- Ping monitoring des équipements réseau
- Monitoring TCP/UDP de ports spécifiques
- Status page publique (optionnel)
- Notifications (Email, Discord, Slack, Telegram)
- Historique uptime et statistiques
🚨 Alerting
Alertes configurées pour être notifié en cas de problème :
- CPU > 85% pendant 5 minutes
- RAM > 90% pendant 3 minutes
- Espace disque < 10%
- Service down pendant > 2 minutes
- Température disque > 50°C
- Backup échoué
Canaux de notification : Discord, Email, Telegram