rollback

2025-12-10 14:58:12 +01:00
parent 0bd1b1fa0f
commit fcf3c692bf
1 changed files with 48 additions and 299 deletions
--- a/manifests/metrics-server/configmap.yaml
+++ b/manifests/metrics-server/configmap.yaml
@@ -3,302 +3,51 @@ kind: ConfigMap
 metadata:
  name: argocd-metrics-server-configmap
 data:
-  config.json: |
+  # Metrics for Deployments
-    {
+  extension.metrics.deployments: |
-    "prometheus": {
+    - name: "CPU Usage"
-      "applications": [
+      description: "CPU usage for the deployment"
-        {
+      type: "graph"
-          "name": "default",
+      graphType: "area"
-          "default": true,
+      yAxisLabel: "CPU Cores"
-          "dashboards": [
+      query: 'sum(rate(container_cpu_usage_seconds_total{namespace="{{.metadata.namespace}}", pod=~"{{.metadata.name}}-.*"}[5m])) by (pod)'
-            {
+
-              "groupKind": "pod",
+    - name: "Memory Usage"
-              "tabs": ["Golden Signal"],
+      description: "Memory usage for the deployment"
-              "rows": [
+      type: "graph"
-                    {
+      graphType: "area"
-                  "name": "pod",
+      yAxisLabel: "Memory (MB)"
-                  "title": "Pods",
+      query: 'sum(container_memory_working_set_bytes{namespace="{{.metadata.namespace}}", pod=~"{{.metadata.name}}-.*"}) by (pod) / 1024 / 1024'
-                  "tab": "Golden Signal",
+
-                  "graphs": [
+    - name: "Network Received"
-                    {
+      description: "Network bytes received"
-                      "name": "pod_cpu_line",
+      type: "graph"
-                      "title": "CPU",
+      graphType: "line"
-                      "description": "",
+      yAxisLabel: "Bytes/sec"
-                      "graphType": "line",
+      query: 'sum(rate(container_network_receive_bytes_total{namespace="{{.metadata.namespace}}", pod=~"{{.metadata.name}}-.*"}[5m])) by (pod)'
-                      "metricName": "pod",
+
-                      "queryExpression": "sum(rate(container_cpu_usage_seconds_total{pod=~\"{{.name}}\", image!=\"\", container!=\"POD\", container!=\"\", container_name!=\"POD\"}[5m])) by (pod)"
+  # Metrics for Pods
-                    },
+  extension.metrics.pods: |
-                    {
+    - name: "CPU Usage"
-                      "name": "pod_cpu_pie",
+      description: "CPU usage for the pod"
-                      "title": "CPU Avg",
+      type: "graph"
-                      "description": "",
+      graphType: "area"
-                      "graphType": "pie",
+      yAxisLabel: "CPU Cores"
-                      "metricName": "pod",
+      query: 'sum(rate(container_cpu_usage_seconds_total{namespace="{{.metadata.namespace}}", pod="{{.metadata.name}}"}[5m])) by (container)'
-                      "queryExpression": "sum(rate(container_cpu_usage_seconds_total{pod=~\"{{.name}}\", container!=\"POD\", image!=\"\", container!=\"\", container_name!=\"POD\"}[5m])) by (pod)"
+
-                    },
+    - name: "Memory Usage"
-                    {
+      description: "Memory usage for the pod"
-                      "name": "pod_memory_line",
+      type: "graph"
-                      "title": "Memory",
+      graphType: "area"
-                      "description": "",
+      yAxisLabel: "Memory (MB)"
-                      "graphType": "line",
+      query: 'sum(container_memory_working_set_bytes{namespace="{{.metadata.namespace}}", pod="{{.metadata.name}}"}) by (container) / 1024 / 1024'
-                      "metricName": "pod",
+
-                      "queryExpression": "sum(rate(container_memory_usage_bytes{pod=~\"{{.name}}\", container!=\"POD\", image!=\"\", container!=\"\", container_name!=\"POD\"}[5m])) by (pod)"
+    - name: "Container Restarts"
-                    },
+      description: "Number of container restarts"
-                    {
+      type: "graph"
-                      "name": "pod_memory_pie",
+      graphType: "line"
-                      "title": "Mem Avg",
+      yAxisLabel: "Restarts"
-                      "description": "",
+      query: 'kube_pod_container_status_restarts_total{namespace="{{.metadata.namespace}}", pod="{{.metadata.name}}"}'
-                      "graphType": "pie",
+
-                      "metricName": "pod",
+  # Prometheus connection
-                      "queryExpression": "sum(rate(container_memory_usage_bytes{pod=~\"{{.name}}\", container!=\"POD\", image!=\"\", container!=\"\", container_name!=\"POD\"}[5m])) by (pod)"
+  prometheus.url: "http://prometheus-kube-prometheus-prometheus.monitoring.svc:9090"
                    }
                  ]
                },
                {
                  "name": "container",
                  "title": "Containers",
                  "tab": "Golden Signal",
                  "graphs": [
                    {
                      "name": "container_cpu_line",
                      "title": "CPU",
                      "description": "",
                      "graphType": "line",
                      "metricName": "container",
                      "queryExpression": "sum(rate(container_cpu_usage_seconds_total{pod=~\"{{.name}}\", image!=\"\", container!=\"POD\", container!=\"\", container_name!=\"POD\"}[5m])) by (container)"
                    },
                    {
                      "name": "container_cpu_pie",
                      "title": "CPU Avg",
                      "description": "",
                      "graphType": "pie",
                      "metricName": "container",
                      "queryExpression": "sum(rate(container_cpu_usage_seconds_total{pod=~\"{{.name}}\", image!=\"\",container!=\"POD\", container!=\"\", container_name!=\"POD\"}[5m])) by (container)"
                    },
                    {
                      "name": "container_memory_line",
                      "title": "Memory",
                      "description": "",
                      "graphType": "line",
                      "metricName": "container",
                      "queryExpression": "sum(rate(container_memory_usage_bytes{pod=~\"{{.name}}\", image!=\"\", container!=\"POD\", container!=\"\", container_name!=\"POD\"}[5m])) by (container)"
                    },
                    {
                      "name": "container_memory_pie",
                      "title": "Mem Avg",
                      "description": "",
                      "graphType": "pie",
                      "metricName": "container",
                      "queryExpression": "sum(rate(container_memory_usage_bytes{pod=~\"{{.name}}\", image!=\"\", container!=\"POD\", container!=\"\", container_name!=\"POD\"}[5m])) by (container)"
                    }
                  ]
                }
              ]
            },
            {
              "groupKind": "deployment",
              "tabs": ["Golden Signal"],
              "rows": [
                 {
                   "name": "httplatency",
                   "title": "HTTP Latency",
                   "tab": "Golden Signal",
                   "graphs": [
                     {
                       "name": "http_200_latency",
                       "title": "Latency",
                       "description": "",
                       "graphType": "line",
                       "metricName": "pod_template_hash",
                       "queryExpression": "sum(rate(http_server_requests_seconds_sum {namespace=\"{{.namespace}}\", status=\"200\"} [1m])) by (pod_template_hash)"
                     }
                   ]
                 },
                 {
                   "name": "httperrortate",
                   "title": "HTTP Error Rate",
                   "tab": "Golden Signal",
                   "graphs": [
                     {
                       "name": "http_error_rate_500",
                       "title": "HTTP Error 500",
                       "description": "",
                       "graphType": "line",
                       "metricName": "pod_template_hash",
                       "queryExpression": "sum(rate(http_server_requests_seconds_count {namespace=\"{{.namespace}}\", status=\"500\"} [1m])) by (pod_template_hash)"
                     },
                     {
                       "name": "http_error_rate_400",
                       "title": "HTTP Error 400",
                       "description": "",
                       "graphType": "line",
                       "metricName": "pod_template_hash",
                       "queryExpression": "sum(rate(http_server_requests_seconds_count {namespace=\"{{.namespace}}\", status=\"404\"} [1m])) by (pod_template_hash)"
                     }
                   ]
                 },
                 {
                   "name": "httptraffic",
                   "title": "HTTP Traffic",
                   "tab": "Golden Signal",
                   "graphs": [
                     {
                       "name": "http_traffic",
                       "title": "Traffic",
                       "description": "",
                       "graphType": "line",
                       "metricName": "pod_template_hash",
                       "queryExpression": "sum(rate(http_server_requests_seconds_count {namespace=\"{{.namespace}}\"} [1m])) by (pod_template_hash)"
                     }
                   ]
                 },
                {
                  "name": "pod",
                  "title": "Pods",
                  "tab": "Golden Signal",
                  "graphs": [
                    {
                      "name": "pod_cpu_line",
                      "title": "CPU",
                      "description": "",
                      "graphType": "line",
                      "metricName": "pod",
                      "queryExpression": "sum(rate(container_cpu_usage_seconds_total{pod=~\"{{.name}}\", image!=\"\", container!=\"POD\", container!=\"\", container_name!=\"POD\"}[5m])) by (pod)"
                    },
                    {
                      "name": "pod_cpu_pie",
                      "title": "CPU Avg",
                      "description": "",
                      "graphType": "pie",
                      "metricName": "pod",
                      "queryExpression": "sum(rate(container_cpu_usage_seconds_total{pod=~\"{{.name}}\", container!=\"POD\", image!=\"\", container!=\"\", container_name!=\"POD\"}[5m])) by (pod)"
                    },
                    {
                      "name": "pod_memory_line",
                      "title": "Memory",
                      "description": "",
                      "graphType": "line",
                      "metricName": "pod",
                      "queryExpression": "sum(rate(container_memory_usage_bytes{pod=~\"{{.name}}\", container!=\"POD\", image!=\"\", container!=\"\", container_name!=\"POD\"}[5m])) by (pod)"
                    },
                    {
                      "name": "pod_memory_pie",
                      "title": "Mem Avg",
                      "description": "",
                      "graphType": "pie",
                      "metricName": "pod",
                      "queryExpression": "sum(rate(container_memory_usage_bytes{pod=~\"{{.name}}\", container!=\"POD\", image!=\"\", container!=\"\", container_name!=\"POD\"}[5m])) by (pod)"
                    }
                  ]
                }
              ]
            },
            {
              "groupKind": "rollout",
              "tabs": ["Golden Signal"],
              "rows": [
                 {
                   "name": "httplatency",
                   "title": "HTTP Latency",
                   "tab": "Golden Signal",
                   "graphs": [
                     {
                       "name": "http_200_latency",
                       "title": "Latency",
                       "description": "",
                       "graphType": "line",
                       "metricName": "rollout_template_hash",
                       "queryExpression": "sum(rate(http_server_requests_seconds_sum {namespace=\"{{.namespace}}\", status=\"200\"} [1m])) by (rollout_template_hash)"
                     }
                   ]
                 },
                 {
                   "name": "httperrortate",
                   "title": "HTTP Error Rate",
                   "tab": "Golden Signal",
                   "graphs": [
                     {
                       "name": "http_error_rate_500",
                       "title": "HTTP Error 500",
                       "description": "",
                       "graphType": "line",
                       "metricName": "rollout_template_hash",
                       "queryExpression": "sum(rate(http_server_requests_seconds_count {namespace=\"{{.namespace}}\", status=\"500\"} [1m])) by (rollout_template_hash)"
                     },
                     {
                       "name": "http_error_rate_400",
                       "title": "HTTP Error 400",
                       "description": "",
                       "graphType": "line",
                       "metricName": "rollout_template_hash",
                       "queryExpression": "sum(rate(http_server_requests_seconds_count {namespace=\"{{.namespace}}\", status=\"404\"} [1m])) by (rollout_template_hash)"
                     }
                   ]
                 },
                 {
                   "name": "httptraffic",
                   "title": "HTTP Traffic",
                   "tab": "Golden Signal",
                   "graphs": [
                     {
                       "name": "http_traffic",
                       "title": "Traffic",
                       "description": "",
                       "graphType": "line",
                       "metricName": "rollout_template_hash",
                       "queryExpression": "sum(rate(http_server_requests_seconds_count {namespace=\"{{.namespace}}\"} [1m])) by (rollout_template_hash)"
                     }
                   ]
                 },
                {
                  "name": "pod",
                  "title": "Pods",
                  "tab": "Golden Signal",
                  "graphs": [
                    {
                      "name": "pod_cpu_line",
                      "title": "CPU",
                      "description": "",
                      "graphType": "line",
                      "metricName": "pod",
                      "queryExpression": "sum(rate(container_cpu_usage_seconds_total{pod=~\"{{.name}}\", image!=\"\", container!=\"POD\", container!=\"\", container_name!=\"POD\"}[5m])) by (pod)"
                    },
                    {
                      "name": "pod_cpu_pie",
                      "title": "CPU Avg",
                      "description": "",
                      "graphType": "pie",
                      "metricName": "pod",
                      "queryExpression": "sum(rate(container_cpu_usage_seconds_total{pod=~\"{{.name}}\", container!=\"POD\", image!=\"\", container!=\"\", container_name!=\"POD\"}[5m])) by (pod)"
                    },
                    {
                      "name": "pod_memory_line",
                      "title": "Memory",
                      "description": "",
                      "graphType": "line",
                      "metricName": "pod",
                      "queryExpression": "sum(rate(container_memory_usage_bytes{pod=~\"{{.name}}\", container!=\"POD\", image!=\"\", container!=\"\", container_name!=\"POD\"}[5m])) by (pod)"
                    },
                    {
                      "name": "pod_memory_pie",
                      "title": "Mem Avg",
                      "description": "",
                      "graphType": "pie",
                      "metricName": "pod",
                      "queryExpression": "sum(rate(container_memory_usage_bytes{pod=~\"{{.name}}\", container!=\"POD\", image!=\"\", container!=\"\", container_name!=\"POD\"}[5m])) by (pod)"
                    }
                  ]
                }
              ]
            }
          ]
        }
      ],
      "provider":
      {
        "Name": "default",
        "default": true,
        "address": "http://prometheus-kube-prometheus-prometheus.monitoring.svc:9090"
      }
    }
    }