feat(planning_import): canonicalisation env + domaine a l'import (Production/production/PROD -> Production)

- Tables ENV_CANONICAL et DOMAIN_CANONICAL: lookup case+accent insensible - _canonicalize_env / _canonicalize_domain : retournent la forme canonique connue, sinon valeur d'origine inchangee - Applique dans l'INSERT row au moment de l'import - Lookup en 3 passes: 1. lowercase exact 2. lowercase + accents stripped 3. lowercase + accents + espaces normalises (ex 'Flux Libre' -> 'flux libre') Backfill SQL one-shot pour les rows existantes (backfill_canonicalize_env_domain_20260507.sql): - env: Production/Pré-Prod/Recette/Test/Test 1/Test 2/Développement/Qualif - domaine: Flux Libre/Péage/Infrastructure/Trafic/DMZ/LAN/BI/EMV/Gestion - Idempotent
2026-05-07 19:48:21 +02:00 · 2026-05-07 19:48:21 +02:00 · e448d8885b
commit e448d8885b
parent 2b57ca3247
2 changed files with 171 additions and 2 deletions
--- a/app/routers/planning_import.py
+++ b/app/routers/planning_import.py
@ -11,6 +11,7 @@ Le module pré-patching et le patching by-step seront branchés en étape 2/3.
 import io
 import json
 import re
 import unicodedata
 from datetime import date, datetime, time
 from fastapi import APIRouter, Request, Depends, UploadFile, File, Form, Query
 from fastapi.responses import HTMLResponse, RedirectResponse, JSONResponse
@ -37,6 +38,104 @@ def _detect_pct_required(rec: dict) -> bool:
            return True
    return False
 # ────────────────────────────────────────────────────────────────────────
 # Normalisation casse / accent / variantes des champs taxonomiques
 # (env, domaine) — pour éviter d'avoir 'Production' / 'production' / 'PROD' etc.
 # en parallèle dans la BDD.
 # ────────────────────────────────────────────────────────────────────────
 ENV_CANONICAL = {
    # Production
    "production":      "Production",
    "prod":            "Production",
    "prd":             "Production",
    # Pré-Prod
    "pré-prod":        "Pré-Prod",
    "pre-prod":        "Pré-Prod",
    "preprod":         "Pré-Prod",
    "pre prod":        "Pré-Prod",
    "pré prod":        "Pré-Prod",
    "pre-production":  "Pré-Prod",
    "pré-production":  "Pré-Prod",
    "preproduction":   "Pré-Prod",
    "préproduction":   "Pré-Prod",
    # Recette
    "recette":         "Recette",
    "rec":             "Recette",
    "recettes":        "Recette",
    # Test (avec/sans numéro)
    "test":            "Test",
    "tests":           "Test",
    "test 1":          "Test 1",
    "test1":           "Test 1",
    "test_1":          "Test 1",
    "test 2":          "Test 2",
    "test2":           "Test 2",
    "test_2":          "Test 2",
    # Dev
    "développement":   "Développement",
    "developpement":   "Développement",
    "dev":             "Développement",
    "develop":         "Développement",
    # Qualif
    "qualif":          "Qualif",
    "qualification":   "Qualif",
 }
 DOMAIN_CANONICAL = {
    "flux libre":      "Flux Libre",
    "flux-libre":      "Flux Libre",
    "fluxlibre":       "Flux Libre",
    "flux  libre":     "Flux Libre",
    "péage":           "Péage",
    "peage":           "Péage",
    "infrastructure":  "Infrastructure",
    "infra":           "Infrastructure",
    "dmz":             "DMZ",
    "lan":             "LAN",
    "trafic":          "Trafic",
    "traffic":         "Trafic",
    "gestion":         "Gestion",
    "bi":              "BI",
    "emv":             "EMV",
 }
 def _strip_accents_lower(s: str) -> str:
    nfkd = unicodedata.normalize("NFKD", s)
    return "".join(c for c in nfkd if not unicodedata.combining(c)).lower()
 def _canonicalize(v, mapping: dict):
    """Renvoie la forme canonique si v matche (case + accents insensitive),
    sinon renvoie v inchangé (en strip).
    Lookup en 2 passes : 1) lowercase exact, 2) sans accents."""
    if v is None:
        return None
    s = str(v).strip()
    if not s:
        return s
    low = s.lower()
    if low in mapping:
        return mapping[low]
    no_acc = _strip_accents_lower(s)
    if no_acc in mapping:
        return mapping[no_acc]
    # Aussi : compaction des espaces multiples (ex: "Flux  Libre" -> "flux libre")
    no_acc_compact = re.sub(r"\s+", " ", no_acc)
    if no_acc_compact in mapping:
        return mapping[no_acc_compact]
    return s   # pas de canonique connue, on garde tel quel
 def _canonicalize_env(v):
    return _canonicalize(v, ENV_CANONICAL)
 def _canonicalize_domain(v):
    return _canonicalize(v, DOMAIN_CANONICAL)
 # Colonnes attendues dans les feuilles Sxx (ordre = priorité, on matche par regex/lower)
 # Le fichier 2026 a 12 variantes d'en-têtes selon la semaine
 # (ancien format S02-S06, nouveau format DTS S07+)
@ -554,8 +653,8 @@ async def import_upload(request: Request, db=Depends(get_db),
                "imp": import_id, "sn": sheet_name, "wn": week_num, "ri": rec["row_index"],
                "an": asset_str,
                "it": str(rec.get("intervenant")) if rec.get("intervenant") else None,
-                "en": str(rec.get("environnement")) if rec.get("environnement") else None,
+                "en": _canonicalize_env(rec.get("environnement")) if rec.get("environnement") else None,
-                "do": str(rec.get("domaine")) if rec.get("domaine") else None,
+                "do": _canonicalize_domain(rec.get("domaine")) if rec.get("domaine") else None,
                "os": str(rec.get("os")) if rec.get("os") else None,
                "ov": str(rec.get("os_version")) if rec.get("os_version") else None,
                "ap": str(rec.get("application_name")) if rec.get("application_name") else None,
--- a/backfill_canonicalize_env_domain_20260507.sql
+++ b/backfill_canonicalize_env_domain_20260507.sql
@ -0,0 +1,70 @@
 -- One-shot : normalise les valeurs env/domaine existantes vers les formes canoniques
 -- (cf table _canonicalize_env / _canonicalize_domain dans planning_import.py).
 -- À jouer une fois après pull du code qui ajoute la canonicalisation à l'import.
 -- Idempotent : on peut le rejouer sans effet de bord.
 -- ─── Environnements ──────────────────────────────────────────
 UPDATE patch_planning_import_rows SET environnement = 'Production'
 WHERE LOWER(environnement) IN ('production','prod','prd')
   AND environnement != 'Production';
 UPDATE patch_planning_import_rows SET environnement = 'Pré-Prod'
 WHERE LOWER(REGEXP_REPLACE(environnement, '\s+', ' ', 'g')) IN
       ('pré-prod','pre-prod','preprod','pre prod','pré prod',
        'pre-production','pré-production','preproduction','préproduction')
   AND environnement != 'Pré-Prod';
 UPDATE patch_planning_import_rows SET environnement = 'Recette'
 WHERE LOWER(environnement) IN ('recette','rec','recettes')
   AND environnement != 'Recette';
 UPDATE patch_planning_import_rows SET environnement = 'Test'
 WHERE LOWER(environnement) IN ('test','tests')
   AND environnement != 'Test';
 UPDATE patch_planning_import_rows SET environnement = 'Test 1'
 WHERE LOWER(REPLACE(REPLACE(environnement, '_', ' '), '  ', ' ')) IN ('test 1','test1')
   AND environnement != 'Test 1';
 UPDATE patch_planning_import_rows SET environnement = 'Test 2'
 WHERE LOWER(REPLACE(REPLACE(environnement, '_', ' '), '  ', ' ')) IN ('test 2','test2')
   AND environnement != 'Test 2';
 UPDATE patch_planning_import_rows SET environnement = 'Développement'
 WHERE LOWER(environnement) IN ('développement','developpement','dev','develop')
   AND environnement != 'Développement';
 UPDATE patch_planning_import_rows SET environnement = 'Qualif'
 WHERE LOWER(environnement) IN ('qualif','qualification')
   AND environnement != 'Qualif';
 -- ─── Domaines ────────────────────────────────────────────────
 UPDATE patch_planning_import_rows SET domaine = 'Flux Libre'
 WHERE LOWER(REGEXP_REPLACE(domaine, '\s+', ' ', 'g')) IN ('flux libre','flux-libre','fluxlibre')
   AND domaine != 'Flux Libre';
 UPDATE patch_planning_import_rows SET domaine = 'Péage'
 WHERE LOWER(domaine) IN ('peage','péage','peagé','pèage')
   AND domaine != 'Péage';
 UPDATE patch_planning_import_rows SET domaine = 'Infrastructure'
 WHERE LOWER(domaine) IN ('infrastructure','infra')
   AND domaine != 'Infrastructure';
 UPDATE patch_planning_import_rows SET domaine = 'Trafic'
 WHERE LOWER(domaine) IN ('trafic','traffic')
   AND domaine != 'Trafic';
 UPDATE patch_planning_import_rows SET domaine = UPPER(domaine)
 WHERE LOWER(domaine) IN ('dmz','lan','bi','emv')
   AND domaine != UPPER(domaine);
 UPDATE patch_planning_import_rows SET domaine = 'Gestion'
 WHERE LOWER(domaine) = 'gestion' AND domaine != 'Gestion';
 -- ─── Vérification ───────────────────────────────────────────
 -- SELECT environnement, COUNT(*) FROM patch_planning_import_rows GROUP BY 1 ORDER BY 1;
 -- SELECT domaine, COUNT(*) FROM patch_planning_import_rows GROUP BY 1 ORDER BY 1;