21-05 Cours: Modélisation NoSQL et Sécurité des Systèmes d’Information — schémas, index, chiffrement, audit, monitoring

Modélisation NoSQL et Sécurité des Systèmes d’Information: schémas, accès, chiffrement, audit et monitoring 
 Introduction générale: une approche intégrée, du modèle de données à la sécurité opérationnelle 
 La réussite d’un projet data moderne repose sur deux piliers complémentaires: une modélisation NoSQL adaptée aux usages réels et une sécurité “en couches” couvrant l’accès, le chiffrement, l’audit et le monitoring. Contrairement à la normalisation relationnelle “standardisée”, la modélisation NoSQL (documents, colonnes, clé/valeur) se décide au regard des patrons d’accès, de la volumétrie et des contraintes du moteur choisi (MongoDB, Elasticsearch, DynamoDB, etc.). En parallèle, la sécurité n’est jamais une mesure unique: elle s’organise comme un oignon, par couches successives (réseau, transport, authentification, autorisation, données, opérations). Ce chapitre adopte un ton didactique et pragmatique: il développe les choix de schéma (embedding vs références), les limites physiques (taille des documents, I/O), la gestion des binaires, l’indexation et la performance; puis relie ces décisions au chiffrement (en transit et au repos), aux contrôles d’accès (moindre privilège), à l’audit et au monitoring, jusqu’aux sauvegardes testées et à la posture professionnelle. 
 Partie I — Modélisation NoSQL: principes, choix et bonnes pratiques 
 1. Pourquoi “ça dépend” en NoSQL 
 En NoSQL, le “bon” modèle est celui qui justifie ses compromis au regard: 
 
 Des données: forme, taille, hétérogénéité, volatilité. 
 Des patrons d’accès: lecture, écriture, filtres, tri, pagination. 
 Des contraintes opérationnelles: latence, réplication, limites de taille, ressources. 
 Du moteur: capacités d’indexation, mapping, agrégation, limites de document. Idée clé: on choisit le modèle physique pour simplifier les requêtes critiques, respecter les limites techniques et rester malléable. 
 
 2. Schéma-less, mais pas sans discipline 
 Schema-less n’est pas l’absence totale de structure: c’est la capacité à accepter des documents hétérogènes. Exemple: une spec “couleur” en string, une “taille” en entier/float, ou l’absence de certaines clés d’un produit à l’autre. Cette flexibilité: 
 
 Facilite l’évolution du domaine (ajout de nouvelles specs sans migration lourde). 
 Implique une gouvernance applicative (conventions de nommage et types). 
 Doit composer avec le mapping des moteurs (Elasticsearch: inflation du mapping si trop de variété). Bonne pratique: définir des conventions internes et des index ciblés sur les attributs réellement exploités. 
 
 3. Embedding vs Références: la décision structurante 
 Deux approches physiques: 
 
 Embedding (imbriquer les sous-documents dans le parent):
 
 Avantages: lecture “one-shot”, cohérence locale, simplicité applicative. 
 Limites: taille du document, mises à jour ciblées plus coûteuses, filtrage/pagination compliqués sur de gros tableaux. 
 
 
 Références (collections séparées + clés étrangères applicatives):
 
 Avantages: scalabilité, indexation spécifique, accès ciblé/paginé, contrôle du poids. 
 Limites: jointures applicatives, complexité opérationnelle, cohérence à gérer. Règle d’or: 
 
 
 Sous-éléments nombreux, évolutifs, accédés indépendamment → collection séparée. 
 Petites listes, fortement liées au parent, lues ensemble → embedding. 
 
 4. Cardinalité, attributs multi-valués et index 
 
 Relations 1–N: préférer une collection séparée où chaque enfant porte la clé du parent (productId), plutôt qu’une liste d’IDs dans le parent (complexifie requêtes et maintenance). 
 Attributs multi-valués: les tableaux peuvent être indexés mais restent coûteux si volumineux; attention aux limites du moteur (multi-keys, nested). 
 Choix des types: pour les prix, privilégier des entiers en centimes ou des décimaux avec précision gérée; pour les catégories, enum si stable, string si flexible (standardiser côté appli). 
 
 5. La taille contre le nombre: mesurez en octets et en I/O 
 “Beaucoup” ne signifie pas “mille éléments”—ce qui importe, c’est la taille totale et l’empreinte I/O: 
 
 Plus un document est gros, plus il est long à transférer et traiter (mémoire, cache, réplication). 
 Les limites de taille (ex. 16 Mo) protègent la stabilité des moteurs; éviter d’approcher ces seuils. 
 Favoriser les accès via index sélectifs plutôt que le chargement massif. Point de vigilance: un tableau de 100 objets avec corps texte volumineux peut suffire à pénaliser les lectures; séparer et paginer. 
 
 6. Données binaires: éviter l’inline 
 Stocker des binaires en base JSON via base64 gonfle la taille et dégrade les performances. 
 
 Alternatives: stockage objet (S3, GCS, Azure Blob) référencé par URL; GridFS (MongoDB) si besoin côté moteur. 
 Pratique: conserver les métadonnées en base et pointer vers le binaire. 
 
 7. Indexation et performance: filtrer ≠ charger 
 
 Un index peut cibler des champs imbriqués, mais si la requête n’est pas sélective, le moteur chargera quand même des blocs volumineux. 
 Les index multi-clés sur des tableaux aident, au prix d’un coût d’écriture augmenté. 
 Design des index dès le départ: sur (productId, nom, valeur) pour specs; sur (productId, date) ou (productId, note) pour avis. 
 
 8. Étude de cas: Produits, Specs, Avis 
 
 Produits: id, nom, prix, catégorie, métadonnées; éventuellement champs dérivés (dénomralisation). 
 Specs:
 
 Embedding si peu nombreuses et descriptives (lecture atomique). 
 Collection séparée si filtrage intensif par attributs (couleur, taille, matière) avec index dédiés. 
 
 
 Avis:
 
 Avoid embedding massif: risque de dépasser la taille et surcoût I/O. 
 Collection “Avis” séparée: pagination, index sur date/note, chargements partiels. 
 Dénormalisation partielle dans le produit: moyenne, compteur, derniers N avis “légers” (snippet), pour accélérer l’affichage. Stratégies de bascule: monitorer la taille des documents; au-delà d’un seuil (N avis ou taille), passer à un modèle référencé. 
 
 
 
 9. Impact du moteur choisi: MongoDB vs Elasticsearch 
 
 MongoDB: schema-less tolérant, indexes sur champs imbriqués, pipeline d’agrégation (match, unwind, group, project); attention à la limite de 16 Mo par document. 
 Elasticsearch: orienté recherche, mapping nécessaire; sous-documents “nested” avec requêtes dédiées; trop de variété de clés dégrade le mapping. Conclusion: le moteur dicte aussi le schéma—adapter, tester, mesurer. 
 
 10. Exemples de designs 
 
 Design A (embedding modéré):
 
 Produit: specs courtes embedded; avisRésumé (moyenne, count, derniersN). 
 Avis complets séparés (pagination). 
 
 
 Design B (références fortes):
 
 Produit minimal; specs et avis en collections dédiées; index composés ciblés. 
 
 
 Design C (hybride):
 
 Quelques specs “pivots” embedded (taille, couleur); reste séparé. 
 Avis séparés + résumé dans le produit. 
 
 
 
 11. Analogies et cas applicatifs 
 
 Blog et commentaires: embedding pour petite audience; séparation quand le volume explose. 
 Catalogue multimédia: métadonnées très variées (codec, durée, résolution) = force du schema-less. 
 Commerce à forte charge: séparation fine des avis/specs pour indexation, sharding et mise à l’échelle. 
 
 12. Erreurs fréquentes à éviter 
 
 Listes d’IDs multi-valuées au lieu d’une relation 1–N classique. 
 Embedding indiscriminé des avis volumineux. 
 Oublier les index sur champs de filtrage. 
 Croire que schema-less dispense de discipline. 
 Ignorer les coûts d’I/O et la pagination réelle. 
 
 
 Partie II — Sécurité des systèmes d’information et des bases: principes, couches et pratiques 
 1. Défense en profondeur et moindre privilège 
 La sécurité est une chaîne; elle cède au maillon le plus faible. Approche par couches: 
 
 Réseau: segmentation, allowlists, pare-feu. 
 Transport: chiffrement TLS/mTLS. 
 Authentification: comptes individuels, MFA, rotation. 
 Autorisation: rôles, droits CRUD limités, RLS si disponible. 
 Données: chiffrement au repos, politiques de purge maîtrisées. 
 Opérations: journalisation, audit externe, sauvegardes testées, procédures d’incident. Principe du moindre privilège: ne donner que les droits nécessaires; limiter l’impact d’une compromission. 
 
 2. Contrôles d’accès: rôles, permissions, soft delete 
 
 Gérer via rôles (lecteur, éditeur, service, admin); rattacher les comptes aux rôles, pas de droits ad hoc. 
 Politique de soft delete: retirer DELETE; marquer “archivé = true”; prévoir vues et audits; respecter RGPD (droit à l’effacement). Modèles d’identité: 
 Compte technique unique (simple, mais audit détaillé côté BD plus difficile). 
 Propagation d’identité (SSO/Kerberos/JWT) jusque dans la BD (audit fin, complexité accrue). 
 
 3. Authentification et hygiène 
 
 Changer impérativement les comptes par défaut (admin/admin). 
 Mots de passe forts, rotation, gestionnaire de secrets; offboarding rigoureux. 
 Activer et configurer l’authentification/autorisation côté BD (ne pas laisser en mode “ouvert”). Curiosité historique: de nombreuses compromissions “simples” exploitent des identifiants par défaut non modifiés. 
 
 4. Contrôle d’accès réseau 
 
 Restreindre aux hôtes connus; différencier dev/test/prod. 
 Éviter les connexions directes depuis postes utilisateurs vers BD de production. 
 Segmenter (VLAN), ACL, bastion administrateur. Exemple MySQL: lier les comptes à “utilisateur@hôte” avec hôte restreint (éviter “%”). 
 
 5. Journalisation et audit 
 Objectifs: forensique, conformité, accounting. 
 
 Journaliser connexions, DDL, DML critiques, requêtes lentes. 
 Protéger les journaux (intégrité; stockage externe immuable/WORM). 
 Corréler dans un SIEM (ELK/Opensearch, Splunk). Curiosité: journaux “tamper-evident” enchaînés par hachages, inspirés des blockchains. 
 
 6. Chiffrement: en transit et au repos 
 
 En transit (TLS/SSL): prévenir interception et modification; gérer certificats, rotation; mTLS pour microservices. 
 Au repos:
 
 Chiffrement de disque (FDE: BitLocker, LUKS, FileVault): protection contre vol physique; transparent pour l’application. 
 TDE au niveau moteur (Oracle, SQL Server, extensions PostgreSQL): fichiers de base et backups chiffrés; nécessite KMS/HSM. 
 Chiffrement applicatif (colonnes/blobs): protection forte même avec accès moteur; perte de requêtabilité et complexité de clés. Pragmatisme PKI interne: commencer par la périphérie (reverse proxy/API gateway, VPN), puis étendre le chiffrement interne avec automation (ACME/step-ca/Vault) ou service mesh (Istio, Linkerd). 
 
 
 
 7. Sauvegardes, transactions et reprise 
 
 Transactions: BEGIN/COMMIT/ROLLBACK; éviter auto-commit pour opérations massives. 
 Sauvegardes: full/incrémentales/différentielles/snapshots; isoler et durcir les dépôts; chiffrer les backups. 
 Tester les restaurations régulièrement: une sauvegarde non testée n’est pas une sauvegarde; valider RPO/RTO, intégrité, runbooks. Cas réel: backups “réussis” mais vides (0 octet) faute de droits; jour J, rien à restaurer. 
 
 8. Décommissionnement des supports 
 
 Effacement cryptographique si disque chiffré (crypto-erase). 
 Déchiquetage industriel (DIN 66399), Secure Erase/PSID pour SSD, percage/déformation des plateaux pour HDD. 
 Documenter la procédure, séparer HDD/SSD, prestataires certifiés. Curiosité: l’aimant “courant” n’a pas d’effet sur HDD modernes; nul pour SSD. 
 
 
 Partie III — Sécurité des applications web: injections SQL, XSS, validation et WAF 
 1. Injections SQL: nature et prévention 
 Définition: injection lorsque des données utilisateur deviennent du code SQL et modifient la requête. 
 
 Exemples: ' OR 1=1 --, UNION, blind/time-based. 
 Impacts: bypass d’authentification, exfiltration, modification, DROP selon droits. Prévention incontournable: requêtes préparées (prepared statements). 
 Séparent code et données; les paramètres ne sont pas interprétés comme SQL. 
 Bénéfices de performance: plan cache, stabilité, moins de parsing. Bonnes pratiques: 
 APIs paramétrées (PDO, PreparedStatement, psycopg2/sqlalchemy). 
 Typage explicite des paramètres; encodage cohérent (UTF-8). 
 Messages d’erreur non verbeux côté utilisateur; journaux détaillés côté SIEM. 
 Moindre privilège: même si injection, les dégâts sont limités. 
 
 2. Validation des entrées et échappement des sorties 
 
 Input validation: whitelist, longueur, jeu de caractères, normalisation (NFKC); utile mais ne remplace pas les prepared statements. 
 Output escaping: protéger contre le XSS (HTML, attribut, JS, URL); outils et CSP; ne pas confondre avec protection SQL. 
 
 3. WAF et détection 
 
 WAF niveau 7 (OWASP CRS): détecter patterns d’attaques, journaliser, bloquer/quarantaine. 
 Limites: complément, pas substitut au code sécurisé. 
 Réponse aux incidents: playbooks, corrélations SIEM, durcissement des règles. 
 
 
 Partie IV — Monitoring, opérations et posture de conseil 
 1. Logging et transactions: éviter le piège du rollback des logs 
 
 Anti-pattern: logguer “en base” dans la même transaction que le métier — le rollback efface aussi les logs. 
 Solutions:
 
 Transaction séparée et commit immédiat pour la ligne de log. 
 Logging hors base (stdout, fichiers, bus → collecte centralisée). 
 Audit natif BD pour événements sensibles (pgaudit, profiler). Pratiques: 
 
 
 Corrélation: request_id/session_id dans chaque log et write BD. 
 Séparer log d’événement vs log d’audit; niveaux (ERROR/WARN/INFO); rétention. 
 
 2. Observabilité: métriques, traces et alertes 
 
 Time-series: Prometheus, InfluxDB; dashboards (Grafana). 
 Logs/traces: ELK/Opensearch, Loki, OpenTelemetry. 
 Métriques critiques: connexions, latence, locks, I/O disque, buffer cache, CPU/RAM, taille des index/tables, WAL/redo. 
 Alertes: disque >80%, dérive latences, locks longs, croissance anormale des journaux. Checklist santé par SGBD: 
 PostgreSQL: pg_stat_activity, pg_stat_statements, autovacuum, pgaudit. 
 MySQL/MariaDB: performance_schema, information_schema. 
 Oracle: AWR/ASH, OEM. 
 MongoDB: profiler, Compass. 
 
 3. Accès et réseau: segmentation, bastion, certificats 
 
 Segmentation stricte; deny-by-default; bastion avec MFA pour admins. 
 TLS/mTLS entre application et BD; PKI interne; automatiser renouvellement (ACME/Step CA). 
 Argumentaire: coût des certificats négligeable face au coût d’une fuite. 
 
 4. Sauvegardes et restaurations: vérité opérationnelle 
 
 Stratégie: full + incrémentales; isoler, immutabilité (WORM). 
 Tests de restauration périodiques; validation d’intégrité (hash), contenu, performances de reprise. 
 Documentation: runbooks d’incident; responsabilités claires. 
 
 5. Scénarios d’attaque et erreurs systémiques 
 
 Brute force sur admin évident; élévation aux hyperviseurs; destruction des backups; rançon.
 
 Mesures: MFA, segmentation, immutabilité des backups, détection brute force, moindre privilège. 
 
 
 Risque interne: mécontentement, négligence, collusion.
 
 Mesures: audit immuable, revue d’accès périodique, séparation des tâches, culture de sécurité. 
 
 
 
 6. Posture de conseil et responsabilité 
 
 Devoir de conseil: exposer risques et options; adapter au contexte; formuler les compromis. 
 Limites: refuser un engagement manifestement non sécurisé; décharge écrite si nécessaire. 
 Traçabilité: ordres de changement signés pour actions sensibles; journaliser qui/quoi/quand/pourquoi. 
 Éthique: environnement professionnel respectueux; évolution de responsabilités (de savoir-faire à pilotage des choix). 
 
 
 Interdisciplinarité et liens utiles 
 
 Génie logiciel: DDD pour déterminer agrégats (embedding) vs bounded contexts (références). 
 Architecture systèmes: impact schéma sur réplication, sharding, tolérance aux pannes, coûts cloud. 
 Sécurité réseau: Zero Trust, mTLS, bastions, segmentation dynamique. 
 Data engineering: pipeline ETL, indexation vers moteurs de recherche (Elasticsearch), caches (Redis), data lakes (Parquet/Avro, Spark/Flink). 
 Conformité: RGPD (minimisation, anonymisation, droit à l’effacement), PCI-DSS. 
 SRE/Opérations: CI/CD avec scanners SAST/DAST, runbooks, game days. Curiosités historiques: 
 Essor du NoSQL avec la scalabilité web; MongoDB a popularisé documents JSON-like et pipelines d’agrégation. 
 Elasticsearch/Lucene: index inversés, analyzers; mapping strict pour performance de recherche. 
 Limites de taille des documents: corrélées aux pages/blocs internes et aux coûts de réplication; compromis de stabilité. 
 
 
 Exemples pratiques intégrés 
 Cas 1: E-commerce avec filtrage massif de specs et avis nombreux 
 
 Specs: collection séparée avec index sur (productId, nom, valeur) pour “couleur/taille/matière”. 
 Avis: collection dédiée, index (productId, date) pour “les 4 plus récents”; produits dénormalisés avec moyenne et compteur. 
 Monitoring: latences par requête, taille des collections, croissance index. 
 
 Cas 2: Binaires (PDF de factures) 
 
 Métadonnées en base; fichiers en stockage objet (URL, hash, MIME); GridFS si moteur document imposé. 
 Sécurité: TDE/FDE pour backups; chiffrement en transit; accès restreints. 
 
 Cas 3: Petites listes fortement liées (adresses client) 
 
 Embedding si 1–2 adresses statiques; collection séparée si historique riche (validation, audit, pagination). 
 
 Cas 4: Web App et SQLi/XSS 
 
 Prepared statements partout; validation en entrée; escaping en sortie (HTML/JS/URL); CSP; WAF en couche supplémentaire; moindre privilège sur comptes BD. 
 
 
 Pistes méthodologiques: concevoir, tester, ajuster 
 
 Modèle conceptuel: entités/relations (produits, specs, avis, clients). 
 Patrons d’accès et SLA: requêtes fréquentes, volumes, filtres/tri/pagination. 
 Modèle physique et index:
 
 Embedding vs référenciation par cardinalité et volumétrie. 
 Dimensionner la taille des documents; planifier index et partitions. 
 Prévoir pipelines (ETL, caches, search), résilience et resynchronisation. 
 
 
 Sécurité et opérations:
 
 Rôles et moindres privilèges; TLS/mTLS; audit externe; sauvegardes testées. 
 Observabilité: métriques, logs, traces; alertes actionnables. 
 
 
 Itérations: mesurer, profiler, corriger (coût des requêtes, taille des payloads, plans d’exécution). 
 
 
 Points clés et mots-clés (mini-listes contextualisées) 
 
 Modélisation:
 
 Embedding vs Références 
 Cardinalité 
 Schema-less discipliné 
 Index multi-clés 
 I/O et taille de document 
 
 
 Sécurité:
 
 Défense en profondeur 
 Moindre privilège 
 TLS/mTLS, TDE/FDE 
 Audit immuable, SIEM 
 Soft delete, RLS 
 
 
 Web:
 
 Prepared statements 
 Input validation, Output escaping 
 XSS, WAF, CSP 
 
 
 Opérations:
 
 Logging hors transaction 
 Monitoring (Prometheus/Grafana) 
 Sauvegardes testées, RPO/RTO 
 Runbooks, game days 
 
 
 Architecture:
 
 DDD, bounded contexts 
 ETL, caches, search 
 PKI interne, service mesh 
 
 
 
 
 Schéma riassuntivo: concepts principaux et mots-clés 
 Concepts principaux: 
 
 Modèle NoSQL centré usages: choisir embedding ou références selon cardinalité, filtrage, volumétrie et limites du moteur (MongoDB, Elasticsearch). 
 Taille > nombre: mesurer en octets et en I/O; éviter les documents lourds; indexer les champs de filtrage. 
 Binaires hors base: stockage objet + métadonnées; GridFS si nécessaire. 
 Sécurité en couches: réseau (segmentation), transport (TLS/mTLS), identité (MFA, rotation), autorisation (rôles, moindre privilège), données (TDE/FDE, chiffrement applicatif), opérations (audit, sauvegardes testées). 
 Prévention des injections: requêtes préparées, validation en entrée, escaping en sortie pour XSS, WAF en complément. 
 Observabilité: logging hors transaction, audit BD, métriques/traces, alertes; tests de restauration réguliers. 
 Gouvernance et posture: devoir de conseil, traçabilité des actions sensibles, refus de risque non maîtrisé. Mots-clés: 
 NoSQL, embedding, références, schema-less, cardinalité, index, I/O, dénormalisation, MongoDB, Elasticsearch, mapping/nested, agrégation. 
 Défense en profondeur, moindre privilège, rôles, CRUD, soft delete, RLS, TLS/mTLS, TDE/FDE, KMS/HSM. 
 Audit, journalisation, WORM, SIEM, prepared statements, plan cache, input validation, output escaping, XSS, WAF, CSP. 
 Prometheus, Grafana, ELK/Opensearch, OpenTelemetry, pgaudit, performance_schema. 
 Sauvegardes, restauration, RPO/RTO, runbooks, game days, PKI interne, service mesh, ETL, caches, search, RGPD.