Notre modèle de prédiction expliqué
Vue d'ensemble
Le modèle de prédiction de ZeDeepBet est un ensemble de modèles de machine learning entraînés sur plus de 15 ans de données de football européen. Chaque modèle est spécialisé sur un marché : 1X2, Over/Under 2.5, Over/Under 1.5, et BTTS.
L'objectif n'est pas de "deviner" le résultat d'un match, mais de produire des probabilités calibrées — des probabilités qui, sur un grand nombre de prédictions, correspondent à la réalité observée.
Les données d'entrée
Le système ELO multi-dimensions
Inspiré du classement ELO aux échecs, notre système attribue un score à chaque équipe — mais pas un seul score. On calcule 8 dimensions d'ELO :
| Dimension | Ce qu'elle mesure |
|---|---|
| Match | Force globale (basée sur les résultats W/D/L) |
| Possession | Capacité à garder le ballon |
| Tirs | Volume offensif |
| Tirs cadrés | Précision offensive |
| Corners | Pression offensive |
| Fautes | Discipline (moins = mieux) |
| Attaque | Capacité à marquer |
| Défense | Capacité à ne pas encaisser |
Chaque dimension est calculée avec 3 vitesses de réaction :
- Court terme (K=40) : forme très récente, réagit vite aux changements
- Moyen terme (K=20) : équilibré, notre référence principale
- Long terme (K=10) : force structurelle de l'équipe, très stable
Ça fait 24 colonnes ELO par équipe, par match. Ce système capture à la fois la force globale et les tendances récentes.
Le système ELO est incrémental : il se met à jour match après match, sans jamais oublier l'historique. Une équipe qui monte en régime verra son ELO court terme grimper rapidement tandis que son ELO long terme suivra plus lentement.
Forme récente et contexte
En plus de l'ELO, le modèle utilise des features de forme récente :
- Points sur les N derniers matchs (5, 10 matchs)
- Buts marqués et encaissés (moyennes glissantes)
- Séries en cours : victoires consécutives, matchs sans défaite, clean sheets
- Forme à domicile / extérieur : performance spécifique selon le terrain
- Fatigue et calendrier : jours de repos, densité de matchs récents
Historique des confrontations
Pour chaque paire d'équipes, on calcule les statistiques des confrontations directes (head-to-head) sur les dernières rencontres : victoires, nuls, buts, tendances.
Ces features H2H sont utiles pour les rivalités récurrentes, mais elles sont naturellement limitées pour les équipes qui se rencontrent rarement. Le modèle gère ça automatiquement.
Ce qu'on n'utilise PAS
C'est aussi important que ce qu'on utilise :
- Pas de cotes de bookmakers : nos probabilités sont calculées indépendamment. Utiliser les cotes comme feature créerait un biais circulaire — on ne pourrait plus détecter les écarts entre nos probas et le marché.
- Pas de données subjectives : pas de "feeling", pas d'avis d'experts, pas de buzz médiatique.
- Pas de données non vérifiables : tout est basé sur des statistiques mesurables et reproductibles.
L'entraînement du modèle
Split temporel
On n'utilise jamais de split aléatoire (qui mélangerait passé et futur). Le modèle est entraîné sur les données les plus anciennes et testé sur les données les plus récentes. C'est la seule façon de mesurer honnêtement sa performance.
Features pré-match uniquement
Chaque feature est calculée avec un décalage de 1 match (shift). Ça garantit qu'au moment de la prédiction, on n'utilise que des informations disponibles avant le coup d'envoi. Aucun data leak.
Modèles spécialisés
Plutôt qu'un seul modèle généraliste, on entraîne un modèle par marché :
| Modèle | Cible | Type |
|---|---|---|
| 1X2 | Victoire / Nul / Défaite | Multi-classe |
| O/U 2.5 | Plus ou moins de 2.5 buts | Binaire |
| O/U 1.5 | Plus ou moins de 1.5 buts | Binaire |
| BTTS | Les deux équipes marquent | Binaire |
| Double Chance | Dérivé des probabilités 1X2 | Calculé |
Calibration
Les probabilités brutes du modèle sont calibrées pour correspondre aux fréquences réelles observées. Si le modèle dit "60% de chances", on vérifie que sur tous les matchs où il a dit 60%, environ 60% se sont réellement produits.
La calibration est essentielle pour la détection de value bets. Des probabilités mal calibrées (trop confiantes ou pas assez) mèneraient à de faux signaux.
Les limites du modèle
En toute transparence, voici ce que notre modèle ne sait pas faire :
- Prédire l'imprévisible : blessure en échauffement, erreur d'arbitrage, conditions météo extrêmes
- Intégrer les infos de dernière minute : composition d'équipe annoncée 1h avant le match
- Être parfait sur les petits échantillons : en début de saison ou pour les équipes promues, les données sont limitées
- Battre systématiquement le marché : les bookmakers sont des professionnels. Notre edge est réel mais modeste — c'est sur le volume et la durée qu'il se matérialise.