zedeepbetIAtechnique

Notre modèle de prédiction expliqué

11 février 2026·5 min de lecture

Vue d'ensemble

Le modèle de prédiction de ZeDeepBet est un ensemble de modèles de machine learning entraînés sur plus de 15 ans de données de football européen. Chaque modèle est spécialisé sur un marché : 1X2, Over/Under 2.5, Over/Under 1.5, et BTTS.

L'objectif n'est pas de "deviner" le résultat d'un match, mais de produire des probabilités calibrées — des probabilités qui, sur un grand nombre de prédictions, correspondent à la réalité observée.

Les données d'entrée

Le système ELO multi-dimensions

Inspiré du classement ELO aux échecs, notre système attribue un score à chaque équipe — mais pas un seul score. On calcule 8 dimensions d'ELO :

Dimension	Ce qu'elle mesure
Match	Force globale (basée sur les résultats W/D/L)
Possession	Capacité à garder le ballon
Tirs	Volume offensif
Tirs cadrés	Précision offensive
Corners	Pression offensive
Fautes	Discipline (moins = mieux)
Attaque	Capacité à marquer
Défense	Capacité à ne pas encaisser

Chaque dimension est calculée avec 3 vitesses de réaction :

Court terme (K=40) : forme très récente, réagit vite aux changements
Moyen terme (K=20) : équilibré, notre référence principale
Long terme (K=10) : force structurelle de l'équipe, très stable

Ça fait 24 colonnes ELO par équipe, par match. Ce système capture à la fois la force globale et les tendances récentes.

Le système ELO est incrémental : il se met à jour match après match, sans jamais oublier l'historique. Une équipe qui monte en régime verra son ELO court terme grimper rapidement tandis que son ELO long terme suivra plus lentement.

Forme récente et contexte

En plus de l'ELO, le modèle utilise des features de forme récente :

Points sur les N derniers matchs (5, 10 matchs)
Buts marqués et encaissés (moyennes glissantes)
Séries en cours : victoires consécutives, matchs sans défaite, clean sheets
Forme à domicile / extérieur : performance spécifique selon le terrain
Fatigue et calendrier : jours de repos, densité de matchs récents

Historique des confrontations

Pour chaque paire d'équipes, on calcule les statistiques des confrontations directes (head-to-head) sur les dernières rencontres : victoires, nuls, buts, tendances.

Ces features H2H sont utiles pour les rivalités récurrentes, mais elles sont naturellement limitées pour les équipes qui se rencontrent rarement. Le modèle gère ça automatiquement.

Ce qu'on n'utilise PAS

C'est aussi important que ce qu'on utilise :

Pas de cotes de bookmakers : nos probabilités sont calculées indépendamment. Utiliser les cotes comme feature créerait un biais circulaire — on ne pourrait plus détecter les écarts entre nos probas et le marché.
Pas de données subjectives : pas de "feeling", pas d'avis d'experts, pas de buzz médiatique.
Pas de données non vérifiables : tout est basé sur des statistiques mesurables et reproductibles.

L'entraînement du modèle

Split temporel

On n'utilise jamais de split aléatoire (qui mélangerait passé et futur). Le modèle est entraîné sur les données les plus anciennes et testé sur les données les plus récentes. C'est la seule façon de mesurer honnêtement sa performance.

Features pré-match uniquement

Chaque feature est calculée avec un décalage de 1 match (shift). Ça garantit qu'au moment de la prédiction, on n'utilise que des informations disponibles avant le coup d'envoi. Aucun data leak.

Modèles spécialisés

Plutôt qu'un seul modèle généraliste, on entraîne un modèle par marché :

Modèle	Cible	Type
1X2	Victoire / Nul / Défaite	Multi-classe
O/U 2.5	Plus ou moins de 2.5 buts	Binaire
O/U 1.5	Plus ou moins de 1.5 buts	Binaire
BTTS	Les deux équipes marquent	Binaire
Double Chance	Dérivé des probabilités 1X2	Calculé

Calibration

Les probabilités brutes du modèle sont calibrées pour correspondre aux fréquences réelles observées. Si le modèle dit "60% de chances", on vérifie que sur tous les matchs où il a dit 60%, environ 60% se sont réellement produits.

La calibration est essentielle pour la détection de value bets. Des probabilités mal calibrées (trop confiantes ou pas assez) mèneraient à de faux signaux.

Les limites du modèle

En toute transparence, voici ce que notre modèle ne sait pas faire :

Prédire l'imprévisible : blessure en échauffement, erreur d'arbitrage, conditions météo extrêmes
Intégrer les infos de dernière minute : composition d'équipe annoncée 1h avant le match
Être parfait sur les petits échantillons : en début de saison ou pour les équipes promues, les données sont limitées
Battre systématiquement le marché : les bookmakers sont des professionnels. Notre edge est réel mais modeste — c'est sur le volume et la durée qu'il se matérialise.