zedeepbetIAtechnique

Notre modèle de prédiction expliqué

·5 min de lecture

Vue d'ensemble

Le modèle de prédiction de ZeDeepBet est un ensemble de modèles de machine learning entraînés sur plus de 15 ans de données de football européen. Chaque modèle est spécialisé sur un marché : 1X2, Over/Under 2.5, Over/Under 1.5, et BTTS.

L'objectif n'est pas de "deviner" le résultat d'un match, mais de produire des probabilités calibrées — des probabilités qui, sur un grand nombre de prédictions, correspondent à la réalité observée.

Les données d'entrée

Le système ELO multi-dimensions

Inspiré du classement ELO aux échecs, notre système attribue un score à chaque équipe — mais pas un seul score. On calcule 8 dimensions d'ELO :

DimensionCe qu'elle mesure
MatchForce globale (basée sur les résultats W/D/L)
PossessionCapacité à garder le ballon
TirsVolume offensif
Tirs cadrésPrécision offensive
CornersPression offensive
FautesDiscipline (moins = mieux)
AttaqueCapacité à marquer
DéfenseCapacité à ne pas encaisser

Chaque dimension est calculée avec 3 vitesses de réaction :

  • Court terme (K=40) : forme très récente, réagit vite aux changements
  • Moyen terme (K=20) : équilibré, notre référence principale
  • Long terme (K=10) : force structurelle de l'équipe, très stable

Ça fait 24 colonnes ELO par équipe, par match. Ce système capture à la fois la force globale et les tendances récentes.

Le système ELO est incrémental : il se met à jour match après match, sans jamais oublier l'historique. Une équipe qui monte en régime verra son ELO court terme grimper rapidement tandis que son ELO long terme suivra plus lentement.

Forme récente et contexte

En plus de l'ELO, le modèle utilise des features de forme récente :

  • Points sur les N derniers matchs (5, 10 matchs)
  • Buts marqués et encaissés (moyennes glissantes)
  • Séries en cours : victoires consécutives, matchs sans défaite, clean sheets
  • Forme à domicile / extérieur : performance spécifique selon le terrain
  • Fatigue et calendrier : jours de repos, densité de matchs récents

Historique des confrontations

Pour chaque paire d'équipes, on calcule les statistiques des confrontations directes (head-to-head) sur les dernières rencontres : victoires, nuls, buts, tendances.

Ces features H2H sont utiles pour les rivalités récurrentes, mais elles sont naturellement limitées pour les équipes qui se rencontrent rarement. Le modèle gère ça automatiquement.

Ce qu'on n'utilise PAS

C'est aussi important que ce qu'on utilise :

  • Pas de cotes de bookmakers : nos probabilités sont calculées indépendamment. Utiliser les cotes comme feature créerait un biais circulaire — on ne pourrait plus détecter les écarts entre nos probas et le marché.
  • Pas de données subjectives : pas de "feeling", pas d'avis d'experts, pas de buzz médiatique.
  • Pas de données non vérifiables : tout est basé sur des statistiques mesurables et reproductibles.

L'entraînement du modèle

Split temporel

On n'utilise jamais de split aléatoire (qui mélangerait passé et futur). Le modèle est entraîné sur les données les plus anciennes et testé sur les données les plus récentes. C'est la seule façon de mesurer honnêtement sa performance.

Features pré-match uniquement

Chaque feature est calculée avec un décalage de 1 match (shift). Ça garantit qu'au moment de la prédiction, on n'utilise que des informations disponibles avant le coup d'envoi. Aucun data leak.

Modèles spécialisés

Plutôt qu'un seul modèle généraliste, on entraîne un modèle par marché :

ModèleCibleType
1X2Victoire / Nul / DéfaiteMulti-classe
O/U 2.5Plus ou moins de 2.5 butsBinaire
O/U 1.5Plus ou moins de 1.5 butsBinaire
BTTSLes deux équipes marquentBinaire
Double ChanceDérivé des probabilités 1X2Calculé

Calibration

Les probabilités brutes du modèle sont calibrées pour correspondre aux fréquences réelles observées. Si le modèle dit "60% de chances", on vérifie que sur tous les matchs où il a dit 60%, environ 60% se sont réellement produits.

La calibration est essentielle pour la détection de value bets. Des probabilités mal calibrées (trop confiantes ou pas assez) mèneraient à de faux signaux.

Les limites du modèle

En toute transparence, voici ce que notre modèle ne sait pas faire :

  • Prédire l'imprévisible : blessure en échauffement, erreur d'arbitrage, conditions météo extrêmes
  • Intégrer les infos de dernière minute : composition d'équipe annoncée 1h avant le match
  • Être parfait sur les petits échantillons : en début de saison ou pour les équipes promues, les données sont limitées
  • Battre systématiquement le marché : les bookmakers sont des professionnels. Notre edge est réel mais modeste — c'est sur le volume et la durée qu'il se matérialise.