Mise en lumière du Cruncher #4 – Défi de rupture structurelle du laboratoire ADIA Aujourd'hui, nous mettons en avant Julian Mukaj, analyste quantitatif chez M&G Investments, pour sa solution performante dans le défi de rupture structurelle de 100 000 $ du laboratoire ADIA 2025 organisé sur Crunch.
La tâche : vérification de rupture structurelle. Étant donné une série chronologique et un point de changement proposé, prédisez la probabilité (0–1) qu'une véritable rupture structurelle se soit produite à cet endroit – un problème ayant des applications en finance, climat, santé, macroéconomie, et plus encore.
Au cœur de l'approche se trouve la diversité des caractéristiques : Julian construit des familles de caractéristiques qui comparent les segments pré- et post-casse selon : - les distributions et la stationnarité - la volatilité et la structure de variance - la compression et la complexité - le contenu spectral - la géométrie des chemins et les extrêmes
Tests statistiques et caractéristiques informationnelles Des outils classiques comme ADF, KS, Cramér–von Mises, divergences et entropies quantifient les changements de distribution et de stationnarité à travers la frontière. Cela capture le signal le plus direct : « La loi de mouvement sous-jacente a-t-elle changé ? »
Transformations de variance et de volatilité Sur les rendements z-normalisés, il superpose : - volatilité EWMA - écarts-types roulants - résidus standardisés (taille du choc par rapport à σ local) - fenêtres de variance de type MOSUM Les caractéristiques suivent le coefficient de variation, la douceur, le regroupement de volatilité et la structure de variance dépendante du régime autour de la rupture candidate.
Géométrie de Compression & CuSum - Les caractéristiques basées sur Lempel–Ziv et zlib mesurent à quel point la séquence est compressible / structurée avant et après la séparation. - Les caractéristiques basées sur CuSum (forme en coude, netteté, distances de Wasserstein sur les résidus) mettent en évidence les changements de niveau moyen et les "coudes" locaux à la frontière. Ensemble, elles révèlent des changements subtils dans la complexité et la dynamique moyenne.
Fonctionnalités Spectral, SSA, ROCKET et path - Les fonctionnalités Spectral et SSA suivent comment la puissance se redistribue à travers les fréquences et comment les modes dominants changent. - Les transformations déterministes ROCKET agissent comme des fonctionnalités convolutionnelles légères pour capturer la microstructure non capturée par les statistiques de bas ordre. - Les fonctionnalités de chemin et d'extrêmes (retraits, distances aux sommets/fonds) résument la géométrie de chemin dépendante du régime.
L'une des découvertes les plus frappantes : une "fonction magique" – le coefficient de variation global. À lui seul, il a offert un gain significatif de l'AUC et, plus important encore, a agi comme une porte : de petits intervalles de cette fonction définissent des régimes de données distincts avec des fréquences de rupture très différentes.
L'analyse de dépendance partielle et l'analyse ICE ont montré que le modèle n'utilise cette caractéristique que près de seuils étroits. Le franchissement de ces seuils dirige les échantillons vers différentes feuilles où d'autres caractéristiques ont de l'importance, partitionnant effectivement l'ensemble de données en régimes (y compris une bande de "négatifs faciles" avec un taux positif très bas). Cette interaction s'est traduite par un gain global significatif de l'AUC.
Julian a également exploré plusieurs architectures d'apprentissage profond : - Modèles Siamois / d'embedding pour les segments pré/post - CNNs axés sur les fenêtres de frontière - Variantes hybrides LSTM–GARCH - Têtes personnalisées mélangeant statistiques globales, fenêtres de frontière et embeddings pré/post La plupart ont stagné autour de 65–75 % AUC malgré un réglage substantiel.
Pourquoi les arbres ont-ils gagné ici ? Les ensembles d'arbres pourraient exploiter des signaux très locaux et de faible dimension comme les seuils de validation croisée étroits, tandis que les modèles profonds avaient tendance à les lisser à travers la normalisation et l'apprentissage de représentation. Étant donné le calendrier de la compétition, l'ingénierie des caractéristiques + GBDTs offrait le meilleur compromis entre complexité, interprétabilité et performance.
Un grand merci à Julian Mukaj pour avoir partagé une analyse aussi détaillée de son approche, et à ADIA Lab ainsi qu'à tous les Crunchers participants pour avoir fait avancer la détection des ruptures structurelles. D'autres mises en lumière de Crunchers arrivent bientôt.
3,75K