Pour ceux qui n'ont rien à faire un samedi soir. Le classificateur d'oralité basé sur BERT de @havelock_ai sur @huggingface à essayer. Architecture d'ensemble : régressseur au niveau du document + classificateur de portée au niveau de la phrase. Entraîné sur des GPU T4 de @Modal.
Un modèle supérieur est déjà en cours de développement, et je vais attendre celui-ci avant de le mettre en ligne. Mais c'est l'idée générale.
La prochaine version devrait être beaucoup plus puissante
42