Le stress peut entraîner des conséquences nocives sur la santé mentale et physique des individus, ainsi que sur leur qualité de vie en général. Par conséquent, il est bénéfique de développer des outils automatisés pour aider à y faire face. Dans cette perspective, nous avons proposé différentes architectures Transformer multimodales sur l'ensemble de données WESAD afin de détecter le stress de manière automatique. Les résultats de notre étude démontrent l'adaptabilité des modèles proposés à cette tâche. En utilisant la méthode de fusion intermédiaire, nous avons dépassé l'état de l'art, avec une précision de 98,69% et un score F1 de 98,73%. Les résultats obtenus mettent en évidence l'efficacité de notre méthode et ouvrent des perspectives intéressantes pour le développement de techniques de reconnaissance des émotions basées sur des architectures Transformer multimodales.