ECTS
3 crédits
Composante
UFR Sciences de l'Homme et de la Société (SHS)
Description
La perception multimodale est pour les humains l'outil de base de leurs interactions, ces interactions étant elles-mêmes la base de leurs relations sociales. Le cours débute par la présentation de la perception multimodale humaine avec ses forces et ses faiblesses. Il se poursuit par la présentation des systèmes perceptifs et interactifs, et de l'intérêt de différents outils de perceptions dans des tâches de collaboration de ces systèmes avec des humains. En commençant par montrer l'évolution d'un système perceptif au cours des décennies précédentes, le cours se centre sur l'introduction des techniques d'apprentissage profond et de fusion de données pour réaliser aujourd'hui des systèmes de perceptions multi-monomodaux et multimodaux. Le cours se termine sur des échanges autours de considérations éthiques autours de l'usage de la perception multimodale.
Objectifs
- Acquérir les connaissances générales sur la perception multimodale
- Comprendre la méthodologie pour construire un système perceptif multimodal : acquisition de données, synchronisation des modalités, apprentissage, évaluation.
- Développer sa pratique de l'apprentissage profond
Heures d'enseignement
- UE Compétences complémentaires 3 - TDTD24h
- UE Compétences complémentaires 3 - CMCM24h
Pré-requis recommandés
Aucune connaissance spécifique préalable n'est nécessaire. La connaissance de la programmation avec python est un plus.
Période
Semestre 9
Informations complémentaires
Le cours est évalué sur la base de contrôle de connaissance et de travaux pratiques notés.
Bibliographie
- LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436-444
- Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. nature, 323(6088), 533-536.
- LeCun, Y., Touresky, D., Hinton, G., & Sejnowski, T. (1988, June). A theoretical framework for back-propagation. In Proceedings of the 1988 connectionist models summer school (Vol. 1, pp. 21-28).
- Nicolas Audebert, Bertrand Le Saux, Sébastien Lefèvre. Réseaux de neurones profonds et fusion de
données pour la segmentation sémantique d’images aériennes. ORASIS, GREYC, 2017, Colleville-sur-
Mer, France. hal-01672871
- CAO, Zhe, SIMON, Tomas, WEI, Shih-En, et al. Realtime multi-person 2d pose estimation using part affinity fields. In : Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. p. 7291-7299.
- VASWANI, Ashish, SHAZEER, Noam, PARMAR, Niki, et al. Attention is all you need. Advances in neural information processing systems, 2017, vol. 30.
- SHARMA, Garima, GHOSH, Shreya, et DHALL, Abhinav. Automatic group level affect and cohesion prediction in videos. In : 2019 8th International Conference on Affective Computing and Intelligent Interaction Workshops and Demos (ACIIW). IEEE, 2019. p. 161-167.
- SU, Jiawei, VARGAS, Danilo Vasconcellos, et SAKURAI, Kouichi. One pixel attack for fooling deep neural networks. IEEE Transactions on Evolutionary Computation, 2019, vol. 23, no 5, p. 828-841.
- EYKHOLT, Kevin, EVTIMOV, Ivan, FERNANDES, Earlence, et al. Robust physical-world attacks on deep learning visual classification. In : Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. p. 1625-1634.