Ensemble de données composé de 1000 séquences vidéo originales manipulées à l’aide de quatre méthodes automatisées de manipulation de visage: Deepfakes, Face2Face, FaceSwap et NeuralTextures.
TWINT – Twitter Intelligence Tool
Collecte de données de Twitter en format CSV, JSON et autres
Twint est un outil de récupération avancé de Twitter écrit en Python qui permet de collecter des tweets de profils Twitter sans utiliser l’API de Twitter.
https://github.com/twintproject/twint/blob/master/README.md
Il existe aussi un Twint Desktop App (version beta pour Linux) qui peut s’avérer plus facile à utiliser pour ceux qui ne sont pas habitués d’utiliser Python.
https://pielco11.ovh/posts/twint-desktop-beta/
Python – Gensim LDA topic modeling
Une fois les données nettoyées (dans le cas de tweets par exemple, retrait de caractères spéciaux, emojis, retours de chariot, tabulations, etc.), la modélisation thématique LDA à l’aide du module Gensim (Python) s’effectue par les 6 étapes suivantes: Continuer … “Python – Gensim LDA topic modeling”
Python – Vérification de la cohérence de modèles LDA
Une fois qu’un corpus est prêt pour la modélisation LDA tel que nous l’avons présenté ici, il est important de connaître le nombre optimal de topics à analyser. Pour ce faire, il est possible de calculer le score de cohérence pour différents nombres de topics afin de choisir celui qui convient le mieux. Continuer … “Python – Vérification de la cohérence de modèles LDA”