Ensemble de données composé de 1000 séquences vidéo originales manipulées à l’aide de quatre méthodes automatisées de manipulation de visage: Deepfakes, Face2Face, FaceSwap et NeuralTextures.
Données d’archives du Twitter Elections Integrity Service
Twitter rend disponibles des jeux de données sur des messages et des comptes impliqués dans des campagnes de manipulation de l’information sur sa plateforme. Plus spécifiquement : “These datasets include all public, nondeleted Tweets and media (e.g., images and videos) from accounts we believe are connected to state-backed information operations.“
https://about.twitter.com/en_us/values/elections-integrity.html#data
UCI – Machine Learning Repository
473 bases de données sur divers thématiques.
Kaggle – A Million News Headlines
COSMOS Open Data Analytics software
Collecte et analyse de données Twitter.
WebScraper.io
Extraction de données de site web en format CSV à l’aide d’un interface graphique fourni par une extension Chrome.
ExportComments.com
Extraction des commentaires de fils de discussions sur Facebook, Instagram et Twitter en format CSV (incluant les métadonnées).
Limite de 500 commentaires en version gratuite.
TWINT – Twitter Intelligence Tool
Collecte de données de Twitter en format CSV, JSON et autres
Twint est un outil de récupération avancé de Twitter écrit en Python qui permet de collecter des tweets de profils Twitter sans utiliser l’API de Twitter.
https://github.com/twintproject/twint/blob/master/README.md
Il existe aussi un Twint Desktop App (version beta pour Linux) qui peut s’avérer plus facile à utiliser pour ceux qui ne sont pas habitués d’utiliser Python.
YASIV – Youtube
Visualisation d’un réseau de vidéos Youtube associées (selon l’algorithme de Youtube) à une recherche par mot clé.
Who posted what?
Recherche de publications sur Facebook qui contiennent un mot clé, à une date précise ou entre deux dates.
Twopcharts
Propose différentes requêtes permettant d’obtenir une foule d’information sur des comptes, des profiles ou des thematiques précises sur Twitter.
Youtube Comment Scraper
Extraction en JSON ou CSV de la liste des commentaires d’une vidéo Youtube.
Archive.today
Sauvegarde de page web ou de page de médias sociaux
Visualping
Suivi de page web.
Visualping est un outil de vérification, de surveillance et de détection de changements sur un site Web. Il fonctionne à l’aide d’alertes courriel.
Google Analytics
Analyse d’audience d’un site Web ou d’applications.
Permet entre autres la collecte et traitement des données sur l’audience de sites web ou de campagnes marketing.
HTTrack
ViewDNS.info
WHOIS de masse
Le lien suivant propose un article intéressant sur une application de l’API de ViewsDNS.info à des fins d’OSINT :
Python – Gensim LDA topic modeling
Une fois les données nettoyées (dans le cas de tweets par exemple, retrait de caractères spéciaux, emojis, retours de chariot, tabulations, etc.), la modélisation thématique LDA à l’aide du module Gensim (Python) s’effectue par les 6 étapes suivantes: Continuer … “Python – Gensim LDA topic modeling”
Python – Vérification de la cohérence de modèles LDA
Une fois qu’un corpus est prêt pour la modélisation LDA tel que nous l’avons présenté ici, il est important de connaître le nombre optimal de topics à analyser. Pour ce faire, il est possible de calculer le score de cohérence pour différents nombres de topics afin de choisir celui qui convient le mieux. Continuer … “Python – Vérification de la cohérence de modèles LDA”
OSINT Tools and Resources Handbook 2018
i-intelligence – Open source intelligence tools and resources handbook 2018
Aleksandra Bielska
Natalie Anderson, Vytenis Benetis, Cristina Viehman
OSINT Tools and Resources Handbook 2018