Big data = données massives
Nous créons environs 2,5 trillons de données tous les jours. Aucun outils classique de gestion de base de données ou de gestion de l'information ne peut vraiment travailler le Big Data.
Exploiter le Big Data est difficile, mais des tentatives sont réalisées avec plus ou moins de succès, trois exemples:
* Le New York Times estimait la probabilité de gagner d'Hilary Clinton contre Donald Trump à 85%. (petite erreur)
* L'équipe d'Allemagne de football pendant sa coupe du monde 2014 et l'Euro 2016, l'a utilisé pour développer sa stratégie face aux différentes équipes rencontrées. Elle a gagné la coupe du monde et a perdu en demi-finale de l'Euro.
* L'application "Plantnet" que vous pouvez télécharger sur votre téléphone portable reconnait des végétaux (fleurs, plantes, arbres, ...) à l'aide d'une photo que l'application compare avec celles situées dans le Big data.
* Cette photo de David Bowie (à gauche), Yoko Ono et John Lennon (à droite) a beaucoup circulé sur le WEB. Il s'agit en faite d'une photo montage.
Le logiciel en ligne TinEye peut aller chercher sur le Big Data la photo originale. Pour cela, ouvrez le logiciel en ligne TinEye en cliquant ci-dessous. Puis allez chercher à l'aide de la flèche le fichier "montage" (contenant la photo) si situant dans votre dossier de classe/dossiers en consultation/SNT/élève/4 Données/TP 1 (ou bien, faites un clique droit sur l'image, copier l'image et coller au niveau de la demande d'URL)
Vous devriez voir apparaître une liste de photos. La photo originale se trouve tout au bout de la liste page 10.
Travailler le BIG Data est trop compliqué pour nous.
Mais où sont stocké toutes ces données? Nos Mail ne sont pas sauvegardés sur nos ordinateurs. Nous avons l'habitude de sauvegarder nos fichier sur notre ordinateur, mais peut-on les sauvegarder ailleurs?
Après avoir visionné la vidéo ci-dessous, répondre aux questions concernant le cloud.
Une partie des données que l'on peut trouver sur internet sont publiques. Ces données sont librement utilisables, c'est l'Open Data.
Open Data = données publiques brutes, librement accessibles et réutilisables.
Par exemple le site : data.gouv.fr recence un grand nombre de données publiques librement réutilisables.
Comme vous pouvez le constater, les données sont déjà traitées à l'aide d'un outil que vous connaissez. Lequel?
Les fichiers sont souvent au format CSV. Vous allez ouvrir avec excell le fichier CSV se trouvant dans votre dossier de classe/espace d'échange/SNT/élève/4 Données/TP1
Vous pouvez constater qu'il est difficile à lire. Néanmoins, vous constatez que la première ligne est constituées de descripteurs (titre de colonne), et que les données sont séparées de virgules.
Les fichier CSV ont pour séparateur soit des virgules, soit des point-virgule, ou autre... Les tableurs ne gèrent pas toujours correctement le téléchargement. Nous allons charger notre fichier proprement:
Partie 1: Préparation d'Excel
Partie 2: Ouverture propre.
Quels sont les différents descripteurs du tableau?
Descripteur = élément qui décrit et caractérise les données d'un fichier.
Je vous propose de regarder l'égalité hommes femmes dans les entreprises.
Toujours sur le site: data.gouv.fr . Cliquez sur "Toutes les thématiques." puis sur "Emploi". Descendez sur "Index Egalité Professionnelle F/H des entreprises de 50 salariés ou plus". Téléchargez puis ouvrez le fichier.
Combien d'entreprise ont une note hautes rémunération de 0?