DATA MINING
Le Data Mining ou exploration des données (l’étape d’analyse de la découverte de la connaissance dans le processus de bases de données, ou KDD), champ relativement jeune et interdisciplinaire de l’informatique, est le processus d’extraction des modèles à partir de grands ensembles de données en combinant des méthodes des statistiques et l’intelligence artificielle avec la gestion de base de données.
Avec des avances techniques récentes dans la capacité de traitement, la capacité de stockage, et l’inter connectivité de l’informatique, l’exploration des données est considérée comme un outil de plus en plus important par les marchés modernes pour transformer des quantités sans précédent de données numériques en Business Intelligence donnant un avantage informationnel. Le Data Mining (DM) est actuellement employé dans une quantité de pratiques de profilage, telles que le marketing, la surveillance, la détection de fraude, et la découverte scientifique. Le consensus croissant qui consiste à dire que l’exploitation des données peut apporter une réelle valeur a mené à une explosion dans la demande des technologies de forage des données.
Les termes, de data dredging, data fishing, data snooping, se rapportent tous à l’utilisation des méthodes d’exploration des données de prélever les parties d’un plus grand ensemble de données de population qui sont (ou peuvent être) trop petites pour que des inférences statistiques fiables soient faites au sujet de la validité de tous les modèles découverts. Ces méthodes peuvent, cependant, être employées en créant de nouvelles hypothèses pour examiner contre les populations plus grandes de données.
Sommaire [masquer]
Les débuts du Data Mining
L’extraction manuelle de modèles à partir de données s’est produite pendant des siècles. Les premières méthodes visant à identifier des modèles dans les données incluent le théorème de Bayes (1700s) et l’analyse de régression (1800s). La prolifération, l’ubiquité et la puissance croissante de l’informatique ont augmenté la collecte, le stockage et les manipulations de données. Pendant que les ensembles de données se sont développés en taille et en complexité, l’analyse de données directe n’a cessé d’augmenter avec le traitement automatique de l’information indirect. Ceci a été facilité par d’autres découvertes dans l’informatique, tel que les réseaux neurologiques, le groupement, les algorithmes génétiques (les années 50), les arbres de décision (les années 60) et les machines de vecteur de soutien (les années 90). L’exploration des données est le processus qui consiste à appliquer ces méthodes aux données avec l’intention de découvrir les modèles cachés. Elle a été employée pendant de nombreuses d’années par des entreprises, des scientifiques et des gouvernements pour tamiser d’importants volumes de données telles que des fichiers d’enregistrement des passagers d’une ligne aérienne, des données de recensement et des données de module de scanners de supermarché
Une raison essentielle d’utiliser les données est d’aider à l’analyse de collectes d’observations du comportement. De telles données sont vulnérables à la co-linéarité en raison des interdépendances inconnues. Un fait inévitable de l’exploration des données est que les (sous-) ensembles de données étant analysées peuvent ne pas être représentatives du domaine entier, et peut par conséquent ne pas contenir d’exemples relatifs aux relations et aux comportements essentiels susceptibles d’apparaître dans d’autres parties du domaine. Pour faire face à cette sorte de problématique, l’analyse peut être augmentée en utilisant une approche basée sur l’expérience ou encore d’autres approches, comme le choix de la modélisation des données pour des données produites par des humains. Dans ces situations, les corrélations inhérentes peuvent être soit commandées soit supprimées pendant la construction du plan d’expérience.
Quelques efforts ont été fournis pour définir les normes pour l’exploration des données, par exemple le processus européen trans-industries de 1999 pour l’exploration de données (CRISP-DM 1.0) et la norme 2004 d’exploration des données de Java (JDM 1.0). Celles-ci sont normes en évolution ; les versions postérieures de ces normes sont en cours de développement. Indépendamment de ces efforts d’étalonnage, des systèmes de logiciels open source libres de droits comme le langage R, Weka, KNIME, RapidMiner, jHepWork et d’autres sont devenues des normes informelles pour définir des processus d’exploitation des données. Tous ces systèmes peuvent importer et exporter des modèles dans PMML (langage de balisage de modèle prédictif) qui fournit une manière standard de représenter des modèles d’exploration des données de sorte que ceux-ci puissent être partagés entre différentes applications statistiques. PMML est une langue basée sur l’XML développée par le groupe d’extraction de données, un groupe indépendant composé de beaucoup de entreprises d’extraction de données. La version 4.0 de PMML a été présentée en juin 2009.
Recherche et évolution
En plus de la demande guidée par l’industrie de normes et d’interopérabilité, les activités professionnelles et universitaires ont également apporté des contributions considérables à l’évolution et à la rigueur des méthodes et des modèles ; un article édité dans un numéro de 2008 du Journal of Information Technology and Decision Making récapitule les résultats d’une recherche bibliographique qui retrace et analyse cette évolution.
Le corps professionnel premier dans le domaine est l’association pour le groupe d’intérêt du matériel de calcul sur la découverte de la connaissance et l’exploration des données (SIGKDD). Depuis 1989 ils ont accueilli une Conférence Internationale annuelle et ont édité ses démarches, et depuis 1999 ils ont édité un journal scolaire bi-annuel intitulé des « explorations de SIGKDD ». D’autres conférences de l’informatique sur l’exploration des données incluent :
- DMIN – Conférence Internationale sur l’exploration des données
- DMKD – Issues des recherches sur l’exploration des données et la découverte de la connaissance
- ECDM – Conférence européenne sur l’exploration des données
- ECML-PKDD – Conférence européenne sur l’étude de machine et les principes et la pratique de la découverte de la connaissance dans les bases de données
- EDM – Conférence Internationale sur l’exploration des données éducative
- ICDM – Conférence Internationale d’IEEE sur l’exploration des données
- MLDM – Étude de machine et exploration des données pour la reconnaissance des structures
- PAKDD – La conférence annuelle de la Pacifique-Asie sur la découverte de la connaissance et l’exploration des données
- PATTE – monde prédictif d’Analysent
- SDM – Conférence Internationale du SIAM sur l’exploration des données
Processus
Le processus trans-industries compatible pour l’exploration des données (CRISP-DM) est un modèle de processus d’exploration des données qui décrit les approches utilisées généralement et que experts en Data Mining emploient pour aborder des problèmes. Il définit six phases en tant que (1) compréhension du marché, (2) compréhension des données, (3) préparation de données, (4) modélisation, (5) évaluation, et (6) déploiement.
D’autres modèles de processus peuvent définir trois phases en tant que (1) le prétraitement, (2) l’exploration des données, et (3) validation de résultats.
Prétraitement
Avant que des algorithmes d’exploration des données puissent être employés, un ensemble de données de cible doit être assemblé. Puisque l’exploitation des données peut seulement dévoiler des modèles déjà actuels dans les données, l’ensemble des données cibles doit être assez grand pour contenir ces modèles mais aussi suffisamment concis pour pouvoir être extrait dans un délai acceptable. Une source commune pour des données est un entrepôt ou datamart. Prétraiter est essentiel pour analyser les ensembles de données multivariables avant l’exploration des données.
L’ensemble de cible est alors nettoyé. La suppression des erreurs enlève les observations avec le bruit et les données absentes.
Exploration des données
L’exploration des données implique généralement quatre classes de tâches :
Étude de règle d’association – recherches des rapports entre les variables. Par exemple un supermarché pourrait rassembler des données sur le client en fonction de ses habitudes d’achats. En utilisant la règle d’apprentissage par associations, le supermarché peut déterminer quels produits sont fréquemment achetés ensemble et employer cette information pour la vente. Ceci désigné parfois sous le nom de l’analyse de panier du marché.
Groupe – la tâche de découvrir des groupes et des structures dans les données qui sont d’une manière quelconque ou un autre « semblable », sans employer les structures connues dans les données.
Classification – est la tâche de généraliser la structure connue pour s’appliquer à de nouvelles données. Par exemple, un programme d’email pourrait essayer de classifier un email en tant que légitime ou Spam. Les algorithmes communs incluent l’étude d’arbre de décision, le voisin le plus proche, la classification bayésienne naïve, les réseaux neurologiques et les machines de vecteur de soutien.
Régression – tentatives de trouver une fonction qui modèle les données avec la moindre erreur.
Validation des résultats
L’étape finale de la découverte de la connaissance des consiste à vérifier que les modèles produits par les algorithmes d’exploration des données demeurent valables dans des ensembles de données plus larges. Tous les modèles trouvés par les algorithmes d’exploration des données ne sont pas nécessairement valides. Il est commun pour les algorithmes d’exploration des données de définir des modèles dans l’ensemble de training qui ne se retrouve pas dans l’ensemble de données général, cette procédure s’appelle ‘overfitting’. Pour surmonter ceci, l’évaluation emploie un ensemble d’essai de données sur lequel l’algorithme d’exploration des données n’a pas été entraîné. Les modèles appris sont appliqués à cet essai réglé et le rendement final est comparé au rendement désiré. Par exemple, un algorithme d’exploration des données essayant de distinguer les Spams des emails légitimes serait formé sur un ensemble de formation d’emails témoins. Une fois qualifiés, les modèles appris seraient appliqués à l’ensemble d’essai d’emails sur lequel il n’a pas été entraîné ; l’exactitude de ces modèles peut alors être mesurée à partir du nombre d’emails qu’ils classifient correctement. Un certain nombre de méthodes statistiques peuvent être employées pour évaluer l’algorithme tel que des courbes de ROC.
Si les modèles appris ne répondent pas aux normes désirées, alors il est nécessaire de réévaluer et changer l’étape de prétraitement et le processus d’exploitation des données. Si les modèles appris répondent aux normes désirées alors l’étape finale sera d’interpréter les modèles appris et de les transformer en connaissances.
Des utilisations notables
Dans le monde des affaires
L’exploration des données dans des applications de gestion de la relation client peut contribuer de manière significative à poser les fondations. Plutôt que de contacter de manière aléatoire un prospect ou un client par le biais d’un call center ou en lui envoyant un courrier, une entreprise peut concentrer ses efforts sur les perspectives d’avoir une probabilité élevée de réponse à une offre. Des méthodes plus sophistiquées peuvent être employées pour optimiser des ressources à travers des campagnes de sorte qu’on puisse prévoir quel canal et à quelle offre un individu est le plus susceptible de répondre parmi toutes les offres potentielles. En plus, des applications sophistiquées ont pu être employées pour automatiser l’envoi. Une fois que les résultats de l’exploration des données (potentiel/client et canal/offre) sont déterminés, cette « application sophistiquée » peut soit envoyer automatiquement un email soit envoyer un courrier régulier. En conclusion, dans les cas où beaucoup de personnes sont susceptibles d’agir sans se voir proposer d’offre, la modélisation peut être employée pour déterminer quelles sont parmi elles celles qui vont répondre favorablement à une offre. Le groupement de données peut également être employé pour découvrir automatiquement les segments ou les groupes dans un ensemble de données clients.
Les entreprises utilisant l’exploration des données peuvent voir un retour sur investissement, mais seront également amenées à découvrir que le nombre de modèles prédictifs peut rapidement devenir très important. Les entreprises pourraient établir un modèle séparé pour chaque région et pour chaque type de client plutôt que d’utiliser un modèle unique. Au lieu d’envoyer une offre à toutes les personnes qui sont susceptibles de répondre, elles peuvent choisir à leur guise d’envoyer des offres directement à leurs clients. Et en conclusion, elles peuvent également chercher à déterminer quels clients vont être profitables au-delà d’une fenêtre de temps et envoyer seulement les offres à ceux qui sont susceptibles d’être profitables. Afin de maintenir cette quantité de modèles, ils doivent contrôler les versions modèles et se déplacer à l’exploration des données automatisée.
L’exploration des données peut également être utile aux départements des ressources humaines en identifiant les caractéristiques de leurs employés les plus productifs. L’information obtenue, comme par exemple le cursus universitaire des employés les plus efficaces peut aider le service des Ressources Humaines à concentrer leurs efforts sur certains aspects du recrutement. De plus, les applications de management stratégique de l’entreprise lui permettent de mettre en place dans leurs décisions opérationnelles des objectifs au niveau corporate comme par exemple des objectifs de partage des profits et des marges, les plans en termes de production et les niveaux de qualification de la main d’œuvre.
Un autre exemple de l’exploration des données, souvent appelé l’analyse de panier du marché, se rapporte à son utilisation dans des ventes au détail. Si un magasin d’habillement enregistre les achats des clients, un système d’exploitation des données pourrait identifier ces clients qui préfèrent la soie au coton. Bien que quelques explications des rapports puissent être difficiles, tirer profit des informations obtenues est plus facile. L’exemple traite des règles d’association dans les données basées sur les transactions. Toutes les données
L’analyse de panier du marché a été également employée pour identifier les modèles d’achat de l’alpha consommateur. Les alpha consommateurs sont les gens qui jouent un rôle primordial en se ralliant au concept par le biais d’un produit, puis en adoptant ce produit, et en le validant finalement pour le reste de la société. L’analyse des données rassemblées sur ce type d’utilisateurs a permis à des entreprises de prévoir les tendances d’achats futures et l’approvisionnement nécessaire.
L’exploration des données est un outil particulièrement efficace – dans l’industrie de vente de catalogue. Les tiennent un historique riche des transactions clients sur des millions de clients remontant plusieurs années. Les outils de Data Mining peuvent identifier des modèles parmi des clients et aider à identifier les clients le plus susceptibles de répondre aux campagnes à venir.
Le data Mining pour des applications économiques est un composant qui nécessite d’être intégré dans un complexe de modélisation et dans le processus de décision. La Business Intelligence réactive (RBI) préconise une approche holistique qui intègre l’exploration des données, la modélisation et la visualisation interactive, dans une découverte bout en bout et un processus d’innovation continu contrôlés humainement et par une étude automatisée. Dans le secteur de la prise de décision l’approche RBI a été employée pour extraire la connaissance qui progressivement acquise du décideur et pour adapter la méthode de décision en conséquence.
La Science et la technologie
Ces dernières années, l’exploration des données a été employée couramment dans le secteur scientifique et la technologie, telle que la technologie de bioinformatique, la génétique, la médecine, l’éducation et l’ingénierie électrique.
Dans le domaine de l’étude de la génétique humaine, l’un des objectifs essentiels est de comprendre le rapport entre la cartographie entre la variation interindividuelle des ADN humains et la variabilité dans la susceptibilité d’être atteint d’une quelconque maladie. Il s’agit de découvrir comment les changements de séquences dans l’ADN d’un individu affectent le risque de développer les maladies communes telles que le cancer. Il est très important aider le diagnostic, la prévention et le traitement des maladies à s’améliorer. La méthode de DM qui est employée pour effectuer cette tâche est connue en tant que réduction à facteurs multiples de dimensionnalité.
Dans le secteur des l’ingénierie électrique, les méthodes de Data Mining ont été largement employées mener un contrôle des conditions de réglage des appareils électriques et électroniques de haute tension. Le but de ce contrôle est d’obtenir des informations valables quant à l’état de l’isolation des équipements. Des regroupements de données comme la carte à organisation autonome (SOM) ont été appliquées à la surveillance des vibrations de certains transformateurs et en détecter les anomalies.
Un quatrième domaine d’application du DM en sciences et technologies est dans la recherche éducative, où l’exploration des données a été employée pour étudier les facteurs menant des étudiants à choisir de s’engager dans les comportements qui nuisent à leur apprentissage et de comprendre les facteurs incitatifs à continuer leurs études au sein de l’université. Un exemple semblable de l’application sociale du data Mining est son utilisation dans l’expertise dans la découverte des systèmes d’où sont extraits les descripteurs normalisés et classifiés de l’expertise humaine, afin de faciliter la conclusion des experts, en particulier en matière de champs scientifiques et techniques. De cette façon, l’exploration des données peut faciliter la mémoire institutionnelle.
D’autres exemples d’applications de data Mining sont des données biomédicales facilitées par des ontologies de domaine, les données d’exploration de tests cliniques, l’analyse de trafic utilisant le SOM, etc.
Dans la surveillance des effets secondaires associés aux médicaments, le centre de surveillance d’Uppsala, depuis 1998, a utilisé des méthodes de DM régulièrement pour examiner les problèmes associés à l’utilisation de certains médicaments et pour enrichir la base de données globale de l’OMS qui rassemble 4.6 millions de suspicions d’incidents et de réactions à des médicaments. Récemment, une méthodologie semblable a été développée pour forer de grands fichiers les modèles temporels associant des prescriptions de drogue aux diagnostics médicaux
Exploration des données spatiales
L’exploration des données spatiales est l’application des méthodes de DM aux données spatiales. L’exploration des données spatiales suit les mêmes fonctions dans l’exploration des données, avec pour objectif final de trouver des modèles géographiques. Jusqu’ici, l’exploration des données et les systèmes d’informations géographiques existaient en tant que technologies séparées l’une de l’autre avec chacune ses propres méthodes, traditions et approches à la visualisation et à l’analyse de données. En particulier, la plupart des Systèmes d’Information Géographiques (GIS) contemporains n’ont qu’une fonctionnalité analytique basique. L’immense explosion dans des données référencées géographiquement due aux développements dans des technologies d’ l’information, la cartographie numérique, la télédétection, et la diffusion globale des GIS souligne l’importance de développer des approches inductives conduites par données à l’analyse géographique et de la modélisation.
L’exploration des données, qui correspond à la recherche partiellement automatisée des modèles cachés dans de grandes bases de données, offre de grands avantages pour la prise de décision basée sur les systèmes GIS. Récemment, la tâche d’intégrer ces deux technologies est devenue ardue, en particulier parce que les divers organismes de secteur public et privé dotés de bases de données énormes avec des données thématiques et géographiquement référencées ont réalisé le potentiel énorme d’informations cachées.
Parmi ces organismes on retrouve les bureaux exigeant l’analyse ou la diffusion des données statistiques géo-référencées, services de santé publique recherchant des explications des faisceaux correspondant à une maladie, les agences environnementales évaluant l’impact des changements de modèles d’utilisation du territoire sur le changement climatique, les entreprises de géo-marketing faisant la segmentation de client basée sur sa localisation.
Les défis
Les gisements de données de géospatiales tendent à être très importants. D’ailleurs, des ensembles de données existants de GIS sont souvent morcellés par dispositif de composants et d’attributs, qui sont par convention archivés dans les systèmes de gestion des données hybrides. Les conditions algorithmiques diffèrent sensiblement pour la gestion des données apparentées (d’attribut) et pour la gestion des données topologiques (de dispositif). A ceci s’ajoutent la gamme et la diversité des formats de données géographiques, qui présentent également des défis uniques. La révolution géographique numérique de données crée de nouveaux types de formats de données au delà des formats traditionnels de « vecteur » et de « trame ». Les gisements de données géographiques incluent de plus en plus des données mal structurées telles que le langage figuré et multimédia geo-référencé.
Il y a plusieurs défis critiques de recherches dans la découverte de la connaissance et l’exploration des données géographiques. Miller et Han proposen la liste suivante de domaines de recherche émergents :
Développer et enrichir les entrepôts de données – les propriétés spatiales sont souvent réduites aux attributs aspatial simples dans les datawarehouses traditionnels. La création d’un GDW intégré exige de résoudre des problèmes dans l’interopérabilité spatiale et temporelle de données, y compris les différences dans la sémantique, les systèmes de mise en référence, la géométrie, l’exactitude et la position.
De meilleures représentations spatio-temporelles dans la découverte géographique de la connaissance – les méthodes heuristiques géographiques courantes de la connaissance emploient généralement les représentations très simples des objets géographiques et des rapports spatiaux. Les méthodes géographiques d’exploration des données devraient identifier des objets géographiques plus complexes (des lignes et des polygones) et des rapports (distances, direction, connectivité et interaction non-Euclidiennes par l’espace géographique attribué tel que le terrain). Le temps doit être intégré plus entièrement dans ces représentations et rapports géographiques.
Découverte géographique de la connaissance utilisant les types de données divers – on devrait développer des méthodes de GKD pour manipuler les types de données divers au delà des modèles traditionnels de trame et de vecteur, y compris le langage figuré et les multimédia geo-référencés, aussi bien que les types de données dynamiques (jets visuels, animation).
Dans quatre aperçus annuels des data miners (2007-2010), les spécialistes de l’exploration des données ont uniformément identifié trois défis d’importance supérieure à tous les autres :
- Données sales
- Explication de l’exploration des données à d’autres
- Indisponibilité des données/accès difficile aux données
Surveillance
L’exploration des données antérieure pour arrêter des programmes terroristes sous le gouvernement des États-Unis inclue tout le programme de connaissance de l’information (TIA), vol bloqué (autrefois connu sous le nom de système assisté par ordinateur de préexamen des passagers (CAPPS II)), analyse, diffusion, visualisation, perspicacité, perfectionnement sémantique, et échange de l’information multi-Etats de lutte contre le terrorisme (MATRIX). Ces programmes ont dû être suspendus à la polémique autour d’une possible violation du 4e amendement de la constitution des Etats-Unis, bien que beaucoup de programmes qui établis sur ces-mêmes bases continuent à être employés par différents organismes, ou sous des noms différents.
Deux méthodes plausibles d’exploration des données dans le cadre de lutte contre le terrorisme incluent l’ « exploitation de modèles » et « l’exploration des données spécialisée par domaine ».
Exploitation de modèle
L’ « exploitation de modèle » est une méthode d’exploration des données qui implique de trouver les modèles existants dans les données. Dans ce contexte ‘modèle’ signifie souvent des règles d’association. La motivation originale pour rechercher des règles d’association est venue du désir d’analyser des données de transaction de supermarché, c.-à-d., pour examiner le comportement de client en termes de produits achetés. Par exemple, une règle « les pommes chips de ⇒ de bière (80%) d’association » déclare que quatre clients sur cinq qui ont acheté la bière ont également acheté des pommes chips.
Dans le cadre de l’exploitation de modèle comme outil pour identifier l’activité terroriste, le National Research Council fournit la définition suivante : « l’exploration des données basées sur des modèles recherche les modèles (y compris modèles anormaux de données) qui pourraient être associés à l’activité terroriste – ces modèles pourraient être considérés comme de petits signaux dans un grand océan de bruit. » Cet aspect du DM inclut de nouveaux secteurs tel que la recherche documentaire en musique où des modèles vus à la fois dans les domaines temporels et non temporels importés vers des méthodes classiques de recherche de découverte de la connaissance.
Exploration des données spécialisée par domaine
« L’exploration des données spécialisée par domaine » est une méthode d’exploration des données impliquant la recherche des associations entre les individus dans les données. Dans le cadre du combat contre le terrorisme, le National Research Council fournit la définition suivante : « L’exploration des données spécialisée par domaine considère un individu comme point de départ ou d’autres informations qui sont considérées, basées sur la première information, comme présentant un grand intérêt, le but étant de déterminer si d’autres personnes ou transactions ou mouvements financiers, etc., sont liés à ces informations de lancement. »
Les problèmes d’éthique ou d’intimité
Certains croient que l’exploration des données elle-même est moralement neutre. Il est important de noter que le terme ‘exploration des données’ n’a aucune implication morale. La limite est souvent associée à l’exploitation d’informations par rapport au comportement des peuples. Cependant, l’exploration des données est une méthode statistique qui est appliquée à un ensemble d’informations, ou un ensemble de données. L’association de ces ensembles de données aux personnes est un rétrécissement extrême des types de données qui sont disponibles dans la société technologique d’aujourd’hui. Ces types d’ensembles de données représentent une grande proportion des informations sur lesquelles il est possible d’agir par des méthodes d’exploration des données, et ne soulèvent que peu d’interrogation d’ordre morale quant à leur utilisation. Cependant, les situations dans lesquelles l’exploration des données peut être employée peuvent soulever des questions concernant l’intimité, la légalité, et l’éthique. En particulier, les ensembles de données commerciaux pour la sécurité nationale ou la police, comme dans tout le programme TIAP ou ADVISE ont soulevé des inquiétudes quant à la protection de l’intimité
L’exploration des données suppose la préparation de données qui peut dévoiler l’information ou les modèles qui peuvent compromettre des engagements de confidentialité et d’intimité. Une manière commune pour que ceci se produise est l’agrégation de données. L’agrégation de données est l’opération durant laquelle les données sont obtenues, probablement de diverses sources, et remontées de sorte qu’elles puissent être analysées. Ce n’est pas exploration des données intrinsèquement, mais un résultat de la préparation des données avant et pour l’analyse. La menace pour l’intimité d’un individu entre en jeu quand les données, une fois compilées, impliquent que le data miner, ou n’importe qui a accès à l’ensemble des données de pouvoir identifier les individus spécifiques, particulièrement quand, à l’origine, les données sont anonymes.
Il est recommandé qu’un individu soit mis au courant des éléments suivants avant que des données ne soient rassemblées : le but de la collecte de données et de tous projets d’exploration des données, comment les données seront employées, qui pourra extraire les données et les employer, l’accès environnant de sécurité aux données, et en outre, comment les données rassemblées peuvent être mises à jour.
Aux Etats-Unis, des soucis d’intimité ont été légèrement abordés par le Congrès par l’intermédiaire du passage des commandes de normalisation telles que Health Insurance Portability and Accountability Act (HIPAA). Le HIPAA exige des individus qu’ils donnent « le consentement au courant » concernant n’importe quelles informations qu’ils fournissent et ses futures utilisations prévues par le service recevant cette information. D’une manière primordiale, le but de la règle de la protection par le consentement est amoindri par la complexité des formes de consentement qui sont exigées des patients et des participants, certaines frôlant l’incompréhensibilité pour la moyenne des individus. » Ceci souligne la nécessité de l’anonymat de données dans des pratiques en matière d’agrégation de données.
On peut en plus modifier les données de sorte qu’elles soient anonymes, de sorte que des individus ne puissent pas être aisément identifiés. Cependant, même les ensembles de données dont les identifiants ont été retirés peuvent contenir assez d’informations pour identifier des individus, comme cela s’est produit quand des journalistes ont pu trouver plusieurs individus en se fondant sur un ensemble d’histoires de recherche qui ont été diffusées par inadvertance par AOL.
Les études de marché
Plusieurs chercheurs et organismes ont mené des examens des outils d’exploration des données et des data miners. Ceux-ci identifient certaines des forces et des faiblesses des progiciels. Ils fournissent également une vue d’ensemble des comportements, des préférences et des vues des dataminers. Certains de ces rapports incluent :
- Enquêtes annuelles de Rexer,
- Rapport prédictif 2010 de Forrester,
- Rapport de Gartner datant de 2008,
- Haughton en 2003,
- L’article en trois parties de Robert A. Nisbet de 2006 relatif aux outils d’exploration et au CRM.
- …
- Et plus modestement le travail que j’ai conduit et qui est disponible sur slideshare.
Les groupes et des associations
SIGKDD, le groupe d’intérêt d’ACM sur la découverte de la connaissance et exploration des données
Les méthodes et des algorithmes
Étude de règle d’association
Analyse de faisceau
Induction constructive
Analyse de données
Arbres de décision
Analyse factorielle
Découverte de la connaissance
Réseaux neuronaux
Analysent prédictif
Business Intelligence réactif
Régression
Analyse de données structurées (statistiques)
Exploitation des textes
Les applications
Analyses de client
Exploration des données dans l’agriculture
Agence de sécurité nationale
ANPR Police-imposé au R-U
Rapport quantitatif de structure-activité
Exploration des données dans la météorologie
Surveillance/surveillance de masse (par exemple, vent stellaire (nom de code))
'via Blog this'