lundi 29 avril 2013

Data Mining

Data Mining | Information Mining | Data Mining, Text & Web - Référencement - 2.0:

DATA MINING

Le Data Mining ou exploration des données (l’étape d’analyse de la découverte de la connaissance dans le processus de bases de données, ou KDD), champ relativement jeune et interdisciplinaire de l’informatique, est le processus d’extraction des modèles à partir de grands ensembles de données en combinant des méthodes des statistiques et l’intelligence artificielle avec la gestion de base de données.

Avec des avances techniques récentes dans la capacité de traitement, la capacité de stockage, et l’inter connectivité de l’informatique, l’exploration des données est considérée comme un outil de plus en plus important par les marchés modernes pour transformer des quantités sans précédent de données numériques en Business Intelligence donnant un avantage informationnel. Le Data Mining (DM) est actuellement employé dans une quantité de pratiques de profilage, telles que le marketing, la surveillance, la détection de fraude, et la découverte scientifique. Le consensus croissant qui consiste à dire que l’exploitation des données peut apporter une réelle valeur a mené à une explosion dans la demande des technologies de forage des données.

Les termes, de data dredging, data fishing, data snooping, se rapportent tous à l’utilisation des méthodes d’exploration des données de prélever les parties d’un plus grand ensemble de données de population qui sont (ou peuvent être) trop petites pour que des inférences statistiques fiables soient faites au sujet de la validité de tous les modèles découverts. Ces méthodes peuvent, cependant, être employées en créant de nouvelles hypothèses pour examiner contre les populations plus grandes de données.

Sommaire [masquer]

Les débuts du Data Mining

L’extraction manuelle de modèles à partir de données s’est produite pendant des siècles. Les premières méthodes visant à identifier des modèles dans les données incluent le théorème de Bayes (1700s) et l’analyse de régression (1800s). La prolifération, l’ubiquité et la puissance croissante de l’informatique ont augmenté la collecte, le stockage et les manipulations de données. Pendant que les ensembles de données se sont développés en taille et en complexité, l’analyse de données directe n’a cessé d’augmenter avec le traitement automatique de l’information indirect. Ceci a été facilité par d’autres découvertes dans l’informatique, tel que les réseaux neurologiques, le groupement, les algorithmes génétiques (les années 50), les arbres de décision (les années 60) et les machines de vecteur de soutien (les années 90). L’exploration des données est le processus qui consiste à appliquer ces méthodes aux données avec l’intention de découvrir les modèles cachés. Elle a été employée pendant de nombreuses d’années par des entreprises, des scientifiques et des gouvernements pour tamiser d’importants volumes de données telles que des fichiers d’enregistrement des passagers d’une ligne aérienne, des données de recensement et des données de module de scanners de supermarché

Une raison essentielle d’utiliser les données est d’aider à l’analyse de collectes d’observations du comportement. De telles données sont vulnérables à la co-linéarité en raison des interdépendances inconnues. Un fait inévitable de l’exploration des données est que les (sous-) ensembles de données étant analysées peuvent ne pas être représentatives du domaine entier, et peut par conséquent ne pas contenir d’exemples relatifs aux relations et aux comportements essentiels susceptibles d’apparaître dans d’autres parties du domaine. Pour faire face à cette sorte de problématique, l’analyse peut être augmentée en utilisant une approche basée sur l’expérience ou encore d’autres approches, comme le choix de la modélisation des données pour des données produites par des humains. Dans ces situations, les corrélations inhérentes peuvent être soit commandées soit supprimées pendant la construction du plan d’expérience.

Quelques efforts ont été fournis pour définir les normes pour l’exploration des données, par exemple le processus européen trans-industries de 1999 pour l’exploration de données (CRISP-DM 1.0) et la norme 2004 d’exploration des données de Java (JDM 1.0). Celles-ci sont normes en évolution ; les versions postérieures de ces normes sont en cours de développement. Indépendamment de ces efforts d’étalonnage, des systèmes de logiciels open source libres de droits comme le langage R, Weka, KNIME, RapidMiner, jHepWork et d’autres sont devenues des normes informelles pour définir des processus d’exploitation des données. Tous ces systèmes peuvent importer et exporter des modèles dans PMML (langage de balisage de modèle prédictif) qui fournit une manière standard de représenter des modèles d’exploration des données de sorte que ceux-ci puissent être partagés entre différentes applications statistiques. PMML est une langue basée sur l’XML développée par le groupe d’extraction de données, un groupe indépendant composé de beaucoup de entreprises d’extraction de données. La version 4.0 de PMML a été présentée en juin 2009.

Recherche et évolution

En plus de la demande guidée par l’industrie de normes et d’interopérabilité, les activités professionnelles et universitaires ont également apporté des contributions considérables à l’évolution et à la rigueur des méthodes et des modèles ; un article édité dans un numéro de 2008 du Journal of Information Technology and Decision Making récapitule les résultats d’une recherche bibliographique qui retrace et analyse cette évolution.

Le corps professionnel premier dans le domaine est l’association pour le groupe d’intérêt du matériel de calcul sur la découverte de la connaissance et l’exploration des données (SIGKDD). Depuis 1989 ils ont accueilli une Conférence Internationale annuelle et ont édité ses démarches, et depuis 1999 ils ont édité un journal scolaire bi-annuel intitulé des « explorations de SIGKDD ». D’autres conférences de l’informatique sur l’exploration des données incluent :

DMIN – Conférence Internationale sur l’exploration des données
DMKD – Issues des recherches sur l’exploration des données et la découverte de la connaissance
ECDM – Conférence européenne sur l’exploration des données
ECML-PKDD – Conférence européenne sur l’étude de machine et les principes et la pratique de la découverte de la connaissance dans les bases de données
EDM – Conférence Internationale sur l’exploration des données éducative
ICDM – Conférence Internationale d’IEEE sur l’exploration des données
MLDM – Étude de machine et exploration des données pour la reconnaissance des structures
PAKDD – La conférence annuelle de la Pacifique-Asie sur la découverte de la connaissance et l’exploration des données
PATTE – monde prédictif d’Analysent
SDM – Conférence Internationale du SIAM sur l’exploration des données

Processus

Le processus trans-industries compatible pour l’exploration des données (CRISP-DM) est un modèle de processus d’exploration des données qui décrit les approches utilisées généralement et que experts en Data Mining emploient pour aborder des problèmes. Il définit six phases en tant que (1) compréhension du marché, (2) compréhension des données, (3) préparation de données, (4) modélisation, (5) évaluation, et (6) déploiement.

D’autres modèles de processus peuvent définir trois phases en tant que (1) le prétraitement, (2) l’exploration des données, et (3) validation de résultats.

Prétraitement

Avant que des algorithmes d’exploration des données puissent être employés, un ensemble de données de cible doit être assemblé. Puisque l’exploitation des données peut seulement dévoiler des modèles déjà actuels dans les données, l’ensemble des données cibles doit être assez grand pour contenir ces modèles mais aussi suffisamment concis pour pouvoir être extrait dans un délai acceptable. Une source commune pour des données est un entrepôt ou datamart. Prétraiter est essentiel pour analyser les ensembles de données multivariables avant l’exploration des données.

L’ensemble de cible est alors nettoyé. La suppression des erreurs enlève les observations avec le bruit et les données absentes.

Exploration des données

L’exploration des données implique généralement quatre classes de tâches :

Étude de règle d’association – recherches des rapports entre les variables. Par exemple un supermarché pourrait rassembler des données sur le client en fonction de ses habitudes d’achats. En utilisant la règle d’apprentissage par associations, le supermarché peut déterminer quels produits sont fréquemment achetés ensemble et employer cette information pour la vente. Ceci désigné parfois sous le nom de l’analyse de panier du marché.

Groupe – la tâche de découvrir des groupes et des structures dans les données qui sont d’une manière quelconque ou un autre « semblable », sans employer les structures connues dans les données.

Classification – est la tâche de généraliser la structure connue pour s’appliquer à de nouvelles données. Par exemple, un programme d’email pourrait essayer de classifier un email en tant que légitime ou Spam. Les algorithmes communs incluent l’étude d’arbre de décision, le voisin le plus proche, la classification bayésienne naïve, les réseaux neurologiques et les machines de vecteur de soutien.

Régression – tentatives de trouver une fonction qui modèle les données avec la moindre erreur.

Validation des résultats

L’étape finale de la découverte de la connaissance des consiste à vérifier que les modèles produits par les algorithmes d’exploration des données demeurent valables dans des ensembles de données plus larges. Tous les modèles trouvés par les algorithmes d’exploration des données ne sont pas nécessairement valides. Il est commun pour les algorithmes d’exploration des données de définir des modèles dans l’ensemble de training qui ne se retrouve pas dans l’ensemble de données général, cette procédure s’appelle ‘overfitting’. Pour surmonter ceci, l’évaluation emploie un ensemble d’essai de données sur lequel l’algorithme d’exploration des données n’a pas été entraîné. Les modèles appris sont appliqués à cet essai réglé et le rendement final est comparé au rendement désiré. Par exemple, un algorithme d’exploration des données essayant de distinguer les Spams des emails légitimes serait formé sur un ensemble de formation d’emails témoins. Une fois qualifiés, les modèles appris seraient appliqués à l’ensemble d’essai d’emails sur lequel il n’a pas été entraîné ; l’exactitude de ces modèles peut alors être mesurée à partir du nombre d’emails qu’ils classifient correctement. Un certain nombre de méthodes statistiques peuvent être employées pour évaluer l’algorithme tel que des courbes de ROC.

Si les modèles appris ne répondent pas aux normes désirées, alors il est nécessaire de réévaluer et changer l’étape de prétraitement et le processus d’exploitation des données. Si les modèles appris répondent aux normes désirées alors l’étape finale sera d’interpréter les modèles appris et de les transformer en connaissances.

Des utilisations notables

Dans le monde des affaires

L’exploration des données dans des applications de gestion de la relation client peut contribuer de manière significative à poser les fondations. Plutôt que de contacter de manière aléatoire un prospect ou un client par le biais d’un call center ou en lui envoyant un courrier, une entreprise peut concentrer ses efforts sur les perspectives d’avoir une probabilité élevée de réponse à une offre. Des méthodes plus sophistiquées peuvent être employées pour optimiser des ressources à travers des campagnes de sorte qu’on puisse prévoir quel canal et à quelle offre un individu est le plus susceptible de répondre parmi toutes les offres potentielles. En plus, des applications sophistiquées ont pu être employées pour automatiser l’envoi. Une fois que les résultats de l’exploration des données (potentiel/client et canal/offre) sont déterminés, cette « application sophistiquée » peut soit envoyer automatiquement un email soit envoyer un courrier régulier. En conclusion, dans les cas où beaucoup de personnes sont susceptibles d’agir sans se voir proposer d’offre, la modélisation peut être employée pour déterminer quelles sont parmi elles celles qui vont répondre favorablement à une offre. Le groupement de données peut également être employé pour découvrir automatiquement les segments ou les groupes dans un ensemble de données clients.

Les entreprises utilisant l’exploration des données peuvent voir un retour sur investissement, mais seront également amenées à découvrir que le nombre de modèles prédictifs peut rapidement devenir très important. Les entreprises pourraient établir un modèle séparé pour chaque région et pour chaque type de client plutôt que d’utiliser un modèle unique. Au lieu d’envoyer une offre à toutes les personnes qui sont susceptibles de répondre, elles peuvent choisir à leur guise d’envoyer des offres directement à leurs clients. Et en conclusion, elles peuvent également chercher à déterminer quels clients vont être profitables au-delà d’une fenêtre de temps et envoyer seulement les offres à ceux qui sont susceptibles d’être profitables. Afin de maintenir cette quantité de modèles, ils doivent contrôler les versions modèles et se déplacer à l’exploration des données automatisée.

L’exploration des données peut également être utile aux départements des ressources humaines en identifiant les caractéristiques de leurs employés les plus productifs. L’information obtenue, comme par exemple le cursus universitaire des employés les plus efficaces peut aider le service des Ressources Humaines à concentrer leurs efforts sur certains aspects du recrutement. De plus, les applications de management stratégique de l’entreprise lui permettent de mettre en place dans leurs décisions opérationnelles des objectifs au niveau corporate comme par exemple des objectifs de partage des profits et des marges, les plans en termes de production et les niveaux de qualification de la main d’œuvre.

Un autre exemple de l’exploration des données, souvent appelé l’analyse de panier du marché, se rapporte à son utilisation dans des ventes au détail. Si un magasin d’habillement enregistre les achats des clients, un système d’exploitation des données pourrait identifier ces clients qui préfèrent la soie au coton. Bien que quelques explications des rapports puissent être difficiles, tirer profit des informations obtenues est plus facile. L’exemple traite des règles d’association dans les données basées sur les transactions. Toutes les données

L’analyse de panier du marché a été également employée pour identifier les modèles d’achat de l’alpha consommateur. Les alpha consommateurs sont les gens qui jouent un rôle primordial en se ralliant au concept par le biais d’un produit, puis en adoptant ce produit, et en le validant finalement pour le reste de la société. L’analyse des données rassemblées sur ce type d’utilisateurs a permis à des entreprises de prévoir les tendances d’achats futures et l’approvisionnement nécessaire.

L’exploration des données est un outil particulièrement efficace – dans l’industrie de vente de catalogue. Les tiennent un historique riche des transactions clients sur des millions de clients remontant plusieurs années. Les outils de Data Mining peuvent identifier des modèles parmi des clients et aider à identifier les clients le plus susceptibles de répondre aux campagnes à venir.

Le data Mining pour des applications économiques est un composant qui nécessite d’être intégré dans un complexe de modélisation et dans le processus de décision. La Business Intelligence réactive (RBI) préconise une approche holistique qui intègre l’exploration des données, la modélisation et la visualisation interactive, dans une découverte bout en bout et un processus d’innovation continu contrôlés humainement et par une étude automatisée. Dans le secteur de la prise de décision l’approche RBI a été employée pour extraire la connaissance qui progressivement acquise du décideur et pour adapter la méthode de décision en conséquence.

La Science et la technologie

Ces dernières années, l’exploration des données a été employée couramment dans le secteur scientifique et la technologie, telle que la technologie de bioinformatique, la génétique, la médecine, l’éducation et l’ingénierie électrique.

Dans le domaine de l’étude de la génétique humaine, l’un des objectifs essentiels est de comprendre le rapport entre la cartographie entre la variation interindividuelle des ADN humains et la variabilité dans la susceptibilité d’être atteint d’une quelconque maladie. Il s’agit de découvrir comment les changements de séquences dans l’ADN d’un individu affectent le risque de développer les maladies communes telles que le cancer. Il est très important aider le diagnostic, la prévention et le traitement des maladies à s’améliorer. La méthode de DM qui est employée pour effectuer cette tâche est connue en tant que réduction à facteurs multiples de dimensionnalité.

Dans le secteur des l’ingénierie électrique, les méthodes de Data Mining ont été largement employées mener un contrôle des conditions de réglage des appareils électriques et électroniques de haute tension. Le but de ce contrôle est d’obtenir des informations valables quant à l’état de l’isolation des équipements. Des regroupements de données comme la carte à organisation autonome (SOM) ont été appliquées à la surveillance des vibrations de certains transformateurs et en détecter les anomalies.

Un quatrième domaine d’application du DM en sciences et technologies est dans la recherche éducative, où l’exploration des données a été employée pour étudier les facteurs menant des étudiants à choisir de s’engager dans les comportements qui nuisent à leur apprentissage et de comprendre les facteurs incitatifs à continuer leurs études au sein de l’université. Un exemple semblable de l’application sociale du data Mining est son utilisation dans l’expertise dans la découverte des systèmes d’où sont extraits les descripteurs normalisés et classifiés de l’expertise humaine, afin de faciliter la conclusion des experts, en particulier en matière de champs scientifiques et techniques. De cette façon, l’exploration des données peut faciliter la mémoire institutionnelle.

D’autres exemples d’applications de data Mining sont des données biomédicales facilitées par des ontologies de domaine, les données d’exploration de tests cliniques, l’analyse de trafic utilisant le SOM, etc.

Dans la surveillance des effets secondaires associés aux médicaments, le centre de surveillance d’Uppsala, depuis 1998, a utilisé des méthodes de DM régulièrement pour examiner les problèmes associés à l’utilisation de certains médicaments et pour enrichir la base de données globale de l’OMS qui rassemble 4.6 millions de suspicions d’incidents et de réactions à des médicaments. Récemment, une méthodologie semblable a été développée pour forer de grands fichiers les modèles temporels associant des prescriptions de drogue aux diagnostics médicaux

Exploration des données spatiales

L’exploration des données spatiales est l’application des méthodes de DM aux données spatiales. L’exploration des données spatiales suit les mêmes fonctions dans l’exploration des données, avec pour objectif final de trouver des modèles géographiques. Jusqu’ici, l’exploration des données et les systèmes d’informations géographiques existaient en tant que technologies séparées l’une de l’autre avec chacune ses propres méthodes, traditions et approches à la visualisation et à l’analyse de données. En particulier, la plupart des Systèmes d’Information Géographiques (GIS) contemporains n’ont qu’une fonctionnalité analytique basique. L’immense explosion dans des données référencées géographiquement due aux développements dans des technologies d’ l’information, la cartographie numérique, la télédétection, et la diffusion globale des GIS souligne l’importance de développer des approches inductives conduites par données à l’analyse géographique et de la modélisation.

L’exploration des données, qui correspond à la recherche partiellement automatisée des modèles cachés dans de grandes bases de données, offre de grands avantages pour la prise de décision basée sur les systèmes GIS. Récemment, la tâche d’intégrer ces deux technologies est devenue ardue, en particulier parce que les divers organismes de secteur public et privé dotés de bases de données énormes avec des données thématiques et géographiquement référencées ont réalisé le potentiel énorme d’informations cachées.

Parmi ces organismes on retrouve les bureaux exigeant l’analyse ou la diffusion des données statistiques géo-référencées, services de santé publique recherchant des explications des faisceaux correspondant à une maladie, les agences environnementales évaluant l’impact des changements de modèles d’utilisation du territoire sur le changement climatique, les entreprises de géo-marketing faisant la segmentation de client basée sur sa localisation.

Les défis

Les gisements de données de géospatiales tendent à être très importants. D’ailleurs, des ensembles de données existants de GIS sont souvent morcellés par dispositif de composants et d’attributs, qui sont par convention archivés dans les systèmes de gestion des données hybrides. Les conditions algorithmiques diffèrent sensiblement pour la gestion des données apparentées (d’attribut) et pour la gestion des données topologiques (de dispositif). A ceci s’ajoutent la gamme et la diversité des formats de données géographiques, qui présentent également des défis uniques. La révolution géographique numérique de données crée de nouveaux types de formats de données au delà des formats traditionnels de « vecteur » et de « trame ». Les gisements de données géographiques incluent de plus en plus des données mal structurées telles que le langage figuré et multimédia geo-référencé.

Il y a plusieurs défis critiques de recherches dans la découverte de la connaissance et l’exploration des données géographiques. Miller et Han proposen la liste suivante de domaines de recherche émergents :

Développer et enrichir les entrepôts de données – les propriétés spatiales sont souvent réduites aux attributs aspatial simples dans les datawarehouses traditionnels. La création d’un GDW intégré exige de résoudre des problèmes dans l’interopérabilité spatiale et temporelle de données, y compris les différences dans la sémantique, les systèmes de mise en référence, la géométrie, l’exactitude et la position.

De meilleures représentations spatio-temporelles dans la découverte géographique de la connaissance – les méthodes heuristiques géographiques courantes de la connaissance emploient généralement les représentations très simples des objets géographiques et des rapports spatiaux. Les méthodes géographiques d’exploration des données devraient identifier des objets géographiques plus complexes (des lignes et des polygones) et des rapports (distances, direction, connectivité et interaction non-Euclidiennes par l’espace géographique attribué tel que le terrain). Le temps doit être intégré plus entièrement dans ces représentations et rapports géographiques.

Découverte géographique de la connaissance utilisant les types de données divers – on devrait développer des méthodes de GKD pour manipuler les types de données divers au delà des modèles traditionnels de trame et de vecteur, y compris le langage figuré et les multimédia geo-référencés, aussi bien que les types de données dynamiques (jets visuels, animation).

Dans quatre aperçus annuels des data miners (2007-2010), les spécialistes de l’exploration des données ont uniformément identifié trois défis d’importance supérieure à tous les autres :

Données sales
Explication de l’exploration des données à d’autres
Indisponibilité des données/accès difficile aux données

Surveillance

L’exploration des données antérieure pour arrêter des programmes terroristes sous le gouvernement des États-Unis inclue tout le programme de connaissance de l’information (TIA), vol bloqué (autrefois connu sous le nom de système assisté par ordinateur de préexamen des passagers (CAPPS II)), analyse, diffusion, visualisation, perspicacité, perfectionnement sémantique, et échange de l’information multi-Etats de lutte contre le terrorisme (MATRIX). Ces programmes ont dû être suspendus à la polémique autour d’une possible violation du 4^e amendement de la constitution des Etats-Unis, bien que beaucoup de programmes qui établis sur ces-mêmes bases continuent à être employés par différents organismes, ou sous des noms différents.

Deux méthodes plausibles d’exploration des données dans le cadre de lutte contre le terrorisme incluent l’ « exploitation de modèles » et « l’exploration des données spécialisée par domaine ».

Exploitation de modèle

L’ « exploitation de modèle » est une méthode d’exploration des données qui implique de trouver les modèles existants dans les données. Dans ce contexte ‘modèle’ signifie souvent des règles d’association. La motivation originale pour rechercher des règles d’association est venue du désir d’analyser des données de transaction de supermarché, c.-à-d., pour examiner le comportement de client en termes de produits achetés. Par exemple, une règle « les pommes chips de ⇒ de bière (80%) d’association » déclare que quatre clients sur cinq qui ont acheté la bière ont également acheté des pommes chips.

Dans le cadre de l’exploitation de modèle comme outil pour identifier l’activité terroriste, le National Research Council fournit la définition suivante : « l’exploration des données basées sur des modèles recherche les modèles (y compris modèles anormaux de données) qui pourraient être associés à l’activité terroriste – ces modèles pourraient être considérés comme de petits signaux dans un grand océan de bruit. » Cet aspect du DM inclut de nouveaux secteurs tel que la recherche documentaire en musique où des modèles vus à la fois dans les domaines temporels et non temporels importés vers des méthodes classiques de recherche de découverte de la connaissance.

Exploration des données spécialisée par domaine

« L’exploration des données spécialisée par domaine » est une méthode d’exploration des données impliquant la recherche des associations entre les individus dans les données. Dans le cadre du combat contre le terrorisme, le National Research Council fournit la définition suivante : « L’exploration des données spécialisée par domaine considère un individu comme point de départ ou d’autres informations qui sont considérées, basées sur la première information, comme présentant un grand intérêt, le but étant de déterminer si d’autres personnes ou transactions ou mouvements financiers, etc., sont liés à ces informations de lancement. »

Les problèmes d’éthique ou d’intimité

Certains croient que l’exploration des données elle-même est moralement neutre. Il est important de noter que le terme ‘exploration des données’ n’a aucune implication morale. La limite est souvent associée à l’exploitation d’informations par rapport au comportement des peuples. Cependant, l’exploration des données est une méthode statistique qui est appliquée à un ensemble d’informations, ou un ensemble de données. L’association de ces ensembles de données aux personnes est un rétrécissement extrême des types de données qui sont disponibles dans la société technologique d’aujourd’hui. Ces types d’ensembles de données représentent une grande proportion des informations sur lesquelles il est possible d’agir par des méthodes d’exploration des données, et ne soulèvent que peu d’interrogation d’ordre morale quant à leur utilisation. Cependant, les situations dans lesquelles l’exploration des données peut être employée peuvent soulever des questions concernant l’intimité, la légalité, et l’éthique. En particulier, les ensembles de données commerciaux pour la sécurité nationale ou la police, comme dans tout le programme TIAP ou ADVISE ont soulevé des inquiétudes quant à la protection de l’intimité

L’exploration des données suppose la préparation de données qui peut dévoiler l’information ou les modèles qui peuvent compromettre des engagements de confidentialité et d’intimité. Une manière commune pour que ceci se produise est l’agrégation de données. L’agrégation de données est l’opération durant laquelle les données sont obtenues, probablement de diverses sources, et remontées de sorte qu’elles puissent être analysées. Ce n’est pas exploration des données intrinsèquement, mais un résultat de la préparation des données avant et pour l’analyse. La menace pour l’intimité d’un individu entre en jeu quand les données, une fois compilées, impliquent que le data miner, ou n’importe qui a accès à l’ensemble des données de pouvoir identifier les individus spécifiques, particulièrement quand, à l’origine, les données sont anonymes.

Il est recommandé qu’un individu soit mis au courant des éléments suivants avant que des données ne soient rassemblées : le but de la collecte de données et de tous projets d’exploration des données, comment les données seront employées, qui pourra extraire les données et les employer, l’accès environnant de sécurité aux données, et en outre, comment les données rassemblées peuvent être mises à jour.

Aux Etats-Unis, des soucis d’intimité ont été légèrement abordés par le Congrès par l’intermédiaire du passage des commandes de normalisation telles que Health Insurance Portability and Accountability Act (HIPAA). Le HIPAA exige des individus qu’ils donnent « le consentement au courant » concernant n’importe quelles informations qu’ils fournissent et ses futures utilisations prévues par le service recevant cette information. D’une manière primordiale, le but de la règle de la protection par le consentement est amoindri par la complexité des formes de consentement qui sont exigées des patients et des participants, certaines frôlant l’incompréhensibilité pour la moyenne des individus. » Ceci souligne la nécessité de l’anonymat de données dans des pratiques en matière d’agrégation de données.

On peut en plus modifier les données de sorte qu’elles soient anonymes, de sorte que des individus ne puissent pas être aisément identifiés. Cependant, même les ensembles de données dont les identifiants ont été retirés peuvent contenir assez d’informations pour identifier des individus, comme cela s’est produit quand des journalistes ont pu trouver plusieurs individus en se fondant sur un ensemble d’histoires de recherche qui ont été diffusées par inadvertance par AOL.

Les études de marché

Plusieurs chercheurs et organismes ont mené des examens des outils d’exploration des données et des data miners. Ceux-ci identifient certaines des forces et des faiblesses des progiciels. Ils fournissent également une vue d’ensemble des comportements, des préférences et des vues des dataminers. Certains de ces rapports incluent :

Enquêtes annuelles de Rexer,
Rapport prédictif 2010 de Forrester,
Rapport de Gartner datant de 2008,
Haughton en 2003,
L’article en trois parties de Robert A. Nisbet de 2006 relatif aux outils d’exploration et au CRM.
…
Et plus modestement le travail que j’ai conduit et qui est disponible sur slideshare.

Les groupes et des associations

SIGKDD, le groupe d’intérêt d’ACM sur la découverte de la connaissance et exploration des données

Les méthodes et des algorithmes

Étude de règle d’association

Analyse de faisceau

Induction constructive

Analyse de données

Arbres de décision

Analyse factorielle

Découverte de la connaissance

Réseaux neuronaux

Analysent prédictif

Business Intelligence réactif

Régression

Analyse de données structurées (statistiques)

Exploitation des textes

Les applications

Analyses de client

Exploration des données dans l’agriculture

Agence de sécurité nationale

ANPR Police-imposé au R-U

Rapport quantitatif de structure-activité

Exploration des données dans la météorologie

Surveillance/surveillance de masse (par exemple, vent stellaire (nom de code))

'via Blog this'

Calculatrice de budget - Revenu net

Calculatrice de budget - Revenu net:

'via Blog this'

Agence de la consommation en matière financière du Canada

Budget et gestion des finances personnelles | Agence de la consommation en matière financière du Canada:

BUDGET ET GESTION DES FINANCES PERSONNELLES

Il est essentiel d’établir et de gérer un budget pour pouvoir prendre de bonnes décisions financières et atteindre ses objectifs financiers. La plupart des gens savent combien ils gagnent, mais ils trouvent difficile de savoir où va leur argent ou combien leur coûte leur dette chaque année. L’établissement d’un budget est une première étape qu’il vaut la peine de franchir : un budget vous aidera à gérer votre argent et à maintenir une solide situation financière.

DES CONSEILS POUR VOUS AIDER À DÉMARRER

Organisez-vous

Prenez note de toutes vos dépenses pour savoir où va votre argent et où vous pouvez réduire vos dépenses.
Fait : 2,50 $ par jour pour un café, ça représente 912,50 $ par an
Établissez vos objectifs à court terme et à long terme, et prévoyez des épargnes dans votre budget pour les atteindre

Par exemple, un objectif à court terme pourrait être l’achat de nouveaux meubles. Il est également important de commencer à épargner tôt pour des objectifs à long terme comme la retraite.
Répartissez vos dépenses en deux catégories : les choses dont vous avez besoin comme les produits alimentaires, et les choses que vous désirez comme des billets pour un concert

Vos « désirs » représentent les dépenses que vous pouvez réduire pour disposer de votre argent pour rembourser vos dettes ou accroître votre épargne.
Fixez-vous comme objectif « de ne plus avoir de dettes »

Prenez note de toutes vos dettes et du taux d’intérêt que vous payez sur chacune d’elles, et suivez de près vos paiements de remboursement.
Chaque fois que vous le pouvez, payez plus que le minimum requis inscrit sur vos relevés

En augmentant vos paiements, même de très peu, vous pouvez vraiment faire baisser les frais d’intérêt que vous payez et réduire le temps qu’il vous faut pour rembourser vos dettes.
Respectez le plan que vous avez établi

TOUT SUR L’ÉTABLISSEMENT ET LA GESTION D’UN BUDGET

Établir un budget

Apprenez à faire un budget et découvrez les outils de l’ACFC qui peuvent vous aider.
Gérer votre dette

Apprenez à gérer une dette et découvrez ce que vous devez savoir avant de vous faire aider.

'via Blog this'

BGF Emerging Europe Fund - Les fonds en unités de compte - Fidelity Vie

BGF Emerging Europe Fund - Les fonds en unités de compte - Fidelity Vie: "Blackrock"

'via Blog this'

Scenarios d’adoption et d’enrolement de Square et des services de paiement electronique | Nicolas Guillaume

Scenarios d’adoption et d’enrolement de Square et des services de paiement electronique | Nicolas Guillaume:

'via Blog this'

Impact de l’Apparition de l’Hyper-Connectivité sur la Banque de Détail

I - Fiche Résumé de ce livre blanc
2012 Financial Breakthroughs - Ver-2012-02-06 - Document sous licence CC-BY-NC-ND Page 1
I Fiche Résumé de ce livre blanc
Avec 88% des européens possédant un compte bancaire, et les 12% restant qui sont le plus souvent
exclus par les banques, l’industrie bancaire européenne est largement mature. Peu concurrentielle
en raison des barrières à l’entrée (légales et besoin en capitaux), du faible intérêt de la clientèle à la
négociation et de la complexité du secteur, cette industrie ne voit généralement qu’une adoption
lente des nouvelles technologies. Le grand changement que constitue l’apparition de l’Internet
depuis plus de 15 ans, a réussi à faire évoluer les services, mais très peu la structure du secteur.
Parmi les 6825 banques de l’EU-27, les banques universelles restent le modèle de référence qui
assure l’essentiel des services bancaires. Ainsi, Internet a surtout permis au client d’accéder à leurs
comptes sans avoir à se déplacer nécessairement dans une agence ou à un guichet automatique, qui
avec 215 000 agences et 423 000 guichets automatiques dénote la suprématie persistante de la
banque de réseau.
Néanmoins, tout n’est pas idyllique dans ce panorama. Les relations entre les banques et leurs clients
sont très tendues. Au centre des crispations se trouve ce qui est au cœur de l’offre bancaire pour le
client : le compte courant. Principalement intéressé par la banque au quotidien (dépôts, paiements,
transferts, gestion de solde), le client considère celle-ci comme la plaque tournante de sa vie
financière. Arriver à obtenir le statut de première banque du client grâce à l’utilisation quotidienne
du compte courant mis à sa disposition est ainsi un enjeu énorme dans la capacité à lui faire adopter
des services complémentaires. Avec un coût moyen d’environ €400 pour les banques, mais un coût
marginal plus prêt de €40, le compte courant est structurellement amené à devenir déficitaire dès
que la compétition pour acquérir ou retenir ses clients se déclare un peu. Le modèle pérenne est
alors de savoir couvrir le coût de ce produit nécessaire, avec les services bénéficiaires auxquels le
client souscrira.
Alors qu’Internet continue sa progression dans la population européenne, avec 70% des adultes
ayant un accès à Internet, le modèle d’accès en ligne à sa banque traditionnelle continue à
progresser, avec l’essor de secondes banques pour les individus multi-bancarisés qui souhaitent
bénéficier de services spécialisés (épargne, investissement, crédits, conseil).
Néanmoins, un nouveau phénomène s’est également développé, l’apparition d’individus hyperconnectés, qui demeurent en interaction constante avec des flux d’informations professionnelles et
privées, tout au long de leurs heures d’éveil. Avec déjà 19,7% des utilisateurs de mobile qui accèdent
régulièrement à Internet via leur téléphone intelligent dans l’EU-5 (France, Allemagne, UK, Espagne,
Italie), ce nouveau segment a atteint une masse critique d’utilisateurs qui ne se satisferont plus de la
relation avec leur banque telle qu’elle existe aujourd’hui.
Avec des individus hyper-connectés, la relation bancaire se retrouve en effet complètement inversée.
D’un modèle où le client contacte sa banque lorsqu’il en a besoin, la relation de base est fondée par
un envoi régulier d’informations représentant toutes un service à l’utilisateur, et qui va être
consommé, échangé ou mené à une action de la part de celui-ci. De points de contact peu fréquents
et à grande valeur à chaque fois, les échanges deviennent constants, avec une petite valeur à chaque
occasion, qui se cumulent dans une relation globale de forte valeur pour l’utilisateur. Ce n’est plus
l’information bancaire quand le client en a besoin, mais de l’information dès que cela fait du sens. I - Fiche Résumé de ce livre blanc
2012 Financial Breakthroughs - Ver-2012-02-06 - Document sous licence CC-BY-NC-ND Page 2
Figure 1 : stratégies face à l’apparition de l’hyper-connectivité
Face à cette nouvelle percée d’usage que représente l’hyper-connectivité, les stratégies vont se
décliner suivant les acteurs, et les ambitions qui les animent :
• Pour une banque universelle, l’apparition de l’hyper-connectivité est l’opportunité de
redéfinir sa relation sur les segments de sa clientèle avertie où l’adoption de l’hyperconnectivité est déjà importante. Autant offensive que défensive, cette stratégie marque le
début d’une refonte de la relation en même temps que l’adoption de l’hyper-connectivité se
développera.
• Pour une banque spécialisée, dont l’utilisation de son compte courant la positionne comme
une seconde banque, l’adoption de l’hyper-connectivité par certains segments de sa clientèle
est le moyen de valoriser son offre spécifique et d’ajouter de nouveaux services
correspondant à ce nouvel usage.
• Pour un nouvel entrant, l’apparition de l’hyper-connectivité est l’occasion de proposer à des
segments de population déjà très avancés un service de banque au quotidien complètement
repensé. En construisant une offre de compte courant gratuit, associée à des nouveaux
services en synergie avec ce nouvel usage de relation constante, le nouvel entrant proposera
un modèle économique semblable au modèle freemium si fréquent sur Internet. VII - Comment aller plus loin ?
2012 Financial Breakthroughs - Ver-2012-02-06 - Document sous licence CC-BY-NC-ND Page 43
VII Comment aller plus loin ?
Nous espérons que ce document vous a permis de mieux évaluer les particularités qu’offre
l’apparition des modes hyper connectés pour les services bancaires et comment ceux-ci vont
impacter les catégories existantes. Maintenant, vous souhaitez peut-être poursuivre la réflexion et
construire une stratégie pour faire évoluer vos activités, ou en démarrer de nouvelles.
Nous offrons une méthodologie basée sur le principe de « passage de portes » et une offre
d’accompagnement qui vous permettra de construire votre stratégie jusqu’au plan d’affaire.
1 Etablissez et partagez en interne votre Vision
Tout d’abord, vous devez élaborer une vision de l’évolution du marché, qui peut être spécifique à
votre organisation, mais qui doit surtout être largement partagée par vos collaborateurs. Nous
pouvons vous aider à faire émerger cette vision commune au travers d’ateliers stratégiques en
interne. Vous pouvez également décider d’alimenter votre vision sur des segments plus particuliers
des clients de la banque de détail (petites entreprises, cadres nomades,..), nous pouvons alors
réaliser pour vous des études de marché pour approfondir les réalités de chacun de ces segments.
Si cette vision vous paraît cohérente et partagée en interne, vous pouvez franchir la porte qui mène à
l’identification des opportunités qui s’offrent.
2 Identifiez vos Opportunités
Nous pouvons vous aider à effectuer une cartographie des forces et faiblesses de votre organisation
face aux différentes opportunités que représente la banque de détail en mode hyper connecté. Face
aux opportunités les plus prometteuses, nous pourrons évaluer le potentiel que ces différents
lancements de solution représentent. Nous pourrons également évaluer l’impact que le lancement
de solutions de banque purement en ligne et/ou mobile par des tiers pourrait avoir sur vos activités.
Enfin, nous pourrons réaliser pour vous une synthèse des modèles économiques des opportunités
que vous souhaitez poursuivre.
Si vous avez identifié des opportunités dont le modèle économique est avantageux, vous pouvez
franchir la porte qui mène à la définition de la stratégie qui vous permettra de saisir celles-ci.
3 Définissez votre Stratégie
Une fois sélectionnée l’offre de services financiers en mode hyper-connecté où votre organisation
pourra exploiter au mieux ses atouts, nous pourrons vous aider à définir comment atteindre une
position dominante sur ce segment, et quelles ressources et partenariats mobiliser pour réussir.
Nous pourrons définir le plan marketing pour faire connaître le plus efficacement votre solution
auprès du segment de marché. Enfin, nous pourrons réaliser pour vous la synthèse du business plan,
rassemblant tous les éléments (stratégiques et financiers) pour pouvoir exécuter au mieux vos
ambitions.
Si l’ensemble des plans constitués, et particulièrement le plan d’affaire, permet d’étayer votre
conviction dans les chances de succès de votre organisation, vient alors le moment de franchir la
grande porte, celle qui mène à l’exécution en lançant votre projet avec tous les atouts en main. VII - Comment aller plus loin ?
2012 Financial Breakthroughs - Ver-2012-02-06 - Document sous licence CC-BY-NC-ND Page 44
4 Mais tout d’abord, contactez nous
Que vous soyez avancés dans votre réflexion, ou au tout début de celle-ci, n’hésitez pas à contacter
l’auteur de ce livre blanc, Frédéric Baud, par mail à fbaud@finthru.com ou par téléphone au
+33 6 4369 3724
i Demandez-nous une présentation de ce livre blanc
Pour démarrer la discussion, le mieux est sans doute de réunir différents acteurs internes et
d’organiser une réunion où nous viendrions présenter ce livre blanc. Ceci est l’occasion de partager le
contenu de ce livre blanc, d’échanger des points de vue et d’envisager les étapes suivantes. Après
cette présentation, si la grille de lecture offerte par ce livre blanc est partagée, nous pourrons vous
accompagner tout au long du passage des portes du processus stratégique.
ii Biographie de l’auteur
Frédéric Baud :
Diplômé de l’Ecole Centrale de Paris, Frédéric est fortement impliqué dans l’innovation en banque et
finance depuis de nombreuses années. Cofondateur du BarCampBank, il anime un réseau
international d’innovateurs se réunissant régulièrement pour imaginer la banque autrement. Il a
organisé plusieurs rencontres sur les thèmes de la banque et de la finance de par le monde (Paris,
San Francisco, Londres). Il est en relation suivie avec les meilleurs experts sur les sujets bancaires aux
Etats-Unis, en Europe et en Asie. Conseiller auprès de nombreuses startups financières, il est
fortement impliqué dans des modèles de croissance sur de nouveaux services financiers. Frédéric a
occupé depuis une quinzaine d’années différents rôles dans la définition de la stratégie technique ou
métier dans de grandes organisations.

http://download.finthru.com/livres-blancs/lb-banques-en-ligne/Tables-des-Matieres-Impact-de-l-Apparition-de-l-Hyperconnectivite-sur-la-Banque-de-Detail.pdf

'via Blog this'

Les 3 manières les plus faciles de gagner plus d’argent « PlusRiche

Les 3 manières les plus faciles de gagner plus d’argent « PlusRiche:

'via Blog this'

HelloWallet, personal financial guidance

Increased financial wellness – HelloWallet, personal financial guidance:

SAY HELLO TO YOUR MONEY

'via Blog this'