Dans cet article, nous allons explorer différentes techniques d'optimisation de jobs PySpark en nous concentrant principalement sur l’optimisation du code. Nous pourrons voir dans un prochain article les autres techniques...
Devenir expert(e) Big Data
La Big Data, concept apparu dans les années 1990 avec l’explosion d’internet est devenue un sujet tendance ces dernières années. La Big Data désigne l'ensemble des données numériques produites chaque jour par les individus, les entreprises et les organisations. Ces...
Hbase et comment éviter hotspotting
HBase, c’est quoi ? C'est un système de gestion de base de données distribuées, développé en utilisant le framework Hadoop. Il est conçu pour gérer des quantités massives de données non structurées ou semi-structurées, en utilisant une architecture de table à...
Vos chatbots vous disent : “Désolé, je ne comprends pas” ? Quittez-les !
La perception générale et cela se justifie souvent par des expériences vécues, est de croire que tous les chatbots ont été conçus pour traiter uniquement les questions de premier niveau et que de toute manière, peine perdue, il était très facile de les faire...
Dictionary : Un moyen pour faciliter les traitements !
Aperçu dictionary : la vision TABLES Le dictionnaire de données permet de récupérer facilement toutes les métadonnées qui vous sont accessibles : tables dans une librairie, colonnes dans une table, les indexes, les variables macros existantes, les options SAS, les...
Lire et écrire dans des fichiers Excel avec LIBNAME XLSX
Lire et écrire dans des fichiers Excel avec Libname XLSX est une alternative élégante à l’utilisation des procédures SAS PROC IMPORT et PROC EXPORT : Très simple à utiliser : un onglet de votre fichier Excel se manipule comme une table SAS dans votre code. On verra...
Introduction à la réduction de dimensionnalité en Machine Learning
Le nombre de variables prédictives (features) pour un set de données est appelé sa dimension. La réduction de dimensionnalité fait référence aux techniques qui réduisent le nombre de variables dans un ensemble de données, ou encore projettent des données issues d'un...
Augmentation des images pour améliorer les modèles Machine Learning – Partie 1
Les modèles d’apprentissage automatique ont besoin de données pour être formés. Plus on a de données, plus le modèle gagne en performance vu qu’il aura la possibilité de capter plus de comportements dans la partie Apprentissage. Alors que faire quand on n’a pas la...
Améliorer la performance de la prédiction obtenue par machine learning
Les algorithmes de Machine learning permettent de construire un modèle prédictif à partir des données historiques et de l’utiliser pour prédire les nouvelles données. La question la plus souvent posée lors du développement d’un modèle est comment obtenir de...
Résoudre vos problèmes d’encodage Unicode
INTRODUCTION L'encodage des caractères est quelque chose de transparent pour la plupart des utilisateurs. C'est même devenu tellement transparent avec l'avènement de l'astucieux format Unicode UTF-8 que même un programmeur peut se retrouver un peu perdu lorsqu'une...
Moteur de recommandation : du collectif au personnalisé
Le moteur de recommandation est au cœur de la stratégie commerciale de tous les géants du e-commerce. Pour preuve, d'après une étude de McKinsey, 35 % des revenus de la branche e-commerce d’Amazon sont générés par son moteur de recommandation. Nous voyons tous les...
A la découverte des systèmes de recommandation
C'est quoi un système de recommandation ? On se demande tous comment Amazon ou Netflix sont arrivés à ce "power" et ce succès ? Comment Netflix peut connaître nos préférences cinématographiques ? Comment Amazon a su que je suis un fan inconditionnel de Games of...
Kafka: the Big Data streaming platform
In modern information systems, we are confronted with ever-increasing volumes of data requiring to be processed in real time. However, the point-to-point connections commonly used do not allow easy loading scalability. Data producing services have a strong link with...
Retour d’expérience – Que retenir du Salon Big Data Paris 2019 ?
Après deux jours au Salon Big Data 2019 qui s'est tenu les 11 et 12 mars dernier, vous trouverez ci-dessous un résumé des conférences et des ateliers auxquels j'ai eu la chance d'assister. 1. Les meilleures citations “Difference between machine learning and AI: If it...
Kafka : la plateforme de streaming pour le Big Data
Au sein des systèmes d’informations modernes, nous sommes confrontés à des volumes de données à traiter en temps réel toujours plus important. Cependant les connections point à point couramment utilisées ne permettent pas de monter en charge facilement. Les services...
Patterns de streaming
Nous aborderons dans cet article les différents patterns que les développeurs, avec leur responsabilité dans l’intégration de données, peuvent être amenés à mettre en œuvre dans le domaine du streaming. Mais tout d’abord présentons la plateforme qui a pour ambition de...
L’évolution de l’intégration des données : data warehouse, data lake et streaming data processing
Cette série de deux articles fait suite à une conférence présentée par Gwen Shapira, employée chez Confluent, membre du PMC d’Apache Kafka et co-auteure du livre « Apache Kafka – The définitive guide ». Avant de passer en revue quelques patterns de mise en œuvre du...
Comment le big data peut contribuer à réduire le taux d’attrition des banques
Selon une étude réalisée par l’Efma, un client sur deux se dit prêt à changer de banque dans les six prochains mois. En cause ? Le manque de produits et de services personnalisés. A l’heure où la concurrence entre les banques fait rage, il est indispensable qu’elles...
Révolution industrielle 4.0 : comment l’IA est en train de changer la société en profondeur
L'Intelligence artificielle divise aujourd'hui les entreprises comme les individus. Une étude vient pourtant de révéler que 25 % des Français se disent déjà prêts à troquer leur collègue contre une intelligence artificielle. Entre défiance complète et intérêt marqué,...
Big Data : un accélérateur technologique
Le big data permet aux systèmes informatiques (SI) des banques de financement et d’investissement (BFI) de fonctionner beaucoup plus en temps réel, d’être plus ouverts et plus évolutifs. Mais les évolutions les plus fortes pour ces activités de marchés ne viennent...
Monitoring et détection d’anomalies avec ELK
Mesure d'indices de performance avec ELK Le monitoring et la mesure d’indices de performance des applications informatiques sont un enjeu majeur pour les entreprises. L’évolution des technologies autour de la qualification, du stockage et du traitement de gros volumes...
ISEP – Conférence sur le BLOCKCHAIN animée par Nicolas GENKO
L’ISEP Alumni a organisé le Jeudi 22 février 2018 une conférence animée par Nicolas Genko (CTO LoyaltyCoins) autour de la problématique des blockchains. Cette conférence a permis de rappeler ou de présenter, pour les personnes qui n’étaient pas encore familières avec...
A la découverte des chatbots – Définition & Usage
Dans cet article, nous allons tout d'abord essayer de comprendre ce qu'est un chatbot (définition), leur intérêt et comment les rendre efficaces et pertinents. Dans un second temps, nous nous intéresserons à la création d'un chatbot en utilisant Microsoft Bot...
Les challenges Codingame : de Bronze à Légendaire, comment réussir vos IA de bot
Cet article est basé sur la conférence intitulée « De bronze à légendaire, comment réussir vos IA de bot » présentée par Grégory Ribéron (alias Manwe) au cours de la 6ème édition de Devoxx France. J’ai pu par la suite mettre en pratique les conseils prodigués lors des...
Retour NCrafts.io 2017 – De l’intelligence artificielle as a service pour les chatbots
Ce post est un retour de la présentation intitulée "Using Machine Learning and Chatbots to handle 1st line technical support" par Basia Fusińska dans la conférence NCrafts qui s'est déroulée à Paris entre le 18 et 19 mai 2017. Un chatbot est un logiciel qui interagit...