Des experts discutent des meilleures pratiques en matière de science des données et d'apprentissage automatique

Des experts discutent des meilleures pratiques en matière de science des données et d'apprentissage automatique
4.9 (98.4%) 25 votes


Pour survivre et prospérer grâce à la science des données et à l'apprentissage automatique, il ne suffit pas de disposer des plates-formes, des outils et des compétences adéquats, mais également d'identifier les cas d'utilisation et de mettre en œuvre des processus capables de générer une valeur métier reproductible et évolutive.

Les défis sont nombreux: sélection des jeux de données et des plates-formes de données, architecture et optimisation des pipelines de données, formation et déploiement de modèles. En réponse, de nouvelles solutions ont vu le jour pour offrir des fonctionnalités clés dans des domaines tels que la visualisation, le libre-service et l’analyse en temps réel.

Parallèlement à la montée en puissance de DataOps, une collaboration et une automatisation accrues ont été identifiées comme des facteurs clés de succès.

DBTA a récemment organisé un webinaire avec Bethann Noble, directrice du marketing produit, apprentissage machine, Cloudera; Gaurav Deshpande, vice-président du marketing, TigerGraph; et Will Davis, directeur principal du marketing produit chez Trifacta, qui a discuté des nouvelles technologies et stratégies pour étendre les capacités de la science des données et de l’apprentissage automatique.

Selon Morgan Stanley Research, cité par Noble, «l'IA, l'IdO et la réalité augmentée sont sur le point de réinventer la manière dont les industries utilisent les données – et pourraient conduire une ère de croissance de la productivité dans nos villes, nos fermes, nos usines et nos hôpitaux».

Cependant, 91% des entreprises ont du mal à atteindre la maturité des données, a-t-elle déclaré. Avec Cloudera, les entreprises peuvent se développer pour surmonter ce problème, selon Noble.

La mission de Cloudera consiste à:

  • Croire que les données peuvent rendre ce qui est impossible aujourd'hui, possible demain
  • Donner aux personnes le pouvoir de transformer des données complexes en informations claires et exploitables
  • Fournir un nuage de données d'entreprise pour toutes les données, n'importe où, de Edge à AI

Cloudera fournit une architecture de cloud de données d'entreprise avec des analyses multi-fonctions, hybride et multi-cloud, sécurisée et régie, et constitue une plate-forme ouverte.

Deshpande a suggéré aux entreprises d’envisager TigerGraph. TigerGraph propose:

  • Performance en temps réel: réponse en moins d'une seconde pour les requêtes touchant des dizaines de millions d'entités / relations
  • Transactional (Mutable): Graph Des centaines de milliers de mises à jour par seconde, des milliards de transactions par jour
  • Évolutivité pour des jeux de données volumineux: 100 entités B +, 1 000 milliards de relations +
  • Requêtes analytiques multi-sauts de liens profonds: parcourez plus de 10 sauts dans le graphique pour effectuer des calculs complexes
  • Facilité de développement et de déploiement
  • Sécurité de niveau entreprise: cryptage au repos et en transit et contrôle de l'accès aux données sensibles en fonction du rôle, du service ou de l'organisation de l'utilisateur avec MultiGraph

Aujourd'hui, chaque entreprise a accès aux mêmes algorithmes, mais pas aux mêmes données, a expliqué Davis.

"80% du travail dans tout projet de données est dans le nettoyage des données", a déclaré Davis, citant DJ Patil, ancien responsable scientifique des données aux États-Unis. Cela affecte l'ensemble de l'équipe de données, mais les principales plates-formes de données reconnaissent que le nettoyage / la préparation des données est essentiel à l'apprentissage automatique.

Trifacta fournit aux experts de domaine des interfaces visuelles intelligentes qui automatisent l'évaluation et la transformation des données, permet au service informatique de gérer et d'exploiter de manière collaborative des pipelines de données créés par des experts de domaine, et crée une plate-forme à l'échelle de l'entreprise qui affine les données à partir de diverses sources, prenant en charge une large utilisateurs et cas d'utilisation.

Une relecture archivée à la demande de ce webinaire est disponible.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *