Technology

Le potentiel de plusieurs milliards de dollars des données synthétiques

Vous avez manqué une session de MetaBeat 2022 ? Rendez-vous sur la bibliothèque à la demande pour toutes nos sessions en vedette ici.


Les données synthétiques constitueront une énorme industrie dans cinq à dix ans. Par exemple, Gartner estimations que d’ici 2024, 60% des données pour les applications d’IA seront synthétiques. Ce type de données et les outils utilisés pour les créer présentent un important potentiel d’investissement inexploité. Voici pourquoi.

Les données synthétiques peuvent alimenter l’IA/ML gourmande en données

Nous sommes effectivement à l’aube d’une révolution dans la façon dont l’apprentissage automatique (ML) et l’intelligence artificielle (IA) peuvent se développer et avoir encore plus d’applications dans tous les secteurs et industries.

Nous vivons à une époque où la demande d’algorithmes ML monte en flèche dans tous les aspects de notre vie, des applications amusantes de masquage du visage telles que les filtres sur Instagram ou Snapchat aux applications extrêmement utiles conçues pour améliorer nos expériences de travail et de vie, telles que l’aide au diagnostic de la maladie. ou recommander un traitement. Parmi les principales opportunités figurent la reconnaissance des émotions et de l’engagement, de meilleures fonctionnalités de sécurité intérieure et de meilleures détections d’anomalies dans des contextes industriels.

Dans le même temps, alors que les particuliers et les entreprises ont soif de produits basés sur ML/IA, les algorithmes ont soif de données sur lesquelles s’entraîner. Tout cela signifie que nous verrons inévitablement de plus en plus de besoins en données différents, et des données entièrement fabriquées sont la clé.

événements

Sommet Low Code/No Code

Rejoignez les principaux dirigeants d’aujourd’hui lors du sommet Low-Code/No-Code virtuellement le 9 novembre. Inscrivez-vous pour obtenir votre laissez-passer gratuit dès aujourd’hui.

Inscrivez-vous ici

De Grand Theft Auto à Google

J’ai entendu parler de voitures autonomes apprenant les règles de la route en jouant à des jeux comme Grand Theft Auto V étudier le trafic virtuel ? Il s’agissait d’une première version de ML via des données synthétiques. De même, de nombreux techniciens ont peut-être rencontré des «documents numérisés» synthétiques, qui ont été utilisés pour former des modèles de reconnaissance de texte et d’extraction de données.

La banque et la finance sont un secteur qui s’appuie déjà fortement sur les données synthétiques pour certains processus, tandis que des géants de la technologie comme Google et Facebook l’utilisent également, attirés par l’extraordinaire efficacité qu’elle peut apporter au travail des chefs de projet et des data scientists.

En fait, nous nous attendons à ce que le nombre d’images synthétiques et de points de données soit multiplié par dix au cours de la prochaine année et multiplié par plusieurs centaines au cours des prochaines années.

Contraintes des données du monde réel

Ceux qui sont à la pointe du ML se tournent de plus en plus vers les données synthétiques pour contourner les nombreuses contraintes des données originales ou du monde réel. Par exemple, la société IA de synthèse offre une plate-forme de génération basée sur le cloud qui fournit des millions d’images parfaitement étiquetées et diverses de personnes artificielles. Synthesis AI a été en mesure de relever de nombreux défis liés à la réalité désordonnée des données originales. Pour commencer, l’entreprise rend les données moins chères. Il peut être trop coûteux pour une organisation de générer la quantité et la diversité des données dont elle a besoin.

Par exemple, pourriez-vous obtenir des photos de quelqu’un sous tous les angles imaginables, portant toutes les combinaisons possibles de vêtements dans toutes les conditions d’éclairage possibles ? Ce serait une quantité de travail inimaginable pour le faire dans la vie réelle, mais des données synthétiques peuvent être conçues pour tenir compte de variations infinies.

Cela signifie également un étiquetage beaucoup plus facile des données. Imaginez essayer d’identifier la source de lumière, sa luminosité et sa distance par rapport à un objet sur des photos pour former un algorithme de développement d’ombre. Ce serait pratiquement impossible. Avec les données synthétiques, vous avez ces données par défaut, car elles ont été générées avec de tels paramètres.

En outre, les entreprises doivent également faire face à des restrictions strictes sur l’utilisation des données du monde réel. Dans le passé, les entreprises partageaient des données sans les couches de cybersécurité attendues aujourd’hui. Le RGPD et d’autres réglementations sur les données rendent complexe et difficile, et parfois illégal, le partage de données du monde réel avec des partenaires et des fournisseurs.

Dans d’autres cas, il peut même ne pas être possible ou sûr de générer les données. Le producteur de moteur 3D temps réel Unigine compte comme client Dédale, qui travaille sur la mobilité aérienne urbaine. Daedalean a commencé à former ses voitures volantes autonomes en Des mondes virtuels uniques. Cela est tout à fait logique – il ne dispose pas encore d’un environnement réel sûr dans lequel tester ses produits de manière approfondie et générer les ensembles de données approfondis dont il a besoin. Un cas similaire est Logiciel CarMaker par IPG Automotive. son Version 10.0 introduit une visualisation 3D améliorée optimisée par UNIGINE 2 Sim, avec un rendu physique et des paramètres de caméra réels.

Les personnes et les objets synthétiques ont été beaucoup plus largement utilisés par les géants de la technologie ces derniers temps. Amazone données synthétiques utilisées pour former Alexa, Facebook a acquis le générateur de données synthétiques AI.Reverie, et Nvidia a réalisé Réplicateur NVIDIA Omniverseun puissant moteur de génération de données synthétiques qui produit des données synthétiques simulées physiquement pour former des réseaux de neurones profonds.

Combattre les biais dans les données

Les défis des données du monde réel ne s’arrêtent pas là. Dans certains domaines, d’énormes biais historiques polluent les ensembles de données. C’est ainsi que nous nous retrouvons avec des géants mondiaux de la technologie qui se retrouvent dans l’eau chaude parce que leurs algorithmes ne reconnaissent pas correctement les visages noirs. Même maintenant, avec des experts en technologie ML parfaitement conscients du problème de biais, il peut être difficile de rassembler un ensemble de données du monde réel entièrement exempt de biais.

Même si un ensemble de données du monde réel peut rendre compte de tous les défis ci-dessus, ce qui est en réalité difficile à imaginer, les modèles de données doivent être constamment améliorés et modifiés pour rester impartiaux et éviter la dégradation au fil du temps. Cela signifie un besoin constant de nouvelles données.

Comprendre l’opportunité

Les données synthétiques en sont aux stades relativement précoces de croissance et ce n’est pas une panacée pour tous les cas d’utilisation. Il continue de faire face à des défis et à des limites techniques, et les outils et les normes qui s’y rapportent n’ont pas encore été normalisés.

Néanmoins, les données synthétiques sont définitivement un accélérateur pour les produits basés sur ML/AI car ils continuent de se développer dans toutes les industries et tous les secteurs, et nous verrons certainement beaucoup de nouvelles entreprises et offres dans la région. Pour tous ceux qui souhaitent approfondir le sujet des données synthétiques, voici le Communauté de données synthétiques ouvertes. Découvrez un hub pour les ensembles de données synthétiques, les articles, le code et les personnes pionnières de leur utilisation dans l’apprentissage automatique.

Sergey Toporov est associé chez Leta Capital.

DataDecisionMakers

Bienvenue dans la communauté VentureBeat !

DataDecisionMakers est l’endroit où les experts, y compris les techniciens travaillant sur les données, peuvent partager des informations et des innovations liées aux données.

Si vous souhaitez en savoir plus sur les idées de pointe et les informations à jour, les meilleures pratiques et l’avenir des données et de la technologie des données, rejoignez-nous sur DataDecisionMakers.

Vous pourriez même envisager de rédiger votre propre article !

En savoir plus sur DataDecisionMakers

Leave a Reply

Your email address will not be published.