apprentissage par renforcement du feedback humain

Les données de SaaS sont plus que des formes et des graphiques sur l'image d'une femme dans la technologie

L'apprentissage par apprentissage par renforcement à partir du feedback humain (RLHF) est utilisé dans l'apprentissage machine (ML) pour améliorer la précision et le langage des réponses de l'agent ou du modèle à l'aide du feedback humain. Le retour d'information peut être capturé de manière passive, sur la base des modifications apportées aux résultats, ou de manière plus active, par le biais d'une notation numérique des réponses ou d'évaluations en langage naturel.

Pourquoi l'apprentissage par renforcement du feedback humain est-il important ?

La RLHF est très utile lorsque le retour d'information est peu abondant ou "bruyant". Lorsque la fonction de ML fournit un résumé en langage naturel ou en texte, les humains peuvent facilement juger de la qualité, ce qui est difficile à faire avec précision à l'aide d'une approche algorithmique. Le modèle RLHF peut optimiser optimiser ses performances à l'aide d'un retour d'information positif et négatif en demandant aux humains de classer les résultats de bons à mauvais.

Méthodes d'apprentissage

Les humains peuvent fournir un retour d'information explicite à un algorithme d'apprentissage en modifiant les résultats, qui peuvent être examinés par l'algorithme en tant que guide. La mise au point commence généralement par l'utilisation d'ensembles de données d'apprentissage . Il s'agit notamment du jeu de données invite contenant des invites non étiquetées et d'un jeu de données préférences humaines contenant des paires de réponses candidates, y compris des étiquettes indiquant la réponse d'invite préférée. Une approche plus souple est utilisée pendant la phase de renforcement en orientant l'apprentissage vers les conversations qui fournissent les meilleures évaluations de la production de l'agent. Les formateurs humains peuvent fournir un retour d'information sur ce qui a été bien fait et moins bien fait pour les sujets plus sophistiqués ou nuancés.

Applications de la RLHF

Les applications actuelles et émergentes de la RLHF sont nombreuses. En voici quelques exemples :

Chatbots conversationnels

Les chatbots conversationnels commencent généralement par un modèle partiellement pré-entraîné, puis des formateurs humains optimiser le modèle de base. Lorsqu'ils sont déployés en production, les chatbots sollicitent l'avis des utilisateur pour évaluer leur compréhension et leurs réponses. Les conversations les mieux notées sont utilisées pour établir des critères de renforcement positif en vue d'une amélioration continue.

Dialogues GPT

Les chats impliquant une conversation pilotée par GPT peuvent utiliser le retour d'information positif des humains pour guider leur apprentissage. Il est possible de développer des plug-ins pré-entraînés qui comprennent des connaissances dans différents domaines.

Résumés de textes et traductions

Les évaluateurs humains lisent les résumés et apportent ou suggèrent des modifications que l'évaluateur peut apporter. modèle de machine learning utilise comme entrée pour les tentatives successives. La même approche fonctionne bien pour les services de traduction et de transcription où le modèle doit s'adapter à de subtiles différences locales.

Les défis de la RLHF

Les conversations basées sur l'intelligence artificielle (IA) ont encore du chemin à parcourir pour être aussi naturelles que les conversations humaines réelles, mais elles évoluent rapidement. La dépendance à l'égard de la subjectivité humaine peut être problématique, car les points de vue varient d'une personne à l'autre. Les conversations utilisent rarement une mauvaise grammaire, mais peuvent présenter des défauts liés à l'utilisation du langage par le formateur. Par exemple, si le formateur est partial ou utilise des expressions familières, l'algorithme en tiendra compte. Un autre formateur doit signaler ces traits de manière négative pour les entraîner hors de l'utilisation. Imaginez que vous apprentissage votre chatbot à utiliser trop de communiqués de presse et de contenus marketing. Le résultat sera que l'utilisation excessive d'hyperboles aura un impact sur la crédibilité de l'agent conversationnel. Un modèle sous-entraîné a souvent recours à la répétition, ce qui peut lasser ou irriter le consommateur.

Avantages de la RLHF

Vous trouverez ci-dessous un certain nombre d'avantages liés à l'adoption de la RLHF :

  • Permet d'améliorer en permanence la précision et les performances des conversations basées sur le chat.
  • Permet d'affiner les dialogues spécifiques à un domaine en utilisant des données humaines.
  • Permet aux agents de chat d'imiter le langage de manière plus naturelle, ce qui améliore le service à la clientèle.
  • Permet à l'utilisateur final de fournir un retour d'information qui améliore les interactions futures.
  • Il permet aux humains d'entraîner IA à mieux s'aligner sur leur style d'interaction, notamment en adoptant un comportement plus informel et moins robotique.

Configurer la plateforme de données Actian en quelques minutes

La plateforme de données Actian offre une expérience unifiée pour l'acquisition, la transformation, l'analyse et le stockage des données. Les solutions Actian ont la confiance de plus de 10 000 clients qui bénéficient d'une assistance dans le monde entier. La plateforme de données Actian peut fonctionner sur plusieurs nuages et sur site et être configurée en quelques minutes. La technologie d'intégration des données intégrée permet de charger rapidement les données, de sorte que vous obtenez rapidement des informations.

La plateforme de données Actian offre des performances ultra-rapides en matière de requête , même pour les charges de travail complexes, sans les réglages requis par les entrepôts de données traditionnels. Ceci est dû à une architecture hautement évolutif qui utilise le stockage en colonnes avec un traitement vectoriel pour un parallélisme inégalé dans le traitement des requête .