Matin : Modèles des risques, Capacités, Inner/Outer Alignement, Bases de l'interpretabilité des transformers.

Après Midi : Scalable Oversight, Advanced Usage of transformers, Modèles des risques avancés, Interpretabilité avancée, Gouvernance des IA.

# Contexte :

Les avancées fulgurantes en intelligence artificielle ne montrent aucun signe de ralentissement. GPT-1, GPT-2, GPT-3 et maintenant GPT-4, nous ignorons où nous entraîne cette course à la performance, mais nous savons que des experts alertent sur des risques potentiellement catastrophiques, et nos sociétés n'en prennent pas la mesure.

Les lancements médiatisés de chatbots aux performances spectaculaires ne sont que la pointe émergée de l’iceberg des avancées de ces dernières années. Certains modèles rivalisent avec les humains sur des tâches précises, de DALL·E en génération d’images à Whisper en transcription de texte oral. D’autres, plus généraux, maîtrisent simultanément dialogues, jeux vidéo, et robotique dans le monde réel, voire peuvent réaliser librement des tâches sur internet.

Il y a de quoi s’émerveiller devant ces technologies qui nous permettent de renforcer la recherche biomédicale, de briser les barrières de langue ou encore d’alléger le travail administratif. Cependant, dans cette dernière année, la perspective de développer ces modèles avec de hauts standards de sûreté s’est éloignée. Il y a 5 mois, OpenAI déployait à large échelle ChatGPT, un modèle développé spécifiquement pour être poli et bienveillant envers l’utilisateur. En moins de 24h, ces barrières avaient été renversées. Trois mois plus tard, cette fois de façon beaucoup plus hâtive, Microsoft déployait Bing Chat sur internet. Pire que ChatGPT, le modèle a très rapidement adopté des comportements parfois très agressifs.

Trois failles des intelligences artificielles

Soyons clairs, les dangers accidentels posés par ces modèles actuels sont encore limités. Pourtant, ils illustrent des failles dans notre maîtrise de ces systèmes, des failles non résolues qui par défaut seront toujours présentes dans les modèles plus puissants et généraux qui s’annoncent. Soulignons trois de ces failles. Une première est que ces modèles, à l’architecture dite "transformer”, restent des énormes boîtes noires dont les comportements sont de toute évidence imprévisibles pour les acteurs entreprises qui les déploient. Dans cette opacité, nous ne pouvons avoir aucune garantie que leurs actions seront conformes à nos attentes. Une deuxième faille est le manque de robustesse ; les modèles sont entraînés sur un jeu de données particulier, et doivent donc généraliser face à des situations nouvelles lors de leur déploiement. Le fait que Bing Chat menace les utilisateurs alors qu’il a été entraîné pour les aider illustre cet échec de généralisation. La troisième faille repose sur la difficulté de spécifier précisément à un modèle l’objectif souhaité, au regard de la complexité et de la diversité des valeurs humaines. Lorsque les premières entreprises confieront la gestion de leurs profits à ces systèmes maximisateurs, assurons-nous d’éviter le piège du roi Midas, dont le rêve de fortune pleinement exaucé finit par changer en or et détruire tout ce qui comptait à ses yeux. Le problème est suffisamment général pour que les bonnes intentions ne suffisent pas : quand nos instructions ne sont pas parfaitement spécifiées, toute IA amenée à les suivre trop fidèlement se rapprochera d’une zone dangereuse.

Nous aborderons différents paradigmes de solutions : techniques de spécifications, mechanistic interpretability des transformers (comment l'information est représentée dans les réseaux de neurones), scalable oversight (techniques de supervisions de réseaux de neurones), agent foundation (corrigibiilité), gouvernance des IA générales.

Détails de la formation sur ce lien.

Nous vous remercions à veiller à ce que chaque participant·e procède à sa propre réservation (1 réservation = 1 personne), merci !

Contact : charbel.segerie@effisciences.org

Séminaire Turing condensé : journée de formation en sûreté de l'IA