Tu parles du machine learning (ML), autrement dit l’apprentissage automatique. De quoi s’agit-il en quelques mots ?
R : L’apprentissage automatique est un sous-domaine de l’intelligence artificielle. Les algorithmes identifient des schémas dans les jeux de données et s’en servent pour développer des solutions. Pour le monde des langues et des textes d’Apostroph, l’apprentissage automatique est un élément précieux et indispensable.
Avez-vous toujours su que vous feriez carrière dans l’informatique ?
S : Je ne peux pas imaginer faire un autre métier. Quand j’ai assemblé mon premier PC à l’âge de 13 ans, il était clair que je souhaitais travailler dans l’informatique. Durant mes études, je me suis intéressé au machine learning et j’ai décidé d’en faire ma profession.
R : Pareil pour moi. L’informatique me plaît depuis mon plus jeune âge.
Un chatbot Apostroph ?
R : Oui, spécialisé dans la traduction et la correction, et adapté précisément au spectre de prestations d’Apostroph. Des modèles généraux comme ChatGPT seraient utilisables dans le contexte des langues. Malheureusement, ils ne livrent pas encore de résultats satisfaisants sur le plan linguistique. On ne peut pas utiliser un modèle unique pour répondre à plusieurs finalités. Nous travaillons donc sur une solution personnalisée.
Vers où nous dirigeons-nous en matière de sécurité des données ?
R : Ce sujet est capital. Notre infrastructure pour la sécurité des données en Suisse ne cesse de se perfectionner. Nous continuons d’accroître nos capacités pour des solutions propres de stockage en interne.
S : Pour nous, il est essentiel que les données que nous traitons et les systèmes que nous développons restent en Suisse, à tout moment. Même lors du traitement de données avec lesquelles nous développons l’IA, nous veillons à ce que celles-ci restent sûres et protégées.
Qu’y a-t-il de nouveau en matière de MT, de TM, etc. ?
S : Le domaine de la traduction automatique est intéressant parce qu’il se prête à l’expérimentation par beaucoup de personnes et à des tentatives par quelques-unes de changement de paradigme en vue d’utiliser de grands modèles de langage comme GPT plutôt que des modèles d’apprentissage automatique spécifiquement entraînés pour la traduction automatique. Nous suivons ces évolutions de près et étudions les résultats et les implications de pareille approche.
R : Les modèles multilingues ont un grand problème : les différentes langues se disputent les paramètres au sein du modèle. De plus, les données d’entraînement des différentes langues sont déséquilibrées : les résultats risquent d’être moins bons avec les langues plus rares. Apple a récemment publié une innovation, avec des « exclusive model parameters » applicables à une seule langue. L’époque des innovations dans le domaine MT n’est pas révolue, et je suis curieux de voir quel niveau ce secteur va atteindre.
Petit pronostic : dans quelle direction l’informatique va-t-elle évoluer dans le domaine des langues ?
S : Il faut espérer que les modèles de compréhension des textes et de rédaction des textes vont encore s’améliorer. Ils deviennent de plus en plus intelligents et apprennent à résoudre des tâches complexes sur la base d’exemples. Avec un seul poème de Shakespeare comme modèle, ils seront en mesure de rédiger d’autres poèmes dans le style de Shakespeare.
J’espère voir plus de nouvelles techniques efficaces pour l’entraînement de grands modèles de langage, pour qu’un processus de développement prenne moins de 100 ans pour une seule personne et qu’elles ne soient plus uniquement réservées aux géants de la technologie.
Je pense aussi que nos terminaux deviendront de plus en plus performants et que de nombreux modèles de langage fonctionneront localement et probablement plus uniquement via des clouds. Il y aura aussi sans doute bientôt davantage de traductions de bout en bout, par exemple audio vers texte, audio vers audio ou image vers texte, le tout sans pipelines complexes composés de plusieurs modèles. Nous espérons que les pipelines end-to-end entraînés avec des données de haute qualité vont se simplifier et gagner en élégance.
R : Le rôle des linguistes va évoluer vers celui de directeurs de textes. Ils devront piloter différents systèmes technologiques pour créer des processus linguistiques. Les traductions et textes automatiques exigeront de moins en moins de travail d’adaptation linguistique. L’expertise en compréhension linguistique et culturelle se doublera de compétences technologiques.
Raimon Wintzer
Raimon Wintzer est Language Technology Engineer, a un bachelor en Computer Science et un master en Biomedical Computing. Raimon parle anglais, allemand, français et russe. Actuellement, il apprend le chinois. Les vieilles comédies du temps de l’URSS le font rire. Sur sa table de chevet, on trouve actuellement le livre « Jane Eyre » de Charlotte Brontë qui relate la vie d’une orpheline dans l’Angleterre victorienne.
Szymon Ruciński
Szymon Rucinski est Junior Language Technology Engineer et titulaire d’un master en « Machine Learning and Software Engineering ». Il parle polonais, allemand, anglais et… Python. Après sa journée de travail, il bricole sur des projets personnels dans le domaine de la vision par ordinateur. Les séries Netflix ne sont pas son truc, mais le film « Quo Vadis » vu récemment lui a beaucoup plu. Il s’agit d’une superproduction de 1951 qui se déroule dans la Rome antique. Szymon court et fait du vélo pour se maintenir en forme. En ce moment, il lit « Pedalling Poland » de Bernard Newman. Le livre décrit un voyage à vélo en 1934 dans son pays natal, une Pologne traditionnelle florissante.
Souhaitez-vous recevoir régulièrement des informations sur Apostroph et ses nouveaux projets clients ?
Dans notre newsletter, nous vous surprenons avec des articles aussi instructifs que divertissants. Nous serions ravi·e·s de vous compter parmi les 20 000 abonné·e·s de notre newsletter.