Une généalogie des images composites
Le phénomène le plus récent et le plus remarquable à cet égard est la génération automatique d’images par le biais de l’intelligence artificielle. Au milieu des années 2010, des algorithmes simulant le fonctionnement des réseaux de neurones humains sont entraînés à identifier et générer automatiquement des images. DeepDream, lancé par Google en 2015, utilisait les ressources du deep learning pour identifier des structures au sein des images et pour les amplifier, générant ainsi des visions hallucinatoires de formes animales1. Une étape supplémentaire est franchie avec l’utilisation des réseaux antagonistes génératifs (GAN), qui placent deux réseaux de neurones en situation de compétition : le premier génère des échantillons (texte ou image), tandis que l’autre est entraîné à identifier si le résultat est le produit d’une machine ou d’un humain. En 2019, l’entreprise OpenAI applique ce principe à la génération automatique de textes, avec des résultats saisissants dans leur simulation d’humanité2. En 2021, la même compagnie lance DALL-E, un programme capable de générer une image à partir d’un texte rédigé en langage naturel.
Avec son nom qui évoque à la fois un personnage des studios Pixar et le fameux peintre catalan, l’intelligence artificielle de DALL-E convoque le spectre du surréalisme, combinant onirisme et automatisme. Certains utilisateurs en jouent d’ailleurs volontiers, s’amusant à utiliser comme prompt (le texte qui génère l’image) la description de leurs rêves. Sur le site d’OpenAI, les possibilités offertes par DALL-E 2 par rapport à la précédente version (meilleure définition, effet de réalisme accru, meilleure correspondance au texte, possibilité de modifier des images déjà existantes) sont mises en valeur par quelques exemples choisis pour leur apparente simplicité et projettent l’idée d’un usage quotidien. Cependant, le premier qui figure sur le site, à l’heure où nous écrivons, laisse poindre une part d’ironie de la part d’OpenAI, puisque l’image générée résulte de la description suivante : « An astronaut riding a horse in a photorealistic style » (fig. 1). Au-delà de l’apparente incongruité, ne faut-il pas voir dans ce motif un symbole essentiellement états-unien, comme l’image d’un cowboy spatial parti à la conquête des nouvelles frontières ? On songe au geste de Richard Prince qui, au temps de l’appropriationnisme artistique, avait ironisé sur ce mythe américain de la Frontier en reprenant le cow-boy d’une publicité pour Marlboro – geste qui questionnait en même temps l’idée d’une image sans auteur.
Photomontage ou image composite ?
Une image composite, s’agissant de photographie en particulier6, peut être définie comme une image réalisée à partir de plusieurs prises de vues réunies en un seul cadre – ce qui exclut a priori l’agencement séquentiel des images dans la presse et le livre, sauf à considérer la page comme une méta-image. Cette opération d’assemblage peut résulter de différentes techniques : superposition de négatifs, surimpression au moment de la prise de vue, découpage et collage des épreuves argentiques ou photomécaniques, montage numérique, etc. Ces transformations dans la conception de la photographie comme enregistrement ne sont donc pas imputables au seul passage au numérique. Comme l’a montré un ouvrage récent de Bernd Stiegler et Felix Thürlemann, la photographie composite est presque aussi ancienne que la photographie elle-même, et ses usages au XIXe siècle couvrent un vaste domaine d’applications – sciences, portraits, vues architecturales, compositions artistiques, trucages humoristiques ou encore photographies spirites7.Parler d’images composites plutôt que de « photomontages » permet d’envisager ces phénomènes au-delà du contexte des avant-gardes historiques (dadaïsme, constructivisme, surréalisme) et d’élargir notre point de vue au-delà du champ de l’art. Le discours occidental moderne employant la métaphore industrielle de l’assemblage mécanique d’éléments préexistants ne couvre pas, loin s’en faut, toutes les gammes des manipulations photographiques. Devant l’essor de nouvelles pratiques plus fluides de compositions et d’hybridations, Sabine Kriebel et Andrés Mario Zervigón, éditeurs d’un numéro spécial de la revue History of Photography, se sont ainsi interrogés sur la possible obsolescence du concept même de photomontage8.
Si l’on devait donc abandonner la notion de photomontage – trop marquée par son contexte historique d’apparition et ses usages historiographiques – au profit de celle d’image composite, quels en seraient les bénéfices ? Premièrement, la notion d’image composite permet de penser ensemble différentes techniques de manipulation photographique (photocollage, surimpression, doubleexposition, retouche), parfois abusivement séparées pour les besoins d’une généalogie avant-gardiste, conduisant certains artistes à revendiquer la paternité de tel ou tel procédé9. Deuxièmement, parler d’image composite plutôt que de photomontage, c’est laisser de côté la référence au montage cinématographique (successif) au profit d’une réflexion sur la composition (simultanée) d’éléments. Composer, c’est mettre ensemble (du latin componere), sur un même plan. Plutôt qu’à la logique narrative du cinéma, l’image composite renverrait alors à la rhétorique visuelle de l’allégorie, dans laquelle les éléments visuels forment l’équivalent de signes linguistiques ou de concepts abstraits.
Il faut également remarquer que l’histoire du photomontage au sein des avant-gardes historiques fait aujourd’hui l’objet de relectures qui déplacent les termes du débat. Dans son texte consacré à la redécouverte de John Heartfield à partir des années 1960, Cristina Cuevas-Wolf explore la postérité du montage comme opération dialectique, susceptible de produire un choc d’ordre politique, principe qui fut au coeur de la logique avant-gardiste. L’article que Sabine Kriebel consacre à Florence Henri démontre pour sa part que la figuration d’espaces hétérogènes et la déconstruction de l’espace perspectif, habituellement associées à la pratique du collage et du photomontage, peut aussi intervenir dès l’étape de la prise de vue. L’étude de Susan Laxton sur le photomontage surréaliste insiste quant à elle, en s’appuyant sur la théorie freudienne, non pas sur la théorie du montage et de l’appropriation d’éléments trouvés, mais sur ce que l’image composite surréaliste doit aux opérations mentales du mot d’esprit.
D’autres contributions interrogent plutôt la relation entre les compositions photographiques et d’autres formes de production culturelle, à la suite de Matthew Biro, qui a souligné à quel point les pratiques de montage au XIXe siècle traversent différents médiums : la photographie, la peinture, le théâtre, la littérature, jusqu’aux prémices du cinéma10. L’article de Sameena Siddiqui inscrit les images photographiques produites dans le contexte des mela ou foires d’Inde du Nord dans une sorte de généalogie alternative du photomontage, et les rapproche de formes traditionnelles d’improvisation théâtrale. Rose Bishop, quant à elle, établit un parallèle fructueux entre les compositions du photographe Gordon Anderson, la culture musicale du bebop et la littérature du mouvement Harlem Renaissance, proposant d’envisager ces images comme des tentatives de traduction visuelle de l’environnement sonore de l’Apollo Theater. Ces deux études portent ainsi sur des objets qui échappent à la catégorie du photomontage telle que construite par l’historiographie des avant-gardes. Pour autant, ces productions n’étant ni véritablement industrielles ni amateur, elles ont un statut complexe, à mi-chemin entre la création populaire et la pratique professionnelle.
La notion d’image composite renvoie donc à un large spectre de pratiques visuelles, qui n’oppose pas catégoriquement le geste de l’auteur, le calcul du producteur et le bricolage du consommateur. Elle permet par exemple de penser simultanément des tactiques d’appropriation de la photographie s’apparentant au « braconnage » culturel décrit par Michel de Certeau, à l’instar des albums de la marquise de Nadaillac décrits par Mathilde Falguière, et des stratégies déployées par les industriels de la communication, dont le cas d’Albert Plécy, étudié par Guillaume Blanc, fournit un exemple atypique. Parler d’image composite permet enfin de contextualiser le montage photographique au sein d’un ensemble de pratiques fondées sur l’appropriation, le découpage et le collage : des albums factices de l’Angleterre victorienne aux « ciseaux et glue » des fanzines punk à la fin du XXe siècle11, jusqu’à la compilation de fragments caractéristique du blogging et des réseaux sociaux du Web 2.0. En somme, cette catégorie invite à considérer la photographie sous l’angle d’une histoire culturelle et matérielle des médias.
Une histoire culturelle de la manipulation d’images
Cette interrogation sur les usages sociaux des images composites nous incite à détourner notre attention d’une théorie moderniste du montage comme pratique d’avantgarde pour interroger plutôt les gestes, métiers et techniques de l’image reproductible, de façon à évaluer le rôle de la culture de l’imprimé dans l’élaboration de nouvelles formes photographiques12. Dès 1981, Sally Stein appelait à situer les origines du photomontage dans le contexte du développement de la publicité et des communications de masse13. Mais elle critiquait aussi un usage abusif du terme de photomontage, qui, selon elle, conduit à privilégier « la composante esthétique dans les pratiques photographiques ». Ce biais en faveur de l’art est responsable d’une méprise sur la logique sociale et économique « de ces formes innovantes14 ».En effet, à la fin des Trente Glorieuses, en Europe et aux États-Unis, la communication visuelle émerge comme un domaine professionnel de plus en plus spécialisé. La multiplication des formations et le développement de la presse professionnelle facilitent l’affirmation d’une culture propre aux métiers du graphisme, ferment de discours théoriques visant à en établir les bonnes pratiques19. En parallèle, la diffusion de nouvelles techniques d’impression, le déclin de spécialités professionnelles liées à l’industrie du livre, l’essor d’outils de travail électroniques puis numériques, l’apparition de l’ordinateur personnel bouleversent la production des images. Ces conditions, propices à l’expérimentation, incitent en même temps les artistes et designers à revisiter l’histoire du photomontage, parfois dans le cadre d’une esthétique postmoderne reposant sur le pastiche20. Ailleurs, comme chez Claude Baillargeon, ce « retour » au photomontage traduit une adhésion idéologique aux idéaux politiques des avant-gardes historiques et se manifeste par un travail manuel opéré à même les images (fig. 4).
Dans un livre publié à l’aube des années 2000, Le Langage des nouveaux médias, Lev Manovich identifiait la « composition » comme opération typique des transformations induites par les outils numériques24. Que ce soit dans l’industrie cinématographique, pour les effets en postproduction, dans la publicité ou l’art, le paradigme postmoderne du compositing succéderait à la logique du montage moderniste. Pour Manovich, les « nouveaux médias » numériques participent aussi d’une logique postmoderne dans la mesure où ce sont des méta-médias qui intègrent dans leurs interfaces l’apparence des médias précédents et les opérations qu’ils permettent. En effet, si Photoshop met en oeuvre des modes de « composition », le logiciel imite les moyens analogiques en vigueur avant l’arrivée des outils numériques : le pinceau, le crayon, la photocopie, les ciseaux, etc. Le principe des « calques », introduit en 1994 et que Manovich présente comme une des caractéristiques propres du software Photoshop25, renvoie en fait aussi à des pratiques anciennes de photocomposition, si l’on songe notamment aux techniques de mise en page des magazines imprimés en héliogravure, qui permettaient la superposition d’images et de textes, en jouant sur des effets de transparence26 (fig. 5).
Du texte à l’image et vice-versa
Un autre aspect crucial pour l’histoire et l’actualité des images composites est l’étroite relation qu’elles établissent entre l’image et le texte. À ce propos, rappelons que pour le théoricien soviétique Sergeï Tretiakov, le photomontage se définissait plus par l’interaction texte-image que par la combinaison de fragments photographiques : « Il faut bien remarquer qu’un photomontage n’a pas besoin d’être nécessairement un montage de photos. Non, il peut aussi bien être photo et texte, photo et couleur, photo et dessin. […] Si la photographie, soumise à l’influence du texte, n’exprime plus seulement ce fait-là qu’elle montre, mais le contenu social du fait, alors elle est déjà photomontage29. »La culture des mèmes, aujourd’hui florissante sur Internet, correspond par biens des aspects aux objectifs que Tretiakov assignait au photomontage. Emprunté au biologiste Richard Dawkins, qui cherchait à étudier la reproduction des contenus culturels sur le modèle de la génétique et de la théorie de l’évolution30, le terme de « mème » en est venu à désigner, dans le jargon d’Internet, des contenus (texte, image, vidéo ou combinaison de ces éléments) généralement humoristiques, qui se prêtent à de multiples réitérations et variantes31. Cultivant une ironie mordante, un mode de diffusion viral et une pratique subversive de l’appropriation, les mèmes d’Internet peuvent être considérés comme les dignes descendants du photomontage politique qui se développe dans l’entre-deux-guerres32 (fig. 6). Mais si la photographie y est très présente, elle n’en est pas non plus une condition nécessaire. Il faut donc s’interroger sur la fluidité des frontières entre l’image graphique et l’image photographique au sein de ce mode de communication visuelle. Comme l’a montré Limor Shifman, la satire et l’ironie des mèmes à composante photographique prennent notamment pour cible la théâtralité de la photographie de presse – dont les ficelles sont ainsi dévoilées, comme celle des images de stock33. La pratique des mèmes témoignerait ainsi d’une conscience aiguë de l’image comme construction, mettant à mal les prétentions à l’objectivité de la photographie. En même temps, une grande partie de ces images composites bénéficie des « accidents » photographiques, ou du moins de l’enregistrement non intentionnel de certaines formes expressives (expressions de visages, gestes) qui deviennent la base, le canevas (template) pour de futures itérations du mème.
À l’heure actuelle, le principal obstacle au développement des images générées par intelligence artificielle tient justement à leur dépendance vis-à-vis des politiques d’indexation. En effet, les réseaux de neurones supposent d’être entraînés sur des datasets, des bases de données associant des images et leurs légendes. Or, ce couplage du texte et de l’image – très normalisé dans le cas des images de stock – reste soumis à une multitude d’inflexions culturelles, idéologiques et politiques, comme l’ont bien mis en évidence Kate Crawford et Trevor Paglen37. Dans la mesure où le choix des termes adéquats pour indexer une image reste dépendant de décisions humaines, l’idée d’une génération visuelle purement automatique ou « machinique » relève encore du mythe.
Images composites et données statistiques
Avec tout ce qu’il comporte de ludique et d’absurde parfois, le principe algorithmique mis en oeuvre aujourd’hui dans la production automatisée d’images composites nous confronte en outre à un changement profond : la domination de la statistique38. Si la composition d’images à partir de fragments photographiques consistait peu ou prou à identifier et agencer des fragments d’images pour leur caractère sémantique ou formel, les IA fondées sur le deep learning raisonnent par effet de proximité sans elles-mêmes reconnaître ou modéliser des formes. C’est un des thèmes de l’entretien mené avec Grégory Chatonsky et Antonio Somaini. Dans un corpus défini par un mot clé, tel pixel, selon sa position dans l’image, a tant de chance de se trouver à côté de tel autre pixel. C’est ainsi par pur calcul de probabilité que l’ordinateur parvient à produire des images dont les humains reconnaîtront les sujets. À aucun moment de la chaîne de production algorithmique n’intervient une définition mathématique des formes. Pas de reconnaissance, donc, mais seulement un calcul pixel par pixel. Du moins est-ce ainsi que fonctionne DALL-E. On est loin des images de synthèse produites pour l’industrie du cinéma depuis les années 1990, qui mobilisent des outils de modélisation capables de produire des formes vectorielles et de les mettre en mouvement. En comparaison de ces outils vectoriels, les réseaux de neurones semblent donc consacrer le triomphe de l’arithmétique sur la géométrie dans l’imaginaire de l’artiste-ingénieur, en rupture avec une tradition véhiculée depuis l’époque du constructivisme.Cette hégémonie de la statistique explique la place dévolue dans ce numéro à Francis Galton, auquel Bernd Stiegler consacre un article. Personnage lié aux sombres idéologies de l’histoire contemporaine, obsédé par la moyenne sociale et la définition du génie du point de vue psychologique et racial, Galton fut anthropologue de son métier et un militant de la statistique. L’invention de la photographie composite, ainsi qu’il l’a lui-même dénommée, peut ainsi apparaître marginale dans les recherches du père de l’eugénisme39, mais elle ne fait pas moins ressortir deux aspects fondamentaux de la culture scientifique de la fin du XIXe siècle : l’importance du visuel dans les outils et méthodes des sciences dites « humaines » comme l’anthropologie, la démographie ou même la psychologie40 et l’application du calcul de la moyenne à la photographie. L’image de synthèse produite par la superposition des négatifs – ou la division du temps d’exposition de chaque négatif exposé successivement – prétend correspondre au calcul d’une moyenne. Par ce biais, la photographie composite de Galton propose pour chaque catégorie prédéfinie un type moyen de visage humain. La popularité du procédé employé à l’envi par des usagers plus ou moins sérieux est révélatrice d’une fascination souterraine pour la moyenne visuelle. On ne compte plus les anthropologues et les artistes qui l’ont employé, dénonçant parfois, comme c’est le cas de Thomas Ruff, l’usage des technologies informatiques dans les méthodes de recherche de la police. Ses Autres portraits, conçus en 1992, utilisent le Minolta Montage Unit, que la police criminelle allemande employait dans les années 1990. L’appareil est doté d’une optique à miroirs permettant de superposer les caractéristiques physiques de plusieurs visages afin de générer des portraits-robots. Ruff détourne la technologie pour fabriquer des portraits composites à partir de ses propres photographies41 (fig. 8).
Ce numéro est consacré à l’histoire des manipulations photographiques d’où résultent des images hybrides, composées de plusieurs photographies ou mêlant la photographie à d’autres techniques d’imagerie. À la suite de récents travaux interrogeant l’histoire du photomontage sur le temps long, du XIXe siècle à la culture numérique actuelle, ce numéro propose une histoire parallèle de la photographie : une histoire dans laquelle la composition prime sur l’enregistrement.
Max Bonhomme est docteur en histoire de l’art. Il a consacré sa thèse aux usages politiques du photomontage dans la France des années 1930. Ses recherches actuelles portent sur l’histoire sociale du design graphique au début du XXe siècle.
Christian Joschke est professeur (HDR) à l’École des Beaux-Arts de Paris et co-rédacteur-en-chef de la revue Transbordeur. Photographie histoire société.
Laura Truxa est doctorante à l’EHESS. Ses recherches concernent l’histoire de la production des images publicitaires destinées aux magazines français et étasuniens des années 1950 et 1960.
Mots clés : photographie composite, photomontage, manipulation, retouche, intelligence artificielle, design graphique
Référence : Max Bonhomme, Christian Joschke, Laura Truxa, « Introduction. Une généalogie des images composites », Transbordeur. Photographie histoire société, no 7, 2023, pp. 6-17.