Introduction. Une généalogie des images composites

Max Bonhomme; Christian Joschke; Laura Truxa

Introduction
Une généalogie des images composites

Max Bonhomme, Christian Joschke, Laura Truxa

Et si l’histoire de la photographie était écrite non pas comme une histoire des images enregistrées, mais comme une histoire des images composées à partir d’éléments enregistrés ? Cette interrogation découle d’une observation de la culture numérique actuelle, caractérisée par une omniprésence d’images dans lesquelles les éléments photographiques sont volontiers recombinés et réagencés, voire associés à d’autres techniques d’imagerie, notamment à travers les filtres que proposent les applications pour smartphones. Cette prolifération des pratiques d’assemblage et d’hybridation jette une nouvelle lumière sur ce que nous appellerons ici les « images composites » et sur leur histoire.
Le phénomène le plus récent et le plus remarquable à cet égard est la génération automatique d’images par le biais de l’intelligence artificielle. Au milieu des années 2010, des algorithmes simulant le fonctionnement des réseaux de neurones humains sont entraînés à identifier et générer automatiquement des images. DeepDream, lancé par Google en 2015, utilisait les ressources du deep learning pour identifier des structures au sein des images et pour les amplifier, générant ainsi des visions hallucinatoires de formes animales¹. Une étape supplémentaire est franchie avec l’utilisation des réseaux antagonistes génératifs (GAN), qui placent deux réseaux de neurones en situation de compétition : le premier génère des échantillons (texte ou image), tandis que l’autre est entraîné à identifier si le résultat est le produit d’une machine ou d’un humain. En 2019, l’entreprise OpenAI applique ce principe à la génération automatique de textes, avec des résultats saisissants dans leur simulation d’humanité². En 2021, la même compagnie lance DALL-E, un programme capable de générer une image à partir d’un texte rédigé en langage naturel.
Avec son nom qui évoque à la fois un personnage des studios Pixar et le fameux peintre catalan, l’intelligence artificielle de DALL-E convoque le spectre du surréalisme, combinant onirisme et automatisme. Certains utilisateurs en jouent d’ailleurs volontiers, s’amusant à utiliser comme prompt (le texte qui génère l’image) la description de leurs rêves. Sur le site d’OpenAI, les possibilités offertes par DALL-E 2 par rapport à la précédente version (meilleure définition, effet de réalisme accru, meilleure correspondance au texte, possibilité de modifier des images déjà existantes) sont mises en valeur par quelques exemples choisis pour leur apparente simplicité et projettent l’idée d’un usage quotidien. Cependant, le premier qui figure sur le site, à l’heure où nous écrivons, laisse poindre une part d’ironie de la part d’OpenAI, puisque l’image générée résulte de la description suivante : « An astronaut riding a horse in a photorealistic style » (fig. 1). Au-delà de l’apparente incongruité, ne faut-il pas voir dans ce motif un symbole essentiellement états-unien, comme l’image d’un cowboy spatial parti à la conquête des nouvelles frontières ? On songe au geste de Richard Prince qui, au temps de l’appropriationnisme artistique, avait ironisé sur ce mythe américain de la Frontier en reprenant le cow-boy d’une publicité pour Marlboro – geste qui questionnait en même temps l’idée d’une image sans auteur.

1. « An astronaut riding a horse in a photorealistic style », capture d’écran du site openai.com/dall-e-2/, 15 septembre 2022.

D’autres modèles alternatifs apparaissent en 2022 : MidJourney, Imagen ou encore Stable Diffusion, dont le code-source est librement accessible. Si les potentialités de l’intelligence artificielle ont été interrogées par des artistes comme Hito Steyerl, Trevor Paglen, Grégory Chatonsky ou encore Pierre Huygue, les applications comme DALL-E, aisément accessibles pour le grand public comme pour les professionnels de l’image, ouvrent sans doute une nouvelle ère de la culture visuelle, caractérisée par la présence massive d’images à l’apparence photographique, mais sans prise directe avec le réel (fig. 2). Telles sont les données actuelles de ces nouvelles technologies de l’image, qui suscitent espoirs et craintes.

2. Image générée à partir du prompt « Award winning photograph by national geographic of a Genetic Hybrid fusion between an octopus and a kangaroo. ISO 100, f_8, wide angle, DOF 1_100th, Nikon 50mm lens», par DALL-E 2, publiée sur Facebook, 26 août 2022.

La problématique n’est en fait pas si nouvelle. Dans les années 1990-2000, la démocratisation de la photographie numérique avait agité le spectre du « postphotographique³ ». D’abord, au niveau physico-chimique, le remplacement des sels d’argent par les capteurs numériques pouvait laisser penser que la photographie allait perdre sa valeur de trace, d’empreinte directe du champ visuel, qui a constitué la base d’une ontologie « indicielle » dominant la théorie photographique au XX^e siècle⁴. Ensuite, l’essor des logiciels de retouche et de manipulation comme Photoshop, dont la première version est commercialisée en 1990, a effectivement confirmé le degré d’automatisation supplémentaire désormais offert aux photographes, retoucheurs, graphistes et illustrateurs. Pourtant, il a fallu bien plus d’une décennie pour que ces technologies transforment en profondeur la pratique photographique. Liée à l’évolution des usages, cette mutation n’a d’ailleurs pas tant été déterminée par les technologies de prise de vue et de retouche que par les nouveaux moyens de diffusion offerts par le Web 2.0⁵. C’est à une mise en perspective historique de ces phénomènes que s’attache le présent dossier.

Photomontage ou image composite ?

Une image composite, s’agissant de photographie en particulier⁶, peut être définie comme une image réalisée à partir de plusieurs prises de vues réunies en un seul cadre – ce qui exclut a priori l’agencement séquentiel des images dans la presse et le livre, sauf à considérer la page comme une méta-image. Cette opération d’assemblage peut résulter de différentes techniques : superposition de négatifs, surimpression au moment de la prise de vue, découpage et collage des épreuves argentiques ou photomécaniques, montage numérique, etc. Ces transformations dans la conception de la photographie comme enregistrement ne sont donc pas imputables au seul passage au numérique. Comme l’a montré un ouvrage récent de Bernd Stiegler et Felix Thürlemann, la photographie composite est presque aussi ancienne que la photographie elle-même, et ses usages au XIX^e siècle couvrent un vaste domaine d’applications – sciences, portraits, vues architecturales, compositions artistiques, trucages humoristiques ou encore photographies spirites⁷.
Parler d’images composites plutôt que de « photomontages » permet d’envisager ces phénomènes au-delà du contexte des avant-gardes historiques (dadaïsme, constructivisme, surréalisme) et d’élargir notre point de vue au-delà du champ de l’art. Le discours occidental moderne employant la métaphore industrielle de l’assemblage mécanique d’éléments préexistants ne couvre pas, loin s’en faut, toutes les gammes des manipulations photographiques. Devant l’essor de nouvelles pratiques plus fluides de compositions et d’hybridations, Sabine Kriebel et Andrés Mario Zervigón, éditeurs d’un numéro spécial de la revue History of Photography, se sont ainsi interrogés sur la possible obsolescence du concept même de photomontage⁸.
Si l’on devait donc abandonner la notion de photomontage – trop marquée par son contexte historique d’apparition et ses usages historiographiques – au profit de celle d’image composite, quels en seraient les bénéfices ? Premièrement, la notion d’image composite permet de penser ensemble différentes techniques de manipulation photographique (photocollage, surimpression, doubleexposition, retouche), parfois abusivement séparées pour les besoins d’une généalogie avant-gardiste, conduisant certains artistes à revendiquer la paternité de tel ou tel procédé9. Deuxièmement, parler d’image composite plutôt que de photomontage, c’est laisser de côté la référence au montage cinématographique (successif) au profit d’une réflexion sur la composition (simultanée) d’éléments. Composer, c’est mettre ensemble (du latin componere), sur un même plan. Plutôt qu’à la logique narrative du cinéma, l’image composite renverrait alors à la rhétorique visuelle de l’allégorie, dans laquelle les éléments visuels forment l’équivalent de signes linguistiques ou de concepts abstraits.
Il faut également remarquer que l’histoire du photomontage au sein des avant-gardes historiques fait aujourd’hui l’objet de relectures qui déplacent les termes du débat. Dans son texte consacré à la redécouverte de John Heartfield à partir des années 1960, Cristina Cuevas-Wolf explore la postérité du montage comme opération dialectique, susceptible de produire un choc d’ordre politique, principe qui fut au coeur de la logique avant-gardiste. L’article que Sabine Kriebel consacre à Florence Henri démontre pour sa part que la figuration d’espaces hétérogènes et la déconstruction de l’espace perspectif, habituellement associées à la pratique du collage et du photomontage, peut aussi intervenir dès l’étape de la prise de vue. L’étude de Susan Laxton sur le photomontage surréaliste insiste quant à elle, en s’appuyant sur la théorie freudienne, non pas sur la théorie du montage et de l’appropriation d’éléments trouvés, mais sur ce que l’image composite surréaliste doit aux opérations mentales du mot d’esprit.
D’autres contributions interrogent plutôt la relation entre les compositions photographiques et d’autres formes de production culturelle, à la suite de Matthew Biro, qui a souligné à quel point les pratiques de montage au XIX^e siècle traversent différents médiums : la photographie, la peinture, le théâtre, la littérature, jusqu’aux prémices du cinéma¹⁰. L’article de Sameena Siddiqui inscrit les images photographiques produites dans le contexte des mela ou foires d’Inde du Nord dans une sorte de généalogie alternative du photomontage, et les rapproche de formes traditionnelles d’improvisation théâtrale. Rose Bishop, quant à elle, établit un parallèle fructueux entre les compositions du photographe Gordon Anderson, la culture musicale du bebop et la littérature du mouvement Harlem Renaissance, proposant d’envisager ces images comme des tentatives de traduction visuelle de l’environnement sonore de l’Apollo Theater. Ces deux études portent ainsi sur des objets qui échappent à la catégorie du photomontage telle que construite par l’historiographie des avant-gardes. Pour autant, ces productions n’étant ni véritablement industrielles ni amateur, elles ont un statut complexe, à mi-chemin entre la création populaire et la pratique professionnelle.
La notion d’image composite renvoie donc à un large spectre de pratiques visuelles, qui n’oppose pas catégoriquement le geste de l’auteur, le calcul du producteur et le bricolage du consommateur. Elle permet par exemple de penser simultanément des tactiques d’appropriation de la photographie s’apparentant au « braconnage » culturel décrit par Michel de Certeau, à l’instar des albums de la marquise de Nadaillac décrits par Mathilde Falguière, et des stratégies déployées par les industriels de la communication, dont le cas d’Albert Plécy, étudié par Guillaume Blanc, fournit un exemple atypique. Parler d’image composite permet enfin de contextualiser le montage photographique au sein d’un ensemble de pratiques fondées sur l’appropriation, le découpage et le collage : des albums factices de l’Angleterre victorienne aux « ciseaux et glue » des fanzines punk à la fin du XX^e siècle¹¹, jusqu’à la compilation de fragments caractéristique du blogging et des réseaux sociaux du Web 2.0. En somme, cette catégorie invite à considérer la photographie sous l’angle d’une histoire culturelle et matérielle des médias.

Une histoire culturelle de la manipulation d’images

Cette interrogation sur les usages sociaux des images composites nous incite à détourner notre attention d’une théorie moderniste du montage comme pratique d’avantgarde pour interroger plutôt les gestes, métiers et techniques de l’image reproductible, de façon à évaluer le rôle de la culture de l’imprimé dans l’élaboration de nouvelles formes photographiques¹². Dès 1981, Sally Stein appelait à situer les origines du photomontage dans le contexte du développement de la publicité et des communications de masse¹³. Mais elle critiquait aussi un usage abusif du terme de photomontage, qui, selon elle, conduit à privilégier « la composante esthétique dans les pratiques photographiques ». Ce biais en faveur de l’art est responsable d’une méprise sur la logique sociale et économique « de ces formes innovantes¹⁴ ».

3. « La Sardine qui bouche le port de Marseille », circa 1900, carte postale imprimée en phototypie, 9 x 14 cm. Paris, Collection de Max Bonhomme.

Depuis, l’historiographie a bien mis en évidence le rôle des industries culturelles dans le développement d’une imagerie photographique composite, par exemple dans des domaines comme la publicité et la presse¹⁵, ou comme la carte postale, un médium particulièrement propice aux manipulations photographiques¹⁶ (fig. 3). À partir de l’entre-deux-guerres, directeurs artistiques, maquettistes, graphistes, iconographes et autres « gens d’images » partagent les savoir-faire, les outils techniques et parfois les trajectoires socio-professionnelles des artistes photomonteurs¹⁷. Les archives du graphiste Claude Baillargeon, qui font l’objet ici d’un entretien avec Joseph Chantier et Cécile Tardy, apportent un éclairage supplémentaire sur la place du photomontage dans la pratique des graphistes sur une période plus récente. Le cas de Baillargeon ainsi que celui du graphiste suisse Werner Jeker, discuté dans la même rubrique par Sophie Donche Gay et Manon Saudan, illustrent d’ailleurs le rapprochement entre les métiers de graphiste et de photographe, qui caractérise l’évolution de ces professions entre l’après-guerre et les années 1970¹⁸.
En effet, à la fin des Trente Glorieuses, en Europe et aux États-Unis, la communication visuelle émerge comme un domaine professionnel de plus en plus spécialisé. La multiplication des formations et le développement de la presse professionnelle facilitent l’affirmation d’une culture propre aux métiers du graphisme, ferment de discours théoriques visant à en établir les bonnes pratiques¹⁹. En parallèle, la diffusion de nouvelles techniques d’impression, le déclin de spécialités professionnelles liées à l’industrie du livre, l’essor d’outils de travail électroniques puis numériques, l’apparition de l’ordinateur personnel bouleversent la production des images. Ces conditions, propices à l’expérimentation, incitent en même temps les artistes et designers à revisiter l’histoire du photomontage, parfois dans le cadre d’une esthétique postmoderne reposant sur le pastiche²⁰. Ailleurs, comme chez Claude Baillargeon, ce « retour » au photomontage traduit une adhésion idéologique aux idéaux politiques des avant-gardes historiques et se manifeste par un travail manuel opéré à même les images (fig. 4).

4. David Rainbird, « 9’11’’ », Emigre, n^o 22, 1992, p. 6, 29 x 21,5 cm. San Francisco, Letterform Archive.

À partir de la fin des années 1980 aux États-Unis, ce sont surtout les secteurs de la publicité et du graphisme qui sont alors au plus proche contact des nouveaux outils numériques de retouche photographique et de création et publication assistée par ordinateur (CAO et PAO). Comme l’a signalé Claus Gunti, ces technologies onéreuses ne sont pas encore démocratisées et les industries de l’image sont les premières à y avoir recours²¹. Au cours des décennies 1990 et 2000, ce sont encore elles qui vont servir de moteur au développement de la photomanipulation numérique, suscitant l’émergence d’une nouvelle branche : l’industrie du « contenu visuel », héritière des anciennes banques d’image²², qui produit des photographies par centaines de milliers à seule fin de les vendre aux spécialistes de la communication. L’essor de ce « système de production, de distribution et de consommation d’images²³ » est inséparable de celui du plus répandu des logiciels de création : Adobe Photoshop. En effet, d’après Paul Frosh, les photographies issues de banques d’images (stock photography) constituaient la majorité du « contenu visuel » utilisé par la publicité, le marketing et le webdesign au début des années 2000. La plupart d’entre elles étaient manipulées grâce à Photoshop. En une décennie à peine, ce logiciel est donc devenu une composante hégémonique de la culture visuelle.
Dans un livre publié à l’aube des années 2000, Le Langage des nouveaux médias, Lev Manovich identifiait la « composition » comme opération typique des transformations induites par les outils numériques²⁴. Que ce soit dans l’industrie cinématographique, pour les effets en postproduction, dans la publicité ou l’art, le paradigme postmoderne du compositing succéderait à la logique du montage moderniste. Pour Manovich, les « nouveaux médias » numériques participent aussi d’une logique postmoderne dans la mesure où ce sont des méta-médias qui intègrent dans leurs interfaces l’apparence des médias précédents et les opérations qu’ils permettent. En effet, si Photoshop met en oeuvre des modes de « composition », le logiciel imite les moyens analogiques en vigueur avant l’arrivée des outils numériques : le pinceau, le crayon, la photocopie, les ciseaux, etc. Le principe des « calques », introduit en 1994 et que Manovich présente comme une des caractéristiques propres du software Photoshop²⁵, renvoie en fait aussi à des pratiques anciennes de photocomposition, si l’on songe notamment aux techniques de mise en page des magazines imprimés en héliogravure, qui permettaient la superposition d’images et de textes, en jouant sur des effets de transparence²⁶ (fig. 5).

5. René Zuber, « Les procédés de reproduction graphique : les formes en creux », Arts et métiers graphiques, n^o 14, 1929, p. 834, 31 x 24,5 cm. Paris, Bibliothèque nationale de France.

La diffusion rapide des logiciels de retouche, qui favorisent la confusion entre photographie numérique et image de synthèse, explique sans doute en partie l’angoisse provoquée par la photographie numérique dans les années 1990. Aux yeux du grand public et des annonceurs, comme d’ailleurs des théoriciens de l’image, la retouche et le montage, autrement dit la falsification de l’enregistrement, deviennent alors « un jeu d’enfant ». Le métier de photographe évolue lui aussi et tend à déplacer sa pratique vers ce qu’on appelle désormais la « postproduction²⁷ ». Depuis, la recherche en histoire de la photographie a cependant déconstruit le « mythe » d’une photographie « sans retouche » qui aurait précédé le numérique, pour insister au contraire sur la longue histoire de la manipulation des images photographiques²⁸, que viennent encore enrichir les articles du présent dossier.

Du texte à l’image et vice-versa

Un autre aspect crucial pour l’histoire et l’actualité des images composites est l’étroite relation qu’elles établissent entre l’image et le texte. À ce propos, rappelons que pour le théoricien soviétique Sergeï Tretiakov, le photomontage se définissait plus par l’interaction texte-image que par la combinaison de fragments photographiques : « Il faut bien remarquer qu’un photomontage n’a pas besoin d’être nécessairement un montage de photos. Non, il peut aussi bien être photo et texte, photo et couleur, photo et dessin. […] Si la photographie, soumise à l’influence du texte, n’exprime plus seulement ce fait-là qu’elle montre, mais le contenu social du fait, alors elle est déjà photomontage²⁹. »
La culture des mèmes, aujourd’hui florissante sur Internet, correspond par biens des aspects aux objectifs que Tretiakov assignait au photomontage. Emprunté au biologiste Richard Dawkins, qui cherchait à étudier la reproduction des contenus culturels sur le modèle de la génétique et de la théorie de l’évolution³⁰, le terme de « mème » en est venu à désigner, dans le jargon d’Internet, des contenus (texte, image, vidéo ou combinaison de ces éléments) généralement humoristiques, qui se prêtent à de multiples réitérations et variantes³¹. Cultivant une ironie mordante, un mode de diffusion viral et une pratique subversive de l’appropriation, les mèmes d’Internet peuvent être considérés comme les dignes descendants du photomontage politique qui se développe dans l’entre-deux-guerres³² (fig. 6). Mais si la photographie y est très présente, elle n’en est pas non plus une condition nécessaire. Il faut donc s’interroger sur la fluidité des frontières entre l’image graphique et l’image photographique au sein de ce mode de communication visuelle. Comme l’a montré Limor Shifman, la satire et l’ironie des mèmes à composante photographique prennent notamment pour cible la théâtralité de la photographie de presse – dont les ficelles sont ainsi dévoilées, comme celle des images de stock³³. La pratique des mèmes témoignerait ainsi d’une conscience aiguë de l’image comme construction, mettant à mal les prétentions à l’objectivité de la photographie. En même temps, une grande partie de ces images composites bénéficie des « accidents » photographiques, ou du moins de l’enregistrement non intentionnel de certaines formes expressives (expressions de visages, gestes) qui deviennent la base, le canevas (template) pour de futures itérations du mème.

6. « Gentrification : artistes, loyer bon marché », mème publié par freeze_magazine sur Instagram, 28 août 2022.

Au-delà des enjeux de la co-présence du texte et de l’image dans un même cadre, l’histoire des images composites interroge également la possibilité d’une traduction du texte en image, comme si les différents éléments assemblés pour réaliser une image composite jouaient le rôle de signes linguistiques. Dans l’entre-deux-guerres, les discours sur le photomontage d’avant-garde soutenaient déjà l’idée d’une équivalence entre l’image et le langage. En 1930, le critique d’art Waldemar-George en parlait comme d’un « dialecte mnémonique », une « mosaïque d’emblèmes figuratifs »³⁴. Le photomontage politique notamment, dans la continuité du dessin de presse, s’est beaucoup appuyé sur les effets de décalage que produit la traduction littérale d’une expression verbale en image visuelle (fig. 7). Cet aspect a été souligné par plusieurs commentateurs de l’oeuvre de John Heartfield, dont Günther Anders, pour qui le photomonteur « traduit […] les mensonges, les phrases et les métaphores en images pour les mener ad absurdum, grâce à une matérialisation saturée d’évidence³⁵ ». Rendre visibles les figures du discours, c’est produire des images d’autant plus frappantes qu’elles s’écartent de la représentation naturaliste, de même que les figures de rhétorique produisent un écart par rapport à l’énonciation ordinaire. Dans le cas du photomontage s’instaure donc une tension entre la prétention naturaliste du médium et la propension allégorique des images composites générées : le procédé incite à lire les photographies comme autre chose que ce qu’elles dénotent. Dans les opérations du montage surréaliste, explorées dans ce dossier par Susan Laxton, on trouve certaines caractéristiques du mot d’esprit identifiées par Freud (condensation, déplacement), qui témoignent de cette correspondance entre visuel et verbal.

7. John Heartfield, « Hourrah, il n’y a plus de beurre ! Goering dans son discours de Hambourg : ‹ Le minerai a toujours fait un empire fort, le beurre et le saindoux ont tout au plus fait grossir le peuple › », photomontage publié dans Arbeiter Illustrierte Zeitung, vol. 14, n^o 51, 19 décembre 1935, 38 x 27 cm. Berlin, Akademie der Künste, Art Collection.

Alors même que l’approche théorique des images qui s’est développée depuis les années 1980-1990 (visual studies et Bildwissenschaft) s’était fondée sur l’idée d’un « tournant iconique », récusant toute réduction de l’image à son équivalent linguistique³⁶, la correspondance entre texte et image prend une nouvelle importance dans l’économie des images numériques. Faut-il considérer que la génération automatique d’images à partir d’un prompt textuel donne tort aux théoriciens de la spécificité iconique ? De fait, l’efficacité de modèles comme DALL-E ou Stable Diffusion repose essentiellement sur les bases de données à partir desquelles ils sont entraînés, et donc sur une indexation en masse d’images associées à des mots clés. C’est véritablement l’utopie d’une stricte équivalence entre texte et image qui semble refaire surface, alors même que, comme le montre Guillaume Blanc dans son article, les tentatives pour établir une sémiotique des images, dans les années 1960-1970, s’étaient heurtées à l’impossibilité de décomposer une image en une suite d’éléments discrets, c’est-à-dire discontinus, sur le modèle du langage.
À l’heure actuelle, le principal obstacle au développement des images générées par intelligence artificielle tient justement à leur dépendance vis-à-vis des politiques d’indexation. En effet, les réseaux de neurones supposent d’être entraînés sur des datasets, des bases de données associant des images et leurs légendes. Or, ce couplage du texte et de l’image – très normalisé dans le cas des images de stock – reste soumis à une multitude d’inflexions culturelles, idéologiques et politiques, comme l’ont bien mis en évidence Kate Crawford et Trevor Paglen³⁷. Dans la mesure où le choix des termes adéquats pour indexer une image reste dépendant de décisions humaines, l’idée d’une génération visuelle purement automatique ou « machinique » relève encore du mythe.

Images composites et données statistiques

Avec tout ce qu’il comporte de ludique et d’absurde parfois, le principe algorithmique mis en oeuvre aujourd’hui dans la production automatisée d’images composites nous confronte en outre à un changement profond : la domination de la statistique³⁸. Si la composition d’images à partir de fragments photographiques consistait peu ou prou à identifier et agencer des fragments d’images pour leur caractère sémantique ou formel, les IA fondées sur le deep learning raisonnent par effet de proximité sans elles-mêmes reconnaître ou modéliser des formes. C’est un des thèmes de l’entretien mené avec Grégory Chatonsky et Antonio Somaini. Dans un corpus défini par un mot clé, tel pixel, selon sa position dans l’image, a tant de chance de se trouver à côté de tel autre pixel. C’est ainsi par pur calcul de probabilité que l’ordinateur parvient à produire des images dont les humains reconnaîtront les sujets. À aucun moment de la chaîne de production algorithmique n’intervient une définition mathématique des formes. Pas de reconnaissance, donc, mais seulement un calcul pixel par pixel. Du moins est-ce ainsi que fonctionne DALL-E. On est loin des images de synthèse produites pour l’industrie du cinéma depuis les années 1990, qui mobilisent des outils de modélisation capables de produire des formes vectorielles et de les mettre en mouvement. En comparaison de ces outils vectoriels, les réseaux de neurones semblent donc consacrer le triomphe de l’arithmétique sur la géométrie dans l’imaginaire de l’artiste-ingénieur, en rupture avec une tradition véhiculée depuis l’époque du constructivisme.
Cette hégémonie de la statistique explique la place dévolue dans ce numéro à Francis Galton, auquel Bernd Stiegler consacre un article. Personnage lié aux sombres idéologies de l’histoire contemporaine, obsédé par la moyenne sociale et la définition du génie du point de vue psychologique et racial, Galton fut anthropologue de son métier et un militant de la statistique. L’invention de la photographie composite, ainsi qu’il l’a lui-même dénommée, peut ainsi apparaître marginale dans les recherches du père de l’eugénisme³⁹, mais elle ne fait pas moins ressortir deux aspects fondamentaux de la culture scientifique de la fin du XIX^e siècle : l’importance du visuel dans les outils et méthodes des sciences dites « humaines » comme l’anthropologie, la démographie ou même la psychologie⁴⁰ et l’application du calcul de la moyenne à la photographie. L’image de synthèse produite par la superposition des négatifs – ou la division du temps d’exposition de chaque négatif exposé successivement – prétend correspondre au calcul d’une moyenne. Par ce biais, la photographie composite de Galton propose pour chaque catégorie prédéfinie un type moyen de visage humain. La popularité du procédé employé à l’envi par des usagers plus ou moins sérieux est révélatrice d’une fascination souterraine pour la moyenne visuelle. On ne compte plus les anthropologues et les artistes qui l’ont employé, dénonçant parfois, comme c’est le cas de Thomas Ruff, l’usage des technologies informatiques dans les méthodes de recherche de la police. Ses Autres portraits, conçus en 1992, utilisent le Minolta Montage Unit, que la police criminelle allemande employait dans les années 1990. L’appareil est doté d’une optique à miroirs permettant de superposer les caractéristiques physiques de plusieurs visages afin de générer des portraits-robots. Ruff détourne la technologie pour fabriquer des portraits composites à partir de ses propres photographies⁴¹ (fig. 8).

8. Thomas Ruff, Autres Portraits n^o 71/65, 1994, sérigraphie, 73 x 56 cm.

De la moyenne à la probabilité, le pas est vite franchi. Ce sont les ressemblances, dans un corpus défini par un mot clé, qui vont fournir la base d’une nouvelle composition. Là où Galton percevait la possibilité d’une production du type social ou racial, l’algorithme offre aujourd’hui de créer des images en nombre infini répondant à des prompts. L’exercice consiste désormais à jouer avec les limites de l’apprentissage automatisé en convoquant des associations improbables, qui nous feront sortir de la norme au profit de ce que Grégory Chatonsky appelle l’« imagination artificielle », autrement dit la capacité de la machine à inventer des formes nouvelles. Joan Fontcuberta et Pilar Rosado s’y sont récemment prêtés en déformant certains stéréotypes pittoresques grâce à des IA (fig. 9) : les cartes postales issues des collections des Franciscaines de Deauville sont passées à travers des réseaux de neurones génératifs qui les transforment. L’étonnant n’est pas de voir apparaître des imperfections, du glitch sur l’image, mais plutôt qu’à partir d’un calcul statistique puisse naître une forme reconnaissable par l’oeil humain. Devant cette forme instable, qui n’existe que par un procédé sensible à la moindre variation du corpus d’origine, l’oeil identifie des éléments. L’image composite n’est photographique ni par son origine indexicale ni par son mode de production, mais uniquement par destination.

9. Joan Fontcuberta et Pilar Rosado, série Déjà vu, 2022, image générée par réseaux de neurones à partir de cartes postales.

Ce numéro est consacré à l’histoire des manipulations photographiques d’où résultent des images hybrides, composées de plusieurs photographies ou mêlant la photographie à d’autres techniques d’imagerie. À la suite de récents travaux interrogeant l’histoire du photomontage sur le temps long, du XIX^e siècle à la culture numérique actuelle, ce numéro propose une histoire parallèle de la photographie : une histoire dans laquelle la composition prime sur l’enregistrement.

Max Bonhomme est docteur en histoire de l’art. Il a consacré sa thèse aux usages politiques du photomontage dans la France des années 1930. Ses recherches actuelles portent sur l’histoire sociale du design graphique au début du XX^e siècle.
Christian Joschke est professeur (HDR) à l’École des Beaux-Arts de Paris et co-rédacteur-en-chef de la revue Transbordeur. Photographie histoire société.
Laura Truxa est doctorante à l’EHESS. Ses recherches concernent l’histoire de la production des images publicitaires destinées aux magazines français et étasuniens des années 1950 et 1960.

Mots clés : photographie composite, photomontage, manipulation, retouche, intelligence artificielle, design graphique

Référence : Max Bonhomme, Christian Joschke, Laura Truxa, « Introduction. Une généalogie des images composites », Transbordeur. Photographie histoire société, n^o 7, 2023, pp. 6-17.