Black Box e Frontiera Frastagliata: qualche punto di attenzione sul tema dell’AI

Qualche giorno fa leggevo il post di un collega in cui ripresentava un suo storico lavoro svolto con Grasshopper e dichiarava che non avrebbe mai e poi mai utilizzato motori di Intelligenza Artificiale generativa per raggiungere un simile obiettivo. Si trattava di Francesco Giordano e potete leggere il suo contributo originale qui. Naturalmente il post […]

Qualche giorno fa leggevo il post di un collega in cui ripresentava un suo storico lavoro svolto con Grasshopper e dichiarava che non avrebbe mai e poi mai utilizzato motori di Intelligenza Artificiale generativa per raggiungere un simile obiettivo. Si trattava di Francesco Giordano e potete leggere il suo contributo originale qui. Naturalmente il post ha ricevuto le consuete risposte riguardo all’accelerazione della tecnologia, alla necessità di abbracciare il cambiamento e al fatto che le novità spaventano sempre.

Non dico che non sia vero.

Esistono però alcune caratteristiche fondanti che rendono diversa l’Intelligenza Artificiale da molte delle innovazioni che abbiamo sperimentato e introdotto nel settore delle costruzioni e che in questa congiuntura rendono pericoloso il positivismo tecnologico tout court quindi, se mi consentite, proverò a metterne alcune sul tavolo. E anche se non me lo consentite.

1. La Black Box

La prima caratteristica divergente, e forse quella principale, è legata al concetto di Black Box, scatola nera, per utilizzare un termine coniato da Ross Ashby (1956) e Norbert Wiener (1961).
Wiener in particolare definiva una tecnologia “Black Box” come un meccanismo, un organismo o una tecnologia il cui funzionamento non è dato né sapere né investigare. Vediamo gli input entrare riceviamo degli output in risposta. Il suo creatore non può o non vuole rivelarne il funzionamento interno, al contrario di quanto avviene nella cosiddetta White o Clear Box, caratterizzata da meccanismi di elaborazione trasparenti e dichiarati.

Come ben espresso già nel 2016 da Jenna Burrell nel suo cardinale How the machine ‘thinks’: Understanding opacity in machine learning algorithms, l’opacità delle Black Box può essere ricondotta a tre motivi principali:

  1. l’azienda o l’organizzazione che gestisce la “scatola” ne mantiene intenzionamente nascosti i meccanismi, per motivi che possono andare dalla sicurezza (reale o predicata) alla volontà di mantenere un vantaggio competitivo, fino a motivazioni direttamente legate a foul play;
  2. l’osservatore è tecnologicamente illetterato o non sufficientemente formato da comprendere il meccanismo che osserva (e si badi bene come anche questo scenario rimane un problema, quando ad esempio determina disuguaglianza tra i cittadini rispetto al servizio pubblico);
  3. l’opacità è insita nella tecnologia, per sua stessa natura o per via della scala su cui deve operare.

Poco sorprendentemente, gli strumenti generativi di intelligenza artificiale presentano tutte e tre queste opacità.

Ma perché?

Partiamo dalla più semplice, ovvero la terza: cosa rende i modelli di linguaggio intrinsecamente opachi?
Principalmente la dimensione dei dati di cui hanno bisogno per operare.

Non c’è nulla di misterioso nel modo in cui operano i Modelli di Linguaggio: nel caso di OpenAI, ad esempio, si tratta solamente di una mappa che mette in relazione tutte le parole che sono riusciti a trovare con circa 100 trilioni di parametri. Il modello procede per associazione, individuando nuvole di concetti simili e mettendo le parole in fila per formare questi concetti secondo delle regole linguistiche che ha dedotto osservando l’utilizzo simile di quelle stesse parole fatto all’interno del suo dataset. Più o meno.

Il problema non è prevedere il modo in cui il sistema andrà ad investigare queste correlazioni: esistono tecniche avanzate per fornire istruzioni precise, oggi chiamate prompt engineering perché alla gente piace sentirsi ingegnere, e consentono di indirizzare il sistema a non divagare su informazioni scorrette, ad attenersi nei margini di specifiche correlazioni, ad appoggiarsi a motori esterni o integrati per effettuare calcoli. I modelli di linguaggio fanno schifo a fare i calcoli perché la loro specializzazione sono le parole, un po’ come me.

Il problema è che le correlazioni esistenti sono troppe e, per definizione, un sistema che genera correlazioni a me note perde la sua utilità. L’intelligenza artificiale è utile quando ci propone e ci mostra correlazioni inaspettate, avvicinandosi il più possibile a quello che in un umano viene definito pensiero originale.

Le specificità di questo funzionamento non sono ben comunicate né dal sistema stesso (riportandoci all’opacità di prima categoria) né dai ragionamenti che vengono effettuati lato consumatore (facendoci ricadere nel problema 2). Sistemi tanto intuitivi, che sembrano fornire risultati senza la necessità di una formazione tecnica, dovrebbero sempre suscitare il nostro sospetto.

Per vostra informazione, vi segnalo che dal 2012 alcuni ricercatori hanno spinto per l’affermazione di un modello chiamato Explainable AI, ovvero un sistema di machine learning che consenta all’umano di mantenere controllo intellettuale sull’operato della macchina. Purtroppo questo ha fin’ora necessitato una riduzione di scala, che come abbiamo visto è necessaria per mantenere trasparenti i processi, e questo rende lo strumento meno appetibile rispetto agli “oracoli” di OpenAI, Microsoft e Google, che sputano verità apparenti e, salvo un settaggio accurato da parte dell’utente, non ammettono mai di non avere fonti per pronunciarsi.

E quindi?

Ecco quindi una prima differenza tra il nostro motore di computational design e un motore generativo basato sull’Intelligenza Artificiale: nel primo caso, il designer definiva gli input e codificava i passaggi, incluse le variabili rispetto alle quali portare avanti eventuali iterazioni migliorative, e valutava un risultato la cui qualità era direttamente collegata agli input e al procedimento impostato. Le galline andavano dentro, i pasticci venivano fuori.
In questo caso, la macchina per fare pasticci è stata fabbricata da Apple e non è possibile aprirla. Noi lanciamo dentro le nostre galline (i prompt) e poi dobbiamo effettuare verifiche accurate sul tipo di pasticci che usciranno dalla macchina, eventualmente provando a lanciare galline diverse, ma il risultato è solo parzialmente legato all’input e alcune delle sue caratteristiche vengono generate da meccanismi misteriosi, spesso difficili se non impossibili da replicare.
Nemmeno i programmatori del sistema possono dire esattamente cosa stia succedendo al suo interno.
Il problema in altre parole non è tanto quello del controllo, che può essere mitigato, ma quello del controllo legato alla replicabilità del risultato.

 

Se non avete colto il riferimento, mi seguite da poco tempo.

 

2. La “Frontiera Frastagliata”

I modelli di linguaggio non sono capaci di fare i calcoli. L’ho detto prima e chiaramente si tratta di un’affermazione un po’ forte e non del tutto veritiera: la nuova versione implementata da OpenAI integra un sistema dedicato che entra in gioco quando sollecito un risultato che sembra richiedere operazioni matematiche, ed è comunque possibile guidare il sistema integrando l’istruzione di calcolo all’interno del prompt, ma il fatto rimane. Gli utenti si approcciano a ChatGPT e Midjourney come se si trattasse di Artificial general intelligence (AGI), in italiano Intelligenza Artificiale Forte, ovvero di un sistema generalista e multidisciplinare in grado di offrire la stessa performance per una pluralità di compiti.

Non è assolutamente così: la frontiera delle capacità di un’intelligenza artificiale attuale è frastagliata e questo significa che risponde in modo assai diverso di fronte ad attività apparentemente allo stesso livello di difficoltà.

Il grafico è tratto dalla ricerca empirica svolta sul campo dalla Harvard Business School nel 2023 e lo trovate qui.

 

E quindi?

Alcuni compiti potrebbero essere più difficili da svolgere rispetto ad altri e – indovinate? – potrebbero essere proprio quelli di cui avete bisogno voi.
Uno per tutti: Midjourney non ha competenze tridimensionali, non costruisce gli ambienti per poi restituirne l’inquadramento in una scena come invece farebbe un renderista (all’interno del suo software) oppure un disegnatore (all’interno della sua testa), quindi per favore smettetela di chiedergli di fare da zero i rendering per i vostri progetti di architettura. Non posso più vedere prospettive distorte che farebbero invidia a Dalì, scale che non vanno da nessuna parte come uno studente al primo anno di università, corridoi che sarebbero stretti per un cortonsionista. Sono cose che avvengono già normalmente nei vostri progetti senza bisogno di scomodare l’intelligenza artificiale.

 

3. La perdita di contatto con l’autore

“Autorialità” è un termine che si sente spesso in architettura e che ho sentito milioni di volte in obiezione al computationald design e/o agli strumenti di modellazione informativa, come se l’uso di Revit o Archicad implicasse l’inserimento di un pilota automatico che in totale autonomia si mette a modellare l’edificio senza il mio controllo. Che uno strumento possa influenzare l’estetica è fatto assodato, di cui ho parlato fino allo sfinimento negli anni addietro, ma quest’influenza passa sempre attraverso una decisione del singolo. Uno strumento o una tecnologia che mi consenta di esplorare nuove forme non mi obbliga a farlo.

Nel caso dell’Intelligenza Artificiale, il tema è più complesso. Dato per scontato che i nostri prodotti esistano per ingaggiare l’utente finale in un dialogo, l’estetica ci insegna che questo dialogo può avvenire tra due tipi di autore: un autore reale, ovvero quello che materialmente ha prodotto l’output, e un autore implicito o inferito, ovvero l’idea che l’osservatore si forma autonomamente dell’autore tramite ciò che sta osservando.

“Pur sapendo che un [prodotto] è stato generato artificialmente,
potremmo comunque confrontarci con il suo autore implicito,
immergendoci in ciò che ha da dire.”
— Lev Manovich ed Emanuele Arielli, Artificial Esthetics: A Critical Guide to AI, Media and Design

Il testo artistico, come viene spiegato egregiamente e concisamente qui, ha una sua autonomia dall’autore reale. Questa autonomia aumenta se si aggiunge un filtro, come ad esempio accade quando il testo contiene un autore fittizio.

La domanda che dobbiamo porci a questo punto è… con chi diavolo sta parlando il mio cliente quando il mio concept di progetto contiene elementi estetici prodotti da un’intelligenza artificiale? Sta parlando con me oppure la mia voce è così tanto diluita nella nuova estetica da trasformare la mia visualizzazione di progetto, ad esempio, in un prodotto dal valore puramente edònico, come potrebbe essere il motivo geometrico su una carta da parati, ovvero un prodotto che non richiede interpretazione complessa, simbolica e/o culturale, né presuppone che il suo creatore vi abbia instillato significati o messaggi?

È davvero possibile fare un ragionamento sul progetto a partire da questo, oppure si tratta di uno stimolo puramente estetico, volto a spostare il dialogo sulla sfera emotiva anziché funzionale?

In questo caso, la perdita di contatto con l’autore implica una perdita di valore del prodotto, che diventa probabilmente adatto a essere assemblato in una moodboard ma totalmente inadatto per stimolare un dialogo efficiente orientato al migliore allineamento del progetto con le esigenze funzionali del cliente. Stiamo producendo rumore visivo per riempire una pagina.

 

4. D’accordo… e quindi andiamo a casa?

Abbiamo appurato di non poter affidare all’Intelligenza Artificiale compiti sui quali non siamo formati, perché dobbiamo essere in grado di verificare il risultato con un livello di analisi che è addirittura superiore al normale. E mai, mai, e poi mai potete affidargli qualcosa per cui avreste pagato un professionista terzo.
Abbiamo appurato anche quanto possa essere rischioso affidargli qualcosa su cui siamo esperti, perché si tratta probabilmente di attività nel nostro core business e rischiamo di perdere sia il nostro valore aggiunto (quello per cui i clienti mi pagano) che il dialogo con il cliente stesso.

E quindi per cosa possiamo usare l’intelligenza artificiale?
A mio parere, una delle applicazioni riguarda quello che in teoria sapremmo anche fare, ma in questo momento non vogliamo fare.

La tecnologia è il rifugio dei pigri.

Tra i commenti al post di Francesco Giordano, mi trovo particolarmente d’accordo con Luigi Sanna (questo il suo commento), che ha scherzosamente scritto: “90% of the time it is actually useful for screening out what I shouldn’t be doing“, ovvero il 90% delle volte [Stable Diffusion] è utile per togliermi da tavolo quello che non dovrei comunque star facendo. Parlava in particolare della definizione di finiture in una fase del progetto che non è ancora uscita dalla definizione delle forme.

Nella mia esperienza, questo è molto vero: le attività per cui ho usato l’intelligenza artificiale con successo sono attività a somma zero, ovvero tutti quei lavori di rielaborazione che la nostra industria ci richiede ma di fatto sono una perdita di tempo oppure utili solo se associati a fasi differenti del processo rispetto a quella in cui ci troviamo. Non gli chiederei mai di scrivermi un articolo o un libro. Ma elaborare dati in forma discorsiva perché ho un manager viziato che è allergico alle tabelle? Non potendo percuotere il manager con il mio laptop, non vedo perché no. Il mio valore aggiunto nell’attività è sempre stato molto vicino allo zero. È tempo che lo diventi anche il mio sforzo.

Corollario: questa applicazione è insostenibile

Probabilmente state pensando: ma non sarebbe meglio resistere, anziché acconsentire a svolgere compiti che generano ulteriore entropia in un settore già compromesso da gravi problemi di insostenibilità? Certo, sarebbe meglio. Specialmente considerato gli ultimi dati sul consumo energetico dei modelli di linguaggio. Ogni conversazione con ChatGPT consuma una mezza bottiglietta d’acqua, e il solo addestramento di ChatGPT 3.0 ha prodotto 25 tonnellate di CO2, pari a circa 300 viaggi di andata e ritorno in aereo da New York a Parigi.

Non è poi così tanto, ma io preferirei andare a Parigi, finché posso.

E quindi?

E quindi il prossimo giovedì 16 maggio alle ore 18.00 mi troverete sui canali di Forma Mentis in conversazione con Andrea Pagliaricci, ricercatore al dipartimento di Computer Science, Bioengineering, Robotics e Systems Engineering dell’Università di Genova: parleremo di questi e altri temi relativi all’Intelligenza Artificiale, e vedremo insieme qualche applicazione utile, etica e sostenibile, almeno per i fattori che sono all’interno del nostro controllo.

One Comment

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.