Lab Notes / V.1

Ricerca applicata,
documentata in pubblico.

Osservazioni di campo dallo studio. Studio Futuro pubblica ipotesi, esperimenti e risultati misurabili provenienti dalla pratica con clienti enterprise. La funzione di ricerca è parte integrante del posizionamento e la documentazione resta aperta.

Note / 01·Apr 2026·Studio Futuro Lab·Agentic

Superpowers e il plugin ecosystem come standard operativo

Sei settimane di adozione del plugin Superpowers di Jesse Vincent, in combinazione con dodici skill proprietarie (brainstorming, TDD, debugging sistematico, code review, documentazione), hanno modificato il workflow operativo dello studio. Le skill si attivano in modo contestuale, sostituendo prompt statici di ampie dimensioni. Misurazioni su task ricorrenti: −38% di consumo token, −22% di iterazioni prima del merge.

Takeaway

Le skill rappresentano per gli agenti di coding ciò che le funzioni pure rappresentano per il codice: componibili, testabili, versionabili. Un pattern ripetuto tre volte va estratto. Il prompt engineering monolitico cede il passo a librerie di comportamento.

Note / 02·Apr 2026·Studio Futuro Lab·Agentic

Router semantico per agenti specializzati

L'architettura a singolo agente generalista è stata sostituita da sette agenti specializzati (frontend, backend, SQL, testing, security, documentazione, review) orchestrati tramite un classifier Haiku. Su 300 task reali di clienti, il routing seleziona l'agente corretto nel 91% dei casi; valutazione cieca della qualità output +23%, costo totale −31%. Il costo del classifier resta inferiore a un decimo del lavoro smistato.

Takeaway

Un modello compatto e veloce che instrada al modello specialistico supera un modello esteso che opera da solista. Il model-tiering — Haiku per il routing, Sonnet per l'esecuzione — costituisce il pattern di riferimento per workload di produzione.

Note / 03·Apr 2026·Studio Futuro·DevOps

Skill DevOps per l'automazione di processi aziendali

Un cliente presentava un onboarding nuovo tenant articolato in sette passaggi manuali: provisioning, DNS, CRM, billing, notifica team, primo deploy, welcome email. L'implementazione di una skill composta orchestra l'intera catena in quattro minuti. Su 80 onboarding reali: zero errori, −94% di tempo operazionale, tracciabilità completa su git.

Takeaway

Le skill non sono un artefatto rivolto ai soli sviluppatori. Definiscono un nuovo formato per le procedure aziendali: leggibili da un operatore, eseguibili da un agente, versionate come codice. Ogni processo ripetitivo interno è una skill in attesa di formalizzazione.

Note / 04·Apr 2026·Studio Futuro·Product

Quack 2: l'agent router come prodotto

Quack 2 è stato reso disponibile al pubblico dopo cinque mesi di uso interno. L'elemento distintivo della release: l'agent router non è più nascosto, costituisce il fulcro dell'interfaccia. L'utente osserva in tempo reale le decisioni di routing — verso Claude, verso Mistral locale, verso un agente specialistico. Trasparenza esplicita sulle scelte dell'orchestratore.

Takeaway

Occultare il processo decisionale dell'agente non costituisce più un vantaggio di prodotto: genera debito di fiducia. L'utente enterprise richiede comprensione delle decisioni, non semplice esecuzione. Il routing esposto definisce un nuovo paradigma UX per gli strumenti AI.

Note / 05·Mar 2026·Studio Futuro Lab·Agentic

Quack Brain: il grafo di conoscenza alimentato dagli agenti

Gli agenti operanti all'interno di Quack leggono e scrivono il Second Brain condiviso in ogni sessione: gotcha, pattern, decisioni, diario di progetto. A tre mesi dal rilascio, il grafo conta 1.847 nodi interconnessi. Metriche osservate: −58% di errori ricorrenti, −41% di domande ripetute verso l'utente. La memorizzazione è selettiva, non esaustiva.

Takeaway

La memoria degli agenti non coincide con un vector database riempito passivamente. Consiste in scrittura deliberata: regole, gotcha, decisioni, breadcrumb nel codice. Un agente che riconosce cosa non ricordare supera in utilità un agente che memorizza tutto.

Note / 06·Mar 2026·Studio Futuro·Research

LLM locali per workload ripetitivi enterprise

Deployment in produzione di Mistral 7B e Qwen 2.5 7B su GPU A10G on-prem per classificazione documenti, estrazione dati strutturati e stesura bozze interne. Qualità osservata pari al 92% rispetto a Sonnet 4.6 su questi workload specifici, latenza −65%, costo per milione di token ridotto da 3,10€ a 0,12€. I task di ragionamento complesso restano instradati alla frontier API.

Takeaway

Il dibattito open vs closed è superato dal paradigma hybrid routing. I workload ripetitivi ad alto volume risiedono on-prem o in self-hosting, il ragionamento profondo resta sulle frontier API. La questione rilevante è dove tracciare il confine, non quale modello domini.

Note / 07·Mar 2026·Studio Futuro·Agentic

Orchestrazione di agenti Claude Code in parallelo

Sperimentazione di cinque sessioni Claude Code simultanee su task indipendenti del medesimo repository. Risultato misurato: 3.7× più veloce rispetto alla sessione singola, con un 12% di rework imputabile a conflitti di stato. Il collo di bottiglia non risiede nel modello ma nel design del task split.

Takeaway

La parallelizzazione di agenti produce valore solo in presenza di task realmente indipendenti. Il file-level locking naive risulta inadeguato; occorre orchestrazione semantica basata sui domini funzionali coinvolti.

Note / 08·Feb 2026·Studio Futuro·Philosophy

Dalla vibe coding all'agentic coding: fine di un'epoca

La modalità vibe coding — chat rapida, iterazioni veloci, shipping immediato — non soddisfa i requisiti dei task di produzione. Il lavoro serio richiede disciplina strutturata: brief formalizzato, piano, test, review, diario. La transizione da magia a ingegneria separa i team che utilizzano AI dai team che producono valore con AI.

Takeaway

L'AI non elimina il mestiere, lo ricolloca. Il professionista di nuova generazione definisce meglio problemi, struttura meglio contesti, verifica meglio output. L'AI amplifica la progettualità, non l'improvvisazione.

Note / 09·Feb 2026·Studio Futuro·Agentic

Team di agenti: il passaggio da scrittura a consegna

Adozione delle capacità multi-agent team di Opus 4.6 per la riscrittura di tre feature di un gestionale enterprise. Il team comprende quattro agenti: planner, backend, frontend, reviewer. Velocità 2.8× superiore rispetto al singolo agente; più rilevante, codice merge-ready al primo giro. Il ciclo scrittura-revisione è endogeno al team.

Takeaway

Un agente che scrive senza peer review produce codice mediocre. Un team di agenti in peer review reciproca produce codice pronto al merge. La peer review è diventata una funzione di sistema, non più un ruolo esclusivamente umano.

Note / 10·Feb 2026·Studio Futuro Lab·Agentic

Second Brain per agenti AI: riduzione degli errori ricorrenti

Formalizzazione del Second Brain per agenti: ogni sessione si apre con la lettura di gotcha e pattern di progetto, ogni sessione si chiude scrivendo le scoperte nel diario. Su sei progetti clienti in produzione: −63% di bug noti che riemergono, −40% di onboarding time per nuovi agenti sul progetto. Questo componente costituisce il nucleo di Quack Brain.

Takeaway

In assenza di memoria condivisa persistente, ogni sessione AI riparte da zero. In sua presenza, il progetto acquisisce memoria storica e gli agenti cessano di ripetere errori già risolti. Il Second Brain definisce la soglia tra prototipazione e produzione.

Note / 11·Feb 2026·Studio Futuro·Engineering

Refactoring automatizzato su 40k LOC

Esperimento interno: richiesta a Claude di ridurre un gestionale legacy da 40k a ~25k LOC mantenendo la test suite invariata. Sette giorni di wall-time, 38% di riduzione, zero test falliti. Il modello non ha riscritto il codice: ha rimosso con confidenza.

Takeaway

L'AI risulta inefficace nella riscrittura da zero. Eccelle nella rimozione di codice morto in presenza di un test harness solido. La leva è la test coverage, non il modello.

Note / 12·Feb 2026·Studio Futuro·Workflow

Project Groups: configurazione sottoutilizzata, ritorno immediato

Una feature di Claude Code raramente sfruttata: il raggruppamento di progetti correlati con contesto condiviso. Su un monorepo cliente composto da quattro servizi, l'attivazione del context sharing tra sessioni ha eliminato la duplicazione di architettura nei prompt. L'agente opera con conoscenza simultanea di tutti i servizi. Produttività raddoppiata in una settimana.

Takeaway

Numerose ottimizzazioni AI non risiedono nel modello ma nella configurazione del tool. I Project Groups esistono da mesi ma l'adozione resta limitata. La lettura sistematica dei changelog, inclusi quelli secondari, rappresenta un vantaggio competitivo sottostimato.

Note / 13·Gen 2026·Studio Futuro·Product

Quack: apertura della beta pubblica

Dopo due mesi di uso privato, Quack è stato aperto a quaranta beta tester selezionati. Obiettivo: validare la tenuta del modello Visual IDE + multi-agent + local routing al di fuori dello studio. Esito positivo sulla proposition, con necessità di semplificazione UX. I nuovi utenti richiedono un punto di ingresso immediato prima di accedere ai router sottostanti.

Takeaway

Un prodotto validato internamente non è necessariamente validato per il mercato. Ciò che appare ovvio al team è la prima richiesta dei beta tester. La beta serve a disimparare la competenza implicita interna.

Note / 14·Gen 2026·Studio Futuro·Engineering

Limiti dei piani Claude Code e strategia di fallback cost-aware

Il workflow agentico dello studio aveva iniziato a sforare il limite Claude Code settimanale. Valutazione sistematica di provider alternativi per task non critici: DeepSeek, Kimi, Qwen attraverso gateway unificato. Su analisi e documentazione, quality parity superiore all'85% rispetto a Sonnet con costo ridotto a 1/12. Il cost-aware routing è ora componente stabile della pipeline.

Takeaway

La fedeltà a un singolo provider costituisce un lusso, il cost-aware routing una necessità operativa. La selezione del modello appropriato al singolo task supera in rilevanza la selezione del miglior modello in assoluto.

Note / 15·Gen 2026·Studio Futuro Lab·Research

Benchmark LLM su italiano tecnico enterprise

Costruzione di un dataset di 240 prompt tecnici in italiano — domini fiscale, logistico, normativo — e valutazione su 6 modelli. La classe Claude Sonnet e GPT-4 guida la classifica; i modelli open-source mostrano difficoltà su terminologia tecnica e sfumature legali.

Takeaway

Per l'italiano tecnico enterprise, il divario open vs closed resta rilevante. Su progetti sensibili, un LLM commerciale con DPA chiaro supera in affidabilità un self-hosting immaturo.

Note / 16·Dic 2025·Studio Futuro Lab·Research

Eval pipeline: dalla revisione visuale alla valutazione strutturata

Il volume di output agentico ha superato la capacità di revisione manuale. Implementazione di una eval pipeline: 120 task reali, rubrica a 8 criteri, secondo agente in ruolo di giudice. Ogni nuova skill o nuovo modello transita dalla pipeline prima del deployment. Tempo di valutazione ridotto da due ore a dodici minuti.

Takeaway

All'aumentare del volume, la revisione visuale fallisce. Le eval costituiscono il termometro della qualità agentica. Non rappresentano un'attività opzionale di laboratorio, ma una pratica standard di produzione.

Note / 17·Nov 2025·Studio Futuro·Strategy

Lettura agentica degli analytics e revisione del business model

Sei mesi di analytics del sito dello studio, sessioni di supporto e contratti chiusi sono stati forniti a Claude per analisi. Quesito: dove risiede la creazione di valore effettiva? L'output ha evidenziato una linea di servizio ad alto assorbimento di tempo e basso contributo al fatturato. Due settimane dopo, pivot strategico formalizzato.

Takeaway

I dati erano disponibili da mesi, privi di analisi. L'AI non ha generato nuove informazioni: ha reso leggibile quanto già presente. In alcuni contesti il valore dell'AI non risiede nella risposta, ma nella formulazione della domanda.

Note / 18·Ott 2025·Studio Futuro·Product

Quack: genesi di un Visual IDE multi-agent

Avvio di Quack come prototipo interno: interfaccia visuale per l'orchestrazione simultanea di molteplici agenti Claude Code, con rappresentazione visiva distinta per ciascun agente. Cinque progetti clienti gestiti in parallelo nella prima settimana, in assenza di conflitti tra sessioni.

Takeaway

L'interfaccia condiziona il workflow in misura superiore alle aspettative. Assegnare a ciascun agente una rappresentazione visiva distintiva modifica la modalità di delega del lavoro. Gli elementi di usabilità incidono significativamente sulla produttività reale.

Note / 19·Ott 2025·Studio Futuro·Product

Cinque pattern chiave per il coding agentico

Durante lo sviluppo di Quack sono stati individuati cinque pattern ricorrenti: sessioni parallele, agent visibility, skill sharing, diario automatico, kanban task integrato. Presi singolarmente risultano marginali; integrati, trasformano l'ergonomia del lavoro da conversazione lineare a tavolo di lavoro multi-thread.

Takeaway

L'interfaccia chat è nata per il turn-taking conversazionale. Il coding agentico non è conversazione: è flusso multi-thread. L'emergere di interfacce alternative è un tratto distintivo del 2026.

Note / 20·Set 2025·Studio Futuro Lab·Research

Claude Code + Obsidian: origine del Second Brain per agenti

La prima implementazione del Second Brain consisteva in un vault Obsidian letto e scritto da Claude Code in ogni sessione. Architettura minimale: markdown, wikilink, una cartella per progetto. Funzionamento efficace. Da questa base si sono sviluppati Quack Brain e l'intero approccio dello studio alla memoria agentica.

Takeaway

I tool semplici superano i tool sofisticati quando supportano un workflow reale. Markdown, cartelle, un agente che legge e scrive: una soluzione meno complessa di quanto appaia, ancora sottoutilizzata in molti contesti enterprise.

Gli approfondimenti estesi vengono pubblicati progressivamente su Medium. Richieste di anteprima su note specifiche possono essere inoltrate tramite contatto diretto.

Prenota una call

Ricerca applicata,documentata in pubblico.

Superpowers e il plugin ecosystem come standard operativo

Router semantico per agenti specializzati

Skill DevOps per l'automazione di processi aziendali

Quack 2: l'agent router come prodotto

Quack Brain: il grafo di conoscenza alimentato dagli agenti

LLM locali per workload ripetitivi enterprise

Orchestrazione di agenti Claude Code in parallelo

Dalla vibe coding all'agentic coding: fine di un'epoca

Team di agenti: il passaggio da scrittura a consegna

Second Brain per agenti AI: riduzione degli errori ricorrenti

Refactoring automatizzato su 40k LOC

Project Groups: configurazione sottoutilizzata, ritorno immediato

Quack: apertura della beta pubblica

Limiti dei piani Claude Code e strategia di fallback cost-aware

Benchmark LLM su italiano tecnico enterprise

Eval pipeline: dalla revisione visuale alla valutazione strutturata

Lettura agentica degli analytics e revisione del business model

Quack: genesi di un Visual IDE multi-agent

Cinque pattern chiave per il coding agentico

Claude Code + Obsidian: origine del Second Brain per agenti

Ricerca applicata,
documentata in pubblico.