Arthur, una startup di monitoraggio dell’apprendimento automatico, ha beneficiato dell’interesse per l’IA generativa quest’anno e ha sviluppato strumenti per aiutare le aziende a lavorare con LLM in modo più efficace.
Oggi sta rilasciando Arthur Bench, uno strumento open source per aiutare gli utenti a trovare il miglior LLM per un particolare set di dati.Adam Wenchel, CEO e co-fondatore di Arthur afferma che la società ha visto molto interesse per AI e LLMS generativi , e così hanno fatto molti sforzi per creare prodotti.
Dice che oggi, e concediamo che siamo meno di un anno dal rilascio di CHATGPT, che le aziende non hanno un modo organizzato per misurare l’efficacia di uno strumento Contro un altro, ed è per questo che hanno creato Arthur Bench.
“Arthur Bench risolve uno dei problemi critici che sentiamo appena con ogni cliente che è [con tutte le scelte del modello], che è meglio per la tua particolare applicazione”, ha detto Wenchel TechCrunch.it viene fornito con una suite di strumenti che è possibile utilizzare per testare metodicamente le prestazioni, ma il valore reale è che ti consente di testare e misurare come i tipi di richieste che i tuoi utenti utilizzerebbero per la tua particolare applicazione eseguiranno contro diversi LLM.
Arthur Bench LLM Confronto Test Suite Test.
“Disse Wenchel.
Inoltre, dice che puoi farlo su larga scala e prendere una decisione migliore su quale modello è la migliore per il tuo caso d’uso particolare.
La panchina dell’Arthur viene rilasciata oggi come strumento open source.
Ci sarà anche una versione SAAS per i clienti che non vogliono gestire la complessità della gestione della versione open source o che hanno requisiti di test maggiori e sono disposti a pagare per questo.
Ma per ora, Wenchel ha detto che si stanno concentrando sul progetto open source.
Il nuovo strumento arriva sulla scia del rilascio di Arthur Shield a maggio, una sorta di firewall LLM progettato per rilevare allucinazioni nei modelli, proteggendo contro le informazioni tossiche e perdite di dati privati.
Visualizza i commenti