Cos’è l’albero di decisione e come l’algoritmo alla base dei nostri sistemi permette di gestire i flussi di documenti
Il Decision Tree è uno degli algoritmi più noti nell’ambito delle tecniche di intelligenza artificiale ed in particolare appartiene alla cateroria degli algoritmi di tipo Supervised Learning e rappresenta un modello predittivo.
L’albero decisionale è un grafo di decisioni e delle loro possibili conseguenze
L’albero è costituito da nodi, archi e foglie:
- I nodi rappresentano delle variabili di input.
- Gli archi sono le relative decisioni, un arco per ogni decisione possibile per il nodo;
- Le foglie rappresentano il risultato di output.
Un arco può determinare come prossimo step un successivo nodo decisionale, o una foglia; in questo secondo caso l’attraversamento dell’albero termina e viene determinato il valore dell’output associato alla foglia raggiunta.
Nel data mining un albero di decisione viene utilizzato per classificare le istanze di grandi quantità di dati, (per questo definito di classificazione).
Nel data meaning dopo un arco, spesso si trova un nuovo nodo e così via, fino a definire tutte le possibili variabili occorrenti.
Il campo di applicazione tipico è quello dei problemi di classificazione in cui in base ai valori di input viene determinata una classe di appartenenza degli stessi.
Quest’ultima è individuata da un insieme discreto di valori o, nei casi più semplici, da un solo valore.
L’algoritmo del decision tree classifica di Chico è di tipo supervised, in quanto l’insieme dei dati di inpute l’insieme dei dati campione, utilizzati per la fase di traning e configurazione dell’algoritmo, è costituito da coppie di tipo «label:valore»;
Ad esempio nella gestione di email troviamo le coppie «destinatario:indirizzo destinario»,«oggetto: parola chiave nell’oggetto», «testo:parola chiave nel testo», «presenza allegato: si/no».
La classificazione delle email: Un esempio pratico di applicazione dell’algoritmo decision tree classifier
Uno dei problemi sempre più frequenti da affrontare è quello della gestione automatica o semi automatica di volumi sempre crescenti di email.
La progressiva digitalizzazione dei processi, sia in ambito privato che presso le pubbliche amministrazioni centrali e locali, ha comportato un aumento esponenziale delle email scambiate tra soggetti privati, imprese, amministrazioni pubbliche e organizzazioni in generale.
Il primo passo fondamentale per questa gestione semi automatica è quello di classificare la email in modo automatico. L’algoritmo Decision Tree Classifier è quello che sul campo sta dimostrando di fornire i migliori risultati.
La configurazione dell’albero di decisioni è semplice ed intuitiva e il tuning è facile e veloce soprattutto se supportato da strumenti adeguati.
Una volta classificata in questo modo la mail, è possibile:
- Inoltrarla ai destinatari di competenza
- Elaborarne in modo opportuno gli allegati con tecniche di data mining
- Notificarne l’arrivo a processi interni o esterni
Come utilizza l’algoritmo decision tree, Chico?
Chico fa largo uso del Decision Tree Algoritm proprio per la realizzazione di soluzioni di gestione automatica email.
I risultati sono particolarmente buoni grazie anche alla capacità di utilizzo di tecniche di Analisi semantica. Logiche di prossimità, gestione di sinonimi e altre capacità di analisi del testo, permettono di configurare nodi decisionali molto sofisticati, in modo molto semplice ed intuitivo.
Un esempio pratico nella gestione della contrattualistica via email
È possibile definire una regola per la quale si andrà a verificare nel corpo di una email, nell’oggetto, o negli allegati le seguenti cose:
- la presenza del termine «rinnovo», e tutti i possibili sinonimi;
- Il termine «contratto», e di tutti i possibili sinonimi;
- la distanza tra i due termini, in termini di numero di parole.
Il tutto viene realizzato in Chico tramite una semplice regola, utilizzando gli operatori logici presenti nel tool di configurazione.
Leggi anche come abbiamo applicato l’algoritmo decision tree nei nostri Casi d’uso:
Altre Tecnologie in uso nelle Soluzioni Chico
Scanned Page Alignment & Form Identification
Allineamento automatico delle pagine scansionate tramite tecnologia di lettura ottica e identificazione automatica dei moduli
Creazione, Conversione e Gestione dei PDF
Generare e gestire in maniera automatica documenti in formato PDF grazie agli script della piattaforma di gestione documentale Chico