NLP e dintorni
Sfrutta il potere del Natural language processing con spaCy! Unisciti a questo corso completo sul mondo del NLP con spaCy, la libreria open-source più popolare per questo mondo. Impara a estrarre informazioni dai dati di testo, conoscere e sfruttare i modelli linguistici e analizzare dei testi con facilità. Avrai modo di esplorare i principi base del NLP, compresi la tokenizzazione, lo stemming e la lemmatizzazione, imparando attraverso spaCy come applicare il riconoscimento di entità, i modelli linguistici e la classificazione di testo. Inoltre, parleremo anche delle ultime novità in questo campo, come cosa sono gli LLM, come usarli e quali progetti open abbiamo a disposizione per imparare. Non ultimo per importanza, vedrai quali sono le domande circa l'etica applicata all'intelligenza artificiale che molte aziende stanno studiando per affrontare le conseguenze dei sistemi che ne sfruttano le tecniche. A chi si rivolge questo corso - Data scientist, che vogliono espandere le proprie abilità nel NLP e applicarle a problemi real-world. - ML Engineer e studenti che vogliono acquisire una solida base nel campo del NLP con spaCy, per prepararsi ad una carriera in AI e scienza dei dati.
Cosa imparerai
Cos'è spaCy e come applicarlo nel mondo del NLP con esempi pratici
La rivoluzione dei modelli linguistici e dove siamo ora in termini pratici, ed etici
Come usare il NLP applicato a diversi domini
Lezioni del corso
-
Prepariamoci ad imparare di più sul mondo dell'analisi del linguaggio naturale: scopriamo che cosa studia e tratta quest'area dell'intelligenza artificiale e perché spaCy può essere una libreria alleata per le nostre attività
-
Introduzione al corso
Breve introduzione dei contenuti del corso e di cosa ci aspetta!
-
Cos'è l'analisi del linguaggio naturale
Definizione del campo che andremo a trattare e di cosa si occupa la materia.
-
Intro a spaCy
Perché spaCy è la libreria perfetta per lavorare in questo campo.
-
Installare spaCy
Panoramica di come configurare spaCy per iniziare a lavorare con questa libreria.
-
-
In spaCy ci sono una serie di risorse che ci tornano utili per lavorare con i nostri dati: esploriamo insieme i concetti di base e studiamo quali sono le tecniche di pre-processing dei dati applicabili nel settore dell'analisi del linguaggio naturale attraverso una serie di esempi e casi d'uso.
-
Classi e modelli
Cosa sono le classi e quali i modelli pre-addestrati dal team di spaCy che possiamo sfruttare per le nostre attività.
-
Tokenizzazione
In cosa consiste la tokenizzazione, e perché è fondamentale?
-
Sentence segmentation
Panoramica della sentence segmentation e di come sfruttarla a livello applicativo.
-
Lemmatization
Introduzione alla lemmatizzazione con alcuni esempi pratici.
-
Stemming
Stemming come tecnica di pre-processing dei dati e differenza rispetto alla lemmatizzazione.
-
Doc
Esploriamo più a fondo l'oggetto Doc, e perché è così utile.
-
POS tagging
Scopriamo l'analisi lessicale del discorso con spaCy.
-
Dependency parsing
Perché l'analisi del linguaggio naturale funzioni, è fondamentale prestare attenzione al contesto e alle dipendenze: vediamo come funziona il dependency parsing in spaCy.
-
NER
Vediamo un'altra tipologia di analisi, legata al testo, che ci permette di identificare delle entità.
-
Rule-based match
In spaCy è possibile aggiungere delle regole che ci permettono di modellare ed estendere le funzionalità presenti. Vediamo come!
-
Word vectors
Come fa un sistema a comprendere del testo che, di per sé, ha significato solo nel linguaggio umano? O meglio, come fa a codificarlo?
-
-
Il calcolo della similarità tra due testi o due liste di parole è un processo che misura la somiglianza tra di loro e si tratta di un'attività piuttosto comune per diversi scopi. Scopriamo il funzionamento attraverso alcuni esempi.
-
Similarity
Cos'è la similarità tra due testi e come calcolarla.
-
Similarity models
Quali tipologie di similarità esistono e quali le differenze.
-
-
In spaCy il concetto di pipeline è la colonna portante di ogni tipo di attività: per poter elaborare un testo e ricavarne delle informazioni, abbiamo bisogno di conoscerne il funzionamento e di poterla manipolare in maniera opportuna.
-
Customizing models
Come poter personalizzare i modelli messi a disposizione da questa libreria per degli scopi specifici?
-
Data preparation
Preparazione dei dati per l'addestramento, con accenni alle tecniche e ai casi d'uso.
-
Annotate data
Annotare i dati in spaCy può sembrare complicato, ma tutto sta nel comprendere il meccanismo!
-
Update an existing component in the pipeline
Come aggiornare un singolo componente della pipeline per svolgere dei compiti più specifici.
-
Store models
Una volta testato il modello, potremmo volerlo salvare e riutilizzare in un secondo momento: vediamo come fare.
-
Train a pipeline from scratch
A volte, è necessario addestrare una pipeline da zero: vediamo attraverso un esempio concreto come fare.
-
-
Il NLP si può applicare in moltissimi campi del settore industriale e non. In medicina, il NLP è utilizzato per estrarre informazioni significative da testi medici, migliorare la diagnosi e la cura dei pazienti, e supportare le decisioni cliniche. Nel web, esiste la classificazione dei testi per associare in maniera automatica degli argomenti o altri attributi. Caliamoci sempre di più nel contesto applicativo di questo fantastico mondo!
-
MedSpaCy
MedSpaCy è una libreria di strumenti per l'elaborazione del linguaggio naturale (NLP) specificamente progettata per il dominio clinico. Scopriamo come usarla con un esempio pratico.
-
Text classification
Questa tecnica utilizza approcci di apprendimento automatico di tipo supervisionato, dove è necessario addestrare il sistema tramite esempi (anche chiamate istanze) da cui generare un modello generale per la classificazione automatica.
-
-
Cosa sono i modelli linguistici, e perché nell'ultimo periodo sono diventati il centro nevralgico delle ricerche nell'ambito dell'intelligenza artificiale?
-
Language models
Introduzione ai modelli linguistici e al loro funzionamento.
-
LLM
Cosa sono i Large Language Models e quali le differenze con i modelli "tradizionali".
-
Foundation Models
Analizziamo i modelli di base e scopriamo come applicarli in diversi contesti.
-
Hallucination
Non tutti i modelli sono perfetti, e alcuni soffrono di allucinazioni: ma cosa sono, e come prevenirle?
-
Prompt engineering
Il prompt engineering è una disciplina che si sta affermando sempre di più, data la diffusione di strumenti come Perplexity o ChatGPT che sfruttano i LLM: ma come funziona?
-
-
Il mondo open source ci apre le porte a mille e più possibilità di esplorazione verso i LLM: tra queste, ci sono due progetti degni di nota. Scopriamo un progetto tutto italiano per portare il proprio LLM in produzione, e un altro dedicato alla gestione della complessità dei molti modelli presenti sul mercato.
-
Cheshire cat
Cos'è questo progettto, e come ci permette di creare degli assistenti che sfruttano i LLM?
-
LangChain
Questo progetto mira alla gestione dei progetti di LLM in maniera semplice e veloce, come una sorta di orchestratore.
-
-
La filosofia, intesa come studio del pensiero e dell'intelligenza, non è così distante dal mondo dell'intelligenza artificiale, soprattutto nella fase in cui ci troviamo oggi. Quali sono le domande che ci poniamo, e quali alcune delle possibili risposte?
-
Ethics and AI
AI e etica sono due concetti strettamente legati che si occupano di come gli algoritmi e le tecnologie dell'intelligenza artificiale (IA) siano progettati e utilizzati in modo etico e responsabile. L'etica in AI è un insieme di principi morali e tecniche che guidano lo sviluppo e l'utilizzo di tecnologie IA per garantire che siano utilizzate in modo benefico e non dannoso per la società. Quale la situazione attuale, e cosa aspettarci dal futuro?
-
Il docente
-
Serena Sensini
Ingegnera e programmatrice con esperienza nella progettazione e nello sviluppo di soluzioni web e stand-alone from scratch. Appassionata di tecnologia e di linguaggi come Python, lavora come Enterprise Architect presso Dedalus S.p.A. e collabora con diverse aziende e associazioni per cui tiene corsi e seminari.
Di giorno lavoro come Enterprise Architect @ Dedalus spa.
Di notte scrivo sul mio blog TheRedCode.it e sono autrice di 5 libri a tema #tech per Apogeo e Hoepli -per ora-.