Market Labour Intelligence metodologia, approccio e vision

5.000.000 di annunci di lavoro analizzati

La metodologia

Le Web Job Vacancy e l'importanza del Labour Market

Una Web Job Vacancy rappresenta un annuncio di lavoro pubblicato su un portale Web dedicata al mercato del lavoro da parte di un’azienda o da un intermediario.

Tipicamente, una Web Job Vacancy è composta di due parti:

  1. un titolo che sintetizza la figura ricercata
  2. una descrizione redatta in testo libero che dettaglia le skill richieste, il contesto lavorativo, il settore ed il territorio.

La sfida nell’uso delle Web Job Vacancy per il supporto decisionale risiede nella capacità di processare gli annunci di lavoro in maniera automatica, classificandole su una tassonomia standard delle professioni (i.e., ESCO e CEN nel caso dell’Osservatorio), estraendo le skill più richieste (sia hard sia soft), quantificandone l’importanza e la rilevanza, ed infine individuando le skill addizionali (anche note come nuove skill) non ancora presenti negli standard classificatori.

Il potere informativo che il Web Labour Market possiede svolge un ruolo di acceleratore, sostenendo la realizzazione di studi e progetti per l’analisi delle Web Labour Market sia nell’accademia sia nell’industria.
I primi con l’obiettivo di analizzare e monitorare il mercato del lavoro per la valutazione e lo studio di politiche più idonee alla sua dinamicità; i secondi con l’obiettivo di migliorare il processo di reclutamento del personale così come la comprensione dell’andamento del mercato per anticiparne trend e per pianificare attività di formazione (e.g., upskilling, reskilling).

Vantaggi dell’analisi delle Web Job Vacancy I benefici rispetto allo stato dell’arte, in cui il mercato viene osservato sulla base dell’esito di survey, sono molteplici:

Time to market

ridurre il “time to market” della disponibilità delle informazioni.

La possibilità di osservare il mercato near real-time, potendo quindi prendere decisioni tempestive (i.e., drastica riduzione del time-to-market delle analisi e delle decisioni)

Monitoraggio near-real time

la capacità di osservare in maniera strutturata e (semi automatica un sistema la cui dinamicità sottende alle leggi del Web, le quali lo rendono volatile, sociale e complesso (Web Labour Market monitoring);
la capacità di comparare, e quindi valutare sistematicamente, diversi sistemi di mercato del lavoro (locali o internazionali) sulla base di dati osservazionali individuati e processati attraverso una metodologia chiara e trasparente, che permette quindi una maggiore believability13 delle analisi fornite (fact-based decision making).

Granularity

È possibile analizzare il mercato di lavoro sulla base di diverse dimensioni di analisi (es., skill, territorio, settore economico, occupazioni) con diversa granularità (es., navigare la gerarchia e-CF delle skill, così come quella CEN delle occupazioni, a livello comunale fino al livello nazionale, etc). 
La possibilità di settare vari livelli di dettaglio (o di sintesi) dei dati raccolti, è importante per comprendere a fondo il dato.

La metodologia

Metodologia per il trattamento delle Web Job Vacancy

Negli ultimi anni, l’enorme diffusione della domanda ed offerta di lavoro convogliata mediante siti e portali Web specializzati è cresciuta enormemente, contribuendo alla definizione del termine Labour Market Intelligence (LMI). Sebbene non esista una definizione uniforme di cosa LMI sia, si può generalmente intendere con LMI la definizione e realizzazione di algoritmi di Intelligenza Artificiale e tecniche di Big Data volti al processamento ed analisi automatica dei dati relativi al mercato del lavoro, con l’intento di supportare le attività decisionali dei vari stakeholder coinvolti (e.g., pubbliche amministrazioni, enti di formazione, risorse umane). 

Nel contesto dell’Osservatorio, la metodologia applicata segue i seguenti passi:
[
Mario Mezzanzanica, Fabio Mercorio: Big Data Enables Labor Market Intelligence. Encyclopedia of Big Data Technologies 2019]

  • Fase 1

    Selezione delle fonti

    Le fonti Web vengono individuate da esperti di dominio e selezionate sulla base di diversi criteri qualitativi: presenza di data pubblicazione annuncio e aggiornamento, presenza di campi semi-strutturati, completezza della valorizzazione dei campi, etc.

    L’obiettivo di questa fase è garantire la selezione di sorgenti dati affidabili per evitare il ben fenomeno del gargabe-in, garbage-out, che lega funzionalmente la qualità dei dati e delle analisi prodotte alla qualità dei dati in ingresso, problematica ben nota a chiunque si occupi di data quality e cleaning.

  • Fase 2

    Scraping, transformation and cleaning

    In questa fase si collezionano i dati testuali dalle diverse fonti (scraping);
    i dati vengono accordati secondo un modello interno (transformation) e messi in qualità (cleaning), riconoscendo gli annunci duplicati rispetto alla riproposizione di annunci similari o vacanti.

  • Fase 3

    Classificazione dei dati

    Si procede alla classificazione dei dati, in particolare è necessario riconoscere l’occupazione offerta da ogni singola Web Job Vacancy in accordo con una tassonomia specifica.
    Questo compito è svolto mediante l’uso di modelli di machine-learning opportunamente addestrati (classification e mining).

  • Fase 4

    Individuazione delle Skill

    In questa fase è necessario individuare e quindi estrarre le informazioni contenute nella vacancy, come le skill richieste, l’indicazione geografica, e ricondurle al rispettivo standard classificatorio.

  • Fase 5

    Data visualization

    In ultimo, si procede alla visualizzazione della conoscenza derivata dal processo gestito in accordo con le competenze dello stakeholder coinvolto (data visualization).

La metodologia

Aggiornamento Metodologico e Tassonomia // Tassonomie di Occupazioni e Skill Utilizzate

Per l’analisi delle professioni e skill si utilizza la tassonomia CEN ed eCF rispettivamente.
Nella versione 2019 dell’Osservatorio delle Competenze Digitali delle Professioni ICT è stata utilizzata un’evoluzione della metodologia descritta in precedenza.
In particolare, l’Osservatorio permette:

  1. il riconoscimento delle skill contenute nelle vacancy ricondotte sia allo standard ESCO sia allo standard e-CF;
  2. ’identificazione di nuove skill, ovvero skill non ancora presenti nelle tassonomie trattate; 
  3. l’individuazione delle potenziali nuove professioni, intese come annunci relativi ad una figura professionale non censita nelle tassonomie ma il cui lessico – automaticamente processato mediante algoritmi di AI – è simile a quelle consolidate (e.g., Artificial Intelligence specialist, Blockchain Specialist, etc)
Figura: Profili professionali ICT secondo lo standard CEN v.2: 30 profili suddivisi in 7 famiglie

Figura: Profili professionali ICT secondo lo standard CEN v.2: 30 profili suddivisi in 7 famiglie

La metodologia

Skill Digital Rate

Il Digital skill rate rappresenta una stima dell’incidenza percentuale di una determinata categoria di skill (digitale, non digitale e soft) all’interno di una professione osservata.

Si parla quindi di Digital Skill Rate (DSR), Non Digital Skill Rate e Soft Skill Rate per stimare l’incidenza di skill digitali, non digitali e soft all’interno di ciascuna figura professionale. Per le professioni ICT i valori del DSR sono individuati in corrispondenza ai profili CEN.

È importante chiarire che l’obiettivo informativo del DSR non è la profilazione generale delle occupazioni in termini di skill, ma la misurazione della pervasività delle skill digitali nelle singole professioni come emerge dalle esigenze del mercato. Infatti, la natura stessa degli annunci di lavoro induce chi lo redige ad esplicitare le competenze ritenute più importanti nel contesto aziendale di riferimento, tralasciando quelle che si ritengono esserlo in misura minore, se non addirittura ovvie.

Esempio pratico

si immagini un annuncio Web che ricerchi un esperto di statistica.
Chi scrive l’annuncio tenderà ad omettere la richiesta di “conoscenza delle metodologie statistiche” o “analisi multivariata”, competenze caratterizzanti un qualsiasi laureato in statistica.
Diversamente, potrebbe richiedere che la figura ricercata conosca dei linguaggi di programmazione (es., Python) o linguaggi per le basi di dati, come l’SQL, competenze che non tutti gli statistici hanno e che, in ogni caso, il candidato ritenuto ideale per il contesto aziendale dovrebbe possedere. In un tale scenario, quindi, lo SDR va letto come un indicatore della rilevanza delle skill digitali nella professione rispetto ai bisogni aziendali.

Rilevanza di una skill

All’interno dell’Osservatorio si riporta – nella sezione dedicata all’analisi delle competenze – una selezione di skill elementari (ESCO) così come skill addizionali, intese come skill non ancora presenti nella tassonomia. Per ciascuna di esse è associata una rilevanza espressa da 1 a 5 stelle.
La relevance indica l’importanza della skill per la professione osservata.

In altre parole, mentre la frequenza indica il numero di volte in cui la skill è stata richiesta sul totale degli annunci per la singola professione, la rilevanza ne stima l’importanza in comparazione con tutte le professioni osservate.

  • RICORDA: la rilevanza è associata alla coppia skill-professione ed è normalizzata a 100 all’interno di ciascuna professione per permettere di cogliere la skill caratterizzante. Come conseguenza, non è possibile comparare rilevanze della medesima skill tra diverse professioni.

Dati e contenuti a cura di