al setaccio il contenuto dei siti internet e la ragnatela dei link per gli inglesi offerta specializzata, italiani più attratti dai portali generalisti
26/11/2007
Marco Pellegrini:
Primo ricercatore dell’Istituto di Informatica e Telematica del Cnr.
È possibile vedere, classificare e riassumere i contenuti e le comunità più diffuse nel web italiano, sparse su milioni e milioni di siti?
L’Istituto di Informatica e Telematica ha sviluppato una tecnologia che si basa sulla scoperta e classificazione semi-automatica delle comunità presenti all’interno di un dominio nazionale (per esempio, tutte le pagine con suffisso .it, o tutte le pagine col suffisso inglese .uk).
Una comunità di pagine è un insieme di pagine con puntatori (detti iper-link o link) reciproci così da formare una rete densa di interconnessioni.
La densità di link è un buon indicatore della facilità di accesso, della navigabilità e dell’interconnessione delle pagine coinvolte attorno ad una tematica unificante.
Tabella 1 - Le principali comunità web
POS | NOME | DIMENSIONE | TIPO |
1 | www.wonder.it | 22.533.670 | Lavoro |
2 | Libero.it | 2.723.364 | Portale |
3 | Hotlinks.it | 2.283.521 | Portale |
4 | Tiscali.it | 1.898.809 | Portale |
5 | Outseek.it | 1.735.121 | Portale |
6 | Kataweb.it | 1.491.147 | Portale |
7 | www.hwupgrade.it | 1.195.380 | Computer |
8 | Virgilio.it | 1.188.850 | Portale |
9 | Ebay.it | 864.662 | Shopping |
10 | Eco-rete | 706.308 | Energia |
11 | Comuni pugliesi | 709.290 | Enti locali |
12 | Excite.it | 690.306 | Portale |
13 | www.cremonaweb.it | 540.540 | Enti locali |
14 | Html.it | 486.992 | Computer |
15 | Apriti Sesamo | 479.169 | Associazioni |
16 | Snark.it | 472.440 | Portale |
17 | www.dsy.it | 390.650 | Portale |
18 | PMI Piccole e medie imprese | 343.860 | Enti locali |
19 | www.marijuana.it | 246.276 | Interessi giovanili |
20 | Immobiliare | 235.656 | Immobiliare |
21 | Bancoposta.it | 215.162 | Portale |
22 | Lycos.it | 166.810 | Portale |
23 | Jumpy.it | 163.898 | News |
24 | Pneumologi | 130.032 | Medicale |
25 | Rai.it | 117.175 | News |
26 | Splinder.it | 110.212 | News |
Una volta individuata una comunità , dalle sue pagine abbiamo estratto parole chiave così da poter procedere ad una classificazione per area merceologica o per interesse generale.
E’ importante che le categorie non vengano decise a priori ma emergano dai dati stessi per poter osservare fenomeni nuovi e inaspettati.
Inoltre la valutazione della dimensione di una comunità tramite il conteggio del numero di link ci dà una importante misura quantitativa oltre alla discriminante qualitativa.
Questa attività di estrazione di informazioni ad alto livello ci permette di mostrare ad analizzare in modo comparativo il dominio nazionale italiano per l’anno 2004 (suffisso .it) e quello britannico per l’anno 2005 (suffisso .uk).
Per l’Italia abbiamo raccolto 41 milioni di pagine ed un miliardo e 150 milioni di link. Per il Regno Unito sono state raccolte 39 milioni di pagine e 950 milioni di link.
La difficoltà principale nel trattare tali moli di dati sta nella necessità di filtrare le informazioni utili eliminando quelle inutili o meno utili, fino a ridurre la quantità di dati a dimensioni maneggiabili ma ancora rappresentativi del fenomeno da analizzare.
I dati: analisi dei gruppi tematici
Nel dominio .it abbiamo individuato 1033 comunità che abbiamo suddiviso in 66 gruppi per parole chiave. Ogni gruppo è poi stato classificato manualmente per argomento generale. Abbiamo poi distinto le comunità maggiori riconducibili a singole società , marchi o enti con numero di link al di sopra dei 100mila (vedi Tabella 1), e le comunità diffuse, le quali singolarmente abbiano un conteggio inferiore ai100 mila link (vedi Tabella 2). Nel dominio .uk abbiamo individuato 771 comunità che abbiamo suddiviso in 62 gruppi per parole chiave. Ogni gruppo è poi stato classificato manualmente per argomento generale distinguendo come sopra comunità maggiori (vedi Tabella 3) e comunità diffuse (vedi Tabella 4). Analogamente al caso precedente i gruppi sono ordinati per numero di link che contengono.
Tabella 2 - Catalogazione di tutte le comunità presenti nel dominio .it
POS | CATEGORIA | COM.MAGGIORI | COM.DIFFUSE | TOTALE |
1 | Lavoro | 22.533.670 | 22.533.670 | |
2 | Portali | 13.256.180 | 13.256.180 | |
3 | Enti locali | 1.053.150 | 1.900.991 | 2.954.141 |
4 | Computer-Internet | 1.682.372 | 1.124.745 | 2.807.117 |
5 | Shopping | 864.662 | 1.416.106 | 2.280.768 |
6 | News | 391.285 | 1.058.457 | 1.449.742 |
7 | Interessi giovanili | 246.276 | 1.157.308 | 1.403.584 |
8 | Associazioni | 479.169 | 467.531 | 946.700 |
9 | Videogiochi | 894.478 | 894.478 | |
10 | Energia | 706.308 | 706.308 | |
11 | Medicale | 130.032 | 352.474 | 482.506 |
12 | Immobiliare | 235.656 | 235.656 | |
13 | Università-Scuola | 187.230 | 187.230 | |
14 | Turismo | 175.494 | 175.494 |
Il confronto: le principali comunitÃ
Nel web italiano (vedi Tabella 1) spicca in prima posizione la presenza di un portale (www.wonder.it) dedicato alla ricerca del posto di lavoro con più di 22 milioni di link. Seguono alcuni portali che offrono servizi ad ampio spettro (libero.it, hotlinks.it, tiscali.it, outseek.it, kataweb.it) nelle posizioni 2, 3, 4, 5 e 6, di dimensioni comprese tra 2,7 milioni e 1,4 milioni di link. Altri portali di servizi (virgilio.it, excite.it, snark.it, dsy.it, bancoposta.it, lycos.it) compaiono rispettivamente in posizione 8, 12, 17, 18, 22 e 23. Una comunità dedicata ai comuni della Puglia, una del Comune di Cremona (www.cremonaweb.it) e una delle piccole e medie imprese sono alle posizioni rispettivamente 11, 13 e 19. L’associazione Apriti Sesamo appare in posizione 15. Tre comunità dedicate alle notizie (jumpy.it, rai.it e spindler.it) hanno dimensioni simili (tra 160 mila e 110 mila link) nelle posizioni 24, 26 e 27, quindi verso la parte bassa della tabella. Per lo shopping generico spicca www.ebay.it in posizione 9. Le comunità maggiori specializzate in computer (hardware e software) sono due: www. hwupgrade.it e html.it in posizione 7 e 14, rispettivamente. Una comunità dedicata ad interessi giovanili, in posizione 20, ha come parola caratterizzante: www.marijuana.it, curiosamente. Nel web inglese (vedi Tabella 3) spicca in prima posizione la presenza di un sito www. ghz-laptops.co.uk con più di 14 milioni di link, dedicato all’elettronica di consumo, ed in special modo alla telefonia cellulare.
Tabella 3 - Le principali comunità nel dominio .uk
POS | NOME | DIMENSIONE | TIPO |
1 | www.ghz-laptops.co.uk | 14.094.717 | Telefonia |
2 | cheap-online-shopping.co.uk | 8.156.234 | Shopping |
3 | www.sellingantiques.co.uk | 2.502.150 | Antiques |
4 | 4visits.co.uk | 1.270.048 | Shopping |
5 | ringtones.co.uk | 1.066.835 | Interessi giovanili |
6 | ads-on-line | 1.050.412 | Shopping |
7 | pages.co.uk | 974.344 | Portale |
8 | Community 652 | 703.768 | Shopping |
9 | independent.co.uk | 707.455 | News |
10 | www.arctic-experience.co.uk | 567.840 | Turismo |
11 | www.skiing-heaven.co.uk | 545.652 | Turismo |
12 | training.co.uk | 492.128 | Training |
13 | www.morecomputers.co.uk | 490.410 | Computer |
14 | www.appliances.co.uk | 475.720 | Kitchen appliances |
15 | www.thisisgroup.co.uk | 473.400 | Sport News |
16 | www.flowers-uk.co.uk | 464.937 | Shopping |
17 | www.atlowprices.co.uk | 423.722 | Shopping |
18 | www.celebrity-entertainment.co.uk | 308.770 | Interessi giovanili |
19 | - | 296.768 | Non classificato |
20 | www.buy-the-best-online.co.uk | 270.291 | Shopping |
21 | www.0-z.co.uk | 252.186 | Shopping |
22 | affiliate.espotting.com | 247.632 | Turismo |
23 | mynutritionstore.co.uk | 233.244 | Culturismo |
24 | www.forestry.gov.uk | 228.400 | Turismo |
25 | www.sgpetch.co.uk | 224.808 | Cars |
26 | www.airtours.co.uk | 219.824 | Travel |
27 | www.breaks.co.uk | 181.436 | Turismo |
28 | www.discover-holidays.co.uk | 176.400 | Turismo |
29 | englandwebsite.co.uk | 163.989 | Turismo |
30 | in-england.co.uk | 161.490 | Turismo |
31 | www.1link2-holiday-hotels.co.uk | 157.185 | Turismo |
32 | voiceofuk.co.uk | 154.980 | Non classificato |
33 | www.bizzypages.co.uk | 143.252 | Shopping |
34 | shopeyes.co.uk | 137.199 | Shopping |
35 | cheaphotelbreaks.co.uk | 125.195 | Turismo |
Seguono vari siti di shopping generico (cheaponline-shopping.co.uk, 4visits.co.uk, ads-online) in posizione 2, 4 e 6 rispettivamente. Altre comunità di grandi dimensioni dedicate allo shopping generico sono in posizione 8, 16, 17, 20, 21, 33 e 34. Interessante è la presenza di grandi comunità dedicate a shopping specifici come antiquariato (www. sellingantiques.co.uk in posizione 3), interessi giovanili (ringtones.co.uk in posizione 5), cucine (www.appliances.co.uk in posizione 14), integratori e materiale per culturismo(mynutritionstore.co.uk in posizione 23) e automobili (www.sgpetch.co.uk in posizione 25). Un vasto numero di comunità di grandi dimensioni è dedicato al turismo e viaggi (posizione 10, 11, 22, 26, 27, 28, 29, 30, 31 e 35). Spicca la presenza in posizione 24 di www.forestry.gov.uk, un sito governativo, che dà indicazioni di tipo turistico sui parchi nazionali inglesi. Due grandi siti sono dedicati a notizie ed editoria: independent.co.uk in posizione 9 e www.thisisgroup.co.uk in posizione 15, specializzato in notizie sportive. Una sola grande comunità dedicata ai computer appare in posizione 13 (www.morecomputers.co.uk). E’ probabile che la vendita di computer sia veicolata in parte attraverso siti di shopping generico, piuttosto che prevalentemente su siti specifici. Un primo confronto tra le grandi comunità rivela una presenza massiccia di portali generici per servizi nel dominio .it e la loro quasi assenza nel dominio .uk. Si nota inoltre una massiccia presenza di interessi commerciali nel .uk rispetto ad un maggior bilanciamento nel dominio .it tra interessi commerciali, associazioni, enti locali ed amministrazione centrale.
Tabella 4 - Catalogazione di tutte le comunità presenti nel dominio .uk
POS | CATEGORIA | COM.MAGGIORI | COM.DIFFUSE | TOTALE |
1 | Shopping generico | 13.805.821 | 3.476.787 | 17.282.608 |
2 | Telefonia | 14.094.717 | 529.164 | 14.623.881 |
3 | Turismo | 2.775.043 | 1.245.229 | 4.020.272 |
4 | Antiquariato | 2.502.150 | 382.988 | 2.885.138 |
5 | News | 1.180.855 | 814.551 | 1.995.406 |
6 | Interessi giovanili | 1.375.605 | 350.365 | 1.725.970 |
7 | Portali | 974.344 | 974.344 | |
8 | Servizi finanziari | 957.270 | 957.270 | |
9 | Training | 492.128 | 492.128 | |
10 | Computer | 490.410 | 490.410 | |
11 | Enti locali | 340.078 | 340.078 | |
12 | Contenuti per adulti | 89.356 | 89.356 |
Analisi globale
Un confronto riassuntivo che tenga conto sia delle comunità maggiori sia di comunità diffuse (Tabelle 2 e 4) suggerisce alcune considerazioni. Le comunità di interesse sul turismo e viaggi sono in posizione 3 nel dominio .uk con più di 4 milioni di link, mentre sono in posizione 14, con approssimativamente 175 mila link nel dominio .it. Parte della discrepanza può essere spiegata con la presenza di informazioni turistiche disperse nel dominio .it su siti di interesse locale e/o su portali di tipo generico. Tuttavia un gap così ampio sembra indicativo dell’assenza di una adeguata presenza in rete di forti operatori del settore turistico. La tipologia dei portali di servizi generici è molto sviluppata nel dominio .it (in posizione 2, con 13 milioni di link), meno sviluppata nel dominio .uk (posizione 7, con 0,9 milioni di link). Questo fenomeno può essere spiegato da una parte con il fatto che portali di servizi generici possono essere sviluppati in inglese sotto altri domini (per esempio .com, .net), mentre il dominio .it è più legato alla lingua ed alla cultura italiana. Un’altra chiave interpretativa è una maggiore specializzazione dell’offerta di servizi nel dominio .uk. Per esempio, i servizi finanziari (specialmente mutui per la casa) sono in posizione 8 con 0,9 milioni di link nel dominio .uk mentre sono assenti come categoria specifica nel .it (ove per esempio portali come Kataweb offrono tra l’altro informazioni finanziarie). I siti di notizie per il dominio .it sono in posizione 6, con 1,5 milioni di link, ed in posizione 5 con 2 milioni di link nel dominio .uk. Quindi la situazione appare globalmente simile. Tuttavia un’analisi più puntuale rivela che mentre nel .uk le comunità maggiori e quelle disperse si equivalgono, nel caso del .it le comunità disperse sono prevalenti come ad indicare una certa maggior frammentazione del panorama editoriale in italia. Differenze di dimensione assoluta si notano anche sulle maggiori comunità dedicate alle news: jumpy.it legata al sito Mediaset.it e rai.it constano di 160 mila e 120 mila link rispettivamente, mentre i siti inglesi independent.co.uk e www.thisisgroup.co.uk sono molto più ricchi di link: hanno 700 mila e 470 mila link rispettivamente. Lo shopping generico (generalista) risulta molto sviluppato e concentrato nel dominio .uk apparendo in prima posizione con un totale di 17 milioni di link, di cui 13 milioni dovuti a comunità maggiori. Nel caso del dominio .it lo shopping generico si piazza in posizione 5 con 2,2 milioni di link ed una prevalenza (1,4 milioni) di comunità diffuse su quelle maggiori. Di converso, nel dominio .it l’aspetto pubblico e no-profit è altamente sviluppato. La categoria “enti locali� (che comprende sia l’aspetto pubblico: comuni, province e regioni, sia le associazioni professionali e/o d’impresa legate al territorio) si piazza in terza posizione con circa 3 milioni di link ed una prevalenza (2 milioni) di comunità diffuse, mentre l’associazionismo no-profit si piazza in posizione 8 con circa 1 milione di link. Università e scuola appaiono in posizione 13 con 187 mila link. Nel dominio .uk, in contrasto, siti legati ad enti locali si piazzano in posizione 11 con 340 mila link e non emergono comunità legate alle associazioni ed alle università . Tipologie commerciali molto specifiche sono altamente sviluppate nel dominio .uk, per esempio la telefonia (con particolare enfasi su alcune marche come Ericsson, Motorola, Nokia) (posizione 2 con 14,6 milioni di link), l’antiquariato (posizione 4 con 2,9 milioni di link), interessi giovanili (musica, videogiochi, etc..) (posizione 6 con 1,7 milioni di link), corsi di formazione (posizione 9 con 0,5 milioni di link). Nel dominio .it troviamo interessi giovanili (posizione 7 con 1,4 milioni di link) e videogiochi (posizione 9 con 0,9 milioni di link), prodotti per fonti di energia ecocompatibili (posizione 10 con 0,7 milioni di link) e prodotti medici (posizione 11 con 0,5 milioni di link). Contrariamente alle aspettative nel dominio .it l’offerta di prodotti/servizi relativa ai computer (hardware e software) e ai servizi di registrazione (provider) risulta altamente visibile (posizione 4 con 2,8 milioni di link ed un buon bilanciamento tra comunità maggiori e quelle disperse). Mentre nel .uk riscontriamo solo alcune comunità maggiori che totalizzano appena 0,5 milioni di link e risultano in posizione 10. Questo fatto può essere spiegato con fatto che hardware e software vengono commercializzati all’interno dell’elettronica di consumo intesa in senso lato come sottocategoria di siti per lo shopping generico. Comunità di interesse per adulti sono più presenti nel web britannico (dodicesimo posto) mentre in quello italiano compaiono fuori dalle prime posizioni (solo in quarantesima posizione). Questa relativa scarsa presenza in entrambi i domini nazionali può essere spiegata col fatto che la struttura delle comunità , che per definizione favorisce l’accessibilità , è in contrasto con esigenze di rendere tali siti accessibili in modo non ovvio o comunque facilmente dissimulabile.
La metodologia: come riassumere un intero dominio nazionale
In questa seconda parte intendiamo descrivere la metodologia adottata per quantificare il peso di diverse categorie merceologiche (beni, servizi, interessi) all’interno delle pagine web di un dominio nazionale. In concreto abbiamo applicato la nostra tecnologia al dominio delle pagine italiane (ossia del dominio .it) e delle pagine britanniche (ossia del dominio .uk). In tale modo abbiamo evidenziato differenze e analogie nella composizione merceologica del web nei due domini nazionali.
I dati grezzi: cosa si trova nel web
Il Laboratorio per l’algoritmica del web dell’Università di Milano (law.dsi.unimi.it) ha fornito il risultato della visita di tutte le pagine raggiungibili presenti nel web sotto il dominio nazionale .it per l’anno 2004 e nel dominio del Regno Unito .uk per l’anno 2005. Per l’Italia questa istantanea di tutto il web italiano consta di 41 milioni di pagine e 1150 milioni di link ossia di frasi cliccabili che consentono di navigare tra pagine diverse. Per il Regno Unito sono stati trovati 39 milioni di pagine e 950 milioni di link.
Il problema: troppi dati e molto confusi
Riuscire a distillare da questa massa di dati una visione sintetica delle tematiche più popolari ed interessanti presenti sul web e del loro peso relativo è una sfida che richiede strumenti informatici innovativi. Da una parte vogliamo concentrarci sulle parti più significative del web, dall’altro dobbiamo trattare grandi masse di dati in modo efficace senza ricorrere a costosi super calcolatori. Il gruppo di lavoro del dottor Marco Pellegrini dell’Istituto di Informatica e Telematica del Cnr di Pisa ha messo a punto una metodologia che consente di vedere in una forma sintetica e gerarchica il contenuto di gran parte del web ed estrarre nozioni significative sulle tematiche più popolari e presenti sul web. La metodologia è stata presentata alla più importante conferenza del settore: "The 16th International World Wide Web Conference (Www2007)" svoltasi nei giorni 8-12 Maggio 2007 a Banff (Canada).
Il comportamento degli utenti
Il www (abbreviazione di World Wide Web) è un grande contenitore di informazioni organizzate in pagine come unità di accesso. Le pagine poi contengono link ossia riferimenti che, tramite l’operazione di click su di una porzione di testo od una immagine, consentono di passare da una pagina ad un’altra (operazione detta comunemente navigare). Mentre osservare le azioni di passaggio da una pagina ad un’altra su tutti i computer dedicati al web non è fattibile, possiamo considerare la presenza di molti link che arrivano o partono da una pagina come un’indicazione dell’importanza di quella pagina. Questa osservazione ci porta ad escludere come poco significative pagine che non abbiano link in entrata o in uscita, ma anche quei link che colleghino pagine sotto lo stesso dominio (una singola macchina). Per esempio è naturale che chi possiede un’insieme di pagine sulla stessa macchina favorisca la navigazione collegandole con dei link. Tuttavia questi link testimoniano solo dell’interesse di un’unica persona. Molto più importanti sono i link che collegano pagine di domini (macchine) diversi, che e quindi presumibilmente sono indice di una importanza oggettiva e non soggettiva delle pagine coinvolte.
I dati "puliti"
Eliminando da ulteriori considerazioni le pagine isolate, ed i link all’interno dello stesso dominio rimangono da analizzare per il dominio .it: 17 milioni di di pagine e 105 milioni di link, per il dominio .uk: 16 milioni dipagine e 183 milioni di link.
"Tifosi" e "centri"
Se una pagina ha molti link in uscita è etichettata come tifoso, in quanto esprime interesse per il contenuto di altre pagine. Se una pagina è visitata da molti link, allora è detta "centro" in quanto rappresenta un centro di interesse per molti tifosi. Un gruppo di tifosi che abbiamo molti centri in comune rappresentano una comunità . Le comunità sono l’oggetto principale che cerchiamo di trovare nel web per due motivi. Una volta individuata la comunità è possibile cercare di estrarre da un esame del contenuto dei centri quale è la tematica prevalente che genera interesse. Diventa quindi più facile avere una visione sintetica delle tematiche presenti. Contemporaneamente avendo il numero di centri, di tifosi e di link possiamo assegnare un peso numerico alla comunità con cui indicare la forza dell’interesse. Comunità troppo piccole composte da pochi tifosi e centri sono da una parte difficili da trovare e dall’altra avrebbero un peso troppo basso rispetto alle comunità maggiori. Nel nostro studio abbiamo considerato comunità aventi più di dieci tifosi e dieci centri. Per cui possiamo fin dall’inizio eliminare dalla considerazione nodi aventi meno di dieci link in entrata od in uscita. Questo passaggio ci porta ad avere 3.300.000 pagine rimanenti nel web .it e 4.085.000 nel web .uk.
Le comunità trovate
Abbiamo riscontrato la presenza di 1033 comunità nel .it e di 4220 il .uk. Per omogeneizzare i dati utilizziamo le comunità inglesi con almeno 25 nodi per cui ci riduciamo a considerare 771 (grandi) comunità . Dalla nostra analisi risulta che circa il 90% delle pagine così individuate (per la precisione 91% e 92% rispettivamente) sono o tifosi o centri in qualche comunità .
Estrazione delle parole chiave
Un’analisi manuale di quasi 2000 comunità richiederebbe un tempo uomo notevole per cui abbiamo sviluppato una metodologia automatica per visitare tutte le comunità individuate, estrarre da ogni comunità le parole chiave e riunire in un gruppi tematici tutte le comunità aventi parole chiave simili (o correlate). Solo a questo punto un’analisi manuale valida l’omogeneità dei gruppi formati e assegna le categorie d’appartenenza.