Archive for maggio, 2006

Carnevale è lontano e il primo aprile è passato da un pezzo. Quindi non mi viene da ridere quando leggo che in Europa c’è chi pensa di introdurre una tasse sulle email.
Un provvedimento del genere mi sembra una follia totale ma non tanto per questioni di principio o amenità del genere, per problemi assolutamenti pratici (sono troppo vecchio per avere ancora interesse nelle questioni di principio).

In primo luogo ho il sospetto che chi se ne esce con una frase del genere sia un totale incompetente o un gran furbo (propendo per la seconda ipotesi). Furbo perchè con questa uscita riesce ad avere una notorietà notevole facendo poca fatica, molto meno fatica rispetto a lavorare seriamente o proporre qualcosa di utile.
In secondo per quel poco che ho visto mi pare che in Italia provvedimenti folli pensati a Bruxelles vengano immediatamente applicati, le cose serie (IRAP) con tutta la calma possibile.

Ora è chiaro che le tasse devono essere pagate e che il nostro governo è a corto ma io credo che le tasse debbano assolutamente essere ridotte nel numero e nella complicanza. piuttostosto si aumenti di un punto l’IVA, non me ne frega niente ma non voglio pagare due volte per una casa, la tassa vera e propria e chissà quale mostruoso meccanismo per l’effettuazione del calcolo.

Sul forum di GiorgioTave si sta sviluppando una interessante argomento: vantaggi e svantaggi per un albergatore nel partecipare ai grandi portali di prenotazione in confronto con lo sviluppo di un proprio sito.

In primo luogo si è sviluppata una breve analisi dal punto di vista dell’utente. Per l’utente i vantaggi di utilizzare un portale sono

  1. Il portale solitamente ha maggiore visibilità e nelle ricerche si trova nelle prime posizioni
  2. per la stessa località ho più scelte e questo mi permette di effettuare facilmente un confronto servizi – prezzo
  3. Il portale mette a disposizione strumenti per una prenotazione più semplice e più sicuro

I vantaggi del sito dell’albergo invece sono:

  1. Possibilità di una “trattativa” sul prezzo”
  2. Responsabilità diretta dell’albergatore
  3. Informazioni più approfondite sulla struttura per particolari esigenze e richieste

La discussione nasce da una osservazione: a fronte delle alte commissioni che i portali richiedono all’albergatore per partecipare al circuito si verificano spesso casi in cui il prezzo offerto all’utente sul sito dell’albergo è più basso di quello proposto nel portale. Questo gli utenti l’hanno capito e quindi usano il portale per selezionare la struttura con i servizi adatti per poi passare su un motore di ricerca, trovare il sito dell’albergo ed effetturare la prenotazione direttamente.
Come contromisura i portali stanno cercando di nascondere tutte le informazioni che possono aiutare l’utente a identificare direttamente l’albergo, per esempio mostrando un codice invece di un nome.
La discussione è molto iteressante e merita di essere seguita.

Un esperto di motori di ricerca ha scritto recentemente un post (che non riesco più a ritrovare) che sintetizzava in modo netto e chiaro le sensazioni che molti si occupano di web hanno vissuto in questi ultimi mesi e che sono in fondo la logica conseguenza di un concetto che era chiaro da anni.

I motori di ricerca si stanno evolvendo. I motori di ricerca sono sempre più importanti per internet e possono fare la differenza tra un sito di successo e un fisco colossale. Questi sono i due presupposti da cui partire per seguire il ragionamento.

L’esperto in sostanza dice: all’alba dei motori di ricerca (stiamo parlando dei tempi di altavista, chi se lo ricorda?) dominavano in fattori “on page” cioè i motori dell’epoca utilizzavano soltanto i conenuti di una pagina per capirne argomento e rilevanza. Con la tecnologia dell’epoca probabilmente non si poteva neanche fare molto di più però due studenti americani con una idea relativamente semplice riuscirono a fare di molto e crearono google. Google ha attribuito per un tempo enorme una importanza via via crescente ai fattori “off page” in parole povere per capire l’argomento e l’importanza di una pagina ha capito che non bastava limitarsi a leggere il contenuto di quella pagina, facilmente manipolabile dall’autore, ma che era necessario guardarsi attorno sia controllando gli altri contenuti del sito sia guardano i link diretti verso quel sito e quella pagina provenienti da siti esterni.

Per un periodo lungo i risultati sono stati eccellenti e google è tutt’ora il motore di ricerca migliore ma questo tipo di algoritmi ha portato ad alcuni risultati strani e ad alcuni “incidenti” camorosi. Giusto per fare qualche esempio vi cito qualche esempio di mia conoscenza che dimostra che anche questo tipo di implementazione ha i suoi limiti.

  1. googlebombing. Con qualche migliaio di siti a disposizione è facile ingannare il motore e fargli credere per esempio che una pagina contenente la biografia di Silvio Berlusconi parli invece di un “miserabile fallimento”
  2. la lingua. Per quel poco che è dato sapere da mille esperimenti google attribuisce a un sito una certa lingua a seconda dei link esterni cioè se un sito a tanti link che provengono da siti svedesi finirà col pensare che quel sito è svedese, anche come lingua. Questa è una fesseria
  3. L’argomento. Google tende ad attribuire un argomento ad un sito. Se un sito parla di pere e di cavalli almeno inizialmente ci sarà un argomento che prevale sull’altro. Se il sito riceve più link per l’argomento cavalli, da siti che parlano di cavalli google attribuirà questo argomento al sito che sarà molto meno visibile per ricerche collegate alle pere.
  4. Siti particolarmente nuovi, anche se ricchi di contenuti interessanti, finisco per essere “invisibili” per un lungo periodo di tempo. Questo aspetto (solitamente chiamato sandbox) sinceramente mi sembra in parte una ottima misura antispam e in parte anche qualcosa di voluto o almeno non corretto in modo da invogliare i webmaster a una bella campagna di banner e visibilità con adsense

L’esperto di cui vi parlavo ha sintetizzato il passaggio al terzo step affermando che ora google (ma anche altri motori) tendono ad assegnare un valore ad un sito nella sua globalità e a considerare questo parametro sempre più importante (prevalente?) sugli altri. Cosa significa?

Facciamo un esempio pratico: due articoli molto simili tra loro che parlano di Moggi e della Juventus, uno pubblicato sul sito di repubblica e uno su questo sito. A parità di mille altri parametri l’articolo pubblicato su repubblica verrà privilegiato dai motori per il semplice fatto che il sito ospitante gode di una reputazione migliore.
Ora si tratta di capire quali parametri userà google per assegnare un punteggio globale al sito ma qualcosa si può già capire: anzianità, numero di link ricevuti, server e baggianate tecniche, numero di aggiornamenti e così via.

Se in questo momento state pensando “che mi frega” significa che non avete valutato le implicazioni di un simile cambiamento perchè se state leggendo questo sito la cosa comunque vi riguarda.
Se avete un sito o state pensando di crearne uno infatti avete un purgatorio ancora peggiore di prima da affrontare. Avete un albergo in via Fraccazzo da Velletri a Rimini e sperate che questo sia visibile sui motori di ricerca? Fate attenzione perchè i grandi portali informativi potrebbero avere più visibilità anche per ricerche estremamente mirate. Ovviamente mi riferisco a portali veramente informativi e non ai siti di prenotazioni, per quanto grandi essi siano.
Non avete un sito e del ragionamento fatto fin qui non ne frega? Anche in questo caso state sottovalutando le implicazioni. Se state leggendo questo blog infatti come minimo siete degli utenti di internet e usate spesso i motori di ricerca. Considerate di nuovo l’esempio della notizia su Moggi e la Juventus, siete sicuri che l’informazione migliore sia sul sito di repubblica? Non pensate che questo possa nel lungo periodo portare a un nuovo oligopolio delle informazioni?

Questo è a mio modo di vedere l’impatto che potrebbe avere una implementazione di questo tipo sul web, la fine della democrazia di internet e del potere del piccolo webmaster di scrivere cose interessantissime e di ottenere visite, soddisfazioni e magari anche qualche soldino.

Disco pieno per GoogleDa settimane (mesi?) molti webaster si lamentano per il fatto che google non aggiorna le pagine dei siti. Gli spider sono lenti, la cache viene aggiornata proco frequentemente, milioni di pagine eliminate dal database.
Molti webmaster hanno la coscienza non propriamente immacolata quindi a chiedersi “cosa ho combinato?” o peggio ancora “l’ho fatto incazzare?”, “ce l’ha con me?” ….
Invece si è scoperto che la faccenda è piuttosto generalizzata (non ci vuole un genio, basta farsi una passeggiata per vari siti e controllare quando sua maestà si è degnato di aggiornare i contenuti.

Adesso la notizia è diventata ufficiale (fonte della notizia register)

Cosa è successo? La spiegazione sembra essere questa: come conseguenza di uno degli ultimi aggiornamenti dell’algoritmo di google (per la cronaca l’aggiornamento in questione viene chiamato “bigdaddy”) ha causato un aumento spropositato dello spazio su disco occupato e così google si ritrova coi dischi pieni.
Da notare che l’infrastruttura di Google dal punto di vista hardware è particolarmente sofisticata: più che basarsi su macchine potentissime fin dall’inizio è stato scelto di utilizzare migliaia (decine di migliaia) di computer economici collegati insieme in modo da non essere messi in crisi troppo facilmente da guasti e da riuscire a espandere facilmente la struttura. Proprio per casi come questo insomma.
Evidentemente hanno fatto male i conti e a forza di regalare spazio praticamente illimitato a ogni tipo di applicazione sono andati a corto di disco ….
Ironia a parte questo piccolo incidente dimostra un paio di cosette: prima di tutto che un “errorino” in una stima nella creazione di un nuovo algoritmo può causare disastri milionari (provate a guardare l’andamento del titolo google in questi giorni in borsa) e che quindi i grandi maghi del Plex non sono infallibili. In secondo luogo mostra una cosa che era altrettanto facilmente prevedibile: il giocattolo è diventato così sofisticato che quando applicano una modifica particolarmente promettente in teoria, i grandi maghi della ricerca non sanno esattamente quelle che succederà. In parole povere: sono umani anche loro.

Da parte mia posso solo dire che spero che la situazione si risolva presto: ho una batteria di nuovi sitarelli che meriterebbe un aggiornamento!

Zitto zitto quatto quatto google ne sta combinando una delle sue. Parecchie cosine bollono in pentola, vittima di un aggiornamento delle scorse settimane qualche milione di pagine a suo dire “duplicate”, pare però che stavolta gli americani abbiano ciccato parecchio. Il bello è che questo aggiornamento dura da parecchio, almeno da febbraio ma qualcosa non va. Si capisce, per esempio, dal fatto che le pagine eliminate continuano a essere visitate dallo spider … che bolle in pentola?