Archive for the ‘SEO-nologie’ Category

Duplicate content : la voie de l'illumination

Lundi, novembre 20th, 2006

Oeil surpris : Le duplicate content ? Pourquoi il est content ?

Oeil inquiet : Tu penses que je devrais éviter d’avoir les mêmes billets sur cinq domaines différents ?

Oeil fier : Je viens de rediriger mon .domaine.net vers www.domaine.net !
(Lire la suite…)

Cinq tactiques originales de création de liens

Lundi, juin 19th, 2006

Traduction de 5 Rare & Valuable Link Building Tactics
Source : SEOMoz, par Randfish, le 16 juin 2006

[ NdT : Quelques idées originales pour grapiller des liens pertinents. ]

Voici quelques techniques peu utilisées, mais parfois très efficaces, pour créer des liens dans une campagne soignée de référencement.

#1 – Les mentions sans lien
Cette tactique fonctionne particulièrement bien. Vous devez identifier les sites / pages qui mentionnent votre produit / marque / service / site web, mais n’ont pas fait de lien html direct. Envoyez leur un petit email personnalisé et demandez le lien – vous l’aurez la plupart du temps. Pour trouver ces lieurs potentiels, vous pouvez utiliser la commande de Yahoo (en recherche avancée), par exemple « malaiac » – linkdomain:malaiac.net

#2 – Liens sur profils
Tous ces sites « Web 2.0″ vous permettent de créer un profil avec lien, comme Frappr, Newsvine, MySpace,Yahoo! 360, Digg, Del.icio.us ou StumbleUpon. Ce sont des mines d’or pour les liens. Même les sites qui ne vous proposent pas de liens directs vous permettent de soumettre des sites ou de montrer les sites que vous avez taggé.
(Lire la suite…)

BigDaddy : vérifiez vos liens sortants !

Mercredi, mai 17th, 2006

Matt Cutts : Indexing timeline
16 mai 2006

Matt Cutts a répondu hier à certaines questions qui agitaient les forums de webmestres depuis plusieurs semaines. BigDaddy, perte d’indexation de pages, crawl modifié : beaucoup d’infos, et un accent particulier sur la politique de liens sortants.

La première partie de son billet revient sur le calendrier de mise en place de BigDaddy, le nouvel algorithme de Google, mis en place de décembre 2005 à mars 2006. Depuis le 29 mars, BigDaddy fait tourner tous les datacenter Google.

Il revient ensuite sur les questions des webmestres, en prenant des exemples de sites qui ont « perdu » des pages sur Google.
Pour un des sites choisis, il constate la présence en pied de page de nombreux liens sortants sans relation thématique avec le site d’origine :
(Lire la suite…)

Les Echos : les liens honteux ?

Lundi, avril 10th, 2006

Encore un référenceur qui a de l’humour.
Le site http://www.lesechos.fr/ gagne, comme beaucoup d’autres, à être vu CSS-off…

Le pied de page apparait normalement ainsi :
les echos avec css

Sans CSS par contre, on voit les liens « cachés » :
les echos sans css

Les liens pointent vers les différentes pages d’accueil du site, comme celle des informations économiques, mais aussi vers une page de crawl (destinée aux moteurs) des articles d’infos, et à celle des articles payants, qui sont crawlables avec une IP de robots.

La pointe d’humour du référenceur, c’est le commentaire inclus dans la feuille de style :

/*LIENS CACHES POUR REFERENCEMENT*/
.lien_cache { cursor: text; text-decoration: none; color: #000000}

Un « cloaking CSS » qui reste donc très inoffensif et qui vise simplement à faciliter l’indexation du site, et à transmettre le PR8 de la racine aux autres pages d’accueil.

Sur un mode beaucoup moins innocent, ce genre de pages cache sous son apparente sobriété une douzaine de liens internes, du genre :
hotel Salon des antiquaires Lausanne, hotel Salon Mednat Lausanne, hotel salon habitat et jardin lausanne, hotel salon international de Genève, hotel EPFL Lausanne, hotel CHUV Lausanne, hotel Fondation de l’hermitage, hotel musée Art Brut, hotel musée olympique Lausanne, hotel hopital ophtalmique Jules Gonin, hotel clinique de la source Lausanne, hotel aéroport blécherette Lausanne, hotel ballet Béjart – Rudra Béjart, hotel lausanne flon…

Merci à az et AW pour l’oeil affuté !

WMW, liens intéressants – 22 février

Mercredi, février 22nd, 2006

Un petit apercu du jour de WebMasterWorld :

Le fil sur la Google Dance en cours depuis le 18 février
Sur un des mes sites (3 ans d’existence), ce matin 22 février, 4 sur 20 DC seulement avaient actualisé le PR. (à 9h)
À 10h, 7 DC.
À 11h, 10DC.
À 12h, 11 DC.

————————————-

Pour suivre le PR de vos pages, le Page Rank Assisted Search Engine, avec une requete du type « site:www.votresite.com », permet d’obtenir le PR de toutes les pages du site. Par contre, pas de suivi par DC.

————————————-

Le scan de livres par Google : une rumeur grandissante ferait état d’un scan destiné à une intelligence artificielle, et non à des lecteurs humains
Le fil de WMW.

George Dyson wrote, in an article in Edge about his visit to the plex, that one of the Google employees told him:
« We are not scanning all those books to be read by people. We are scanning them to be read by an AI. »
http://www.edge.org/3rd_culture/dyson05/dyson05_index.html
Also, from an article in the Economist:
‘Paul Saffo at Silicon Valley’s Institute for the Future says… « they’re trying to build the machine that will pass the Turing test » – in other words, an artificial intelligence that can pass as a human in written conversations. Wisely or not, Google wants to be a new sort of deus ex machina.’
http://www.economist.com/business/displaystory.cfm?story_id=5382048

George Dyson, dans un article de Edge à propos de sa visite dans le GooglePlex, rapporte qu’un des employés de Google lui a dit :
« Nous ne scannons pas tous ces livres pour être lu par des humains. Nous les scannons pour être lu par une intelligence artificielle.« 
Un article de l’Economiste :
« Selon Paul Saffo, de l’Institut pour le Futur de la Silicon Vallée [...] « ils essaient de construire une machine qui passerait le test de Turing », en d’autres termes, une intelligence artificielle qui pourrait se comporter comme un humain dans une conversation écrite. Que ce soit prudent ou non, Google veut devenir un nouveau deus ex machina« 

NdM : citation latine employée à contre sens à mon avis. Le deus ex machina était la surprise dramatique du théâtre antique, au moment où le dieu sortait de la machine, au sens d’une apparition impromptue et salvatrice – ou fatale. Le sens voulu ici est plutot celui d’une intelligence omnisciente qui sort d’un simple mécanisme.

————————————-

CTR élevé sur les Adsense, un risque ? Le fil sur WMW, qui fait écho à une question récente sur le Hub.

————————————-

Google SandBox : mais pourquoi est il aussi méchant ? Quelques réponses intéressantes sur ce fil à propos de la sandbox.

The ‘sandbox effect’, as Google has acknowledged exists, is probably due to several tweeks in the algo. These may include an extended time it takes for some links to pass their full pr (applicable to old & new sites) plus deeper analysis of the type of inbound links. There may be other factors such as usuage from toolbar data or Alexa which could help determine the quality of a site. Another possibility is that to achieve high rankings for competitive searches, the body content of a page needs to be being counted and contributing ‘points’ in the ranking algorithm. I suspect that new sites have their body content pretty much ignored until the site earns a sufficient status. These and many other factors need to be processed and evaluated before a site gets good relevant rankings. The emphasis seems to be on ‘natural’ growth which, once Google is satisfied, will deem the site worthy of ranking. Apparently if you present the site in the right way this can be a relatively short time period, but personally I have yet to see any proof of a site ranking well for many keyword phrases within 6 months.

« what’s the reasoning? »
Discouraging webmasters from putting up a new site every week may not have been the intention but it probably has achieved this. The lack of ‘instant gratification’ is a big dampener for producing endless new sites. The real reason is probably an attempt to evaluate sites and rank them according to considerably more factors than in the past, with no one factor having a major importance. In other words, you have to achieve optimisation in many areas, whereas 2 years ago a few links and a good title did wonders. Now the algo has 200+ requirements. Many older sites will already have clocked up the necessary ‘requirements’ and hold their position, but new sites need to earn them. Some old sites hang in there but will drop away as new sites qualify for ranking. This takes time, especially if a ‘natural’ linking and growth is being looked for. It is as if Google now assumes all new sites are potential spam and thus treats them with caution. In the longterm, this will produce high rankings for those who have ‘qualified’ on many levels and not on only a few.
auteur :
MHes

L’effet sandbox, dont Google a reconnu l’existence, est probablement causée par plusieurs paramètres de l’algorithme. Par exemple, le temps nécessaire à la tranmission de PR par certains liens (pour les sites anciens et nouveaux), et l’analyse fine des liens entrants. Il peut y avoir des facteurs comme l’utilisation des données de la barre Google, ou les infos Alexa qui permettent de déterminer en partie la qualité d’un site. Une autre possibilité est que les positionnements sur les requêtes concurrentielles nécessitent l’analyse fine du contenu de la page. Je crois que le contenu des nouveaux sites est quasiment ignoré au début. Beaucoup d’autres facteurs doivent être évalués avant d’obtenir de bons positionnements. On parle beaucoup de la croissance « naturelle » qui, une fois Google satisfait, offre au site de bons positionnements. Manifestement, si le site est bien optimisé, le délai peut être assez court, mais je n’ai pas encore vu personnellement de site bien positionné sur un nombre suffisant de requêtes en moins de 6 mois.

Quelle raison ?
Décourager les webmestres de lancer un nouveau site par semaine n’était probablement pas la raison initiale, mais un effet secondaire. L’absence de « gratification immédiate » est un frein certain à la création infinie de nouveaux sites. La vraie raison est probablement la nécessité d’évaluer les sites et de les positionner selon beaucoup plus de facteurs qu’auparavant, et sans facteur dominant. En d’autres termes, vous devez optimiser beaucoup de choses différentes, alors qu’il y a 2 ans, quelques liens et un bon titre suffisaient. Aujourd’hui, l’algorithme a plus de 200 facteurs. Beaucoup de sites anciens sont actualisés sur ces facteurs et tiennent leurs positions, mais les sites récents doivent les mériter. Certains sites anciens tiennent encore et seront dépassés par de nouveaux sites mieux optimisés. Cela prend du temps, surtout si les liens et la croissance naturels sont favorisés. On a parfois l’impression que Google considère tous les nouveaux sites comme du spam potentiel et les prenne avec des pincettes. A long terme, les sites qui ont optimisé sur la plupart des facteurs – et non pas quelques uns – obtiendront les meilleurs positionnements.

mcdonalds.fr : BEURK !

Lundi, février 20th, 2006

Indépendamment du probable MSN bombing sur « beurk » (dont l’explication reste à trouver : ni analyse des backlinks, ni recherche des images ne donnent de résultats probants), un petit surf en jscript « off » est toujours instructif sur les pratiques en cours dans le métier… BMW n’est pas le seul à traîner un site rempli de choses bizarres.

Ainsi la page d’accueil de McDonalds.fr visible normalement est :

Mais si on désactive le javascript, on obtient ceci qui est évidemment beaucoup moins propre :

L’avantage, c’est que le boulot est signé : qui se colle à faire une cartographie du métier selon la couleur du chapeau ?

Yannick Bouvard : "la triche, impossible à détecter, mais sanctionnable"

Lundi, février 20th, 2006

Un excellent interview de Yeca ( http://yeca.ultimteam.com/ ), qui fait le point sur un certain nombre de techniques « grises » et sur l’humeur de Google :

Pour plaire à Google, il faut surtout faire des choses logiques. L’algo se base de plus en plus sur des principes de détection de la qualité du site (popularité, …) Donc pour bien référencer un site, il faut offrir du contenu de qualité, en grande quantité. A partir du moment ou on respecte les principes fondamentaux du référencement et qu’on a un site de qualité, on gagnera rapidement du positionnement grâce à la qualité intrinsèque du site.

La suite de l’interview sur Media Box

Exalead : "devenez une référence, et vous monterez dans les résultats"

Mercredi, février 15th, 2006

Ce soir, Exalead Guy, responsable technique Web chez Exalead, répondait aux questions sur le channel #webrankinfo (IRC). Rappel des infos sur cette interview sur la page WebRankInfo (www)

Quelques points intéressants à retirer d’une intervention assez technique :

  • Spamdexing : Exalead utilise des algos de déclassement plutôt que de blacklister : « Nous ne blacklistons pas, nous trouvons cette methode un peu trop brutale meme si nos amis d’outre-atlantique ne partagent pas ce point de vue. »
  • Mais le contenu caché est difficilement détectable : « nous essayons au maximum de nos capacités d’indexer uniquement le texte qui est visible par l’internaute sur la page« 
  • Outil pratique : la commande link:www.site.com ne limite pas la liste de résultats, mais « la commande link n’indique pas si nous prenons ou pas le lien en compte« .
    Essai à l’instant sur un petit site :
    Google : 37 BL
    MSN : 1194 BL
    Exalead : 530 BL, et c’est le résultat le plus réaliste.
  • Une extension FireFox est prévue ainsi que des recherches multimédia.
  • pas de sandbox pour les nouveaux sites, mais une « inertie naturelle du web ».
  • URL : « + » = « - » = « _ »
  • l’anchor text reste un des paramètres forts de qualification des pages
  • Point intéressant, à lire Exalead Guy entre les lignes, le moteur utilise un outil de transmission d’indice de confiance.
  • Et la conclusion qui rappelle qu’aucun référencement n’est possible sans stratégie de visibilité :

    « Faites des pages avec du contenu,
    proposez une version identique aux internautes et aux moteurs,
    évitez les pages satellites et les fermes de liens…
    et devenez la reference dans votre domaine « 

On ne sort pas de la Sandbox, on s'en fait sortir

Mardi, février 14th, 2006

Les discussions sont houleuses sur les forums anglophones en ce moment : ca cause « de-sandboxage », et une nouvelle technique semble voir le jour : sortir de la sandbox par du pull SEO plutot que par le classique push. Push classique certes, mais qui représente tout de même les deux tiers du SEO : optimisation in page et qualité du contenu.

Le pull SEO, en plus du linkbuilding, vient de trouver une nouvelle utilité : le de-sandboxage

1. la dernière pub Pontiac ne donne pas l’adresse du site web [en] , mais un simple « Google us » (« Googlez nous »). Ce qui revient au même, puisque www.pontiac.com sort premier sur la requête Pontiac.
Quelle différence alors ?

2. Mike Grehan prend l’exemple d’un gagnant de TV réalité dans un discussion sur le sandboxage :

I even give an example of a fan site for the winner of a U.K. reality TV show. The domain was registered at the end of October, hit the top 10 in November, and has stayed there on a search for the winner’s name since.

J’ai même donné l’exemple du site de fan du gagnant d’un show de télé réalité anglais. Domaine enregistré fin octobre, dans le top 10 en novembre, et toujours sur la première page depuis

Qu’est ce qui a pu provoquer une telle percée à travers les habituels 6-9 mois de sandboxage ?

1. + 2. => Pour Mike Grehan, la réponse tient en trois mots :

buzz (online et offline)
= requêtes sur les moteurs
= montée dans les résultats Google
(et sandbox au placard)

It just defies reason to imagine Google doesn’t want to provide fresh, relevant material to its end users. Do end users not want choice? Do they not want a variety of old, trusted favorites combined with new products, services, and information? Has Google really discovered its end users only prefer nine-month-old sites?
A few months ago, the TV show winner was a no one. A search for his name prior to the TV show probably would’ve turned up nothing. But once he gained some popularity with the TV audience, people turned to search engines for more information.
If a search engine can detect a stream of queries, that is, a demand, where the keywords don’t return enough relevant material in the tiered index, be certain it’ll fill the area. Because if end users don’t find the info there, they’ll go somewhere else for it. They won’t wait nine months for Google to serve it up.

Il n’y aucune raison qui pousserait à Google à ne pas fournir du contenu frais et pertinent à ses utilisateurs finaux. Les utilisateurs finaux ne veulent-il pas du choix ? Ne veulent-ils pas un bon mélange de sources anciennes et crédibles et de nouveaux services, produits et informations ? Est-ce-que Google croirait que ses utilisateurs préfèrent des sites âgés de neuf mois au moins ?
Il y a quelques mois, le vainqueur du show télé n’était personne. Une recherche sur son nom avant le show télé n’aurait rien donné. Mais une fois sa notoriété établie dans l’audience TV, les gens ont commencé à le rechercher sur les moteurs.
Si un moteur peut détecter un flux des requêtes, ce qu’on appelle couramment une demande, qui ne renvoit pas assez de contenu pertinent issu de l’index habituel, soyez surs qu’il va modifier ses résultats. Si les utilisateurs finaux ne trouvent pas l’info ici, ils iront chercher ailleurs. Ils ne vont pas attendre neuf mois que Google leur donne ce contenu pertinent.

source : Goodbye, SEO Push. Hello, SEO Pull

Pour Mike Grehan comme sur la discussion Cre8asite, le flux de requêtes sur Google influe donc sur l’ordre des SERP :
une recherche « marque + produit », répétée suffisamment de fois, fera monter le site de la « marque » sur la requête « produit ». Les recherches des internautes indiquent à Google le buzz du moment.
——————————————
Il y a quelques jours, sur SEOMoz ou ailleurs, un SEO avait d’ailleurs remarqué une réaction étrange de Google. Son site était absent des résultats pour une « requête ». En tapant « requête site:monsite.com », Google avait indexé « monsite.com » sur cette requête en 24 h.

——————————————

Sur ce sujet, randfish (SEOMoz) s’interroge concrètement sur les deux possibilités de réaliser un afflux suffisant de requêtes :

black hatutiliser proxy ou réseau de relations pour « googler » le site sur la requête ciblée
white hatconstruire une vraie stratégie marketing multi canaux pour faire monter le buzz et provoquer les requêtes naturelles.

——————————————

Quelle utilité pour les SEO ?

- Google pousse le vice jusqu’à imiter la vie réelle : si les internautes cherchent votre produit avec votre marque, votre marque montera sur les SERP Google.

- mais pourquoi être étonné ? Vous connaissez beaucoup de programmes publicitaires qui diminuent votre facture quand votre annonce est plus cliquée que la concurrence ? C’est ce que fait AdWords depuis les origines : quand le CTR augmente, le CPC baisse et l’annonce monte en position.

Pour le référencement naturel, même logique : non seulement un site fortement cliqué sur une requête montera sur les SERPS.
Mais en plus, il suffit que les requêtes soient suffisamment nombreuses pour faire passer le site à travers la sandbox sans se mouiller les plumes

Pour l’instant, hélas, aucun outil de suivi fidèle n’existe ni pour le nombre de requêtes, ni pour les CTR en résultats naturels. Et ce n’est pas Bush qui va nous les donner [il faudrait déjà qu'il arrive à les récupérer]