Controlul traficului Web

Titular curs: Lect. Dr. Darius Bufnea, bufny at cs punct ubbcluj punct ro

Continut curs

  • Controlul, analiza şi îmbunătăţirea traficului Web. Surse de trafic. Motorul de căutare ca principală sursă de trafic. SEO definiţie. Evoluţia tehnicilor SEO în pas cu evoluţia motoarelor de căutare. Istoria şi arhitectura motoarelor de căutare.
  • Crawler-e Web. Indexarea site-urilor Web. Tendinţe actuale ale tehnicilor de căutare, indexare şi returnare a rezultatelor bazate pe comportamentul utilizatorului. Interacţiunea cu motorul de căutare. Crawling rate.
  • Page rank, algoritmul de page ranking. Back-link-uri, tipuri de back-link-uri şi “calitatea” acestora, redirectări, nofollow. Tipuri de vizitatori. Vizitatori unici. Sursele de trafic. Referrer-i. Maparea frazelor de căutare la conţinutul documentelor Web. Vector Space Model. Apache Lucene.
  • Conţinut Web. Calitatea conţinutului. Localizarea conţinutului. Adaptarea conţinutului Web. Fraze cheie, densitatea acestora în cadrul conţinutului. Importanţa conţinutului creat de vizitator. Modele de business vis-a-vis de modalitatea de creare a conţinutului, studii de caz: Facebook si Wikipedia.
  • Reţele de socializare şi impactul reţelelor de socializare asupra numărului de vizitatori a unui site Web. Social APIs: Facebook, Twitter, Google +1. Aplicaţii peste reţelele de socializare. Protocolul Open Graph.
  • Manipularea motoarelor de căutare. Mecanisme SEO in-site. Mecanisme SEO off-site, directoare Web, Google bombs. Construirea audienţei unui site Web. Feed-uri RSS. Link exchange, Cross domain linking. Canonizarea URL-urilor.
  • White hat SEO (tehnici SEO ortodoxe) vs. black hat SEO (tehnici SEO neortodoxe): cloaking, article spinning, doorway page, search spam, Web farms. Agregatoare de trafic.
  • Semantic Web & WEB 3.0. Interpretarea automată a conţinutului de către motoarele de căutare. Metadate.
  • Content Management Systems. Tehnologii statice vs. tehnologii dinamice în prezentarea conţinutului. Exportarea conţinutului în mediul on-line. mod_rewrite şi maparea dinamică a URL-urilor relativ la conţinutul bazelor de date.
  • Instrumente de analiză a traficului Web. Bounce rate. Interpretarea rezultatelor şi aplicarea unor algoritmi de data mining pe aceste rezultate. Session tracking. Analiza căii de navigare a utilizatorului în cadrul site-ului. Interpretarea semantică a frazelor de căutare a utilizatorului la nivelul unui site Web (vs. interpretarea acestora la nivelul motorului de căutare). Site-uri Web (auto)adaptive.
  • Conversie. Impressions. Target-area conţinutului. CTR (Click Through Rate). Internet marketing.

Cerinte si evaluare

Semestrul se incheie cu un colocviu scris (nota C) care va avea loc in ultimele doua saptamani de scoala ale semestrului, in sala, ziua si la ora la care se desfasoara in mod normal cursul (310, miercuri, 1400). Pe parcursul semestrului, studentii vor primi un proiect individual (nota PI). Nota finala se calculeaza ca medie aritmetica intre notele de mai sus: nota finala = (C + PI) / 2. Pentru promovarea cu succes a cursului atat nota colocviului scris cat si nota proiectului individual, trebuie sa fie cel putin 5.

Detalii privind proiectul individual

Fiecare student va elabora un mini site pe o anumita tema aleasa. Tema trebuie sa fie una decenta, iar continutul va fi creat folosind un limbaj decent si academic. Scopul proiectului este (printre altele) de a promova pana la sfarsitul lunii mai site-ul creat pentru cinci fraze cheie pe prima pagina la cautari efectuate pe www.google.ro.

Cerinte:

  • Site-ul va fi gazduit obligatoriu pe pagina studentului de la facultate (www.scs.ubbcluj.ro/~user), direct in directorul public_html al utilizatorului;
  • Fiecare student va trimite obligatoriu de pe adresa de email de la facultate pe adresaun mail cu subiectul trafic care va contine o descriere in cateva fraze a temei alese si cele cinci fraze cheie;
  • Cele cinci fraze cheie trebuie sa fie cat mai “naturale”;
  • Atat pentru tema site-ului cat si pentru frazele cheie trebuie sa-mi dau acordul. Prin mail va voi da un reply daca tema sau frazele sunt ok sau nu. Daca nu sunt ok, nu voi da detalii de ce, astfel de detalii voi da la orele de laborator. Daca tema sau o fraza cheie este respinsa, studentul va trebui sa retrimita e-mailul cu subiectul trafic cu tema sau cu frazele cheie ramase de stabilit. Cum e posibil sa primesc un numar relativ mare de mailuri intr-un interval de timp relativ scurt, voi raspunde la acestea in ordine FIFO. E posibil ca reply-ul meu sa intarzie, voi procesa mail-urile in general in weekend;
  • Termenul limita pentru stabilirea temei si a frazelor cheie: 1 aprilie (no joke). Orice saptamana de intarziere este penalizata cu un punct din nota proiectului final;
  • Odata tema si frazele cheie stabilite acestea nu mai pot fi modificate;
  • Pentru fiecare din cele cinci fraze cheie, google.ro trebuie sa returneze initial minim 300.000 de rezultate la o cautare a frazei fara ghilimele, si minim 2000 de rezultate la cautarea frazei intre ghilimele;
  • Frazele cheie vor fi cautate pe google.ro la evaluarea finala (cand trebuie sa ajungeti pe prima pagina) fara ghilimele;
  • Se vor evita la alegerea temei si a cuvintelor cheie substantive proprii, nume de firme, produse, marci inregistrate, etc.;
  • Materialul creat in cadrul site-ului trebuie sa fie original. Copy/paste-ul din alte surse va fi depunctat (atat de mine cat si de motorul de cautare). Fiecare student este responsabil de originalitatea continutului (texte, imagini, continut audio/video) prezent in cadrul paginii personale vis-a-vis de legea drepturilor de autor;
  • Continutul site-ului va fi scris in limba romana;
  • Frazele cheie trebuie sa aiba “incarcatura semantica” (voi explica ce inseamna acest lucru la curs si la laborator);
  • In cadrul frazelor cheie un cuvant nu trebuie sa se repete de mai mult de doua ori (nici macar sub forma de cuvinte derivate). Spre exemplu: alimentatia cainelui, originea cainelui, educatia cainelui nu sunt acceptate. De asemenea, in acest context nu sunt acceptate expresii care folosesc cuvinte derivate precum “catei” sau “canin”. Se accepta insa fraze cheie care contin “patruped”;
  • Nu trimiteti prin e-mail frazele cheie fara a nu imi descrie succint tema aleasa;
  • Nu trimiteti prin e-mail tema fara sa nu trimiteti frazele cheie. Frazele cheie trebuie sa aiba o legatura evidenta cu tema site-ului;
  • Trebuie sa trimiteti exact cinci fraze cheie (nu patru, nu sase);
  • Nu aveti voie sa dezvoltatii site-ul folosind CMS-uri (Joomla, WordPress, Drupal, PhpWebSite, etc). Puteti folosi template-uri CSS;
  • Fiecare student trebuie sa-si contorizeze traficul pe site folosind Google Analytics. Profilul site-ului in Google Analytics trebuie sa fie neaparat de forma http://www.scs.ubbcluj.ro/~username. Fiecare student ma va delega ca viewer pe profilul site-ului cu adresa de e-mail bufny@cs.ubbcluj.ro (e un Google account);
  • Orientativ, exemple de teme alese in anul trecut care au fost acceptate: “Fotografie”, “Rochii de mireasa si seara”, “Astronomie”, “Viata pe motocicleta”, “Flori de apartament”, “Mitologia greaca”, “Cresterea si ingrijirea cainilor”, “Apicultura”, “Viata de student in Cluj-Napoca”.

La evaluarea site-ului se va tine cont de:

  • pozitia pe care va regasiti cu frazele cheie la cautare pe google.ro;
  • numarul de vizitatori ai site-ului vostru proveniti de pe motoarele de cautare indiferent de cuvintele cheie;
  • numarul de vizitatori proveniti din alte surse;
  • daca pagina voastra este indexata sau nu de Google si de ce page rank are aceasta;
  • numarul de tehnici SEO folosite in cadrul site-ului.

Bibliografie

  1. Eric Enge, Stephan Spencer, Rand Fishkin, Jessie C. Stricchiola: The Art of SEO – Mastering Search Engine Optimization, O’Reilly, ISBN: 978-0-596-51886-8, 2010;
  2. Dan Sisson: Google SEO Secrets, published by Blue Moose Webworks, ISBN 0-9728588-0-6, 2004;
  3. Dave Chaffey, Chris Lake, Ashley Friedlein: Search Engine Optimization, E-consultancy.com, 2006;
  4. Jerri L. Ledford: Search Engine Optimization, 2nd edition, Wiley Publishing, Inc., ISBN: 978-0-470-45264-6, 2009;
  5. Amy Langville, Carl Meyer: Google’s PageRank and Beyond: The Science of Search Engine Rankings, Princeton University Press, 2006;
  6. Ann Handley, C. C. Chapman: Content Rules, John Wiley & Sons, ISBN 978-0470648285, 2010.

Bilbiografie facultativa

  1. Bruce Croft, Donald Metzler: Search Engines: Information Retrieval in Practice, Addison Wesley, ISBN 978-0136072249, 2009;
  2. Albert-Laszlo Barabasi: Linked: How Everything Is Connected to Everything Else and What It Means, Penguin Group, ISBN 978-0452284395, 2003;
  3. Jonathan Zittrain: The Future of the Internet And How to Stop It, Yale University Press, ISBN 978-0-300-12487-3, 2008;
  4. Mark D. Hawker: Developer’s Guide to Social Programming: Building Social Context Using Facebook, Google Friend Connect, and the Twitter API, Addison-Wesley Professional, ISBN 978-0321680778, 2010;
  5. J. D. Velasquez, V. Palade: Adaptive Web Sites: A Knowledge Extraction from Web Data Approach, IOS Press, ISBN 978-1586038311, 2008;
  6. Toby Seagaran, Colin Evans, Jamie Taylor: Programming the Semantic Web, O’Reilly Media, ISBN 978-0596153816, 2009.