דוראן קידום אתרים

מה גוגל יודעת על התנהגות גולשים – חלק א'

תוכן עניינים

1. מה גוגל יודעת על התנהגות גולשים – חלק א
2. מה גוגל יודעת על התנהגות גולשים – חלק ב

בחודש מאי קיבלה גוגל אישור לפטנט אשר מתייחס למדידת התנהגות גולשים בכדי לקבוע כוח של קישורים בדף אינטרנט באמצעות הסבירות שגולש ילחץ על קישורים בדף. אלגוריתם זה בא למעשה לחדד את המשקל שכל קישור מעביר בהתאם לסדרה של מאפיינים ופותח פתח נוסף לאפיון איכות של גולשים. מדדים אשר עשויים להיכלל גם במדיה החברתית שהחברה מתכננת להשיק.

 מה גוגל יודעת על התנהגות גולשים

המידע שנאסף לצרכי ניתוח התנהגות הגולשים הוא :

1. מידע אודות המשתמש - (שנגזר מתוך דפדפן או סרגל הכלים של גוגל, ראה בהמשך המאמר) הכולל שפה, תחומי עניין (ראה בהמשך – על היכולת להבחין בין משתמשים) שאילתות החיפוש שהמשתמש ביצע ודפוסי גלישה בהם הגולש לא לוחץ על דבר (יכול להועיל לצורך ניקוי רעשים כמו תוכנות לבדיקת מיקומים וכו').

2. מאפייני הקישור - מיקום הקישור בדף, צבע, גודל הפונט, הדגשות וטקסט נטוי, כמות הביטויים בקישור, הטקסט המקיף אותו והערכת המסחריות שלו.

3. מאפייני הדף - שייכות נושאית של הדף לקבוצה נושאית של דפים, סמכותיות הדף , חשיבות הדף בתחומו ועוד…

מטרת האלגוריתם היא ליצור משקל שונה עבור כל קישור ובכך להשיג דירוג טבעי יותר. בכדי להבין כיצד האלגוריתם עובד תוכלו להתרשם מסיכום של מס' מחקרים ששויכו לפטנט המדובר אשר יעמיקו את ההבנה לגבי אופן הפעילות.

 

HITS algorithm – אלגוריתם

אלגוריתם זה נראה קשור לפטנט האחרון שגוגל הוציאה שמטרתו למדוד איכות של קישורים בעזרת התנהגות גולשים טיפוסית באתרי אינטרנט, ועלול להיות אחד הרמזים לאופן שבו פועל אלגוריתם authority rank של גוגל אשר קובע את רמת הסמכותיות של אתר מסוים בהתאם לשאילתות מסוימות.

אלגוריתם HITS בוחן מבנה של אתר ומגדיר שני סוגים של דפים:

Authority – דף אשר מספק מידע רלוונטי ושימושי אודות נושא מסוים.

Hub – "כוורת" או דף אשר מהווה הפניות החוצה למקורות מועילים בנושא מסוים.

האלגוריתם עצמו תלוי ב Seed list (רשימה התחלתית של אתרים) בדומה לאלגוריתם trustrank אשר ממנו הוא מתחיל לפעול.

האלגוריתם משלב בתוכו ניתוח אקספוננציאלי של מטריצת שימוש גולשים באתר באמצעות לחיצה על קישורים להפקת דירוגי authority ו- Hubs ומשלב דפוסי גלישה לא עקביים אשר אינם כוללים שימוש בלחיצה על קישורים (כגון הקלדת כתובות ישירות לאתרים בsession גלישה של משתמש).

 

אלגוריתם – ניתוח רלוונטיות בין המשתמש לבין נושא באמצעות ניתוח קישורים מקבצי לוגים

האלגוריתם שפותח נוסה במקור לצורכי איתור מומחים בתוך ארגון בהתאם להתנהגויות הגלישה שלהם בלחיצה על קישורים וכמו כן בכמות המסמכים בהם ביקרו בשילוב רלוונטיות של המסמכים לתחום העיסוק שלהם.

הנחת היסוד טוענת כי "מומחה" בתחום מסוים יעביר יותר משקל בלחיצה על קישורים יותר מגולש אחר. בשילוב אלגוריתם HITS, לכל דף אינטרנט מוענק ציון של authority וציון Hub שמצביע על איכות וחשיבות כל דף.

בצורה דומה לאלגוריתם HITS כל משתמש מקבל ציון חשיבות על רמת המומחיות שלו בתחום בהתאם לאיכות וכמות הדפים שבהם ביקר.

 

לאלגוריתם שני הנחות יסוד בסיסיות ,בכדי לחשב את החשיבות של המבקרים ושל הדפים השונים :

1. חשיבות של דף אינטרנט אינה בהכרח נובעת אך ורק ממבנה הקישורים שבו אלא ע"פ תדירות הביקורים שבו בשילוב עם רמת המומחיות של המשתמשים שביקרו בהם.

2. ככל שדף אינטרנט מצוטט יותר ע"י דפים אחרים ברשת או זכה לביקור מיותר "משתמשים חשובים" כך הוא נעשה חשוב יותר.

בצורה דומה חשיבותו של משתמש מחושבת בהתאם לרמת האיכות והכמות של הדפים בהם הוא ביקר.

חשיבות הדפים והמשתמשים יתחזקו אחד את השני בצורה רקורסיבית עד להשגת ערך יציב.

כדי להבין קצת כיצד אלגוריתם זה שדרג את אלגוריתם hits המקורי נסתכל על מס' דיאגרמות שמייצגות את הבסיס לחלק מהאלגוריתם :

 

קידום אתרים - באמצעות ניתוח התנהגות גולשים

בואו נסביר את ההגיון הפשוט מאחורי הנוסחאות בתרשים מס' 1

שורה ראשונה : חישוב ציון authority

בכדי לחשב את רמת הauthority של הדף p, נבצע סכום של כמות דפי הHub מתוך כלל הדפים q אשר מפנים לדף p בצירוף חישוב של המבקרים שביקרו בדף P והשילוב של שניהם מהווים את רמת הauthority של דף p.

או בשפת בני אדם : הציון הסופי של רמת הסמכותיות של דף מסוים הוא למעשה סכום של ציוני דפי הHUB שמפנים אליו בצירוף ציוני הגולשים שביקרו בו.

שורה שנייה : חישוב ציון Hub

נעשה באופן דומה רק שהערכים של הauthority בנוסחה מתחלפים עם הHub, נוסחה זו תשמש בכדי לחשב את ציון הHub שאותו דף יקבל.

או בשפת בני אדם : הציון הסופי של דף Hub מסוים הוא למעשה סכום של ציוני הדפים הסמכותיים שעליהם הוא מצביע בשילוב ציוני הגולשים שביקרו בו.

שורה שלישית : חישוב ציון רמת הגולש

משקל הגולש r מחושב באמצעות סיכום של כל דפי ה Authority ודפי הHub שהגולש ביקר בהם. ואז הציון של משקל הגולש ומשקלי הדפים מתחזקים אחד את השני באופן רקורסיבי כפי שצויין בהנחת יסוד מס' 2.

או בשפת בני אדם : הציון הסופי שמשתמש יקבל הוא למעשה שכלול של ציוני הדפים הסמכותיים בהם ביקר בשילוב ציוני דפי הHub בהם ביקר.

אז אנחנו מבינים שנגזרים מתוך החישובים באלגוריתם שלושה דברים המשמשים לשאר החישובים : רמת סמכותיות של דפים מסוימים, דפי Hub אשר מהווים מקורות הפנייה עשירים ורלוונטיים ודירוג אודות איכות הגולש אשר תלוי הדדית בנתונים שנראו מעלה.

 

דיאגרמת הדגמת הפעולה

מצוין במסמך המחקר כי נעשה שימוש בלוגים של שרת המטמון (ניתן להניח שבסביבת האינטרנט מדובר בשרתים של גוגל), הלוגים מקליטים מידע אודות המשתמש, כמו כן סדרה של הדפים בהם הוא ביקר.

 

תרשים ההפעלה של האלגוריתם

 

1. בדיאגרמה מצוירת השאילתה (query) ובאמצעות אלגוריתם אחזור מידע הנקרא OKAPI נוצר מקבץ של מסמכים רלוונטיים לשאילתה שגם זכו לביקורים מצד משתמשים. קבוצת מסמכים זו נקראת "קבוצת השורש" (יש הגבלה של N דפים בכדי למנוע היווצרות של כמות דפים לא סבירה בקבוצת השורש)

2. השורש מורחב למאגר נוסף שנקרא "מאגר הבסיס" שנבנה באמצעות כל הדפים שמקשרים לדפים הנמצאים ב"קבוצת השורש" וכל הדפים ש"קבוצת השורש" מקשרת אליהם. בכדי לקבוע את השכונה של "קבוצת השורש" האלגוריתם מנטר את הקישורים היוצאים והנכנסים לאותם מסמכים.

3. חילוץ המידע אודות המשתמש בצירוף כל הביקורים שערך בדפים השונים מהלוגים של השרת.

 

לסיכום

אלגוריתם אשר מאתר מומחים באמצעות ניתוח של נתוני לוגים בשרת, מצד אחד נמדדת רמת המומחיות של אותו מומחה בהתאם לכמות ולאיכות הדפים בהם ביקר. ככל שביקר בדפים איכותיים יותר כך רמת המומחיות שלו עולה ובו זמנית חשיבות של דף אינטרנט עולה בהתאם לכמות הציטוטים שדפים אחרים מצטטים אותו והתדירות אשר הוא זוכה לביקורים.

חשיבות דפי האינטרנט ואיכות הגולש ישפיעו אחד על השני באופן רקורסיבי עד להשגת ערך יציב.

ניתוח הקישורים באלגוריתם זה יסבול מבעיה של "נדידת הנושא" עקב חוסר התייחסות לתוכן עצמו בתהליך הדירוג. יש לשלבו עם אלגוריתם לניתוח תוכן להשגת תוצאות מדויקות יותר.

בנוסף ניתן להשתמש באלגוריתם לזיהוי מומחים אשר קשורים לתחום העיסוק של המשתמש ע"י יצירת פרופיל טקסטואלי של אותו משתמש והפיכתו לשאילתה באלגוריתם זה.

מלבד המחקרים שצוטטו בפטנט עצמו צוטטו עוד 41 פטנטים שונים המיוחסים לפטנט זה.

 

איסוף המידע מתבצע גם באמצעות סרגל הכלים של גוגל

עוד מאמר שזכה לציטוט בפטנט של גוגל מסביר למעשה אילו נתונים הסרגל Google toolbar שולף ומשדר חזרה לגוגל לצורך ניתוח פרופיל הגולש ואופן הלחיצה על קישורים.

 

בין הגורמים שסרגל הכלים של גוגל יודע לזהות כיום :

1. חיפושים אשר מתבצעים דרך הסרגל שולחים התראה לגוגל על כך.

2. היסטוריית הגלישה באמצעות הסרגל.

3. גלישה ישירה לאתרים בשורת הכתובת כאשר הסרגל מותקן.

4. נתונים אודות הגולש כגון: סוג הדפדפן ומידע מתוך הheader (כמו שעה , תאריך, וכו')

5. שתילת עוגיה של גוגל לצרכי מעקב.

6. מדד ה- PR של הדפים בהם ביקרת.

7. קטגוריה אליה משוייך האתר בו ביקרת.

 

לסיכום

ייתכן שגוגל עושה שימוש באלגוריתם זה לא רק כדי לדרג קישורים דרך דפוסי התנהגות גולשים אלא גם יצירת פרופילי התנהגות גולשים שיובדלו בתור "רעש" ואבחנה בין גולשים "אמיתיים" לגולשים מזויפים או חסרי ערך בהכרעה על איכות הקליק עצמו בגלל איכות האלגוריתם שמסוגל להתחיל לתת ציונים לגולשים עצמם וגם לאתר את הקשרים ביניהם.

אין ספק שהאלגוריתמים שמוצגים בפטנט הם חלקיים ויהיה צורך בשילוב אלגוריתמי תוכן קיימים בגוגל על מנת לשפר את איכות הדיוק של האלגוריתם הסופי. כמו כן לא עלה נושא נוסף והוא הסקת המסקנות מניתוח של הקלקות גולשים.

המאמר שיהווה חלק ב' למאמר זה ידבר על ניתוח נתוני ההקלקות מסקירה שערכתי על מחקרים נוספים.

מקווה שהמאמר לא יצא כבד מדיי ובכל זאת הצלחתי להעביר את ההבנה של הנושא.

המשך יום גוגלי – סתיו זילברשטיין.

 

אין לי כאב ראש – המשך לקרוא את חלק ב' >>

 

 

מקורות המאמר 

1. אלגוריתם תוכן ישן מ1996 שנקרא LASER שמטרתו היתה לאפיין דפי HTML ברמת התוכן שלהם דרך פרמטרים שונים (כגון תגיות, H, כותרות ועוד…)

2. AdaBoost – ככל הנראה מדבר על יכולת להתמודד בניתוח כמויות מידע גדולות בסביבה רועשת.

3. אלגוריתם נוסף המדבר על התמודדות עם כמויות מידע גדולות.

4. מחקר מקיף על הקשר שבין שאילתות למסמכים ודרכים שונות לנתח את הקשר ביניהם.

5. אלגוריתם שמציין יכולת לזיהוי דפוסים – אם כי צוין שהשיטה עלולה להיות ארוכה וכבדה מדי.

6. כיצד גוגל משתמשת בtoolbar שלה.

7. הפטנט הרשמי במשרד הפטנטים.

קורא אחד הגיב למאמר מה גוגל יודעת על התנהגות גולשים – חלק א'

  • Elazar gilad הגיב:

    היי חברים,

    שוב מאמר מקצועי מבית היוצר של דוראן מאוד אהבתי לקרוא. חייב לפרגן ולומר שאתר דוראן מהווה כמכור האיכותי ביותר ברשת הישראלית כיום ללימוד ועיון בחומר מקצועי.

כתיבת תגובה

האימייל שלך לא יוצג באתר. (*) שדות חובה מסומנים

*

תגי HTML מותרים: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

חייג 09-3721026 או:
צור קשר

שם (חובה)

דואר אלקטרוני (חובה)

אתר החברה

טלפון

אופי הפניה