כפילות תוכן לאחר עדכון פנדה – מרכז המידע על תוכן כפול לשנת 2011

מאז עדכון פנדה עולם קידום האתרים בארץ ובעולם השתנה לחלוטין, מנוע החיפוש של גוגל נעשה מדויק יותר, והדרישות שלו נעשו קפדניות יותר. כל צורת החשיבה של מקדמי אתרים משתנה מקצה אל קצה.

גוגל כבר שנים מנסים לתת מענה הולם לתופעה של תוכן כפול באתר או בין אתרים שונים, מאז ומעולם כפילות תוכן הייתה בעיה בשביל גוגל, ודרכי ההתמודדות של גוגל עם תופעה זו התפתחו בצורה משמעותית במהלך השנים. אפשר לומר שעד עדכון פנדה תוכן כפול באתרכם היה מסב נזק לעמודים הכפולים עצמם, אך לאחר עדכון פנדה תוכן כפול יכול לפגוע בדירוג האיכות של כל האתר כולו, כולל העמודים הרלוונטיים לכם.

מסמך זה מרכז בתוכו את כל המידע הנדרש לכם כבעלי אתרים ומקדמי אתרים כאחד על כפילות תוכן.

• מהי כפילות תוכן ?
• מהן הבעיות שכפילויות תוכן יוצרות באתרכם ואיך זה משפיע על דירוג האתר ?
• צורות נפוצות של כפילות תוכן ? (כולל דוגמאות)
• פתרונות לנושא של תוכן כפול באתרכם

מטרת מסמך זה יהיה לתת לכם את כל המידע והכלים להתמודד עם כפילות תוכן באתרכם לשנת 2011. ומהווה מרכז מידע בכל הקשור בנושא זה.

א. מהי כפילות תוכן ?

נתחיל מההתחלה, כפילות תוכן מתקיימת כאשר שני עמודים או יותר מכילים את אותו התוכן, לאלו מכם שצריכים הדגמה ויזואלית הנה דוגמא לכפילות תוכן.

כפילות תוכן - דוגמא למצב שבו יש כמה עמודים בעלי אותו תוכן

קונספט פשוט לא ? בעלי אתרים לעיתים עושים את הטעות לחשוב שעמוד באתר שלהם הוא סה"כ מסמך היושב בשרת והוא נפרד ממסמכים אחרים, אך בשביל העכבישים \ רובוטים (כגון העכביש של גוגל) עמוד באתרכם הוא כל כתובת URL שונה וייחודית שהעכביש נתקל בה במהלך סריקת הרשת האינטרנטית, בתנועה דרך קישורים פנימיים או חיצוניים באתרי האינטרנט. אתרים גדולים ודינמיים לעיתים יוצרים שתי כתובות URL לאותו עמוד (בדרך כלל לא בכוונה תחילה)

ב. למה כפילות תוכן חשובה בכלל, או משנה משהו ?

ההשפעה של כפילות תוכן היא ישירה ובלעדית לקידום אתרים, ואף נובעת מתוך עולם קידום האתרים. נושא זה היה בעיה בתחום הרבה לפני עדכון פנדה, דרכי ההתמודדות עימו התפתחו ככל שהאלגוריתמים התפתחו, הנה סקירה קצרה של הבעיות העיקריות הנובעות כתוצאה מכפילות תוכן לאורך השנים.

האינדקס החלופי של גוגל (Supplemental index)

בתחילת הדרך של גוגל, רק עצם הסריקה והעלאה של עמודים לאינדקס דרשה כוח מחשוב עצום ומשאבים רבים, לכן עמודים שנחשבו כבעלי כפילות תוכן או שנקבעו כעמודים בעלי תוכן לא איכותי או תוכן דל פשוט נסרקו ונשלחו לאינדקס החלופי של גוגל, אפשר לומר שעמודים שנשלחו לאינדקס החלופי היו פשוט פחות טובים, או קיבלו ציון נמוך יותר מאשר עמודים שנסרקו ועלו לאינדקס הראשי של גוגל, מנקודת מבט של קידום אתרים העמודים שנשלחו לאינדקס החלופי של גוגל פשוט איבדו את היכולת להתחרות בתחומים מסוימים בהם רמת התחרות הייתה גבוהה.

בשלהי שנת 2006 גוגל ביצעו אינטגרציה מלאה של האינדקס החלופי לתוך האינדקס הראשי שלהם, אך העמודים שדורגו נמוך פשוט סוננו החוצה מהאינדקס בצורה יותר אלגנטית, איך ידעתם שעמודים שלכם סוננו החוצה ? בכל פעם שביצעתם חיפוש וראיתם את ההודעה הבאה בתחתית עמוד התוצאות:

supplemental index - האינדקס החלופי של גוגל

למרות שהאינדקס החלופי והאינדקס הראשי של גוגל אוחדו, תוצאות שדורגו כ – "כניסות דומות מאוד" סבלו מהשלכות קשות בכל הנוגע להופעת העמודים באינדקס של גוגל, לעיתים לא הופיעו כלל) ונכון יהיה לומר שבהרבה מקרים העמודים הללו באמת הכילו כפילות תוכן או שפשוט היו בעלי ערך נמוך, כך שהנזק לקידום האתר היה זניח, אך לא תמיד.

"מקסימום של עמודים לאתר"

קשה מאוד לדון בגבולות של גוגל בכל הנוגע למספר עמודים מקסימאלי של אתר הנגיש לעכביש שלהם, אין ערך מקסימאלי או ערך שלם שניתן לומר שהוא הגבול המקסימלי של גוגל בכל הנוגע למספר המקסימאלי של עמודים באתר, מה שכן קורה הוא שלפעמים העכביש של גוגל פשוט מרים ידיים או מוותר ולא סורק את כל העמודים באתר, במצב כזה העכביש של גוגל פשוט לא יחזור לאתר כמה זמן, במיוחד אם אנו מציעים לעכביש מספר גבוה של עמודים חסרי ערך.

למרות שהמספר המקסימאלי אינו ערך קבוע אנו כן יכולים לקבל אינדיקציה לגבי ההתנהגות של העכביש בתוך האתר שלנו בכלי מנהל האתרים. תחת – אבחון -> סטטיסטיקת סריקה

Crawl rates - סטטיסטיקות סריקה בכלי מנהל אתרים

"מכסה מקסימאלית" של עמודים לסריקה

בדומה ל-"מקסימום של עמודים לאתר", אין מכסה קבועה וידועה מראש של המכסה המקסימאלית של העמודים הנסרקים באתר על ידי גוגל, קיימת מכסה כזו אך היא מאוד דינמית ותלויה בתחום האתר ובמדד הסמכות שלו (Authority rank).

לדוגמא אם תמלאו את האתר שלכם ב 1000 עמודים של "מנגנון חיפוש פנימי" משלכם, יכול מאוד להיות שעמודים חשובים יותר של מוצרים או שירותים לא יסרקו כלל, טעות נפוצה לחשוב שככל שיש לכם יותר עמודים ככה תופיעו ביותר תוצאות, אך אם האתר שלכם עמוס בעמודים בעלי תוכן משוכפל או עמודים בעלי תוכן דל בעל ערך חיפוש נמוך, יקרה בדיוק ההיפך, יותר מפעם אחת נתקלנו במצב שבו כמות העמודים הייתה הסיבה שהאתר לא הופיע בתוצאות הרלוונטיות שלו, ככל שהאינדקס של האתר מנופח יותר כך הסיכוי שלו להופיע בערכים רלוונטיים יורד משמעותית (* מנופח משמעותו עמודים חסרי ערך)

 

כפילות תוכן תוביל "לענישה" מצידו של גוגל

מזה שנים קיים מיתוס שישנו אלגוריתם המעניש אתרים בעלי תוכן משוכפל, הדיונים בפורומים ברחבי העולם ובארץ ערים כבר שנים על הנושא הזה, הבעיה בדיונים הללו שברוב הפעמים הטעות היא דווקא בסמנטיקה ולא בעיקרון או הרעיון שעומד מאחורי הדיונים הללו, למרות שהטענות של מקדמי אתרים ובעלי אתרים כאחד לגבי ענישה מצד גוגל נראים נכונים יש הבדל משמעותי בין סינון של עמודים פחות רלוונטיים לבין ענישה של ממש מצד גוגל, מנקודת המבט של בעל האתר התוצאה היא זהה, אם עמודים סוננו החוצה או אם גוגל העניש במכוון,תקראו לזה ענישה או שתקראו לזה סינון כך או כך העמודים הללו פשוט לא מופיעים באינדקס של גוגל.

 

עדכון פנדה

מאז עדכון אלגוריתם פנדה (שהתחיל בפברואר של 2011) ההשפעה של תוכן משוכפל קיבלה משמעות רחבה יותר. בזמנו, לפני פנדה כפילות תוכן הייתה פוגעת בעמודים אשר מופיע בהם התוכן המשוכפל בלבד, כלומר במקרה הרע העמודים הללו היו עפים לאינדקס החלופי או שפשוט היו מסוננים החוצה, במקרה הגרוע יותר כמות עצומה של עמודים כאלו הייתה מפריעה לגוגל לסרוק את האתר ויכולה להשפיע על עמודים אחרים באתר (עמודים רלוונטיים).

מאז פנדה, תוכן כפול הפך להיות בעיה שנכללת בתוך משוואה רחבה הרבה יותר, כפילות תוכן משפיעה על הדירוג של כל האתר כיחידה אחת, משמעות הדבר היא שאם האתר שלכם נסרק תחת האלגוריתם של פנדה סביר מאוד להניח שבמידה ויש באתר מספר גבוה של עמודים חסרי ערך או בעלי תוכן כפול, דירוג האתר כולו יפגע וישנה אף אפשרות שכל העמודים כולם פשוט יעופו מהאינדקס של גוגל, התמונה כיום ברורה, כפילות תוכן אינה בעיה מקומית אלא בעיה כללית שיכולה לפגוע בכל האתר כולו ויש לדעת איך להתייחס אליה.

 

ג. שלושה סוגים שונים של כפילות תוכן

לפני שאראה דוגמאות של כפילות תוכן ואת הכלים להתמודדות עם הבעיה נרצה לסקור שלוש קטגוריות של כפילות תוכן והם:
"כפילות תוכן זהה"
"כפילות תוכן דומה"
"כפילות תוכן בין שני אתרים שונים"

כפילות תוכן זהה

כפילות תוכן זהה הוא מצב שבו עמוד מכיל תוכן זהה לחלוטין לזה של עמוד אחר. ההבדל היחיד בין עמודים אלו היא כתובת ה URL של העמוד. (כפי שהצגנו בדוגמא הויזואלית למעלה)

כפילות תוכן זהה

כפילות תוכן דומה

כפילות תוכן דומה מתאפיינת בכך ששני עמודים הם בעלי תוכן זהה אך עם הבדלים מאוד קטנים ביניהם, יכול להיות שמדובר בפסקה אחת קטנה, או שמא מדובר בתמונות שונות או אפילו סדר פסקאות שנראה מעט אחרת או אפילו הפוך.

כפילות תוכן דומה - מצב בו ישנם שינויים מינוריים בעמוד

כפילות תוכן בין שני אתרים שונים

כפילות תוכן מסוג זה היא כאשר שני אתרים שונים לחלוטין מעלים תוכן זהה לאתרים שלהם, נושא העתקות תוכן הופך להיות בעיה.

כפילות תוכן זהה בין שני אתרים שונים על גבי האינטרנט

כפילות תוכן בין שני אתרים או יותר על גבי הרשת יכולים להיות גם "כפילות תוכן זהה" או "כפילות תוכן דומה", שכפול זה יכול אפילו להיות תחת סיבות לגיטימיות, לדוגמא (הוראות יצרן רשמיות, מסמכים רשמיים וכו')

 

V. הכלים לפתרון בעיות כפילות תוכן

גם כאן לפני שאכנס לדוגמאות של ממש, אציג את מגוון הפתרונות העומד לרשותנו בכדי ליצור סדר (כאשר יהיו דוגמאות אציג את הפתרונות שלהם ולכן נמספר את הכלים כדי שאוכל להתייחס אליהם בחלק הבא של המאמר), בצורה כזו אוכל להמליץ לכם על הכלים והפתרונות הנכונים לכל דוגמא שאציג בהמשך המסמך הזה.

 

1. שגיאה 404

הדרך הפשוטה ביותר והיעילה ביותר לטפל בכפילות תוכן, יהיה שימוש ב 404, ישנם הרבה מצבים בהם הפתרון המוצג בסעיף זה יהיה קל ומאוד אפקטיבי. עליכם להסיר את העמוד בעל התוכן הכפול מהאתר ולהציג עמוד שגיאה 404, במידה ובעמוד שנסיר אין תוכן רלוונטי ולא מדובר בעמוד של מוצר או שירות, כמו כן אין לעמוד קישורים נכנסים או כוח רב, יהיה קל להסירו מהאינדקס ובכך לפתור את בעיית שכפול התוכן באופן סופי.

 

2. הפניות 301

פתרון נוסף במצב של שכפול תוכן, יהיה להפנות את העמוד בהפנייה 301. בניגוד להסרת העמוד, אנו יכולים להפנות את כתובת ה URL הכפולה לכתובת URL אחרת ובכך להודיע לגולשים ולעכביש של גוגל שהעמוד הספציפי עבר דירה לכתובת URL חדשה. מנקודת מבט של הגולשים – פשוט יופיע עמוד חדש, מנקודת המבט של העכביש של גוגל, כל הכוח והוותק, הקישורים הנכנסים והאיכות של הדף יעברו כמעט בשלמותם לכתובת העמוד החדשה שאליה ביצענו את ההפניה. במידה ויש לעמוד זה תג קנוניקל יהיה קל יותר להפנותו ומרבית הכוח ישמר אף יותר.

 

3. קובץ Robots.txt

אופציה נוספת לפתור כפילות תוכן על כל סוגיה תהיה שימוש בקובץ רובוטס, במצב כזה הגולשים שיגיעו לאתר עדיין יקבלו את העמודים הרלוונטיים אך הרובוט של גוגל (העכביש) יחסם. זהו הפתרון הכי קל ואולי הכי עתיק לשכפול של תוכן. (בדרך כלל הקובץ ממוקם בתיקיית הבית של אתרכם). ווריאציה אפשרית לאיך שיראה קובץ זה :

דוגמא לקובץ robotx.txt

היתרון המהותי בשימוש בקובץ רובוטס הוא שניתן לחסום תיקיות שלמות ואפילו פרמטרים בתוך כתובת ה URL. החסרון המהותי הוא שלעיתים הפתרון הזה אינו אמין כלל. קובץ Robots.txt יעיל בדרך כלל במצבים שבהם עמודים לא נסרקו עדיין או לא מופיעים באינדקס של גוגל, אך הבעיה מתחילה כאשר יש עמודים שנסרקו כבר, הקובץ אינו מסייע בהסרתם. מנועי החיפוש הגדולים (Bing, Google) עושים הרבה בעיות כאשר בעלי אתרים משתמשים בקובץ הזה יותר מידיי ותמיד בקווי המנחה לא מומלץ להשתמש בקובץ רובוטס כפתרון לשכפול תוכן.

 

4. Meta Robots

ניתן לחסום את העכביש של גוגל או רובוטים אחרים גם ברמת העמוד עצמו, עושים זאת על ידי שימוש בתג מטא רובוטס (לפעמים נקרא Meta NOINDEX), זהו פתרון יעיל ופשוט שבעלי אתרים יכולים להטמיע בתגית ה-Head של העמוד, התג יראה כך:

תג זה מאפשר לנו לחסום דפים ספציפיים, העכביש של גוגל לא יסרוק את העמודים הללו ואף לא יכנס לקישורים, הפתרון הזה הרבה יותר ידידותי למשתמשים ולמקדמי אתרים מכיוון שניתן להטמיע אותו בצורה דינמית בכל עמוד שרוצים והוא מהווה פתרון הרבה יותר פשוט מיצירת קובץ robots.txt

כמו כן ניתן להשתמש בתגית זו בפקודת "Noindex" "Follow" , משמעות הדבר היא שהעכביש יסרוק את העמוד ואת הקישורים היוצאים ממנו אך לא יוסיף אותו לכמות הדפים שנסרקו בגוגל ולא יעלה אותו לאינדקס. זה פתרון יעיל מאוד במקרים שישנו מנוע חיפוש פנימי, במקרים כאלו אנו נרצה שגוגל יסרוק את הקישורים שמופיעים בתוך עמודי החיפוש הפנימיים באתר אך לא בהכרח נרצה שעמודי החיפוש עצמם יופיעו באינדקס של גוגל.

 

5. תג קנוניקל (Rel=Canonical)

בשנת 2009, מנועי החיפוש שבראשותן גוגל יצרו יחד את תג הקנוניקל. תג זה מאפשר לבעלי אתרים לציין באופן ברור את הנתיב הנכון והמלא של כל כתובת URL באתר, בכדי למנוע מצב של כפילות תוכן, כמו כן תג זה מאפשר לבעלי אתרים לנקות פרמטרים מכתובות URL ללא שימוש באופציית חסימה של פרמטרים בכלי מנהל האתרים. את תגית זו מטמיעים ב-Header של הדף (היכן שמטמיעים את תג ה-noindex), דוגמא לתגית קנוניקל:

תג קנוניקל (Canonical Tag)

כאשר מנוע החיפוש מוצא עמוד באתרכם שיש בו את תג הקנוניקל, הוא מבין שהכתובת המוצגת בתוך תג זה היא כתובת ה URL שאליה עליו להתייחס, כך מנוע החיפוש מתעלם מפרמטרים הנוספים לכתובת ה URL. כלומר במידה והעכביש של גוגל הגיע לעמוד הבית והכתובת היא זו "http://www.example.com/index.asp" הוא ידע להתעלם מהכתובת הזו ולהתייחס למה שכתוב בתג הקנוניקל כמו כתובת ה URL שמוצגת בדוגמא למעלה. נראה שמשקל קישורים פנימי בהחלט עובר דרך תגי קנוניקל (Canonical Tags) ושימוש בתגי קנוניקל יכול לסייע לנו לתעל את כוח הקישורים בתוך האתר.

במידה ואתם מעוניינים להטמיע באתרכם תגיות קנוניקל, בכדי לפתור כפילויות תוכן או לתעל את משקל הקישורים לעמודים החשובים לכם, עליכם לדעת איך לבצע זאת. שימוש לא נכון בתגיות קנוניקל יכול להיות הרסני לחלוטין לאתר ולדירוגים שלו לכן מומלץ לקרוא על כך לפני היישום או להוועץ עם מומחה של קידום אתרים. – הדרכה מלאה בנושא תגיות קנוניקל

כמו כן מאמר מלא על שגיאות חמורות בשימוש בתגיות קנוניקל באתר

Seomoz

6. הסרת כתובות URL לא רצויות דרך כלי מנהל האתרים של גוגל

ניתן לחסום כתובות בצורה ידנית דרך כלי מנהל האתרים של גוגל, כל שעלינו לעשות הוא להכנס לכלי מנהל האתרים ללחוץ על תצורת האתר > גישה לסורק (באנגלית: Site configuration > Crawler access) ויופיעו בפניכם שלוש לשוניות, עליכם ללחוץ על הלשונית השלישית "הסר כתובת אתר" וכך תוכלו לציין באופן פרטני כתובות באתר שאתם מעוניינים שגוגל לא יסרוק.

הסרת כתובות URL כפי שזה מופיע בכלי מנהל האתרים של גוגל

חשוב לציין שבכלי זה חוסמים כתובות בצורה ידנית, ויהיה עליכם לציין כל כתובת URL בנפרד. כמו כן עליכם להשתמש בכלי זה רק כמוצא אחרון, החלטתי לציין את כלי זה בכאפשרות במסמך כי אני חש מחוייב להציג בפניכם את כל האופציות הטכניות העומדות לרשותכם בנושא של כפילות תוכן, אך קחו זאת כמוצא אחרון. בנוסף יהיה עליכם לחסום את העמוד ב-robots.txt גם להשתמש בתגית המטא רובוטס Meta) NOINDEX) וגם להפוך את העמוד ל-404 לפני שאתם מזינים את כתובת ה-URL בכלי הזה.

הערה: גוגל הסירו את הדרישות שהיו להם לשימוש בכלי זה ועכשיו ניתן לחסום כתובות ללא שימוש בכלים חיצוניים קודם לכן.

כן מומלץ כאשר חוסמים כתובות, להשתמש בתגיות והאפשרויות האחרות ביחד, בכדי לוודא זאת סופית, לעיתים חסימת כתובות בכלי הזה בלבד ללא שימוש בשילוב פתרונות נוספים פשוט לא עובד.

 

7. חסימת פרמטרים בגוגל

בכלי מנהל האתרים ניתן לחסום פרמטרים בכתובות URL שאתם מעוניינים שגוגל יתעלם מהם. משמעות הדבר תהיה שכל כתובת באתר המכילה את הפרמטרים הללו תיחסם. ניתן למצוא את האפשרות לחסימת פרמטרים בתוך כלי מנהל האתרים תחת תצורת אתר > פרמטרים של כתובת אתר (באנגלית: Site configuration > URL parameters) דוגמא לרשימה כזו:

הסרת פרמטרים בגוגל

רשימה זו מייצגת את כל הפרמטרים שגוגל זיהה ואת האופן שבו גוגל מתייחס לפרמטרים אלו בכתובות.URL חשוב להבין שגם אם שמתם את האפשרות על "Let Googlebot Decide" עדיין אתם יכולים להשתמש בטקטיקות אחרות לחסימה של הכתובות כמו Robots.txt וכו'. במידה ותלחצו על "ערוך" (Edit) תקבלו את האפשרויות הבאות:

אופציות המופיעות בכלי הסרת הפרמטרים של גוגל

גוגל כנראה ישפרו מעט את תצורת הכלי הנוכחי מפאת תלונות חוזרות ונשנות מצד בעלי אתרים שהכלי פשוט אינו מובן. אך ניצור סדר בדברים, במידה והתשובה היא כן (Yes) אנו למעשה אומרים לגוגל שאלו פרמטרים חשובים ונרצה שהוא יסרוק אותם, במידה וסימנו לא (No) אנו מציינים בפני גוגל שלא נרצה שהוא יסרוק את הכתובות אשר מכילות את הפרמטרים הללו. הכלי הזה יעיל מאוד ואף שימושי למי ששולט בו, אך לא הייתי ממליץ על כך כטקטיקה לחסימת כתובות מהסיבות הבאות.

o יעיל רק בכל הקשור לגוגל ולא למנועי חיפוש אחרים
o כלים חיצוניים של קידום אתרים המשמשים למדידה וניטור אינם מתייחסים לכלי זה
o גוגל יכולים לשנותו או את הגדרות השימוש שלו בכל זמן נתון ולהציב בפנינו בעיה

 

8. תגית Rel=prev & Rel=next

השנה (ספטמבר 2011) גוגל הציגו תגית חדשה אשר מאפשרת לנו לטפל בנושא של "כפילות תוכן דומה" בתוך האתר, אנו נכנס בחלק הבא של המסמך לדוגמאות של ממש בנושא, אך בקצרה אפשר לומר שתגית זו יעילה במצבים של מנוע חיפוש פנימי אשר מציג יותר מעמוד אחד (מנגנון Paging), או בעברית מנגנון מספור עמודים. דוגמא לאיך נראה מנגנון מספור עמודים:

דוגמא למנגנון מספר עמודים (Paging)

התגיות החדשות של גוגל נקראות rel-prev rel-next אופן השימוש בהן ומטרתן דומה מאוד לתגיות קנוניקל אם כי מעט בעיתיות בהטמעה, הנה דוגמא פשוטה לתגית זו:

תג Prev - next שנועד לתת מענה למנגנון מספור עמודים

בדוגמא זו, הרובוט של גוגל נמצא בעמוד 3 של תוצאות החיפוש הפנימיות באתר, אז אתם זקוקים לשתי התגיות (1) Rel prev שמוביל לעמוד מספר (2) ותגית נוספת (2) Rel next שתוביל לעמוד (4). זה נעשה מסובך כי בדרך כלל מנועי חיפוש פנימיים עובדים על אותו טמפלייט והכתובות מיוצרות בצורה דינמית.

כמו כן בינג אינו מתייחס אליהן. יותר מכך אין הרבה מידע על גבי הרשת לגבי רמת היעילות של שימוש בתגיות אלו. אנו נעבור בקצרה על מנגנוני Paging בחלק הבא של המאמר.

 

9. Syndication-source (הצגת תכנים זהים בין אתרים באישור)

בנובמבר של 2010, גוגל השיקו סדרת תגי מטא חדשים המתייחסים לפרסום תכנים של RSS והצגת תכנים של אתרים שונים באתר אחד. משמעות הדבר היא שכפתרון לכפילות תוכן אתר המציג מאמר משוכפל מאתר אחר יוכל לציין זאת בתג מיוחד (Syndication source), ובכך להמנע מפגיעה בדירוג איכות העמוד, דוגמא לתגית זו:

תוכן מועתק אשר קיבל אישור מבעלי האתר המקורי נמצא תחת תג Syndication

נראה שאפילו גוגל אינם ברורים לגבי ההנחיות לשימוש בתג זה, יותר מכך מאז שהם שחררו את התג הזה "כניסוי", הסטטוס של תג זה לא השתנה. ב21.11.2011 גוגל השיקו עוד תג המתייחס לשימוש בתוכן מאתרים אחרים שנקרא Standout tag. בשורה התחתונה לא הייתי מסתמך על תגיות אלו ופונה לפתרונות אחרים המופיעים במסמך זה.

אין להסיק שתג זה לא עובד, פשוט לא קיים מספיק מידע ברשת אודות רמת האפקטיביות שלו, הוא מופיע במסמך זה כי הוא קיים כפתרון ויכול להיות יעיל, אתם מוזמנים לנסות להשתמש בו ולשלוח לנו ממצאים, כדי שנוכל לעדכן.

 

10. משקל קישורים פנימי וארכיקטורה לאתר

חשוב לזכור שהדרך היעילה ביותר לטיפול בבעיות של כפילות תוכן תהיה להימנע מיצירת כפילויות תוכן פנימיות מלכתחילה, ישנם מקרים בהם הדבר אינו מתאפשר. במידה וקיימת בעיה קשה של כפילות תוכן באתרכם כנראה ויהיה עליכם להסתכל ולבחון את משקל הקישורים הפנימי והארכיטקטורה הפנימית באתרכם, הרבה מקרים של כפילות תוכן נובעים משימוש בקישורים פנימיים שאינם נכונים או בכשל של המערכת המייצרת עשרות כתובות URL שונות לאותם עמודים.

נתקלתי בלא מעט מקרים בהם בעלי אתרים תיקנו כפילויות תכנים באתריהם על ידי שימוש בהפניות 301 והטמעת תגיות קנוניקל (Canonical tags) אך שכחו להטמיע את השינויים הללו במבנה הקישורים הפנימי באתר עצמו. אמנם ביצוע הפניות 301 פתר את הכפילות הספציפית אך עדיין הכפילויות הללו הופיעו במפת האתר (Sitemap.xml) ועדיין בעלי האתרים המשיכו לבנות קישורים פנימיים לכתובות שמחוץ לתגיות הקנוניקל שהוטמעו, מה שהשאיר את בעיית הכפילות השורשית באתר בעינה, חשוב לבדוק את מבנה הקישורים הפנימי ואת הארכיטקטורה הפנימית שאתם משתמשים בכדי לקשר עמודים עוד לפני שאתם פונים לפתרונות אחרים.

 

11. אל תעשו כלום – הבעיות יפתרו את עצמן

גוגל הצהירו יותר מפעם אחת שהפתרון הכי טוב יהיה להניח לבעיה בצד ולתת למנוע החיפוש לאתר ולפתור אותה בשבילכם, לצערנו זה לא תמיד רעיון טוב. מניסיון שלנו עם אתרים, במיוחד אתרי תוכן גדולים, אנו רואים שהתעלמות מן הבעיה יכולה להיות הרסנית לחלוטין, חשוב לזכור שלא כל כפילויות התוכן הן בעייתיות, במידה ויש לכם מספר בודד של עמודים בעלי כפילות תוכן, אפשרי מאוד שפשוט תניחו לבעיה הזו בצד כי סביר שאינה גורמת לנזק לאתרכם.

 

דוגמאות לכפילות תוכן

לאחר שסקרנו את כל הפתרונות האפשריים נוכל לבסוף להכנס לדוגמאות מוחשיות של כפילויות תוכן שסביר מאוד שתתקלו בהן באתרים עליהם תעבדו, או אפילו באתר שלכם. במהלך החלק הזה של המסמך אשייך פתרון לכל דוגמא שאציג, למשל אם הפתרון שאציג יהיה הפניות 301 יופיע לצד הטקסט (V – 2).

 

1. WWW מול כתובת ללא WWW

אחת הבעיות הנפוצות ביותר שתתקלו באתרים תהיה כפילות תוכן רוחבית של האתר שיופיע עם WWW וללא WWW. בדרך כלל מצב כזה קורה כאשר בונים קישורים לכתובות URL שגויות ובמצב שבו הקישורים הפנימיים בקוד ללא נתיב אבסולוטי. במצב זה כאשר נבנה קישור ללא WWW כל האתר כולו יסרק ויאונדקס ללא WWW. דוגמא לכתובות עם WWW וללא WWW :

דוגמאות לכתובות URL עם WWW ובלי WWW

ברוב המקרים הפתרון היעיל ביותר לבעיית כפילות תוכן מסוג זה תהיה הפניות 301 (V-2) גוגל מודעים לשכיחות הבעיה של כפילות רוחבית ולכן מקבלים בהבנה את השימוש בהפניות אלו במצב זה.

כמו כן אתם יכולים לקבוע דומיין מועדף בכלי מנהל האתרים תחת – "תצורת אתר" (Site configuration) > הגדרות (Settings) שם תוכלו לבחור "דומיין מועדף" (Preferred domain)

דומיין מועדף בכלי מנהל האתרים

לעיתים כאשר נבחר דומיין מועדף בכלי מנהל האתרים נאלץ לפתוח ווריאציה נוספת של האתר תחת הכלי. חשבון אחד ללא WWW וחשבון אחד עם WWW, תהליך זה יכול להיות מעט מסרבל אך אינו גורם לנזק וכן יסייע בפתירת כפילויות התוכן, במידה ויש באתרכם בעיות קשות מאוד של כפילות תוכן זהו פתרון מומלץ, במידה וישנה כפילות תוכן שאינה משמעותית תשאירו את הסעיף הזה לא נגוע ותנו לגוגל להחליט מה הכי טוב לאתרכם מבחינת דומיין מועדף. ברוב המקרים הפניות 301 כפי שהוזכרו למעלה יתנו מענה הולם לבעיית כפילות רוחבית מסוג זה.

 

2. כפילות כתוצאה משימוש בסאבדומיין (Subdomain)

בעיה זו פחות נפוצה אם כי ייתכן ותתקלו בה במהלך עבודתכם על אתרים שונים, מצב זה קורה כאשר בעל האתר רוצה לבנות אתר חדש לחלוטין וצוות הפיתוח מעלה סביבת פיתוח על סאב-דומיין, אך בטעות משאיר את סאב הדומיין פתוח לעכבישים של גוגל. מצב זה יגרום לכך ששני האתרים יסרקו ויעלו לאוויר. זה יראה משהו כזה.

כפילות תוכן כתוצאה מחשיפת סאבדומיין

הדרך הטובה ביותר להתמודד עם מצב כמו זה תהיה להימנע ממנו לחלוטין על ידי חסימת כתובת סביבת הפיתוח בתוך קובץ Robots.txt (V-3). אם בכל זאת מצאתם בעיה של כפילות תוכן מסוג זה עדיף לבצע הפניות 301 (V-2( של עמודים אלו ובנוסף להטמיע בתגית הHead של עמודי סביבת הפיתוח תג Meta NOINDEX (V-4)

 

3. "/" המופיע לאחר כתובת העמוד

הרבה תהיות ודיונים עלו במשך השנים על ידי חברות קידום אתרים על המצב הבא. מצב שבו לאחר כתובת העמוד מופיע "/". אם כי זו אינה בעיה הקשורה ישירות לקידום אתרים (לפחות היום), זהו מצב שבו בפרוטוקול HTTP המקורי, כתובת URL בעלת "/" אחריה נחשבת לכתובת URL שונה מזו שאין אחריה את הסימן. כיום רוב הדפדפנים כבר מוסיפים מאחורי הקלעים את הסימן ובכך הבעיה אינה כפילות ממשית. דוגמא לכתובות כאלו.

סיומת של כתובת ה URL יכולה לגרום לכפילות ?

4. עמודים מאובטחים (HTTPS)

במידה ויש באתרכם איזור מאובטח (המאופיין בתעודת SSL ופרוטוקול HTTPS) יכול להיות שתתקלו בשתי הגרסאות של העמודים באתר (הגרסה המאובטחת לצד זו שלא) מצב זה קורה כאשר בתפריט הניווט של החלק המאובטח באתר ישנו קישור המוביל לכתובות "מאובטחות" של עמודים אשר לא בהכרח אמורים להיות בעלי פרוטוקול (HTTPS), במידה ונתיב הקישורים בקוד הוא רלטיווי ולא אבסולוטי, אנו נראה שישנה כפילות רוחבית מלאה של האתר.  גרסה עם HTTP בלבד מול גרסה עם HTTPS

 דוגמאות לכתובות מאובטחות לצד אלו שלא מאובטחות:

 דוגמא לעמוד מאובטח ועמוד לא מאובטח

במצב אידאלי עלינו לפתור את בעיית כפילות זו  על ידי סידור הארכיטקטורה הפנימית של הקישורים באתר,  עדיף במצבים אלו להשתמש בתגית Meta NOINDEX (V-4). דפי "העגלה שלי" ואיזורי רכישה לא אמורים להופיע באינדקס של גוגל. אתם יכולים אף להשתמש בהפניות 301 (V-2) במצבים כאלה אך חשוב להימנע מפתרונות רוחביים אוטומטיים (ביצוע הפניות של כל כתובות ה-HTTPS לכתובות יעד HTTP רגילות) – במצבים כאלה קיים פוטנציאל מסוכן שבו תסירו את כל האבטחה מהאתר, זו בעיה מעט מורכבת שכדאי לטפל בה בעדינות, כך או כך אל תבצעו פעולות רוחביות אוטומטיות כאשר אתם נתקלים בבעיה מסוג זה.

5.  כפילות של עמוד הבית

בעוד שבבעיות (1) ו-(3) כבר נוצרת בעיה של כפילות עמוד הבית, לעמוד הבית יש כפילויות נפוצות שיחודיות לו בלבד. הבעיה הכי נפוצה היא שכתובת עמוד הבית ושם הקובץ של עמוד הבית נסרקות ומאונדקסות בגוגל.  דוגמא למצב זה:

 דוגמא לכפילות של עמוד הבית

הפתרון הנפוץ והיעיל ביותר לבעיה מסוג זה היא הפניות 301 (V-2). כמו כן מומלץ לשים תגית קנוניקל (Canonical tag) (V-5) על העמוד הבית המכילה את הנתיב הרצוי. עמוד הבית חשוף מאוד לבעיות של כפילות תוכן והטמעת תג קנוניקל יכולה למנוע הרבה כאבי ראש ובעיות בהמשך.

כמו כן עליכם להיות עקביים בסידור הארכיטקטורה הפנימית שלכם (V-10) גם לאחר הטמעת הפתרונות, במידה ותטמיעו תג קנוניקל אך תמשיכו לקשר לעמוד הבית עם שם הקובץ אתם תשלחו סימנים מאוד מבלבלים לגוגל בכל פעם שהעכביש יגיע לסרוק את אתרכם.

6. זיהוי משתמש ייחודי – Session ID

ישנם אתרים שונים המעוניינים לעקוב אחר משתמש חדש מהרגע שהוא מגיע לאתר, במיוחד אתרי מכירות גדולים. הטמעת זיהוי ייחודי מאפשרת להם לעקוב אחר משתמשים חדשים, קיים כמעט תמיד מצב שבו פרמטר הזיהוי בכתובת ה URL נסרק גם הוא והעמודים מתאנדקסים ככפילות תוכן. דוגמא לזיהוי משתמש ייחודי.

 דוגמא לזיהוי משתמש ייחודי

הדוגמא המוצגת כאן נראית תמימה יחסית, אך הדוגמא הנוכחית אינה עושה צדק עם חומרת הבעיה עצמה.  במצבים בהם קיים Session ID כפילות התוכן יכולה להיות בהיקפים עצומים של הוספת 1,000 עמודים ויותר לאינדקס של האתר בגוגל.

האופציה הטובה ביותר לטפל במצבים בהם זיהוי ייחודי יוצר כפילויות של תוכן באתר, תהיה להסיר את  הזיהוי הייחודי מכתובת ה-URL לחלוטין ולהטמיע את הזיהוי בקבצי עוגיות (Cookies) נפרדים.  אין הרבה סיבות בגינן כדאי להשתמש בזיהוי ייחודי של גולש ואין סיבה כלל לתת לעכביש של גוגל לסרוק את הכתובות הללו. אם הסרת כתובות אלו מהאתר אינה אפשרית תמיד תוכלו לבצע הטמעה רחבה מאוד של תג קנוניקל (Canonical tag) (V-5), במצבים באמת חמורים תוכלו אף להשתמש בחסימת כתובות ה-URL בכלי מנהל אתרים של גוגל (V-7).

7. מערכות מעקב של אפיליאציה (Affiliate)

בעיה זו נראית דומה מאוד לבעיה (6), מצב זו נוצר כאשר אתרים מוסיפים פרמטרים לכתובות ה URL בכדי לעקוב אחר האפיליאטס (Affiliates) שלהם באתר. בדרך כלל מבצעים זאת בכדי לעקוב אחר עמודי נחיתה שנועדו להניב המרות. דוגמא לכתובת מסוג זה:

דוגמא לכתובת מעקב של אפיליאציה

הנזק של כפילות מסוג זה הוא מעט פחות חמור מזה של (6) אך עדיין יכול לגרום לבעיות כפילות קשות ברחבי האתר. במצב אידיאלי ניתן להטמיע זיהוי של אפיליאציה בקבצי עוגיות (Cookies) או להשתמש בהפניות 301 (V-2) לכתובות האמיתיות של העמוד. במידה ופתרונות אלו לא אפשריים מסיבה כלשהי כנראה שתאלצו להשתמש בתג Cnoninal (V-5) או בחסימת פרמטרים בכלי מנהל האתרים של גוגל (V-7), בעזרת הסרת הפרמטרים של האפיליאציה הבעיה תפתר.

8. מספר דרכים (נתיבים) באתר המובילים לאותו עמוד

בהרבה אתרים, במיוחד אתרי E-commerce (אתרי מכירות), ניתן להגיע לכל עמוד דרך מספר דרכים או נתיבים שונים, מצב זה אינו בעייתי כשלעצמו אך כאשר הנתיבים השונים מובילים לכתובות URL שונות המצב יוצר כפילות תוכן של אותם עמודים, לדוגמא אתר מכירות גדול שישנם 3 דרכים שונות להגיע לאותו מוצר.

דוגמא למספר כתובות שמובילות לאותו מוצר

בדוגמא הזו אנו רואים את המוצר IPAD2 שניתן להגיע אליו דרך שתי קטגוריות שונות ואף דרך תגיות דינמיות שמשתמש האתר יכול ליצור לעצמו (מועדפים וכו'). תגיות שמשתמשים יכולים לייצר באופן ידני הן בעייתיות במיוחד כי בתאוריה הן יכולות לייצר אינסוף כתובות כפולות לאותם מוצרים.

אתרי מכירות לא אמורים לייצר כתובות URL שונות לאותם עמודים גם במידה וישנם מספר נתיבים בכדי להגיע למוצר, אין סיבה אמיתית לייצורן של כתובות URL שונות. ישנה טענה שמבחינת חוויית המשתמש יש הצדקה לייצור כתובות ה וURL כי המשתמש מבין מהיכן הוא הגיע וכו'. אך כאשר אנו מסתכלים על קידום אתרים תמיד עדיף שלכל עמוד תהיה כתובת URL אחת בלבד.

במידה ובאתרכם ישנו מצב של כפילות תוכן מסוג זה תוכלו בקלות לבצע הפניות 301 (V-2) או להשתמש בתג קנוניקל (V-5). בהרבה מקרים יהיה קל הרבה יותר להטמיע תג קנוניקל מאשר לבצע הפניות 301, זאת מכיוון שבאתרים גדולים אנו יכולים להתקל במצבים בהם יש יותר מידיי כתובות URL, אמנם ביצוע הפניות או הטמעת תג קנוניקל יפתור את המצב העכשווי של האתר, אך בחשיבה  לטווח ארוך ייתכן שתאלצו להערך מחדש ולסדר את מבנה האתר בכדי להימנע מבעיות דומות בעתיד. אתר אשר בנוי טוב יהיה איכותי יותר מאשר מערכת שמשתמשת בקנוניקל באופן שיטתי בכדי לגשר על בעיות אינהרנטיות של מבנה.

9. פרמטרים פונקציונליים

פרמטרים פונקציונליים מופיעים במצבים בהם ישנו שינוי קל בעמוד (לדוגמא גרסת הדפסה), אך עדיין התוכן יהיה זהה. אין כל כך סיבה להטמיע פרמטרים בכתובת ה URL בכדי להציג גרסאות הדפסה, למעשה זוהי כפילות תוכן מדרגה ראשונה ותו לא.  דוגמא לכתובות URL כאלו :

דוגמא לכתובת עם פרמטרים

בדוגמא למעלה אנו רואים פרמטר נוסף בכתובת ה URL של עמוד גרסת ההדפסה, חשוב להבין שגרסאות הדפסה משמעותן שתוכן העמוד נשאר זהה ורק העיצוב של העמוד משתנה, במצבים כאלו הייתי מציע לחסום את הגישה לעמודים אלה בפני העכביש של גוגל בעזרת תג META NOINDEX (V-4). פתרון נוסף שאתם יכולים לשקול הוא שימוש בתג קנוניקל (V-5) בכדי לאגד את העמודים הללו, אם כי הפתרון הראשוני של תגיות מטא רובוטס יהיו הרבה יותר יעילות, אין סיבה שהעכביש של גוגל יסרוק עמודים של גרסאות הדפסה.

10. כפילות תוכן הנובעת משימוש בפנייה לארצות שונות

מצב זה קורה כאשר אנו פונים למספר ארצות שונות החולקות את אותה שפה, כולם נמצאים תחת אותו אתר כתיקיות (Subfolders) או אפילו סאבדומיינים.  לדוגמא ישנו מצב שבו יש גרסת "אנגלית" של אותו מוצר הפונה ל-3 ארצות שונות ארה"ב אנגליה ואוסטרליה.

דוגמא לכתובות המובילות לכפילות תוכן

לצערי המצב הזה הוא מעט בעייתי – בחלק מהמקרים גוגל ידעו להתמודד עם הנושא הזה ואתם תקבלו את הדירוג וציון האיכות הראוי לכם בכל אחד מהדפים ביחס לכל אחד מהמדינות בהם העמודים הללו יופיעו, לעיתים אפילו אם האתר הוגדר מבחינה גיאוגרפית כראוי גוגל פשוט יחשיב את כל העמודים הללו ככפילות תוכן. ניתן לומר שבדרך כלל עדיף לשים לב לשפה שבה העמוד כתוב ולאו דווקא למדינה שאליה הוא מכוון, עם זאת ישנם סיבות לגיטימיות מאוד להפריד למדינות בעמודים שונים, לדוגמא אם המחיר שונה בכל ארץ וכו'.

לצערי אין תשובה פשוטה למצב כזה, אם תבצעו הפניות 301 (V-2) אתם תפספסו את העמודים האחרים שפונים למדינות שונות, במידה ותטמיעו תג קנוניקל (V-5) רק עמוד אחד יקבל את הכוח והדירוג, חשוב לפתור מצב כזה בהתאם לסיטואציה הספציפית ולאתר הספציפי שבו זה קורה תוך התייחסות למה נרוויח ונפסיד כאשר ניגש לטפל בכפילות זו, לפעמים הענישה מצד גוגל על כפילות תוכן מסוג זה תהיה מינורית ואולי יהיה כדאי להניח לזה.

11. סידור מחדש של עמודי תוצאות במנועי חיפוש פנימיים באתר

עד כה כל הדוגמאות שנתתי במסמך הן של כפילות תוכן זהה לחלוטין. עכשיו אראה דוגמאות של כפילות תוכן דומה, אמנם "כפילות תוכן דומה" זהו קונספט מעט מעורפל אך ישנן כמה דוגמאות נפוצות שיעזרו לי להבהיר בפניכם למה הכוונה בתוכן משוכפל דומה. כפילות תוכן דומה לעיתים מופיעה במידה וישנו "מנוע חיפוש" פנימי לאתרכם, מנוע החיפוש הזה מתייחס לפרמטרים שהגולש מקיש או בוחר ולעיתים סה"כ מציג את אותם עמודים אך שהתוצאות בהן בסדר שונה (במידה וישנה אפשרות של "סדר" תוצאות חיפוש בעמוד לפי פרמטר) , מצב זה נחשב לכפילות תוכן דומה, דוגמא לכתובות URL כאלו:

דוגמאות של כפילות תוכן דומה

מנועי חיפוש פנימיים באתר יכולים לגרום לבעיית כפילות תוכן דומה במידה וישנם פרמטרים הנוספים לכתובת ה-URL בהתאם לבחירתו של הגולש. הפתרון היעיל ביותר שיעבוד גם על רוב המקרים של בעיות מסוג זה תהיה לחסום לחלוטין את עמודי התוצאות של מנועי החיפוש הפנימיים לעכביש של גוגל, ניתן לבצע זאת על ידי הטמעת תג Meta NOINDEX  (V-4) באופן סלקטיבי על כתובות בעלות הפרמטרים שמייצר מנוע החיפוש הפנימי באתר. כמו כן ניתן לחסום את הפרמטרים עצמם דרך חסימת פרמטרים בכלי מנהל האתרים (V-7).

במידה ואתם כן רוצים שהעכביש יזחול את הקישורים בעמודים השונים, תשתמשו בתג המטה NOINDEX עם תגית FOLLOW, כך העמודים הללו לא יופיעו בתוצאות החיפוש אך הקישורים בהם כן יזחלו ויחשבו. העדיפות היא לחסום את העמודים הללו באופן אבסולוטי כי אין להם באמת ערך מוסף למנוע החיפוש של גוגל ולא כדאי שיופיעו באינדקס.

12. מסננים שונים במנועי חיפוש פנימיים באתר

ברוב מנועי החיפוש בפנימיים באתרים גדולים ישנם מסננים שונים שנועדו לסייע לגולש לצמצם את החיפוש שלהם לפי פרמטרים ספציפיים (צבע, דגם, מחיר, מותג וכו') אתרי מכירות גדולים שמכילים בתוכם אלפי מוצרים זקוקים לסננים האלה בשביל חוויית המשתמש, בהרבה מקרים כתובות ה URL שהמסננים ייצרו יהיו דומות מאוד לאלו של "הסידור מחדש" ויראו כמו משהו כזה:

מסננים שונים במנועי חיפוש פנימיים באתר

הפתרון למצב זה יהיה דומה לזה שהוצע בסעיף (11) – פשוט אל תתנו לעכבישים של גוגל לסרוק את הכתובות הללו, כל עוד לגוגל יש נתיב אחד יעיל לעמודים הללו אין צורך שיופיעו עוד נתיבים או כתובות URL נוספים, בדרך כלל חשיפה של עמודים אלו לגוגל עושה יותר נזק מאשר טוב.

13.  מנגנוני PAGING (מספור עמודים)

בעיית מנגנוני PAGING זו בעיה די קלה לתיאור, באתרי מכירות מופיעים בכל קטגוריה מאות מוצרים,  לדוגמא אתר מכירות עם 100 מוצרים בקטגוריה יחלק את המוצרים הללו לעמודים ממוספרים (לדוגמא 10 מוצרים בעמוד) ולאחר מכן יופיע בחלק בתחתון 1-10 עמודים וכו'. בכל פעם שנחלק את התוכן באתר למספר עמודים יהיה צורך במנגנון PAGING (מספור עמודים) הנה דוגמא למנגנון זה.

דוגמא לכתובות במנגנון דפדוף בין עמודים

במידה וישנם יותר מ-100 עמודים של תוכן מחולק, בקלות כל חיפוש מצד הגולש יכול ליצור עשרות עמודים של כפילות תוכן דומה, למרות שתוצאות החיפוש יופיעו בסדר שונה, הרבה מאוד אלמנטים שונים בעמוד כגון [כותרות (TITLE), תגיות תיאור (Description) וכו'] נשארות זהות לחלוטין, יותר מכך גוגל מסתייגים מאוד מלהציג עמודים של מנועי חיפוש במנוע החיפוש שלהם.

בעבר גוגל הצהירו שעליכם לתת להם להתמודד ולפתור את נושא ה PAGING  – הבעיה מתחילה שהם לא עשו זאת טוב כלל. בהתחלה גוגל הציגו את תגיות ה Rel=next – Rel=Prev (V-8). בהתחלה היה נראה ששימוש בתגיות אלו עבד כראוי ובעיית כפילות התוכן דומה נפתרה, אך מאז לא קיבלנו יותר מידיי מידע בשטח על "תוצאות חיוביות" כתוצאה מהטמעת תגיות אלו, מה שכן הטמעתן מורכבת ואם אתם מקדמים אתרים בחו"ל מנוע החיפוש של בינג אינו תומך בהן כלל.

לדעתי יש עוד 3 פתרונות אפשריים, שעליכם לבחון בהתאם למצב של האתר שלכם ולמצב שאותו אתם מנסים לפתור:

  1. אתם יכולים להטמיע תגית Meta NOINDEX  בצירוף לתג FOLLOW החל מעמוד 2 והלאה במספור העמודים בכדי שהעמודים יסרקו והקישורים בתוכם יסרקו אך שהעמודים הללו לא יופיעו בתוצאות החיפוש (בדומה להצעה לפתרון בבעיה מספר 11)
  2. הצעה שנייה יכולה להיות כפתור "הצג הכול" שמציג את כל הקישורים לכל המוצרים בכתובת URL אחת, לפי מה שנכתב ברשת נראה שזו אופציה שגוגל מעדיף, לאחר הטמעת האפשרות הזו גוגל יפענח ויתמודד לבד עם המצב.
  3. אתם יכולים אף ליצור עמוד של "הצג הכול" ובכל העמודים הממוספרים לשים תג קנוניקל שיוביל חזרה לעמוד "הצג הכול" האפשרות השלישית היא אפשרות "גרילה" לפתרון של מצב כזה, כי נאמר שזה שימוש של קנוניקל בצורה שעוברת על התקנון שלשמו קנוניקל נוצר.

ישנו מאמר מקיף על הנושא של מנגנוני PAGING שכדאי ומומלץ לקרוא, מנגנוני מספור עמודים הם בעיה קשה בהסתכלות של קידום אתרים וחשוב לבחון את הסוגיה הזו גם מעבר למסמך הזה. – למאמר המלא בנושא מנגנוני מספור עמודים

14. ווריאציות שונות לאותו מוצר באתר

הרבה מאוד אתרי מכירות מציעים את אותם מוצרים אך בהבדלים קטנים בפיצ'רים המוצעים לכל מוצר. למעשה מבחינה היררכית אלו "ענפים" היוצאים מכל עמוד מוצר מרכזי.  לדוגמא אתר שמוכר IPOD וההבדל היחיד הוא צבע הנגן או סוג הנגן מאותו דגם.  דוגמא לכתובות כאלה:

ווריאציות שונות לאותו מוצר באתר

אנו יכולים להניח שכל בעל אתר אשר מוכר סוגים מגוונים של אותו מוצר ירצה שכל סוגי הצבעים וכו' יופיעו בתוצאות החיפוש אך גם כאן צריך להשתמש בשכל ולדעת מה כדאי ולא כדאי לבצע. אם יש לכם באתר עשרות סוגים שונים והדבר יצור לכם סה"כ כמה עשרות של עמודים עם כפילות תוכן דומה, זה עוד בסדר אך אם יש 100 מוצרים עם 1000 סוגים שונים של פיצ'רים לא מומלץ לתת למנוע החיפוש לסרוק ולאנדקס את כל הכפילות הזו, אני די סמוך ובטוח שהפתרון היעיל ביותר למצב כזה יהיה פשוט להטמיע תג קנוניקל (Canonical tag) (V-5) בעמודים השונים שיובילו לכתובת של עמוד המוצר המרכזי.

הערה קטנה בנוגע לדוגמא של כתובות ה URL המוצגות כאן. בכוונה שמתי כתובות URL סטאטיות (כאלו ללא שירשורים או פרמטרים) בכדי להוכיח נקודה, אמנם כתובות URL דינמיות הן חשופות יותר לכפילות תוכן אך גם כתובות URL סטאטיות, למרות שהן אסתטיות ונקיות יותר הן עדיין חשופות ליצירת כפילות תוכן לא פחות מכתובות דינמיות שהמערכת מייצרת.

15. חילוק לפי ערים (מיקוד גיאוגרפי) של עמודים

כאשר אני כותב על חילוק לפי ערים, אני מתכוון שישנה סוגיה מאוד רצינית עם נושא המיקוד הגיאוגרפי של אתר. כאשר בזמנו אתר רצה להיות ממוקד גיאוגרפית סה"כ מה שהיה צריך לעשות, זה להעתיק את כל התוכן כמה פעמים להוסיף לכתובת ה URL את שם העיר והאתר הפך להיות ממוקד גיאוגרפית – דוגמא לכתובות URL מסוג זה:

חילוק לפי ערים (מיקוד גיאוגרפי) של עמודים

עכשיו חשוב לציין שהימים בהם כך היה נראה מיקוד גיאוגרפי נעלמו מן העולם, בשנת 2011 המיקוד הגיאוגרפי עבר שדרוגים רבים והפך להיות הרבה יותר מתוחכם. מה שכן כמעט תמיד מצבים כאלה נחשבים לכפילות תוכן דומה או זהה. אם אתם מעוניינים באמת להפוך את אתרכם לאתר ממוקד גיאוגרפית יהיה עליכם לכתוב תוכן לגיטימי וייחודי לכל אחד מהחלקים באתר בהתאם למיקוד הגיאוגרפי שלו.

16.  תוכן דל

זו לא בדיוק דוגמא לכפילות תוכן אך אני מעוניין לציין את הנושא הזה, בעוד שהנושא של תוכן לא איכותי או תוכן דל הוא מעורפל אך רציתי לציין זאת במאמר הנוכחי בדומה לדוגמא שהצגתי בסעיף (14) בהם מוצג אותו תוכן עם שינויים מאוד קטנים (הבדלים בצבע או פיצ'ר כזה או אחר) בהרבה מקרים כאלו למעט העובדה שהתוכן ייחשב ככפילות תוכן דומה סביר מאוד שציון האיכות של התוכן יחשב כדל ולא איכותי במיוחד. יותר מכך עמודים שמכילים כמות גדולה מאוד של פרסומות או באנרים לעומת התוכן במופיע בהם ייחשבו כעמודים בעלי תוכן לא איכותי ויקבלו ציום איכות נמוך מאוד בעיניי גוגל. הגיע הזמן שתעברו שנית על כל התוכן באתרכם.

17.  תוכן זהה בין שני אתרים (תכנים עם זכויות יוצרים)

ישנם אינספור תכנים אשר בשימוש של מספר רב של אתרים, כמו הוראות יצרן, מחקרים חשובים שמוצגים ביותר מאתר אחד וכו', הוא כל תוכן  אשר זהה בין שני אתרים שונים ומאושר על ידי האתר המציג את התוכן במקור, נחשב לתוכן – Syndicated. אין בעיה אמיתית להציג תכנים מסוג זה באתרכם תחת האישור המתאים, אך קחו בחשבון שכנראה יש עשרות אתרים נוספיםהמציגים את אותו תוכן בדיוק.

 הצגת תוכן Syndicated באתרכם מביאה עימה את הסיכון שתוכן זה ייחשב ככפילות של תוכן בין אתרים.  בהרבה מקרים מספר רב של עמודים כאלה מסוננים החוצה מתוצאות החיפוש על ידי גוגל ונחשבים ככפילות תוכן.  כמו כן אם אתם מעוניינים להציג תוכן של אתר אחר גם תחת אישור מומלץ מאוד להוציא קישור חוזר לתוכן המקורי מהעמוד שלכם לעמוד המקורי ממנו לקחתם את התוכן.

כמו כן ניתן להניח שהפתרון היעיל ביותר בשביל מצב זה הוא שימוש בתג קנוניקל בין אתרים שונים, כך העמוד שלכם לא יקבל דירוג וכוח וזה בסדר גמור, כי סביר שהתוכן שאתם מציגים מאתר אחר נמצא שם בשביל הגולש ומעניק לו ערך מוסף. חשוב להזכיר שהכול עניין של טעם, במידה ואתם מידיי פעם לוקחים תוכן מסוג זה ומציגים אותו באתרכם הכול בסדר, אך אם אתרכם מתמלא בתכנים לא מקוריים אפילו שהם תחת אישור זהו מצב בעייתי מאוד.  עם זאת הבעיה בשימוש בתג קנוניקל (V-5) תהיה שהתוכן בעמוד יהיה חסר ערך מבחינת דירוגים וכוח לאתר, הייתי ממליץ להשתמש בתוכן מקורי וייחודי משלכם ולהשתמש בתוכן מועתק (Syndicated) רק במקרים בהם באמת אתם זקוקים לתוכן כזה.

18. תוכן המועתק אוטומטית (Scrapers)

במידה ואתם משתמשים בבוטים או תוכנות אשר מעתיקות תכנים באופן אוטומטי ומציגות אותו באתרכם, המצב שלכם דומה לזה של סעיף (17) רק שאתם לא מבקשים רשות וייתכן אפילו שאתם עוברים על החוק.

הפתרון הוא קל מאוד: תפסיקו לעבור על החוק!

בנימה רצינית יותר, אין פתרון לתוכן שמועתק אוטומטית שיכול להיות איכותי ומספק, עליכם להעלות הרבה מאוד תכנים ייחודיים ומקוריים משלכם לצד התוכן המועתק בכדי לא להיענש, כך או כך תוכן איכותי ומקורי תמיד יהיה עדיף על הצגת תוכן מועתק.

איזו כתובת URL היא זו שנשים עליה תג קנוניקל

אני ארצה להדגיש את השימוש בתג קנוניקל לאור הפוטנציאל ההרסני שיש לתג זה על האתר במידה ומשתמשים בו לא נכון, הנה דוגמא לתג קנוניקל שנעשה לא נכון:

דוגמא לתג קנוניקל שנעשה לא נכון

נראה שתג הקנוניקל נראה תקין נכון? ובכן במצב שאנו רואים כרגע  "product.php"  הוא טמפלט בלבד, משמעות הדבר היא שכל המוצרים עם תגית זו פשוט יעלמו ויובילו לעמוד product שעמוד זה סביר מאוד להניח שלא מעלה בכלל מוצרים, אם היינו רוצים להוביל מכתובת כפולה של מוצר לכתובת המקורית היינו צריכים לשים בקנוניקל את הכתובת הראשית של המוצר לדוגמא : id=1 וכו'.

מצב שני יכול להתרחש כאשר מבצעים הטמעת קנוניקל אוטומטית ואז מספר רב של דפים מצטצמם ומוביל לעמודי קטגוריה ראשיים, מה שיפגע לחלוטין באתר כולו.

חשוב להבחין שהכתובת בתג הקנוניקל אינה צריכה להיות הכתובת הפשוטה או הנקייה ביותר אלא הכתובת שמציגה את התוכן המקורי והאמיתי. לדוגמא 3 כתובות לתג קנוניקל שכולם מובילים לאותו עמוד מוצר.

כתובות לתג קנוניקל שכולם מובילים לאותו עמוד מוצר

ניתן לראות שבשתיים מן הכתובות הללו (Session) ו(Print) ישנם פרמטרים המייצגים ווריאציה שונה של אותו מוצר, אחת בגרסת הדפסה והשני מייצג זיהוי ייחודי של משתמש. הפרמטרים הללו בכתובת יוצרים כפילות תוכן לעמוד המקורי, הכתובת הראשונה (id=1234). ניתן להבין שה "id" בכתובת ה URL הוא קריטי כי הוא מייצג איזה מוצר העמוד יציג לנו, לכן זוהי הכתובת אליה אנחנו נעביר את כוח תג הקנוניקל במקרה כזה.

בכל מקרה בהרבה מצבים הנזק מכפילות התוכן הוא משמעותי מאוד אך שימוש לא נכון בתגיות קנוניקל יכול להיות הרסני הרבה יותר בהרבה מאוד מקרים לכן עליכם לתכנן אסטרטגיה נכונה של שימוש בתגיות אלו ולנסות ולהמנע מבעיות כפילות על ידי בניית ארכיטקטורה נכונה מלכתחילה.

כלי לזיהוי בעיות כפילות תוכן באתרים

אם נשארתם לקרוא עד כאן זה סימן שעכשיו אתם יודעים איך נראית כפילות תוכן, מהן הבעיות הכי נפוצות ומהן הפתרונות המומלצים, עכשיו אנחנו נעבור על מספר כלים שיעזרו לכם לאבחן האם קיימת כפילות תוכן באתרכם.

1. כלי מנהל האתרים של גוגל

בכלי מנהל האתרים ישנה אפשרות לראות כפילות של כותרות (Title tag) וכפילויות של תגיות תיאור (Meta description), אמנם לקבל תמונת מצב כל כפילויות של תגיות אלו לא בהכרח אומר שמדובר בכפילויות תוכן מלאות אך זו נקודה טובה להתחיל ממנה, ברוב הפעמים שתראו בכלי מנהל האתרים של גוגל שיש לכם כפילויות של תגיות טייטל ותיאור, זה מכיוון שישנם עמודים כפולים שלמים.

ניתן לראות זאת בכלי מנהל אתרים תחת אבחון (Diagnostics) > הצעות HTML (HTML suggestions)

כלי מנהל האתרים של גוגל

ניתן בקלות ללחוץ על Duplicate meta Description ולראות את כל העמודים בהם הכפילות קיימת ולאחר מכן לראות שישנם אותם עמודים בעלי כתובת URL שונה (משמעותה כפילות תוכן מלאה) זהו הצעד הראשון לזיהוי בעיות של כפילות תוכן באתרכם.

2. פקודת סייט (Site:) של גוגל

במידה ויש לכם מעט מושג היכן יכולה להופיע כפילות תוכן באתרכם, אתם יכולים לבדוק זאת ביסודיות על ידי שימוש בפקודת site: של גוגל, פקודת סייט תאפשר לכם לראות כמה עמודים של אתרכם נסרקו ונמצאים באינדקס של גוגל.  כמו כן יש ווריאציות שונות לפקודה שאתם יכולים לבצע בכדי לזהות באופן מדוייק יותר חלקים בעייתים באתר או כפילויות ספציפיות.

נניח שאתם מודאגים מכך שיכול להיות שעמוד הבית שלכם כפול, אתם יכולים לראות האם גוגל סרק ואינדקס דפים כפולים של עמוד הבית על ידי ווריאציה מאוד קלה של פקודת סייט. דוגמא:

דוגמא לפקודת סייט של גוגל

במקרה הזה שימו את כותרת עמוד הבית שלכם תחת " (סימן ציטוט) בכדי ללכוד את הכותרת בדיוק כפי שהיא כתובה באתר. כך הוא יאתר גם את גרסת ה WWW של האתר וגם את הגרסה ללא WWW במידה ויש כזו.

אפשרות נוספת של פקודת site: היא לזהות פרמטרים או ווריאציות של מנוע החיפוש הפנימי באתר דרך פקודת "inurl" כמו שהוצגה במסמך.

שימוש בפקודת inurl בחיפוש סייט

עוד אפשרות מעולה לשילוב של פקודות site ו inurl תהיה לחפש פרוטוקולים ספציפיים בגוגל, כגון HTTPS (פרוטוקול מאובטח) בכדי לזהות כפילות תוכן הנוצרת מקישורים פנימיים לא תקינים הקשורים באיזור המאובטח.

חיפוש פרוטוקולים ספציפיים בגוגל

עוד אפשרות טובה לפקודת סייט היא שילוב של טקסט מתוך האתר בכדי לזהות כפילות תוכן דומה, או אפילו לנסות ולאתר תוכן חסום באתר על ידי חיפוש שלו בפקודת site:

ניתן לזהות כפילות תוכן באמצעות פקודת סייט

ניתן למצוא כפילות תוכן על ידי חיפוש של תוכן מקורי מאתרינו בשילוב עם פקודת סייט, זו הדרך הכי יעילה לראות האם ישנה כפילות תוכן בתוך האתר, במידה והתוכן יופיע על מספר תוצאות תוכלו לזהות ולאתר מהו העמוד המקורי ולפנות לפתרונות המתאימים, כמו כן אם תחפשו קטעי טקסט מהאתר שלכם שלא בפקודת סייט תוכלו לזהות האם ישנה כפילות תוכן בין אתרים, משמעות הדבר יכולה להיות שהעתיקו מכם או שמא אתם העתקתם מאתרים של אחרים. נכון אלו רק מספר דומגאות קטן לשימושים ולכלים שניתן להשתמש בכדי לאתר כפילויות תוכן, אך בשביל באמת לזהות את מידת הבעיה או אם בכלל יש בעיה יהיה עליכם לחפור לעומק.

אפשרות נוספת היא שימוש בכלים חיצוניים כמו  A1 sitemap generator שימוש בכלי זה יכול להקל על התהליך שלכם, הכלי אמנם לא חינמי אך שווה כל שקל והתשלום עליו חד פעמי, כלי זה משתמש בעכבישים משלו וסורק את כל האתר לעומק, לאחר מכן מוציא פלט של כל עמודי האתר המקושרים מתוך האתר עצמו. בקלות ניתן לקבל את כל המידע אודות העמודים, כותרות טייטל, תיאור, ושגיאות נוספות ורבות. בהתייחס לכפילות תוכן אנו יכולים להוציא פלט מהתונה לקובץ אקסל ולסדר את הפלט לפי תגיות כותרת או תיאור, במידה וקיימים כפילויות של תוכן נוכל לראותן ככפילות כותרת (אם העמוד כפול הכותרת גם כן), אני ממליץ על כלי זה למרות שכפי שניתן לראות גם בכלי מנהל האתרים של גוגל זה מופיע, מכיוון שלפעמים גוגל לא נחמדים כל כך באדיבותם לומר לנו על הכפילויות.

מצד אחד  אם גוגל לא מצהיר אולי זו לא בעיה, מצד שני הבעיות שנמצא יכולות להיות ממקורות אינהרנטיות במבנה המערכת שלנו מה שאומר שיכול להיות שנאתר בעיה לפני שהיא גודלת למימדים משמעותיים ונוכל לסדרה ברמה מערכתית או על ידי הפניות.

להורדת התוכנה במלואה – A1 sitemap generator

תוכנת A1

שימוש במוח שלכם

בסופו של דבר, עליכם להשתמש במוח שלכם. אם תסתמכו יותר מידיי על כלים שונים ולא על המוח שלכם הממצאים של העבודה שלכם סביר להניח שיהיו לוקים בחסר. נכון לאתר את כפילות התוכן בעצמכם יכול לקחת זמן ואפילו ידרשו מכם להפעיל את המוח אקסטרא, אך חשוב שתעשו זאת ותתחילו על ידי שיטוט באתרכם בניסיון למצוא מנגנונים שיכולים להכפיל תוכן, במידה ויש לכם חיפוש פנימי באתר ויש מסננים עליו זה מקום טוב להתחיל בו, לעיתים שימוש במוח בלבד יכול למצוא מנגנונים שמייצרים מעל 1,000 עמודים נוספים כפולים ועוד. כמובן שתעשו את העבודה היסודית בעזרת הכלים ופקודות ה site: אך אל תשכחו שהמוח שלכם הוא הכלי החזק שלכם ולא תוכנות שונות.

במידה והגעתם לכאן, סביר להניח שהמוח שלכם שרוף, אני יודע ששלי שרוף. אך אני מקווה שהמסמך הזה מכסה את כל נושא כפילויות התוכן לשנת 2011, מי יודע אולי גוגל יוציאו עוד ועוד חידושים והמאמר הזה יעבור שדרוגים, אם אני מאמין שלאחר שקראתם אותו אתם כבר יודעים הכול על כפילויות, איתורן ותיקונן.

אשמח לקבל כמה שיותר תגובות, במידה וישנם חלקים על כפילות תוכן שמאמר זה אינו מכסה אשמח שתגיבו ותגידו לי, כדי שאוכל להעשיר את המסמך עוד יותר ולאפשר למי שמעוניין לפתור כפילויות תוכן לעשות כן.

מאמר תורגם, נערכך ושודרג מתוך המאמר המקורי שעלה באתר  סאומוז:
http://www.seomoz.org/blog/duplicate-content-in-a-post-panda-world

39 גולשים הגיבו על "כפילות תוכן לאחר עדכון פנדה – מרכז המידע על תוכן כפול לשנת 2011"

    מאת: גלעד אלעזר
    מאת: שי גרעיני
    מאת: אורי זילברשטיין
    מאת: עמית מירז
    מאת: נדב אלמקייס
    מאת: אורי זילברשטיין
    מאת: נאור
    מאת: אבי פיליבה
    מאת: אורי זילברשטיין
    מאת: נתי בר און
    מאת: אבי פיליבה
    מאת: אלכסיי
      מאת: סתיו זילברשטיין
    מאת: מאור קפלנסקי
    מאת: עמית מלכי
    מאת: אורי זילברשטיין
    מאת: דרור
    מאת: שחק
    מאת: אורי זילברשטיין
    מאת: טלי
    מאת: אורי זילברשטיין
    מאת: martin
    מאת: אורי זילברשטיין
    מאת: שמואל עטיה
    מאת: אורי זילברשטיין
    מאת: ג'קי
    מאת: אורי זילברשטיין
    מאת: איתן גורודצקי
    מאת: גלעד אלעזר
    מאת: דרור
      מאת: אורי זילברשטיין
    מאת: דני קליפורניה
      מאת: אורי זילברשטיין
    מאת: אן
      מאת: אורי זילברשטיין
    מאת: שרה
      מאת: אורי זילברשטיין
    מאת: Elazar gilad
    מאת: לוזון

הגב למאמר:

האימייל לא יוצג באתר. שדות החובה מסומנים *


צרו עמנו קשר

בין לקוחותינו

דוראן שירותי אינטרנט בע"מ - רמז 28 תל אביב - יהודה הנשיא 10 פתח תקווה - ישראל 03-5227221 www.duran-seo.co.il
info@duran-seo.co.il © כל הזכויות שמורות