האינטרנט היא רשת דינאמית, ולמרות שאוהבים לומר ש"האינטרנט אף פעם לא שוכח", האתרים ברשת מחליפים צורה ומשתנים באופן תדיר.
לא סתם שגיאה מספר 404 היא אחת השגיאות הנפוצות ברשת (למרות שיש עוד כמה שגיאות שיכולות להעיד שפעם היה כאן אתר…).
אבל אם אנחנו מדברים על קידום אתרים, למה בעצם שנרצה לדעת איך אתר אינטרנט נראה פעם?
יש לכך כמה סיבות:
- איבדנו דף חשוב או אפילו כמה דפים חשובים באחד מהעדכונים של האתר ואין לנו דרך פשוטה לשחזר אותו
- אנחנו רוצים לעקוב אחרי שינויים אצל המתחרים שכלי ה-SEO הסטנדרטיים לא יכולים לספק. גם הטובים שבהם עם הזחלנים העצמאיים מוצאים בעיקר קישורים חדשים שנוספו, את קצב ההוספה שלהם או מוצאים מילות מפתח חדשות. הם הרבה פחות טובים במה שקשור להצגת השינויים הכוללים באתר שיכולים לגרום לתזוזות גדולות של האתר בגוגל.
אז איך עושים את זה? 🤔
דרך ראשונה: זיכרון מטמון של גוגל
עבור רוב האתרים גוגל שומר באינדקס שלו את הגרסה האחרונה שהזחלן שלו ראה. יש שתי דרכים מאוד פשוטות להגיע אל הגרסה הזו: דרך החץ הקטן ליד כל תוצאות חיפוש או דרך הקלדת המילה cache: בגוגל ולאחריה את כתובת ה-URL המלאה של הדף שאותו אנחנו רוצים למצוא.
יתרונות:
✔️ אין כאן ניחושים – זו הגרסה האחרונה שגוגל ראה
✔️ אפשר לראות גרסת טקסט בלבד וכך סרוק בקלות מילות מפתח וגם לראות אילו אלמנטים בדיוק גוגל שמר באינדקס ואילו לא (לדוגמה, תכנים שנוצרים באופן דינאמי בזמן הגלישה באתר באמצעות סקריפטים של JS לא בהכרח יישמרו על ידי גוגל).
חסרונות:
❌ לא מאפשר לראות את ההיסטוריה המלאה של הגרסאות, אלא רק את הגרסה האחרונה
❌ גם בקאש הרגיל (לא בגרסת טקסט) התצוגה עשויה להיות משובשת בגלל שגוגל לא קורא את הקוד של האתר בדיוק כמו הדפדפן שלנו, במיוחד אם מדובר באתרים בעברית (RTL).
עוד קצת על פקודת קאש (Cache) בגוגל: איך משתמשים בזה ולמה זה טוב?
דרך שנייה Wayback Machine וארכיונים דומים
Wayback Machine הוא חלק ממה שנקרא "ארכיון האינטרנט". מדובר בפרויקט חופשי שנועד לשמור גרסאות היסטוריה של אתרים ולהציג אותם כפי שהם נראו בהם.
בפועל, הכלי הזה לא ממש מדויק ואיכות הזחילה שלו רחוקה מלהיות כמו זו של גוגל. לדוגמה, אין מועדים קבועים שבהם הוא מבקר באתרי אינטרנט.
גם הסריקה שלו היא בדרך כלל חלקית ולכן יש באתרים שהוא מציג המון מסמכים או תמונות שבורות.
התצוגה של ה-Wayback Machine היא על פי לוחות השנה ולמעלה אפשר לראות גרף "דחוס" שמראה באילו שנים האתר נסרק בתדירות גבוהה יותר ובאילו פחות.
על מנת לראות את הפוטנציאל האורגני ותוך כמה זמן נכפיל לך את ההכנסות
ניתן לחייג למספר 052-9095200 או למלא את הטופס:
התאריכים המוארים בצבע הם אלו שבהם בדרך כלל תוכלו לראות את הגרסאות הקודמות. כל אחד מופיע עם רקע בצבע אחר ויש לצבעים האלו משמעות:
- כחול – האתר החזיר קוד שגיאה תקין – תעברו לאתר הרגיל כפי שהוא נראה
- ירוק – הזחלן נתקל בהפניה לאתר אחר. יכול לקרות למשל אם מישהו קנה את הדומיין כדי להשתמש בקישורים שמפנים אליו לטובת אתר אחר. במקרים אחרים מדובר בדומיין שהתוקף שלו פג ומפנה לעמוד "דומיין זה פנוי" או "דומיין זה תפוס" של רשם הדומיין.
- כתום – שגיאת צד לקוח (Client Error)
- אדום – שגיאת שרת
כמו שאפשר לראות, היתרון המרכזי של "מכונת הזמן" הוא שהיא משחזרת יותר מעמוד אחד בכל פעם ויכולה לחזור הרבה שנים אחורה.
החיסרון הוא שמדובר באתר מאוד איטי 🐌 עם גיבוי חלקי ביותר .
הרבה אנשים משתמשים באתר בשביל לראות איך גוגל נראה ב-2001 או דברים נוסטלגיים כאלו, אבל האתרים שהם מקבלים הם לא באמת שימושיים…
מיותר לציין שאת קבצי המקור של האתר שלכם אני מציע לגבות מיוזמתכם, בין אם זו תיקיה מוגנת של Dropbox, סביבת פיתוח במחשב שלכם, תיקיית גיבוי על שרת האחסון או שרת מקביל (אצל חלק מחברות האחסון הגיבוי האוטומטי פועל כך לצרכי אבטחה) ואפילו התקן חיצוני.
אגב, אם אתם חושדים שהאתר נראה מוזר בגלל שאנחנו משתמשים בדפדפנים מודרניים (לדוגמה, כל הסקריפטים של הפלאש לא ממש פועלים), יש אתר בשם oldweb.today שלוקח את המאגר של Wayback Machine ומכניס אותו לאמולציה של דפדפנים ישנים, ממוזייק 2, דרך נטסקייפ ועד אינטרנט אקספלורר 6. באתר מבטיחים שהם יוסיפו בקרוב גם מאגרים נוספים.
הארכיון הבריטי UKWA
האתר דומה מאוד ל-Wayback Machine (עם שיפורים קלים בעיצוב) שמיועד לאתרים אנגליים (לא בהכרח בסיומת .co.uk).
לכן, אם אתם מקדמים אתרים באנגליה , הוא יכול להיות שימושי למדי. יש גם אתרים שמקוטלגים לפני נושאים בסגנון האינדקסים של פעם שהקדימו את מנועי החיפוש.
הקאצ' הוא שחלק גדול מהארכיון דורש שתתחברו אליו דרך ספריות באנגליה (כמו מאגרי מידע אקדמאיים מסוימים בארץ).
Time Travel
אתר שדומה ל-Wayback Machine ובו אפשר לחפש על פי תאריכים מדויקים.
מהניסיון שלי הוא לא ממש עובד ורוב התוצאות שהוא מחזיר הם מארכיונים אחרים, אבל אולי הניסיון שלכם אתו יהיה טוב יותר משלי…
ספריית הקונגרס
המאגר של ספריית הקונגרס האמריקאית הוא מן הסתם ארכיון אקדמאי ולכן מדובר בקטלוג ולא במנוע חיפוש חופשי. לכן הוא מצומצם הרבה יותר, למרות שעדיין אפשר לחפש תחת Web Archives או WebPages בלבד בשדה החיפוש הראשי. עם זאת, יש טריק חביב שיכול לעזור לכם להשתמש בו כמו ב-WayBack Machine…
כל מה שאתם צריכים לעשות זה לכתוב בדפדפן:
https://webarchive.loc.gov/all/*/
ולאחר הסלאש האחרון את הכתובת המלאה של הדף שאתם מחפשים.
כמו שבוודאי תוכלו לראות, שני האתרים מתבססים פחות או יותר על אותה טכנולוגיה וסובלים מאותם הבאגים, כך שאני לא חושב שתמצאו בו משהו שאין ב-Wayback Machine.
מצד שני, אם צריכים לחקור משהו בשביל כתיבת תוכן או תכנון אתר ואין לכם בראש אתר ספציפי בראש לקחת ממנו השראה, יכול להיות שתמצאו שימוש לספריית הקונגרס, בה יש כאמור יותר הקפדה על איכות.
מעקב ו"צילום" של אתרים קיימים
מלבד בחינה 🔍 של אתרים כפי שהם נראו פעם, סביר להניח שיהיה לכם חשוב גם לעקוב אחרי שינויים באתרים קיימים, בעיקר לצורך מחקר מתחרים.
יש כמה שירותים שונים שיכולים לעשות את זה. הנה כמה מהיותר חביבים:
VisualPing – ללא ספק אחד האתרים היותר שימושיים: מכירים את Google Alerts? אז מדובר בשירות די דומה, רק שהוא מיועד לאתרי אינטרנט. השירות מדווח על שינויים באתרים או דפים קיימים. מלבד התראות למייל, תוכלו גם לקבל התראות ל-Slack ולעשות שימוש ב-API עבור מערכות חיצוניות שאתם בונים.
יש גם אפשרויות להשוואה בין גרסאות בדומה ל-Wikipedia / Google Docs על סמך פסקאות טקסט, אלמנטים ויזואליים ואפילו מילות מפתח.
בגרסה החינמית תוכלו לבדוק שני עמודים ביום בתדירות של שש שעות ומעלה. בגרסאת בתשלום (החל מ-13$ לחודש) תוכלו לבדוק מאות עמודים בתדירות של 5 דקות ומעלה!
Archive.today – פרויקט חינמי שיוצר בקלות צילומים של אתרים. אלו תמונות סטטיות שלא מתעדכנות בזמן אמת, כך שאתם צריכים כל פעם להיכנס ולשמור את האתרים מחדש.
Stillio – שירות בתשלום שמתחיל ב-29$ לחמישה אתרים ומציעה צילומים יומיים, שבועיים או חודשיים. השירות אמור גם להיות מסוגל לשמור תוצאות היסטוריות של גוגל (באמצעות צילום של עמודי התוצאות) לצרכי SEO, למרות שלא בדקתי את זה בעצמי.
לסיכום
שירותי צילומי וחיפוש האתרים ההיסטוריים הם לא מושלמים ולכן זה גם לא מפתיע שתתקשו למצוא אותם בארגז הכלים של איש ה-SEO הממוצע.
מצד שני, טוב לדעת שיש אפשרות כזו ואיך בדיוק אפשר להשתמש בה ביעילות 😁.