הי,
אתר שאני עובדת עליו בדרופל (5) קרס אתמול. למשך כמה שעות, הופיעה הודעת שגיאה internal server error. האתר חזר לפעולה היום.
חברת האחסון הסבירה לי שהשרת "סגר" אותנו, או חיסל סקריפטים שלנו, בגלל שביצענו חריגה (מעבד/זכרון), והוא צריך לשמור על עצמו וכו' (האתר מאוחסן ב SHARED) . הם הציעו לי לבדוק שתי אפשרויות להקלה על העומס:
1. לבטל hotlinking images
2. לחסום בוטים של מנועי חיפוש שכנראה קוראים לעמודים לא קיימים בלולאה או משהו כזה, וזה כנראה נפוץ מאד באתרים דינאמיים.
ביררתי קצת,
כדי לבצע את 1 הבנתי שאני צריכה להוסיף שורות ל htaccess.
למשל כמו כאן:
http://murfitt.net/blog/dan/2008/09/18/protecting-drupal-site-hotlinking
או כאן
http://altlab.com/htaccess_tutorial.html
אבל.. כיוון שאני לא יודעת כלום על כתיבה ל .htaccess , אני קצת חוששת להדביק שם שורות קוד... כדאי? לא כדאי? האם זה עלול להשפיע על משהו אחר?
כדי לבצע את 2 הבנתי שכדאי לי לייצר קובץ robots.txt שמכיל את הקוד הבא:
# go away
User-agent: *
Disallow: /
אבל מאידך הוא עלול פשוט להסיר את האתר ממנועי חיפוש, וזו תוצאה לא רצויה... כדאי? לא כדאי?
עניין אחרון
עקבתי קצת אחרי היומן של הדרופל. הוא מאד עמוס, נראה שהיו הרבה מאד קריאות לקובץ favicon.ico, ואין קובץ כזה.
אבל כתובות הIP של הפונים משתנות. עד כמה שהצלחתי לבדוק אמנם כמעט כולם בוטים (גוגל/יאהו), אבל יש כתובות שאני לא מצליחה לזהות, וכאמור יש הרבה כתובות שונות, אז לא נראה לי שאני יכולה לחסום אותן אחת אחת...
היום בבוקר הופיעה לי חריגה נוספת ביומן, שcron רץ כבר יותר משעה וכנראה תקוע. הקרון שלנו הוא לא כבד במיוחד, הוא רק תומך ברשימת תפוצה לא גדולה, ואמור לרוץ פעם בשעה. מצד אחד זה נשמע קשור, שקרון תקוע יעמיס על השרת, מצד שני זה קרה היום והאתר נפל אתמול... אז אני לא בטוחה מי הביצה ומי התרנגולת.
אני אשמח מאד לכל עזרה בנושא, יש כאן הרבה תחומים שאני מבינה בהם מעט, וחשוב לי לפתור את הבעיה הזו כדי שהאתר לא יקרוס שוב ושוב...
תודה רבה רבה מראש,
תם
קודם כל ברוכה הבאה לעולם
קודם כל ברוכה הבאה לעולם העומסים. עולם מרתק ומיוחד (ולעתים סיזיפי ומתסכל).
לפני שאת רצה לממש כל מיני דברים, צריך להתחיל לחפש איפה הבעיה, ובשביל זה צריך כמה נתונים.
למשל:
הלוג של דרופל לא יעזור לך, צריך כלי סטטיסטיקות "נורמלי", כמו awstats, או Google analytics.
אם הקרון נתקע, אז צריך לטפל בזה, זה יכול להיות קשור או שלא קשור.
ולסיום, בלי קשר לכל הנושאים הנ"ל, תתחילי לחפש אחסון אחר, שאינו shared. באחסון הקיים, גם אם תהיי הכי חסכונית בעולם, מספיק ששכן שלך לשרת ישתולל בשביל להאיט/להזחיל את האתר שלך.
אם תחסמי מנועי חיפוש, אז הם לא יגיעו לאתר - זה מה שאת רוצה?
תודה רבה על התשובה המפורטת!
תודה רבה על התשובה המפורטת!
תודה רבה,
תם
+++++++++++++++++++
תום גמליאלי - בניית אתרים
בלוג ופורטפוליו
יש גוגל אנלטיקס, כרגע האתר
אז זו לא בעית עומס, או משהו חד פעמי (מישהו ניסה לפרוץ או להתקיף DOS אותך, והצליח).
אין דבר כזה ללא הגבלה. חברת אחסון שכותבת "ללא הגבלה" מעידה על הרצינות שלה.
אוקיי. חשוב לנטר את זה.
כדאי לברר איתם למה הם סגרו את האתר. נראה לי שזה בסיסי שהם יוכלו להסביר לך למה הם עשו פעולה כזו דרסטית.
התכוונתי לכמות הכניסות.
זה לא עולה הרבה יותר. מתחיל מ 20$ לחודש.
יש עוד מליון בעיות תיאורטיות, עדיף להשקיע בדיאגנוזה, ואז לטפל בבעיה, ולא להמציא בעיות בשביל לטפל בהן (תחשבי על רופא ופציינט).
עזבי אותו, הוא חלק מהדרופל. אל תגעי בו אם את לא יודעת מה את עושה.
האם העמודים האלה לא היו קיימים לעולם באתר? יכול להיות שזה איזשהו רובוט שמנסה לפרוץ לאתר והוא מנסה לגלות מה מותקן שם ע"י שימוש בתבניות של כתובות. אם זה רובוט ספציפי, תבדקי מי זה (תעשי whois על הכתובת ממנה הוא מגיע) ותחסמי אותו בשרת (לא ב robots.txt - זו חסימה אופטימיסטית). אם הוא מגיע מכמה כתובות, אז זה נושא יותר מורכב, כי מדובר ב DDOS אמיתי...
הבעיה של ה favicon - נדמה לי שמקורה בבאג של אקספלורר שתמיד מחפש את האייקון בתיקיה הראשית של האתר, ולא איפה שאומרים לו שהוא נמצא.
חשוב לעבוד לאט ובאופן מסודר ולוגי. כמו כן לבצע שינוי אחד בכל פעם, אחרת לא מוצאים את הידיים והרגליים במצבים כאלה.
קודם כל תודה רבה שוב על
קודם כל תודה רבה שוב על התשובה המושקעת. אני מוצאת שהעצה האחרונה שלך, לעבוד באופן מסודר, שינוי אחד בכל פעם, היא החשובה ביותר. בהתחלה הייתי קצת במתח כי לא הבנתי מה קורה, אבל אחרי שהבנתי פחות או יותר מה קורה וחילקתי את העבודה לשלבים, הגעתי לתוצאות. כלשהן.
אין דבר כזה ללא הגבלה. חברת אחסון שכותבת "ללא הגבלה" מעידה על הרצינות שלה.
חברת האחסון היא dreamhost. אני יודעת שיש כאלה שאוהבים אותה יותר ויש כאלה שפחות, אבל למיטב ידיעתי היא בסדר...
כדאי לברר איתם למה הם סגרו את האתר. נראה לי שזה בסיסי שהם יוכלו להסביר לך למה הם עשו פעולה כזו דרסטית.
בינתיים לא הצלחתי לחלץ מהם תשובה מדויקת, רק שהשרת סגר תהליך/סקריפט שהעמיס עליו. אני לא יודעת אם יש להם תשובה מדויקת יותר מזה, אני עדיין שוקלת מה לכלול בפנייה הבאה שלי אליהם...
הופניתי לבלוג של דרופליסט שטוען שהמבנה של דרופל (5) לא לגמרי אופטימלי על שרתי דרימהוסט. מי שמעוניין בחומר קריאה:
http://dgtlmoon.com/speeding_up_drupal_5x_on_dreamhost_slow_no_more
האם העמודים האלה לא היו קיימים לעולם באתר? יכול להיות שזה איזשהו רובוט שמנסה לפרוץ לאתר והוא מנסה לגלות מה מותקן שם ע"י שימוש בתבניות של כתובות. אם זה רובוט ספציפי, תבדקי מי זה (תעשי whois על הכתובת ממנה הוא מגיע) ותחסמי אותו בשרת (לא ב robots.txt - זו חסימה אופטימיסטית). אם הוא מגיע מכמה כתובות, אז זה נושא יותר מורכב, כי מדובר ב DDOS אמיתי...
אוקי, אז ככה: התעמקתי בלוג של דרופל, שהיה מוצף בשגיאות "עמוד לא נמצא", בממוצע אחת לדקה.
כאמור החלק הכי גדול של השגיאות האלו נבעו מחיפוש טורדני של קובץ favicon.ico, שלא היה קיים, ופתרתי את זה. אחרי שאלה נעלמו, התברר שחלק מכובד מהשגיאות שנותרו נוצרו מחיפוש עמודים שאינם קיימים יותר, שהיו קיימים בעבר תחת אותו הדומיין, אבל כשהיה מאוחסן בשרת אחר, והאתר עוד היה אתר HTML.
חלק מכובד אחר נבע מעמודים שאינם קיימים ולא היו קיימים מעולם, בנוסח domain.com/2009/02/04 וכו'. יכול להיות שזה בגלל אחד מהמודולים שבאתר, מודול CALENDER או מודול EVENT (שהסרתי מזמן מזמן) שמייצרים לוח שנה, וכתובות URL באופן דומה. אבל אולי אני טועה.
עברתי על כמה עשרות רשומות ובדקתי כתובות IP. רובן המוחלט היו שייכות למנועי חיפוש: GOOGLE, YAHOO, RIPE NCC, MICROSOFT וכו'. כמעט כל אחד ממנועי החיפוש שלח לאתר יותר מבוט אחד, כך שניצבתי בפני בערך 15 כתובות IP שונות, וזה רק מעמוד אחד של הלוג...
בסופו של דבר נרשמתי לשירות webmasters של גוגל, שייכתי את האתר לחשבון שלי, ואז הייתה לי אפשרות להגדיר עבור הבוטים תדירות נמוכה יותר לביקור באתר.
תוך זמן מה האתר חזר לפעול וחזר למהירות נורמלית.
אני לא יודעת עד עכשיו אם זו הייתה הבעיה המרכזית, או סתם צירוף מקרים. אני לא יודעת מה הקשר אם יש בכלל קשר, לבעיה שהייתה ל CRON. הוא נתקע פעם נוספת למחרת, והאתר קרס פעם נוספת. (סך הכל פעמיים). כאמור, אני לא יודעת מי הביצה ומי התרנגולת: האם התקלה בקרון גורמת לקריסה, או שמא הקריסה גורמת לקרון להיתקע. נשמור על עיניים פקוחות, כמו שאומרים... אני לא בטוחה אם יש לי מה עוד לעשות בשלב זה חוץ מלחכות...
תודה רבה,
תם
+++++++++++++++++++
תום גמליאלי - בניית אתרים
בלוג ופורטפוליו
חברת האחסון היא dreamhost.
גם לי יש חשבון אצלהם. יש להם הרבה יתרונות והרבה חסרונות. בתור אחסון ראשי זה היה מאוד מתסכל. מאז שלמדתי לשלב אותם עם אחסון נוסף (VPS), אני מאוד מרוצה.
פאנל הניהול שלהם הוא אחד המדהימים שראיתי, והוא אחת הסיבות העיקרית שאני נשאר איתם.
הם אגב מסבירים בפירוט: http://dreamhost.com/unlimited.html
לא, זה לא מה שהוא כתב. כל מה שהוא כתב שזה בדרימהוסט, הגישה לבסיס הנתונים איטית. לא פלא שהוא לא פרסם את הפץ' שלו בדרופל.אורג - היו שולחים אותו לחפש אחסון יותר טוב.
את זה את יכולה לפתור ע"י הגדרה שלהם ב robots.txt או בקובץ .htaccess - פשוט תחסמי גישה אליהם, או תפני אותם ישירות ל 403 - בלי לעבור דרך דרופל. אלו מנועי חיפוש לגיטימים שרוצים להתעדכן.
זה כבר יותר מוזר - למה שמנוע חיפוש ימציא כתובות (אפילו אם מותקן לך מודול). המנועים הלגיטימים עובדים רק ע"פ קישורים באתר. כמו שכבר כתבתי מי שממציא קישורים, לדעתי, מנסה לגלות מה את מריצה. את יכולה גם פה להוסיף חוק .htaccess, שיזרוק את כל הקישורים האלה ל 404.
אגב, שירות כמו גוגל אנליטיקס לא רושם גלישות של רובוטים, כך שלא תראי את זה שם. אם תשתמשי ב awstats, או בכלי שדרימהוסט נותנים (אאל"ט http://domain.com/stats) תוכלי לראות גישות אלה.
נראה שעשית עבודה יפה. צריך לוודא שה cron עובד כמו שצריך, כי אחרת זה יכול להעיד על בעיה.
עדכון קטן לגבי הקריאות
עדכון קטן לגבי הקריאות לfavicon:
ממה שהצלחתי למצוא בדרופל.אורג, זו בעיה מוכרת ונפוצה והרבה אנשים דיווחו עליה. בינתיים נראה שהפתרון הוא פשוט להעלות קובץ כזה לשרת... אז זה מה שעשיתי, אני מקווה שזה יפתור את הבעיה הקטנה הזו, אעדכן מאוחר יותר.
עריכה: תוספת
זה עבד, פחות או יותר. לצערי האתר קרס שוב, אז זו לא הבעיה המרכזית, אבל לפחות כבר אין שגיאות של עמוד לא נמצא בגלל שאין favicon...
+++++++++++++++++++
תום גמליאלי - בניית אתרים
בלוג ופורטפוליו