שלח תשובה

זירת השאלות

201
צפיות
6
תשובות

שאלה בנושא פרוייקט דמוז (Dmoz.org)

,‏ 17 באפריל, 2004

שלום לכווולם!!!

שאלה קטנה למי שמכיר את פרויקט דמוז,

מי שלא מכיר: זהו פריוקט כלל עולמי המבוסס על מתנדבים שסוקרים ומקטלגים אתרים כדי ליצור אינדקס אנושי אכותי. היתרון שהם נותנים לכל אחת את המאגר שלהם בחינם וחברות רבות כמו גוגל, לייקוס, AOL וגדולים נוספים משתמשים באינדקס הענקי שלהם (יותר מ 2 מיליון אתרים – 2,315 בעברית).

השאלה שלי: אחרי שהורדתי את כל אינדקס האתרים שלהם לשרת שלי, אני מעוניין לבצע אלימינציה של האתר הלא רלוונטיים – לדוגמא להשאיר רק את האתרים בעברית או אתרים מקטגוריית המחשבים.

האם מישהו מכיר איפה ניתן להשיג סקריפט או אם ניתקלתם בדיון בנושא?


נ.ב.
נשמח לקבלת את עזרתכם לפרויקט המקומי של דמוז
www.Dmoz.org.il

תגיות:

6 תשובות

  1. jonatan44 הגיב:

    ככל שאני יכול לחשוב
    אתה יכול רק אם יש משהוא שמסמן את האתרים האלו כאתרים בעברית/אתרים שעוסקים במחשבים,או לעבור בלולאה שבודקת אם מוזכרת בהם המילה "מחשבים" בעברית ומציגה את התוצאות.

  2. LemonMan הגיב:

    לפי נושא World/Hebrew/
    אתרים עבריים ניתנים לזיהוי בכך שהנושא/קטגוריה שלהם מתחילה ב orld/Hebrew/

    כך לדוגמא:
    World/Hebrew/פנאי
    World/Hebrew/פנאי/הומור
    World/Hebrew/עסקים

  3. LemonMan הגיב:

    הבנתי את הראש שלך…
    אתה מציע לי לעבור רשומה רשומה ולבדוק אם הקטגוריה מתחילה ב World/Hebrew/
    אז להשאיר אותה, אחרת למחוק אותה…

    רעיון נחמד, הבל הבעיה שהכל בפורמט RDF (סוג של XML) ולא במסד נתונים SQL

  4. ניר טייב הגיב:

    למיטב ידיעתי ב-XML
    (שאין לי הרבה) הכתיבה היא דו כיוונית ז"א אפשר להכתיב XML ע"י ASP למשל עם נתונים ממסד הנתונים ואפשר להכתיב נתונים למסד הנתונים דרך XML
    תקנו אותי עם אני טועה !!!

  5. LemonMan הגיב:

    אתה צודק… אבל!!!
    כעיקרון אתה צודק, ניתן להריץ סקריפט שיקח את כל הנתונים מקובץ ה RDF ויכניס אותם למסד נתונים.

    אבל הבעיה שהקובץ נורא גדול יותר מ 2.5 גיגה.

    כלומר אפשר להעביר הכל למסד הנתונים ואז להתחיל למחוק רשומות לא מתאימות.

    אבל אני רוצה סקריפט שעושה את האלימינציה בזמן המעבר למסד הנתונים.

    עובד רשומה רשומה ואם היא עומד בקריטריונים (אתר עברי לדוגמא), אז הרשומה עובדרת למסד, אחרת זה עובד לרשומה הבאה.

    חוץ מזה, אין לי מושג איך להעביר בקבצי XML למסד נתונים, ולא לדבר על קבצי RDF שהמבנה שלהם קצת יותר מסובך (מצורפת דוגמא לקובץ RDF)

  6. אוריקס הגיב:

    אני לוידע אם RDF שונה מ XML
    אבל זו מניפולציה די פשוטה…

שלח תשובה