سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
آیکون جستجو در سایت سافت گذر
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. به مناسبت ماه رجب، در سایت https://esetupdate.ir/ تخفیف ویژه‌ای برای محصولات در نظر گرفته شده است؛ فرصت را از دست ندهید. 🌸
  3. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2324
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
The Prestige

The Prestige

پرستیژ

Advanced Installer Architect 23.5.0

Advanced Installer Architect 23.5.0

ساخت نصاب نرم افزار ساخت فایل ستاپ نرم افزار

FRITZ 20.5

FRITZ 20.5

شطرنج

4 جلسه سخنرانی حجت الاسلام حاج علی اکبری با موضوع دوستی با خدا

4 جلسه سخنرانی حجت الاسلام حاج علی اکبری با موضوع دوستی با خدا

سخنرانی دوستی با خدا با حاج علی اکبری

Auslogics Disk Defrag Professional 12.1.0.1 / Ultimate 4.13.0.2

Auslogics Disk Defrag Professional 12.1.0.1 / Ultimate 4.13.0.2

دفرگ کردن هارد

تلاوت مجلسی استاد جواد فروغی سوره مبارکه انفطار

تلاوت مجلسی استاد جواد فروغی سوره مبارکه انفطار

تلاوت جواد فروغی سوره انفطار

سخنرانی حجت الاسلام حسینی قمی با موضوع نقش سیاسی و اجتماعی امام هادی ع

سخنرانی حجت الاسلام حسینی قمی با موضوع نقش سیاسی و اجتماعی امام هادی ع

حاج آقا حسینی قمی با موضوع به نقش سیاسی و اجتماعی امام هادی ع

SnapTube 7.55.1.75502401 For Android +5.0

SnapTube 7.55.1.75502401 For Android +5.0

دانلود فیلم از یوتیوب و 15 سایت دیگر

Cisco CCNA ICND1 100-105 (Version 3.0) (2016)

Cisco CCNA ICND1 100-105 (Version 3.0) (2016)

فیلم آموزشی مدرک شبکه CCNA

فیلم پدرخوانده 3 با دوبله فارسی

فیلم پدرخوانده 3 با دوبله فارسی

پدرخوانده 3

They Need To Be Fed 2 v1.0.8 / 3 v1.0.4 for Android +2.3

They Need To Be Fed 2 v1.0.8 / 3 v1.0.4 for Android +2.3

بازی آدمک آهنربایی نسخه 2 و 3

Calibre 9.4.0 Win/Mac/Linux + Portable

Calibre 9.4.0 Win/Mac/Linux + Portable

مدیریت کتاب های دیجیتالی کالیبر

FlashBoot 3.4a Free / 3.2x Pro

FlashBoot 3.4a Free / 3.2x Pro

فلش بوت

DBeaver Ultimate 25.1

DBeaver Ultimate 25.1

مدیریت همزمان چندین پایگاه داده

Pegasun System Utilities 8.4 Multilingual

Pegasun System Utilities 8.4 Multilingual

بهینه ساز ویندوز

مداحی حاج سید مهدی میرداماد سال 98

مداحی حاج سید مهدی میرداماد سال 98

دهه محرم میرداماد

آموزش الفبای فارسی به رایانه

آموزش الفبای فارسی به رایانه

آموزش او سی آر

سخنرانی حجت الاسلام حاج علی اکبری با موضوع بندگی عاشقانه اصل اساسی زندگی فاطمی

سخنرانی حجت الاسلام حاج علی اکبری با موضوع بندگی عاشقانه اصل اساسی زندگی فاطمی

سخنرانی بندگی عاشقانه اصل اساسی زندگی فاطمی با حاج علی اکبری

راهنمای هارد اکسترنال

راهنمای هارد اکسترنال

خرید هارد اکسترنال

انگلیس و اشغال ایران در جنگ جهانی اول

انگلیس و اشغال ایران در جنگ جهانی اول

ایران در جنگ جهانی اول.

مداحی آماده شده برای دهه اول محرم سال 96 - شب اول

مداحی آماده شده برای دهه اول محرم سال 96 - شب اول

مداحی اول محرم - 96

در جمع همکاران و رئیستان براحتی صحبت کنید

در جمع همکاران و رئیستان براحتی صحبت کنید

براحتی کالایی را بفروشید

Contacts Phone Dialer Drupe 3.8.7 For android +4.1

Contacts Phone Dialer Drupe 3.8.7 For android +4.1

دروپ

گلچین مداحی های شهادت امام امام حسن عسکری(ع)

گلچین مداحی های شهادت امام امام حسن عسکری(ع)

مداحی های شهادت امام حسن عسکری(ع)

Cross Court Tennis 2 1.22 for Android

Cross Court Tennis 2 1.22 for Android

جدیدترین نسخه از بازی تنیس مخصوص آندروید

سخنرانی حجت الاسلام رضا استادی با موضوع امامت

سخنرانی حجت الاسلام رضا استادی با موضوع امامت

سخنرانی امامت با رضا استادی

سخنرانی های مرحوم آیت الله مجتهدی تهرانی بخش چهاردهم

سخنرانی های مرحوم آیت الله مجتهدی تهرانی بخش چهاردهم

سخنرانی آیت الله مجتهدی تهرانی با موضوع نصیب خود از دنیا

InfiniteSkills - Advanced Microsoft Access 2013 Training Video

InfiniteSkills - Advanced Microsoft Access 2013 Training Video

فیلم آموزش سطح پیشرفته‌ی مایکروسافت اکسس 2013

مجله تخصصی هفته نامه خبری

مجله تخصصی هفته نامه خبری

مجله Newsweek International فوریه 12 ؛ 2021

رقیه بنت الحسین علیهماالسلام

رقیه بنت الحسین علیهماالسلام

معرفی حضرت رقیه علیهماالسلام

Meridian Player Pro 5.0.8 for Android +4.2

Meridian Player Pro 5.0.8 for Android +4.2

پلیر صوتی و تصویری

همخوانی بخشی از دعای جوشن کبیر ( الغوث الغوث ) گروه اهل بیت (علیهم السلام)

همخوانی بخشی از دعای جوشن کبیر ( الغوث الغوث ) گروه اهل بیت (علیهم السلام)

همخوانی دعای جوشن کبیر ( الغوث الغوث ) گروه اهل بیت (علیهم السلام)

QuarkXPress  2026 22.0.0.58101

QuarkXPress 2026 22.0.0.58101

صفحه آرایی

DU Battery Saver PRO & Widgets 4.9.5.1 Pro for Android +4.0

DU Battery Saver PRO & Widgets 4.9.5.1 Pro for Android +4.0

ذخیره مصرف باتری دو

MSC Nastran 2025.2 + Documentation

MSC Nastran 2025.2 + Documentation

ام اس سی نسترن

زنگینامه حضرت زینب(ع)

زنگینامه حضرت زینب(ع)

Zainab, the daughter of Imam Ali

آموزش شبکه در VMware WorkStation

آموزش شبکه در VMware WorkStation

آموزش شبکه در وی ام ویر

نقش و تأثیر شجاعت در زندگی

نقش و تأثیر شجاعت در زندگی

با شجاع بودن می توانیم به اهدافمان برسیم

Cross Set

Cross Set

فکری

Snapclear 2.1.0 (x64)

Snapclear 2.1.0 (x64)

حذف پس‌ زمینه عکس با هوش مصنوعی

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!