سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
آیکون جستجو در سایت سافت گذر
اطلاعیه های مهم سایت اطلاعیه های مهم سایت

 

💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2288
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
ESET NOD32 Antivirus / ESET Internet Security / ESET Smart Security Premium 19.0.14.0

ESET NOD32 Antivirus / ESET Internet Security / ESET Smart Security Premium 19.0.14.0

ایست نود 32

موفقیت کامل

موفقیت کامل

رازهای یک فرد موفق

کسب درآمد از اینترنت چگونه است؟

کسب درآمد از اینترنت چگونه است؟

کسب درآمد با اینترنت

سخنرانی حجت الاسلام ناصر رفیعی با موضوع رمز موفقیت پیامبر اکرم (ص)

سخنرانی حجت الاسلام ناصر رفیعی با موضوع رمز موفقیت پیامبر اکرم (ص)

سخنرانی رمز موفقیت پیامبر اکرم (ص) با ناصر رفیعی

نظریه فطری بودن دین

نظریه فطری بودن دین

علل پیدایش دین

Udemy - The Complete Front-End Web Development Course

Udemy - The Complete Front-End Web Development Course

آموزش برنامه نویسی فرانت اند

مداحی حاج محمد رضا طاهری سال 96

مداحی حاج محمد رضا طاهری سال 96

محرم شب اول تا شام غریبان طاهری

Windows 8.1 AIO March 2025

Windows 8.1 AIO March 2025

ویندوز 8.1

Portable Office 2010

Portable Office 2010

نسخه پرتابل نرم افزار آفیس 2010

آموزش ایجاد یک وبسایت کاملا رایگان

آموزش ایجاد یک وبسایت کاملا رایگان

آشنایی با طراحی یک وب سایت حرفه ای و رایگان

Iperius Backup Full 8.7.1

Iperius Backup Full 8.7.1

بکاپ اطلاعات

مستند جنجالی از هیروشیما تا لوزان

مستند جنجالی از هیروشیما تا لوزان

مستند ایرانی

Joplin 3.4.12 + Portable

Joplin 3.4.12 + Portable

یادداشت برداری

PowerMax 1.8.8 for Android

PowerMax 1.8.8 for Android

کاهش موثر مصرف باتری

Lynda - Hadoop Fundamentals

Lynda - Hadoop Fundamentals

فیلم آموزش اصول بنیادی هادوپ

APK Installer 15.0.2 for Android +4.0

APK Installer 15.0.2 for Android +4.0

نصب برنامه ها با استفاده از گوشی یا کامپیوتر

Slitheris Network Discovery Pro 1.2.6

Slitheris Network Discovery Pro 1.2.6

اسکن دستگاه های متصل به شبکه

آشنایی با احکام پزشکی

آشنایی با احکام پزشکی

رساله احکام پزشکی آیت‌الله‌العظمی مکارم

Football Manager 2018

Football Manager 2018

فوتبال منیجر

Mad Tower Tycoon

Mad Tower Tycoon

شبیه ساز ساخت و ساز برای کامپیوتر

4 جلسه سخنرانی حجت الاسلام حاج علی اکبری با موضوع دوستی با خدا

4 جلسه سخنرانی حجت الاسلام حاج علی اکبری با موضوع دوستی با خدا

سخنرانی دوستی با خدا با حاج علی اکبری

HoPiKo

HoPiKo

هاپیکو

TAITO Rainbow Islands

TAITO Rainbow Islands

جزیره رنگین کمان ها

شرح فراز «رحمت موصوله و آیه مخزونه» زیارت جامعه کبیره از آیت الله میرباقری

شرح فراز «رحمت موصوله و آیه مخزونه» زیارت جامعه کبیره از آیت الله میرباقری

آیت الله میرباقری با موضوع شرح فراز زیارت جامعه کبیره

FastKeys Pro 6.03

FastKeys Pro 6.03

ساخت میانبرهای مختلف با ماوس و کیبورد

ضرورت آشنایی با رخدادهای پس از رحلت رسول اکرم (ص) از حجت الاسلام والمسلمین علی نظری منفرد

ضرورت آشنایی با رخدادهای پس از رحلت رسول اکرم (ص) از حجت الاسلام والمسلمین علی نظری منفرد

حاج آقا علی نظری منفرد با موضوع ضرورت آشنایی با رخدادهای پس از رحلت

Wonder Boy The Dragons Trap

Wonder Boy The Dragons Trap

اکشن ماجرایی

سخنرانی استاد رفیعی با موضوع اخلاق اسلامی

سخنرانی استاد رفیعی با موضوع اخلاق اسلامی

سخنرانی استاد رفیعی با موضوع اخلاق اسلامی

AquaSoft Video Vision 2025 16.1.02

AquaSoft Video Vision 2025 16.1.02

ویرایش ویدئو

Fishdom 3 Collector's Edition

Fishdom 3 Collector's Edition

نسخه سوم از سری بازی محبوب و جذاب Fishdom

MAGIX Video Pro X17 23.0.1.267

MAGIX Video Pro X17 23.0.1.267

مجیکس ویدئو پرو

CrystalDiskInfo 9.7.2 + Portable

CrystalDiskInfo 9.7.2 + Portable

کریستال دیسک اینفو

سخنرانی حجت الاسلام رفیعی با موضوع شناخت امام حسین ع

سخنرانی حجت الاسلام رفیعی با موضوع شناخت امام حسین ع

سخنرانی حجت الاسلام رفیعی با موضوع شناخت امام حسین

کتاب آموزشی کنفرانس توسعه منابع انسانی

کتاب آموزشی کنفرانس توسعه منابع انسانی

سی و پنجمین همایش بین المللی منابع انسانی

Bentley OpenFlows SewerGEMS CONNECT Edition 10.03.02.04

Bentley OpenFlows SewerGEMS CONNECT Edition 10.03.02.04

طراحی و مدل سازی سامانه های فاضلابی با بنتلی

تجربه کاربری مفهومی بسیار گسترده، چندرشته‌ای و شگفت‌انگیز

تجربه کاربری مفهومی بسیار گسترده، چندرشته‌ای و شگفت‌انگیز

تجربه کاربری و رابط کاربری

Instagram 255.0.0.0.39 / Lite 321.0.0.14.113 for Android +5.0

Instagram 255.0.0.0.39 / Lite 321.0.0.14.113 for Android +5.0

اینستاگرام

تاریخ معاصر ایران

تاریخ معاصر ایران

یکصد سال گذشته

تمدن غرب در چالش‌‌های ‌‌کرونا، چالش‌‌های معرفتی، هویتی و کارکردی

تمدن غرب در چالش‌‌های ‌‌کرونا، چالش‌‌های معرفتی، هویتی و کارکردی

ویژه‌نامه نگاه ما به کرونا

The Escapists - The Walking Dead

The Escapists - The Walking Dead

فرار از زندان

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!