سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
جستجو
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2242
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
Seal Guardian

Seal Guardian

اکشن شمشیری

Steinberg WaveLab Cast v2.0.21

Steinberg WaveLab Cast v2.0.21

ساخت و ویرایش پادکست

BluffTitler 16.7.7

BluffTitler 16.7.7

ساخت نوشته‌ها و عناوین زیبای سه‌بعدی و متحرک

The Rivers of Alice - Extended Version

The Rivers of Alice - Extended Version

آلیس در مسیر رودخانه‌ها | جدیدترین و کامل‌ترین نسخه

RStudio v2023.03.1 Build 446

RStudio v2023.03.1 Build 446

محیط توسعه زبان R

Advanced SystemCare Pro 18.5.0.250 / Ultimate 17.5.0.133

Advanced SystemCare Pro 18.5.0.250 / Ultimate 17.5.0.133

ادوانس سیستم کر

فایل‌های صوتی سلسله جلسات تاریخ حیات امیرالمؤمنین با تدریس دکتر میثم مطیعی در دانشگاه امام صادق (ع)

فایل‌های صوتی سلسله جلسات تاریخ حیات امیرالمؤمنین با تدریس دکتر میثم مطیعی در دانشگاه امام صادق (ع)

زندگینامه امام علی

12 Monkeys

12 Monkeys

۱۲ میمون

WinZip Pro 29.0 Build 16250 / macOS 9.0.5554

WinZip Pro 29.0 Build 16250 / macOS 9.0.5554

وین زیپ

Autorun Virus Remover 3.3 Build 0712

Autorun Virus Remover 3.3 Build 0712

از بین بردن ویروس Autorun و اثرات آن

Joe Dever's Lone Wolf HD Remastered

Joe Dever's Lone Wolf HD Remastered

گرگ تنها - نسخه‌ی بازسازی‌شده با کیفیت اچ‌دی

آهنگ کاتیوشا - نسخهٔ بی‌کلام ارکسترال + نسخهٔ اجرای باکلام

آهنگ کاتیوشا - نسخهٔ بی‌کلام ارکسترال + نسخهٔ اجرای باکلام

آهنگ کاتیوشا

NI Circuit Design Suite 14.3 Professional (Multisim & Utilboard) CDS / 14.2 / 14.1 / 14.0.1

NI Circuit Design Suite 14.3 Professional (Multisim & Utilboard) CDS / 14.2 / 14.1 / 14.0.1

شبیه ساز مدارهای الکترونیکی

Corel Painter 23.0.0.244 / macOS

Corel Painter 23.0.0.244 / macOS

کورل پینتر خلق نقاشی و طرح های طبیعی

آموزش نرم افزار Edius

آموزش نرم افزار Edius

آموزش نرم افزار ادیوس

آموزش نرم افزار Blender

آموزش نرم افزار Blender

آموزش نرم افزار بلندر

Procyon v1.0.6

Procyon v1.0.6

جنگ فرازمینی Procyon

مهمّ ترین راه های تورّم ثروت

مهمّ ترین راه های تورّم ثروت

اخلاق معیشتی در قرآن و سنت

SpeedFan 4.52 Final

SpeedFan 4.52 Final

نرم افزار کنترل و مشاهده سرعت فن و سخت افزار

آموزش  PLC

آموزش PLC

آموزش پی ال سی

Candy Crush Saga 1.282.0.1 for Android +2.3

Candy Crush Saga 1.282.0.1 for Android +2.3

بازی مچاله کردن آبنبات‌ها

Men of War Red Tide

Men of War Red Tide

ناو جنگی نسخه اتفاق قرمز

DVDFab 13.0.4.7 + Portable / Passkey / macOS

DVDFab 13.0.4.7 + Portable / Passkey / macOS

نرم افزار رایت DVD

تفسیر سوره دخان از دید استاد مطهری

تفسیر سوره دخان از دید استاد مطهری

مطهری تفسیر دخان

نماز سکوی پرواز

نماز سکوی پرواز

نماز اوج آرامش در آغوش خدا

Lynda - Java Database Integration with JDBC

Lynda - Java Database Integration with JDBC

فیلم آموزشی لیندا ادغام پایگاه‌داده جاوا

Youropa + Update 1 incl Hotfix

Youropa + Update 1 incl Hotfix

اکشن و پازلی

Norton Security and Antivirus 4.7.0.4460 for Android +2.3

Norton Security and Antivirus 4.7.0.4460 for Android +2.3

آنتی ویروس نورتون

مراحل خوشنویسی

مراحل خوشنویسی

کتاب خوشنویسی و آداب و وظایف خوشنویسان

Windows 10 Enterprise LTSC 21H2 Build 19044.4291 April 2024 + LTSB 1607 / RTM MSDN VL

Windows 10 Enterprise LTSC 21H2 Build 19044.4291 April 2024 + LTSB 1607 / RTM MSDN VL

ویندوز 10 نسخه LTSC

Call of Duty Advanced Warfare + Update 3

Call of Duty Advanced Warfare + Update 3

کالاف دیوتی

SeoTools for Excel 10.0.2

SeoTools for Excel 10.0.2

بهینه‌سازی موتور جستجو

نیاز به محبت

نیاز به محبت

نیاز دوست داشتن

Realtek High Definition Audio Drivers 6.0.9865.1 WHQL / R2.83

Realtek High Definition Audio Drivers 6.0.9865.1 WHQL / R2.83

درایور کارت صوتی ریلتک

سخنرانی حجت الاسلام ظهیری با موضوع نقش انتخاب در شقاوت و سعادت

سخنرانی حجت الاسلام ظهیری با موضوع نقش انتخاب در شقاوت و سعادت

سخنرانی نقش انتخاب در شقاوت و سعادت ظهیری

Fallen Mage

Fallen Mage

اکشن نقش آفرینی

مداحی 29 صفر حاج مهدی اکبری سال 97

مداحی 29 صفر حاج مهدی اکبری سال 97

مداحی 97 حاج مهدی اکبری

Easy Installer 3.1.4 for Android +2.3

Easy Installer 3.1.4 for Android +2.3

نصب گروهی نرم افزارها

رخدادهای تاریخی ایران از هنگام مرگ نادرشاه افشار تا پایان زندگی آقامحمدخان قاجار

رخدادهای تاریخی ایران از هنگام مرگ نادرشاه افشار تا پایان زندگی آقامحمدخان قاجار

آغا محمد خان قاجار

Lynda - Marketing Fundamentals

Lynda - Marketing Fundamentals

فیلم آموزش آشنایی با اصول بازاریابی

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!