سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
جستجو
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2243
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
Orbit Downloader 4.1.1.19 Final

Orbit Downloader 4.1.1.19 Final

نرم افزار مدیریت دانلود

VTC - Mac OSX Mountain Lion

VTC - Mac OSX Mountain Lion

مجموعه آموزشی تصویری (فیلم) شرکت VTC در مورد آموزش سیستم عامل مک ویرایش شیر کوهی

ESET NOD32 Antivirus 4.0.81.0 Business Edition for Linux Desktop

ESET NOD32 Antivirus 4.0.81.0 Business Edition for Linux Desktop

نود 32 لینوکس ورژن 4

DYNASTY WARRIORS: ORIGINS

DYNASTY WARRIORS: ORIGINS

استراتژیک جنگی

InfiniteSkills – Learning To Create eBooks Training Video

InfiniteSkills – Learning To Create eBooks Training Video

فیلم آموزش ساخت کتاب های الکترونیک (eBook)

EditPad Pro 8.5.3

EditPad Pro 8.5.3

ویرایشگر متن

انسان تنها موجود دارای اختیار و حق انتخاب

انسان تنها موجود دارای اختیار و حق انتخاب

قدرت حق انتخاب را یکبار برای همیشه یاد بگیرید

درجات رفعت در درجات ذکر و هدایت با سخنرانی آیت الله سیدمحمدمهدی میرباقری - 5 جلسه

درجات رفعت در درجات ذکر و هدایت با سخنرانی آیت الله سیدمحمدمهدی میرباقری - 5 جلسه

حاج آقا میرباقری با موضوع درجات رفعت در درجات ذکر و هدایت

Photodex ProShow Producer 9.0.3797 + StylePacks + EffectsPacks

Photodex ProShow Producer 9.0.3797 + StylePacks + EffectsPacks

ساخت نمایش اسلاید و آلبوم های دیجیتالی پروشو

حقوق خانواده در اسلام

حقوق خانواده در اسلام

زن در حقوق اسلامى

Sniper Elite - Nazi Zombie Army 2

Sniper Elite - Nazi Zombie Army 2

تک تیرانداز حرفه ای - ارتش زامبی های نازی 2

تفسیر صوتی سوره ماعون

تفسیر صوتی سوره ماعون

تفسیر سوره 107 از حجت الاسلام قرائتی

Fantasy Mosaics 10 - Time Travel

Fantasy Mosaics 10 - Time Travel

موزائیک‌های فانتزی 10 - سفر زمان

Dead Effect 1.2.2 for Android

Dead Effect 1.2.2 for Android

بازی سرزمین مردگان

They Need To Be Fed 2.0.4 for Android

They Need To Be Fed 2.0.4 for Android

آدمک آهنربایی

GO Keyboard Prime 4.03 / Pro 1.60 + Plugin for Android

GO Keyboard Prime 4.03 / Pro 1.60 + Plugin for Android

کیبورد گو

نسل پنجم شبکه های موبایل 5G

نسل پنجم شبکه های موبایل 5G

آشنایی با 5G

Motoheroz 2.0.3 for Android +2.3

Motoheroz 2.0.3 for Android +2.3

بازی ماشین شاسی بلند

Control Ultimate Edition

Control Ultimate Edition

کنترل

Frames 1.0 for Android +3.0

Frames 1.0 for Android +3.0

650 آیکون با کیفیت 192*192

MDict 2.1.12 for Android

MDict 2.1.12 for Android

دیکشنری اندروید با دیتا مشترک با دیکشنری BlueDict

نامه امام حسن عسکری (ع) به علی بن بابویه از حجت الاسلام والمسلمین سیدآبادی

نامه امام حسن عسکری (ع) به علی بن بابویه از حجت الاسلام والمسلمین سیدآبادی

حاج آقا سیدآبادی با موضوع نامه امام حسن عسکری (ع) به علی بن بابویه

آموزش نرم افزار CorelDRAW

آموزش نرم افزار CorelDRAW

آموزش نرم افزار کورل دراو

Sh Messenger 3.3 for Symbian

Sh Messenger 3.3 for Symbian

بهترین نرم افزار در زمینه ی چت موبایل براي سيمبين

آموزش کار با دیسک کوتا

آموزش کار با دیسک کوتا

آشنایی با دیسک کوتا DISK QUOTA

Tower Bloxx

Tower Bloxx

بازی زیبای برج سازی

Full Metal Furies

Full Metal Furies

اکشن برای کامپیوتر

Virtua Tennis Challenge 4.5.4 for Android

Virtua Tennis Challenge 4.5.4 for Android

بازی تنیس

Memory Optimizer Pro 1.2.5 for Android +2.2

Memory Optimizer Pro 1.2.5 for Android +2.2

بهینه سازی مموری

دعای هر روز ماه مبارک رجب با نوای میثم مطیعی

دعای هر روز ماه مبارک رجب با نوای میثم مطیعی

دعای ماه مبارک رجب - میثم مطیعی

Udemy - The Web Developer Bootcamp 2022

Udemy - The Web Developer Bootcamp 2022

آموزش کامل توسعه وب

Apotheon

Apotheon

رهایی

دانشنامه نماز نسخه 1 برای اندروید 4.1+

دانشنامه نماز نسخه 1 برای اندروید 4.1+

دانشنامه نماز

ESET NOD32 Antivirus Business Edition 4.2.76.0 x86/x64 Retail (Update 12000) 2015-07-27

ESET NOD32 Antivirus Business Edition 4.2.76.0 x86/x64 Retail (Update 12000) 2015-07-27

نود 32 آنتی ویروس بیزنس 4

Xodo PDF Reader & Editor Pro 10.5.2 For Android +5.0

Xodo PDF Reader & Editor Pro 10.5.2 For Android +5.0

نمایش فایلهای PDF

انسان مدرن به زبان نقاشی

انسان مدرن به زبان نقاشی

انسان مدرن

Programming Windows Store Apps with C#

Programming Windows Store Apps with C#

آموزش سی شارپ

Dynomite Deluxe 2.71

Dynomite Deluxe 2.71

چیدن گوی های هم رنگ ماقبل تاریخ

مشاوره ازدواج

مشاوره ازدواج

حقوق زن و مرد

Beautiful Widgets 5.7.8 for Android +2.3

Beautiful Widgets 5.7.8 for Android +2.3

پک ویجت های قابل استفاده برای اندروید

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!