سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
آیکون جستجو در سایت سافت گذر
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. به مناسبت ماه رجب، در سایت https://esetupdate.ir/ تخفیف ویژه‌ای برای محصولات در نظر گرفته شده است؛ فرصت را از دست ندهید. 🌸
  3. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2311
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
سخنرانی شهید مطهری تشویق فرزندان به نماز - مسئولیت نماز خانواده - چگونه دعای نیکان مستجاب نمی شود؟

سخنرانی شهید مطهری تشویق فرزندان به نماز - مسئولیت نماز خانواده - چگونه دعای نیکان مستجاب نمی شود؟

الهام به دل انسان از سوی خداوند شهید مرتضی مطهری

Digital Tutors - Electronic Product Design in Rhino

Digital Tutors - Electronic Product Design in Rhino

فیلم آموزش طراحی کردن یک محصول الکترونیکی در نرم‌افزار رایـنو

آموزش تصویری برنامه Disk CleanUP

آموزش تصویری برنامه Disk CleanUP

آشنایی با نرم افزار Disk CleanUP

Football Manager 2018

Football Manager 2018

فوتبال منیجر

اثری سودمند برای آشنایی با تاریخ، فرهنگ و ادبیات کشور کره

اثری سودمند برای آشنایی با تاریخ، فرهنگ و ادبیات کشور کره

داستان های جذاب از کره

Electrical calculations Pro 7.10.1 For Android +2.3

Electrical calculations Pro 7.10.1 For Android +2.3

ماشین حساب رشته برق

Lynda - Spring Boot 2 Essential Training

Lynda - Spring Boot 2 Essential Training

آموزش اسپرینگ بوت 2

Murdered - Soul Suspect

Murdered - Soul Suspect

روحِ مقتول در پی قاتل

سخنرانی حجت الاسلام عالی سال 98

سخنرانی حجت الاسلام عالی سال 98

محرم شب اول تا شام غریبان حجت الاسلام مسعود عالی

Microsoft Office Professional Plus 2007 SP3 Build 12.0.6607.1000 Volume

Microsoft Office Professional Plus 2007 SP3 Build 12.0.6607.1000 Volume

آفیس 2007 ویرایش Professional Plus یکپارچه شده با SP3

Angry Birds 4.0.0 / Rio 2.1.0 / Seasons 4.0.1 / Star Wars 1.5.0 / Star War II 1.2.1

Angry Birds 4.0.0 / Rio 2.1.0 / Seasons 4.0.1 / Star Wars 1.5.0 / Star War II 1.2.1

انگری بردز

Pluralsight - JavaScript the Good Parts

Pluralsight - JavaScript the Good Parts

فیلم آموزش بخش‌های خوب جاوااسکریپت

اصول 29 گانه عکاسی

اصول 29 گانه عکاسی

عکس ھای پرتره و یادگاری حرفه ای

سخنرانی حجت‌الاسلام محسن قرائتی با موضوع مقام شهدا و شهید حاج قاسم سلیمانی

سخنرانی حجت‌الاسلام محسن قرائتی با موضوع مقام شهدا و شهید حاج قاسم سلیمانی

سخنرانی مقام شهدا و شهید حاج قاسم سلیمانی با قرائتی

Total Tank Simulator - Italy

Total Tank Simulator - Italy

تانک برای کامپیوتر

1492 Conquest of Paradise

1492 Conquest of Paradise

موسیقی فیلم فتح بهشت

آموزش نرم افزار گیم استدیو

آموزش نرم افزار گیم استدیو

راهنمای استفاده از نرم افزار 3D Game Studio

Lightning Launcher 14.3 for Android +2.2

Lightning Launcher 14.3 for Android +2.2

لانچر شفاف

RC Simulation 2.0

RC Simulation 2.0

ماشین کنترلی

آموزش کامل یوگا

آموزش کامل یوگا

آموزش یوگا

Kaspersky Security  21.23.6.614 Full Product / Endpoint Security 12.11.0.637

Kaspersky Security 21.23.6.614 Full Product / Endpoint Security 12.11.0.637

کسپرسکی

G Cloud Backup 6.3.3.800 for Android

G Cloud Backup 6.3.3.800 for Android

پشتیبان گیری بر روی فضای اینترنت

ESET NOD32 / Smart Security / Endpoint Offline Update 31502 (2025.07.10) for v3.x v4.x v5.x v6.x v7.x v8.x

ESET NOD32 / Smart Security / Endpoint Offline Update 31502 (2025.07.10) for v3.x v4.x v5.x v6.x v7.x v8.x

آپدیت آفلاین نود 32

Sword of the Sea + Update v22.08.2025

Sword of the Sea + Update v22.08.2025

اکشن و ماجراجویی برای کامپیوتر

Tungulus

Tungulus

ماجراجویی ترسناک

Adobe Substance 3D Sampler 5.1.2

Adobe Substance 3D Sampler 5.1.2

ساخت متریال و تکسچر از روی عکس واقعی

کشکول سخن ( قطعه های کوتاه سخنرانی درباره موضوعات مختلف ) - بخش اول

کشکول سخن ( قطعه های کوتاه سخنرانی درباره موضوعات مختلف ) - بخش اول

سخنرانی های کوتاه کشکول وار - بخش اول

Intel Driver & Support Assistant 24.4.36.6

Intel Driver & Support Assistant 24.4.36.6

آپدیت درایورهای اینتل

Between Me and The Night

Between Me and The Night

میان من و شب

PhotoScape X Pro 4.2.8

PhotoScape X Pro 4.2.8

ویرایش عکس

Building the Sukhoi Su-27 - The Best Fighter Jet in the World

Building the Sukhoi Su-27 - The Best Fighter Jet in the World

مستند هواپیمای جنگنده سوخو

Driver San Francisco + Update 1.04

Driver San Francisco + Update 1.04

درایور سانفرانسیسکو

SmartGit 20.2.3 Windows/macOS/Linux

SmartGit 20.2.3 Windows/macOS/Linux

اسمارت‌گیت

Persian Interface Pack for Office 2003 / 2007 / 2010 + ScreenTip / 2013 / 2016 + ScreenTip / Proofing Tools x86/x64

Persian Interface Pack for Office 2003 / 2007 / 2010 + ScreenTip / 2013 / 2016 + ScreenTip / Proofing Tools x86/x64

فارسی ساز منوهای برنامه های آفیس و افزودن غلط یابی املایی فارسی

رسم و ویرایش انواع شکل ها در نرم افزار ورد

رسم و ویرایش انواع شکل ها در نرم افزار ورد

اشکال در نرم افزار ورد

GIMP 3.0.6 Win/Mac/Linux

GIMP 3.0.6 Win/Mac/Linux

ویرایشگر تصاویر گیمپ

Udemy - Learn German Language: Complete German Course – Intermediate

Udemy - Learn German Language: Complete German Course – Intermediate

آموزش زبان آلمانی سطح متوسط

تفسیر صوتی سوره شمس

تفسیر صوتی سوره شمس

تفسیر سوره 91 از حجت الاسلام قرائتی

C Locker Pro 8.3.6.8 for Android +4.1

C Locker Pro 8.3.6.8 for Android +4.1

قفل صفحه نمایش سی لوکر

قوانین، فرهنگ و نظام سیاسی پاکستان

قوانین، فرهنگ و نظام سیاسی پاکستان

قانون عالی پاکستان

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!