سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
آیکون جستجو در سایت سافت گذر
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. به مناسبت ماه رجب، در سایت https://esetupdate.ir/ تخفیف ویژه‌ای برای محصولات در نظر گرفته شده است؛ فرصت را از دست ندهید. 🌸
  3. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2312
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
Autobahn Police Simulator

Autobahn Police Simulator

شبیه‌ساز پلیس اتوبان - پلیس راهنمایی و رانندگی

Worms 3 v2.06 / 4 v 1.0.432182182 Android +2.3

Worms 3 v2.06 / 4 v 1.0.432182182 Android +2.3

بازی معروف و محبوب کرم ها نسخه 3

PixelJunk Monsters Ultimate

PixelJunk Monsters Ultimate

هیولاها در جنگل

Perfectly Clear Video 4.6.1.2701

Perfectly Clear Video 4.6.1.2701

بالا بردن کیفیت فیلم با هوش مصنوعی

Force of Execution

Force of Execution

جدال تبهکاران

Pluralsight - C# Fundamentals with Visual Studio 2015

Pluralsight - C# Fundamentals with Visual Studio 2015

فیلم آموزش مبانی سی‌شارپ با ویژوال استودیو 2015

RoboForm 8.10.6.17 for Android +2.2

RoboForm 8.10.6.17 for Android +2.2

نرم افزار معروف و قدرتمند ذخیره پسوردهای اینترنتی

V-Ray Next for Maya 5.00.21 / for 3D Max 5.10.00

V-Ray Next for Maya 5.00.21 / for 3D Max 5.10.00

رندر تصاویر وی ری

Light Bound

Light Bound

محدوده‌ی نور

Last Day on Earth: Survival 1.17.10-500601 for Android +4.1

Last Day on Earth: Survival 1.17.10-500601 for Android +4.1

بقا در آخرین روز زمین

Microsoft Windows 7 latest version

Microsoft Windows 7 latest version

دانلود دانلود آخرین نسخه ویندوز

آموختن شنا

آموختن شنا

آموزش ساده شنا

آموزش جامع و کامل JetAudio

آموزش جامع و کامل JetAudio

آموزش جت آدیو

AVG Internet Security 25.12.10659 + AntiVirus Free / AVG Offline Update 2025.12.28

AVG Internet Security 25.12.10659 + AntiVirus Free / AVG Offline Update 2025.12.28

آنتی ویروس ای وی جی

قرائت دعای ندبه توسط آقای محسن فرهمند

قرائت دعای ندبه توسط آقای محسن فرهمند

قرائت محسن فرهمند دعای ندبه

مجله تخصصی برای علاقه مندان به بررسی مسائل اجتماعی و روانشناسی

مجله تخصصی برای علاقه مندان به بررسی مسائل اجتماعی و روانشناسی

مجله The New Yorker سپتامبر 21 ؛ 2020

Glow 26.1

Glow 26.1

نمایش اطلاعات سیستم

Dodol Locker 1.5.4 for Android

Dodol Locker 1.5.4 for Android

لاک اسکرین جدید و زیبا اندروید

MIS چیست ؟

MIS چیست ؟

MIS چیست ؟

Udemy - Machine Learning A-Z™ Hands-On Python & R In Data Science

Udemy - Machine Learning A-Z™ Hands-On Python & R In Data Science

آموزش یادگیری ماشین با زبان‌های برنامه‌نویسی پایتون و آر

شهید مصطفى چمران فرزند اسلام ناب محمدى

شهید مصطفى چمران فرزند اسلام ناب محمدى

آشنایى با شیوه زندگى مردان بزرگ ، چمران

Ponydroid Download Manager 1.6.2 for Android +4.0

Ponydroid Download Manager 1.6.2 for Android +4.0

دانلود منیجر پونی دروید

WinNc 11.3

WinNc 11.3

مدیریت فایل ها

گلچینی از بهترین آهنگ‌های بی‌کلام با کیفیت عالی

گلچینی از بهترین آهنگ‌های بی‌کلام با کیفیت عالی

آلبوم موسیقی بی کلام

GO SMS Pro Premium 8.03 / Pro 7.88 for Android +1.6

GO SMS Pro Premium 8.03 / Pro 7.88 for Android +1.6

مدیریت اس ام اس

Battle Fleet 2 Atlantic Campaign

Battle Fleet 2 Atlantic Campaign

نبرد کشتی‌های جنگی 2 - عملیات اقیانوس اطلس

مو در طب سنتی و ایرانی

مو در طب سنتی و ایرانی

اقسام مو؛ تدریس آیت الله تبریزیان

Windows 11 25H2 Build 26200.7462 RTM MSDN VL December 2025

Windows 11 25H2 Build 26200.7462 RTM MSDN VL December 2025

ویندوز 11

PowerWash Simulator – Wallace & Gromit Special Pack + Update v1.11.0 incl DLC

PowerWash Simulator – Wallace & Gromit Special Pack + Update v1.11.0 incl DLC

شبیه ساز برای کامپیوتر

احمدی‌نژاد، معجزهٔ هزارهٔ سوم  نوشتهٔ فاطمه رجبی

احمدی‌نژاد، معجزهٔ هزارهٔ سوم نوشتهٔ فاطمه رجبی

زندگی و زمانه احمدی نژاد

Armello

Armello

آرملو

Soft Organizer Pro 10.33

Soft Organizer Pro 10.33

حذف نرم افزارهای نصب شده در ویندوز

آموزش تصویری نرم افزار Driver Genius Professional Edition

آموزش تصویری نرم افزار Driver Genius Professional Edition

آموزش دراور جنیوس

Camera FV 5.3.2 for Android +2.3

Camera FV 5.3.2 for Android +2.3

دوربین اف وی

Worms Revolution + Update 7 + Customization Pack DLC

Worms Revolution + Update 7 + Customization Pack DLC

انقلاب کرمها

Lynda - llustrator CC 2018 One-on-One - Fundamentals

Lynda - llustrator CC 2018 One-on-One - Fundamentals

آموزش ایلوستریتور

Need For Extreme 3D

Need For Extreme 3D

مسابقه ماشین سواری غیر ورزشی

Longman Dictionary of Contemporary English 5th Edition 2009

Longman Dictionary of Contemporary English 5th Edition 2009

نرم افزار فرهنگ لغت انگلیسی به انگلیسی لانگمن ویرایش پنجم

Varia 2025.10.14-1

Varia 2025.10.14-1

مدیریت دانلود

آموزش فریم ورک گتنا

آموزش فریم ورک گتنا

آموزش Framework Gtna

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!