سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
آیکون جستجو در سایت سافت گذر
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. سالروز وفات حضرت ام البنین علیهاالسلام تسلیت باد.
  2. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  3. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2282
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
LeafView 3.8.4

LeafView 3.8.4

مشاهده عکس

Microsoft Windows and Office ISO Download Tool 8.46

Microsoft Windows and Office ISO Download Tool 8.46

ویندوز و آفیس

آموزش VMWare ESX Server در شبکه

آموزش VMWare ESX Server در شبکه

آموزش وی ام ویر ای اس ایکس سرور

اندیشه سیاسی در اسلام

اندیشه سیاسی در اسلام

شماره اول دوفصلنامه علمی ـ تخصصی الفکر السیاسی الاسلامی

Starving Frog

Starving Frog

قورباغه‌ی گرسنه

TurnOn

TurnOn

شهر را روشن کن

PicSay Pro 1.8.0.5 for Android +2.2

PicSay Pro 1.8.0.5 for Android +2.2

ویرایش و افکت گذاری بر روی تصاویر

Connectify Dispatch-Hotspot Pro 9.2.0.32804 / Hotspot 2018.1.1.38937 Max

Connectify Dispatch-Hotspot Pro 9.2.0.32804 / Hotspot 2018.1.1.38937 Max

برنامه ترکیب چند روش اتصال به اینترنت و افزایش سرعت و برنامه تبدیل لپ‌تاپ به فرستنده وایرلس هات‌اسپات

Microsoft SharePoint Server 2016 x64

Microsoft SharePoint Server 2016 x64

نسخه 2016 و 64 بیتی نرم افزار ساخت پرتال اطلاعاتی مایکروسافت

Arc 1.71.1

Arc 1.71.1

مرورگر آرک

Rory's Restaurant

Rory's Restaurant

رستوران خانم رُری

Espier Launcher 3.4.0 for Android +2.2

Espier Launcher 3.4.0 for Android +2.2

لانچر شبیه سازی شده سیستم عامل iOS

هرگز سازش نکنید؛ طوری مذاکره کنید که انگار زندگی‌تان به آن بستگی دارد!

هرگز سازش نکنید؛ طوری مذاکره کنید که انگار زندگی‌تان به آن بستگی دارد!

هرگز سازش نکنید

Alpha Runner

Alpha Runner

دونده‌ی آلفا

Minecraft Dungeons: Fauna Faire

Minecraft Dungeons: Fauna Faire

ماینکرفت

آموزش nLite

آموزش nLite

آموزش ان لایت

راه تکامل از زبان آیت الله مصباح یزدی

راه تکامل از زبان آیت الله مصباح یزدی

راه تکامل از زبان آیت الله مصباح یزدی

Air Brawl

Air Brawl

جنجال هوایی

Pluralsight - Design Patterns in Java - Structural

Pluralsight - Design Patterns in Java - Structural

فیلم آموزش الگوهای طراحی ساختاری در جاوا

Quantum Conundrum Complete

Quantum Conundrum Complete

بهترین بازی های معمایی کامپیوتر

Audio/Video Converter Android Premium 3.2.12 for Android +4.1

Audio/Video Converter Android Premium 3.2.12 for Android +4.1

نرم افزار تبدیل فرمتهای صوتی و تصویری در اندروید

Haunted Hotel - The Axiom Butcher Collector's Edition

Haunted Hotel - The Axiom Butcher Collector's Edition

هتل خالی از سکنه

اخبار دنیای خودرو

اخبار دنیای خودرو

خودروسازی در جهان

تفسیر صوتی سوره دخان

تفسیر صوتی سوره دخان

تفسیر سوره 44 از حجت الاسلام قرائتی

Pahelika Revelations HD

Pahelika Revelations HD

پاهلیکا - آشکارسازی | نسخه‌ی اچ‌دی

Pluralsight - A Tour of PostgreSQL

Pluralsight - A Tour of PostgreSQL

دوره‌ی آموزش تصویری (بصورت فیلم) پُستگرس‌کیواِل

The Adventure Pals

The Adventure Pals

اکشن

Green Screen Wizard Professional 15.0

Green Screen Wizard Professional 15.0

حذف پس زمینه پرده سبز عکس

Firefox 145.0.1 / Nightly 146.0a1 For Android +5.0

Firefox 145.0.1 / Nightly 146.0a1 For Android +5.0

فایرفاکس

فیلم‌های آموزش کامل انگولارجی‌اس  AngularJS به زبان فارسی

فیلم‌های آموزش کامل انگولارجی‌اس AngularJS به زبان فارسی

آموزش انگولارجی اس

LED Keyboard Lighting 5.8.29 For Android +5.0

LED Keyboard Lighting 5.8.29 For Android +5.0

کیبورد ال ای دی

InfiniteSkills - Photo Restoration With Photoshop Training Video

InfiniteSkills - Photo Restoration With Photoshop Training Video

فیلم آموزش ترمیم عکس با فتوشاپ

Stick Run Mobile 1.0.4 for Android

Stick Run Mobile 1.0.4 for Android

بازی آدمک دونده

SQL Server Management Studio (SSMS) 20.2.30.0

SQL Server Management Studio (SSMS) 20.2.30.0

مدیریت پایگاه داده SQL

سفر مصر جلال آل احمد

سفر مصر جلال آل احمد

سفرنامه مصر و فلسطین

ZWCAD Architecture 2026 26.00 / 2025 SP0

ZWCAD Architecture 2026 26.00 / 2025 SP0

طراحی دوبعدی و سه‌بعدی

Oxford Advanced Learner's 8 v3.6.22 / Learner's Academic Dict 1.0.19.0 for Android +2.2

Oxford Advanced Learner's 8 v3.6.22 / Learner's Academic Dict 1.0.19.0 for Android +2.2

فرهنگ لغت معروف آکسفورد ویرایش 8 به همراه تلفظ کلمات به همراه دیتا

Linux Command Line and Shell Scriptin

Linux Command Line and Shell Scriptin

لینوکس خط فرمان و شل اسکریپتی

Spiritfarer Farewell Edition

Spiritfarer Farewell Edition

اکشن و معمایی برای کامپیوتر

Ghostrunner Project HEL

Ghostrunner Project HEL

گوست رانر

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!