سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
جستجو
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. سافت گذر جهت آپدیت بخش نرم افزار نیاز به همکار حرفه ای دارد. ارسال درخواست به بخش ارتباط با ما / سردبیری
  2. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  3. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2222
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
Sasi Calc Pro 16.2.24.0319

Sasi Calc Pro 16.2.24.0319

محاسبات مربوط به پروژه های مهندسی

Eidolon

Eidolon

تصویر خیالی

FIFA Street for PlayStation 3 + Xbox 360

FIFA Street for PlayStation 3 + Xbox 360

فوتبال خیابانی فیفا استریت

تواشیح های میلاد امام محمد باقر علیه السلام

تواشیح های میلاد امام محمد باقر علیه السلام

تواشیح ای نعمت ولایت تو بهترین نِعَم

قصه های کهن ایرانی

قصه های کهن ایرانی

داستان های حاتم طائی

Windows Activator by Goddy 4.9

Windows Activator by Goddy 4.9

فعالساز نسخه های مختلف ویندوز

Guns 4 Hire 1.5 for Android +2.3

Guns 4 Hire 1.5 for Android +2.3

بازی گروه مسلح

ChromaGun

ChromaGun

تفنگ رنگ‌پاش

Xenon Racer + Update 2 REPACK

Xenon Racer + Update 2 REPACK

بازی ماشین برای کامپیوتر

Udemy - Python for Data Science and Machine Learning Bootcamp

Udemy - Python for Data Science and Machine Learning Bootcamp

دوره آموزش علم داده و یادگیری ماشین در پایتون

Udemy - Complete Python Bootcamp Go from zero to hero in Python 3

Udemy - Complete Python Bootcamp Go from zero to hero in Python 3

آموزش پایتون از صفر

تاریخ ایران

تاریخ ایران

سلسله سلاجقه تا آغاز دوره صفویه

برنامه جهان آرا سری جدید | بررسی تحولات منطقه

برنامه جهان آرا سری جدید | بررسی تحولات منطقه

برنامه جهان آرا شبکه افق

GOM Player 2.3.108.5378 / Plus + Portable

GOM Player 2.3.108.5378 / Plus + Portable

گام پلیر

Thermoflow 18 + 19 VMware + 21.0

Thermoflow 18 + 19 VMware + 21.0

شبیه سازی سیستم های نیروگاهی و حرارتی

دورهٔ آموزش ویدئویی MySQL به زبان فارسی

دورهٔ آموزش ویدئویی MySQL به زبان فارسی

آموزش mysql

آموزش بازاریابی شبکه ای

آموزش بازاریابی شبکه ای

آشنایی با Network Marketing

Pluralsight - Mobilize Your ASP.NET Web Forms

Pluralsight - Mobilize Your ASP.NET Web Forms

فیلم آموزش ساخت برنامه‌های قابل استفاده در دستگاه‌های همراه، از طریق چارچوب‌های وب اِی‌اس‌پی‌دات‌نت

سخنرانی حجت الاسلام ناصر رفیعی با موضوع رسول الله (ص) پیامبر مهربانی و رحمت - 2 جلسه

سخنرانی حجت الاسلام ناصر رفیعی با موضوع رسول الله (ص) پیامبر مهربانی و رحمت - 2 جلسه

سخنرانی رسول الله (ص) پیامبر مهربانی و رحمت با ناصر رفیعی

Fluent 6.3.26 + GAMBIT 2.4.6 + Exceed 2006 + Exceed 2008 v13.0 + Unlimited License

Fluent 6.3.26 + GAMBIT 2.4.6 + Exceed 2006 + Exceed 2008 v13.0 + Unlimited License

شبیه سازی و آنالیز به همراه ابزار طراحی هندسی CAD

مرجع کامل jQurey

مرجع کامل jQurey

مرجع کامل جی کوئری

VIPRE Mobile Security Premium 5.0.1.527 for Android

VIPRE Mobile Security Premium 5.0.1.527 for Android

محافظت در مقابل ویروس ها

آموزش ترفندهای فتوشاپ

آموزش ترفندهای فتوشاپ

آشنایی با تکنیک ها و کلک هایی در Photoshop

آموزش زبان انگلیسی با تصاویر

آموزش زبان انگلیسی با تصاویر

راهنمای تصویری دستور زبان و نگارش انگلیسی

آموختن و یادگیری

آموختن و یادگیری

مطالعه با کیفیت و ماندگار

Stellar Toolkit for File Repair 2.5.0.0

Stellar Toolkit for File Repair 2.5.0.0

تعمیر و بازیابی فایل‌های خراب آفیس

SMS Backup & Restore Pro 10.22.001 for Android +5.0

SMS Backup & Restore Pro 10.22.001 for Android +5.0

پشتیبان گیری و بازگردانی پیام ها

Internet Explorer 11 Final

Internet Explorer 11 Final

نسخه نهایی اینترنت اکسپلورر 9، 10 و 11 مرورگر اینترنتی مایکروسافت

نهم ربیع الاول : چرایی، چیستی، چگونگی

نهم ربیع الاول : چرایی، چیستی، چگونگی

عهدی دوباره با امام زمان (عج)

Dragon in Fury

Dragon in Fury

اژدهای خشمگین

اقدامات امام صادق (ع) در تبیین و ترویج جایگاه امام از آیت الله سیدمحمدمهدی میرباقری

اقدامات امام صادق (ع) در تبیین و ترویج جایگاه امام از آیت الله سیدمحمدمهدی میرباقری

حاج آقا سیدمحمدمهدی میرباقری با موضوع اقدامات امام صادق (ع) در تبیین و ترویج جایگاه امام

Battle for Wesnoth 1.14.11-57 / LEGACY 1.10.7-39 for Android +2.3

Battle for Wesnoth 1.14.11-57 / LEGACY 1.10.7-39 for Android +2.3

جنگ برای Wesnoth

مستند زندگی پنهان گربه‌سانان با دوبله فارسی

مستند زندگی پنهان گربه‌سانان با دوبله فارسی

مستند گربه‌سانان

Cat Quest III – Mew Content + Updates

Cat Quest III – Mew Content + Updates

کت کوئست ۳

Auslogics BoostSpeed 14.0.1.1

Auslogics BoostSpeed 14.0.1.1

بوست اسپید

Alarmy (Sleep If U Can) – Pro 5.15.07 for Android +3.0

Alarmy (Sleep If U Can) – Pro 5.15.07 for Android +3.0

بهترین آلارم و ساعت اندروید

Magoshare AweClone Enterprise 3.0

Magoshare AweClone Enterprise 3.0

کپی کامل و کلون سازی هارد دیسک

HYSYS 3.2

HYSYS 3.2

شبیه ساز سیستم های پالایشگاهی، پتروشیمی، الکترولیتی و جامد

S.T.A.L.K.E.R.: Clear Sky

S.T.A.L.K.E.R.: Clear Sky

استالکر آسمان پاک

12 جلسه مکتب شهید سلیمانی از حجت الاسلام والمسلمین پناهیان

12 جلسه مکتب شهید سلیمانی از حجت الاسلام والمسلمین پناهیان

حاج آقا پناهیان با موضوع مکتب شهید سلیمانی

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!