سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
آیکون جستجو در سایت سافت گذر
اطلاعیه های مهم سایت اطلاعیه های مهم سایت

 

💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2293
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
خواص گیاهان دارویی و شیمیایی

خواص گیاهان دارویی و شیمیایی

بانک جامع اطلاعات دارویی

CBT Nuggets - Microsoft SharePoint Server 2013 70-331

CBT Nuggets - Microsoft SharePoint Server 2013 70-331

فیلم آموزش مایکروسافت شِـیرپوینت سـروِر 2013 - آزمون 331-70

تلاوت مجلسی استاد عبدالباسط سوره مبارکه حمد

تلاوت مجلسی استاد عبدالباسط سوره مبارکه حمد

تلاوت عبدالباسط سوره حمد

Halfway v1.1.4c

Halfway v1.1.4c

نیمه‌راه

Trend Micro Maximum Security 17.9.1089

Trend Micro Maximum Security 17.9.1089

ترند میکرو

SwapVoice 1.0.13

SwapVoice 1.0.13

تبدیل گفتار به متن

Sumico Deluxe Edition v1.1.9

Sumico Deluxe Edition v1.1.9

سامیکو | بازی با اعداد

Link2SD Plus 4.3.4 for Android +2.1

Link2SD Plus 4.3.4 for Android +2.1

انتقال برنامه به کارت حافظه و مدیریت آنها

تلاوت مجلسی استاد کریم منصوری سوره مبارکه شمس

تلاوت مجلسی استاد کریم منصوری سوره مبارکه شمس

تلاوت کریم منصوری سوره شمس

Aspen Technology aspenONE Engineering Suite 15.0

Aspen Technology aspenONE Engineering Suite 15.0

اسپن وان شبیه سازی و طراحی در مهندسی شیمی

Udemy - The Complete ASP.NET MVC 5 Course

Udemy - The Complete ASP.NET MVC 5 Course

دوره آموزش برنامه‌نویسی

الایمان و الکفر فی القرآن و السنه

الایمان و الکفر فی القرآن و السنه

ایمان و کفر در کتاب و سنت

Puffle Launch 1.3 for Android

Puffle Launch 1.3 for Android

هدایت گلوله

مشاوره ازدواج

مشاوره ازدواج

حقوق زن و مرد

جانشین داود پیامبر

جانشین داود پیامبر

سلیمان نبی

برنامه جهان آرا سری جدید | بررسی شروط رهبر انقلاب برای ادامه همکاری با اروپا در زمینه برجام

برنامه جهان آرا سری جدید | بررسی شروط رهبر انقلاب برای ادامه همکاری با اروپا در زمینه برجام

برنامه جهان آرا شبکه افق

سخنرانی های زیبا به مناسبت جشن میلاد نیمه شعبان

سخنرانی های زیبا به مناسبت جشن میلاد نیمه شعبان

سخنرانی حجت الاسلام مومنی با موضوع امام زمان

مجله الکترونیکی ویستا

مجله الکترونیکی ویستا

کتاب مجله الکترونیکی ویستا، شماره دوم- کارآفرینی

InPixio Photo Maximizer Pro 5.3.8625.22430

InPixio Photo Maximizer Pro 5.3.8625.22430

بزرگنمایی تصاویر

Coloring Weather Screen 1.4.2 for Android

Coloring Weather Screen 1.4.2 for Android

نمایش آب و هوا در رنگ های مختلف

همراه بانک دی (جت دی) 2.15.40 برای اندروید

همراه بانک دی (جت دی) 2.15.40 برای اندروید

موبایل بانک دی

LEC Power Translator World Premium 15 v3.1r9

LEC Power Translator World Premium 15 v3.1r9

قویترین مترجم 13 زبان زنده دنیا به یکدیگر

Total Uninstaller 2026 3.0.0.802

Total Uninstaller 2026 3.0.0.802

حذف کامل برنامه های نصب شده

Photo Lab PRO 3.13.74 for Android +6.0

Photo Lab PRO 3.13.74 for Android +6.0

مونتاژ عکس

آموزش فارسی سازی پوسته وردپرس

آموزش فارسی سازی پوسته وردپرس

آموزش ساده و روان نحوه فارسی سازی پوسته های وردپرس

Barcode Scanner 4.7.8 for Android +4.0

Barcode Scanner 4.7.8 for Android +4.0

بارکد خوان

Stardock Start11 2.5.6.3 / Start10 1.97.1

Stardock Start11 2.5.6.3 / Start10 1.97.1

منوی استارت ویندوز

آموزش زبان ماشین و برنامه نویسی سیستم

آموزش زبان ماشین و برنامه نویسی سیستم

آشنایی کامل با برنامه نویسی اسمبلی

Astrolapp Planets and Sky Map 5.2.0.5 for Android +4.0.3

Astrolapp Planets and Sky Map 5.2.0.5 for Android +4.0.3

آسترولپ

فیلم‌های آموزش فارسی جوملا Joomla

فیلم‌های آموزش فارسی جوملا Joomla

آموزش جوملا

مدفن امیرالمؤمنین(ع)

مدفن امیرالمؤمنین(ع)

فرحة الغری فی تعیین قبر امیر المؤمنین ترجمه علامه مجلسی

طوفان فکری، ساختاردهی و ارزیابی ایده ها و گزینه ها

طوفان فکری، ساختاردهی و ارزیابی ایده ها و گزینه ها

طوفان فکری، ساختاردهی و ارزیابی ایده ها و گزینه ها

Ablebits Ultimate Suite for Excel Business Edition 2026.1.3877.2566

Ablebits Ultimate Suite for Excel Business Edition 2026.1.3877.2566

آلتیمیت سوئیت برای اکسل

همخوانی ( سرود ) زیبای امیرالمومنین مولا علی علی گروه رسائل

همخوانی ( سرود ) زیبای امیرالمومنین مولا علی علی گروه رسائل

همخوانی امیرالمومنین گروه رسائل

ایجاد کسب و کار الکترونیکی

ایجاد کسب و کار الکترونیکی

ایده پردازی در منابع مالی

Wondershare Dr.Fone toolkit for iOS and Android 10.7.2.324

Wondershare Dr.Fone toolkit for iOS and Android 10.7.2.324

بهترین بازیابی اطلاعات در گوشی‌های اندروید و آیفون

مجموعه‌ مفاهیم اخلاقی و اجتماعی

مجموعه‌ مفاهیم اخلاقی و اجتماعی

گلچین شیخ بهایی

Poedit Pro 2.2 Build 5561

Poedit Pro 2.2 Build 5561

ترجمه متون زبان برنامه نویسی و سایت ها

7 جلسه فرازهایی از وصیتنامه امام علی علیه السلام، آثار نماز  از حجت الاسلام والمسلمین علیرضا حدائق

7 جلسه فرازهایی از وصیتنامه امام علی علیه السلام، آثار نماز از حجت الاسلام والمسلمین علیرضا حدائق

حاج آقا علیرضا حدائق با موضوع شرح و تفسیر دعای مکارم الاخلاق

تفسیر سوره توبه از دید استاد مطهری

تفسیر سوره توبه از دید استاد مطهری

مطهری تفسیر توبه

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!