سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
آیکون جستجو در سایت سافت گذر
اطلاعیه های مهم سایت اطلاعیه های مهم سایت

 

💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2287
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
Auto Call 1.0.2 for Android

Auto Call 1.0.2 for Android

تماس حقیقی و مجازی

فارسی نویس ویندوز فون (ویرایش 1.0)

فارسی نویس ویندوز فون (ویرایش 1.0)

نرم افزار فارسی نویس برای سیستم عامل ویندوز فون ٧.٥ مانگو

گلچین مولودی نیمه شعبان و ولادت امام زمان(ع)

گلچین مولودی نیمه شعبان و ولادت امام زمان(ع)

نیمه شعبان هلالی میرداماد طاهری کریمی

سخنرانی حجت الاسلام اسماعیل مقری با موضوع امتیازات و ویژگی های رسول اکرم (ص)

سخنرانی حجت الاسلام اسماعیل مقری با موضوع امتیازات و ویژگی های رسول اکرم (ص)

حاج آقا اسماعیل مقری با موضوع امتیازات و ویژگی های رسول اکرم (ص)

Merge VM Professional 23.12.26

Merge VM Professional 23.12.26

مجازی سازی

Cubot

Cubot

مکعب‌های غلتان

Professional Visual Studio 2012

Professional Visual Studio 2012

ویژوال استادیو حرفه ای 2012

آموزش ابزار Power Options

آموزش ابزار Power Options

آموزش ابزار پاور آپشن

Contraband Police v10.6.0

Contraband Police v10.6.0

شبیه ساز پلیس

Bubble Shoot 1.6 for Android

Bubble Shoot 1.6 for Android

تیراندازی به حباب ها

Capture One Enterprise 16.7.2.3273

Capture One Enterprise 16.7.2.3273

ویرایش عکس

One Day For Ched

One Day For Ched

روزی برای چِـد

Aperty 1.2.1.978

Aperty 1.2.1.978

ویرایش عکس

SFV Ninja

SFV Ninja

چک کردن فایل‌ ها

Lynda - Windows 8.1 Essential Training

Lynda - Windows 8.1 Essential Training

مجموعه فیلم آموزش شرکت لیندا درمورد نکات ضروری و پایه ویندوز 8.1

Cross Court Tennis 2 1.22 for Android

Cross Court Tennis 2 1.22 for Android

جدیدترین نسخه از بازی تنیس مخصوص آندروید

Farsi Calendar 2.0 Java

Farsi Calendar 2.0 Java

تقویم هجری شمسی برای موبایل با فرمت جاوا

مفاهیم و تکنیک های داده کاوی

مفاهیم و تکنیک های داده کاوی

آشنایی با مفهوم داده کاوی

BUZZ Player 1.2.4 for Android

BUZZ Player 1.2.4 for Android

پلیر صوتی و تصویری آندروید با قابلیت پشتیبانی از زیرنویس

زن در اسلام و فمینیسم

زن در اسلام و فمینیسم

نیم نگاهی تطبیقی به اسلام و فمینیسم

آموزش نصب سیستم عامل Ubuntu 12.10

آموزش نصب سیستم عامل Ubuntu 12.10

آموزش نصب ابونتو

سخنرانی حجت الاسلام ناصر رفیعی با موضوع موانع استجابت دعا از نظر امام سجاد (ع)

سخنرانی حجت الاسلام ناصر رفیعی با موضوع موانع استجابت دعا از نظر امام سجاد (ع)

سخنرانی موانع استجابت دعا از نظر امام سجاد (ع) از ولایت با ناصر رفیعی

Aiseesoft Screen Recorder 3.1.36

Aiseesoft Screen Recorder 3.1.36

ضبط صفحه نمایش

Udemy - The Complete Guide to Chess Tactics

Udemy - The Complete Guide to Chess Tactics

آموزش کامل شطرنج

Luxor 5th Passage 1.0.0.8

Luxor 5th Passage 1.0.0.8

لوکسور - پنجمین گذرگاه

PDF24 Creator 11.29.0

PDF24 Creator 11.29.0

ایجاد و ویرایش فایل‌های پی‌دی‌اف

Bitwig Studio 5.3.13

Bitwig Studio 5.3.13

آهنگسازی حرفه ای

Bonetown - The Power of Death

Bonetown - The Power of Death

شهر استخوان - قدرت مرگ

ترجمه 19 سوره از قرآن کریم با ترجمه آیت الله مکارم شیرازی

ترجمه 19 سوره از قرآن کریم با ترجمه آیت الله مکارم شیرازی

ترجمه قرآن آیت الله مکارم شیرازی

Audify Notification Reader 3.6.0 for Android +4.4

Audify Notification Reader 3.6.0 for Android +4.4

خواندن صوتی اعلان گوشی

Kaspersky Internet Security & Antivirus 11.122.4.13875 for Android +7.0

Kaspersky Internet Security & Antivirus 11.122.4.13875 for Android +7.0

آنتی ویروس موبایل کاسپراسکای

Hacksaw Ridge

Hacksaw Ridge

ستیغ هک‌سا

زمینه سیاسی و اجتماعی خرافات

زمینه سیاسی و اجتماعی خرافات

خرافه، عقیده نامعقول

Fort Meow

Fort Meow

سنگر و گربه

Astray

Astray

سرگردان

آهنگ یکشنبه غم‌انگیز

آهنگ یکشنبه غم‌انگیز

یکشنبه غم انگیز

Artificial Defense

Artificial Defense

دفاع مصنوعی

Nero Platinum 2018 Suite 19.0.10200 + Content Packs/ Video/ Burning ROM/ Portable + 2017

Nero Platinum 2018 Suite 19.0.10200 + Content Packs/ Video/ Burning ROM/ Portable + 2017

نرو 2017 رایت و کپی دی وی دی

Pluralsight - Building Mobile Web Sites Using Web Forms, Bootstrap, and HTML5

Pluralsight - Building Mobile Web Sites Using Web Forms, Bootstrap, and HTML5

فیلم آموزش ساخت وب‌سایت‌های مناسب برای مشاهده در صفحه‌نمایش دستگاه‌های همراه با استفاده از وب فرم‌ها، بوت‌اِسترپ و اچ‌تی‌ام‌ال‌5

Road Riot 1.29.35 for Android +4.0

Road Riot 1.29.35 for Android +4.0

ماشین‌سواری همراه با جنگ در جاده

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!