سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
آیکون جستجو در سایت سافت گذر
اطلاعیه های مهم سایت اطلاعیه های مهم سایت

 

💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2289
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
9 جلسه سیری در روایات اخلاقی و معرفتی اهل بیت (ع) از حجت الاسلام والمسلمین فاطمی نیا

9 جلسه سیری در روایات اخلاقی و معرفتی اهل بیت (ع) از حجت الاسلام والمسلمین فاطمی نیا

حاج آقا فاطمی نیا با موضوع سیری در روایات اخلاقی و معرفتی اهل بیت (ع)

آموزش نصب سیستم عامل مک

آموزش نصب سیستم عامل مک

آشنایی با روش نصب سیستم عامل MAC

راه اندازی IIS Web Server  و FTP Site

راه اندازی IIS Web Server و FTP Site

آشنایی با راه اندازی وب سرور و اف تی پی سایت

Pluralsight - Introduction to Visual Studio 2013 - Part 1/Part 2

Pluralsight - Introduction to Visual Studio 2013 - Part 1/Part 2

فیلم آموزش آشنایی با ویژوال استودیو 2013 – بخش اول/بخش دوم

Aurora 3D Presentation 20.01.30

Aurora 3D Presentation 20.01.30

بهترین نرم افزار ساخت انیمیشن و تصاویر 3 بعدی

The Edge

The Edge

لبه تیغ

Stickman Soccer 2018 2.3.3 for Andrid +2.3

Stickman Soccer 2018 2.3.3 for Andrid +2.3

فوتبال آدمک ها

IP Webcam Pro 1.14.37.759 for Android +2.3

IP Webcam Pro 1.14.37.759 for Android +2.3

دوربین مدار بسته با گوشی موبایل

ConvertPad Plus 2.9.11 for Android +2.3

ConvertPad Plus 2.9.11 for Android +2.3

تبدیل واحدها

تلاوت مجلسی استاد مصطفی اسماعیل سوره مبارکه اخلاص

تلاوت مجلسی استاد مصطفی اسماعیل سوره مبارکه اخلاص

تلاوت مصطفی اسماعیل سوره احزاب

Mp3tag 3.32c Final / macOS 1.8.27

Mp3tag 3.32c Final / macOS 1.8.27

ام پی تری تگ

کارهای شگفت انگیزی که میتونیم روز عید غدیر انجام بدیم تا خدا را خوشحال کنیم

کارهای شگفت انگیزی که میتونیم روز عید غدیر انجام بدیم تا خدا را خوشحال کنیم

عظمت عید غدیر و خوشحالی خدا

منتظر واقعی  از آیت الله علی احمدی میانجی

منتظر واقعی از آیت الله علی احمدی میانجی

آیت الله احمدی میانجی با موضوع منتظر واقعی

PDF Max Pro 4.6.3 for Android +4.0

PDF Max Pro 4.6.3 for Android +4.0

نمایش و ایجاد فایل های PDF

Ice Age Continental Drift Arctic Games

Ice Age Continental Drift Arctic Games

عصر یخبندان 4 - رانش زمین - بازیهای قطبی

Brothers - A Tale of Two Sons

Brothers - A Tale of Two Sons

برادران - افسانه‌ی دو پسر

آخرین سخنرانی استیو جابز در دانشگاه استنفورد با زیرنویس و دوبله فارسی

آخرین سخنرانی استیو جابز در دانشگاه استنفورد با زیرنویس و دوبله فارسی

سخنرانی استیو جابز

آموزش کامل با مدل مرجع OSI

آموزش کامل با مدل مرجع OSI

آموزش او اس ال

بیماری های دهان، دندان و لب

بیماری های دهان، دندان و لب

درمان بیماری های دهان، دندان و لب در طب اسلامی ایرانی

Foxit PDF Reader 2025.3.0.35737

Foxit PDF Reader 2025.3.0.35737

نمایش پی دی اف

Gears Tactics Jacked

Gears Tactics Jacked

استراتژیک نوبتی

روش پنهان برای دستیابی به ثروت، سلامتی، آرامش

روش پنهان برای دستیابی به ثروت، سلامتی، آرامش

محدودیت صفر

Puddle + v1.7.14 for Android +4.0

Puddle + v1.7.14 for Android +4.0

بازی گودال ها

Mezzmo Full 2.0.24 for Android +2.3.3

Mezzmo Full 2.0.24 for Android +2.3.3

سرور مدیا مزمو

Pain Train

Pain Train

قطار وحشت

WiFi File Explorer PRO 3.0.2.0 for Android +2.3

WiFi File Explorer PRO 3.0.2.0 for Android +2.3

تبادل اطلاعات با کامپیوتر بوسیله WI-FI

Room 404

Room 404

اتاق 404

انتخاب بهترین هاست

انتخاب بهترین هاست

هاست و فضای میزبانی

همراه بانک اقتصاد نوین 2.16.4 برای اندروید

همراه بانک اقتصاد نوین 2.16.4 برای اندروید

موبایل بانک اقتصاد نوین

آموزش شبکه PROFIBUS با نرم افزار STEP7

آموزش شبکه PROFIBUS با نرم افزار STEP7

آموزش شبکه پرو فی باس

Adobe Dreamweaver 2019 19.2.1.11281 + Portable / macOS 19.2.1

Adobe Dreamweaver 2019 19.2.1.11281 + Portable / macOS 19.2.1

ادوب دریم ویور 2019

Rugby World Cup 2015

Rugby World Cup 2015

جام جهانی راگبی 2015

RocketBirds - Hardboiled Chicken

RocketBirds - Hardboiled Chicken

پرنده‌های موشکی - جوجه‌ بدقلق

سخنرانی آیت الله شهید دستغیب با موضوع درک حقیقت عالم پس از مرگ

سخنرانی آیت الله شهید دستغیب با موضوع درک حقیقت عالم پس از مرگ

سخنرانی درک حقیقت عالم پس از مرگ با آیت الله دستغیب

High-Logic FontCreator Pro 15.0.0.3039

High-Logic FontCreator Pro 15.0.0.3039

ساخت و ویرایش فونت

Tiny Metal

Tiny Metal

استراتژیک نوبتی

کاریکس KaariX ورژن 2.1 برای اندروید 4.2+

کاریکس KaariX ورژن 2.1 برای اندروید 4.2+

کاریکس

DroidWall 1.5.7 for Android

DroidWall 1.5.7 for Android

فایروال قدرتمند اندروید

نقدی بر اندیشه های دکتر فیرحی استاد علوم سیاسی دانشگاه تهران

نقدی بر اندیشه های دکتر فیرحی استاد علوم سیاسی دانشگاه تهران

بررسی انتقادی اندیشه های دکتر فیرحی استاد علوم سیاسی

FinePrint 12.17

FinePrint 12.17

مدیریت و صرفه جویی در مصرف جوهر پرینتر

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!