سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
آیکون جستجو در سایت سافت گذر
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2284
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
All Old Atari Games 2500 in One

All Old Atari Games 2500 in One

2500 بازی قدیمی و خاطره انگیز آتاری در یک مجموعه

سخنرانی حجت الاسلام مقری با موضوع عالم محضر خداست

سخنرانی حجت الاسلام مقری با موضوع عالم محضر خداست

حاج آقا مقری با موضوععالم محضر خداست

Lynda - Spring 5.0 and Spring Boot 2.0 New Features

Lynda - Spring 5.0 and Spring Boot 2.0 New Features

آموزش اسپرینگ 5 و اسپرینگ بوت 2

RealPlayer 24.0.4.303

RealPlayer 24.0.4.303

ریل پلیر

گلچین سخنرانی های حجت الاسلام پناهیان

گلچین سخنرانی های حجت الاسلام پناهیان

حجت الاسلام پناهیان سال 92

MKVToolNix 96.0 Win/Mac/Linux + Portable

MKVToolNix 96.0 Win/Mac/Linux + Portable

اضافه کردن زیرنویس به فیلم

ArcSoft TotalMedia 3.5.7.259

ArcSoft TotalMedia 3.5.7.259

بهترین نرم افزار پخش شبکه های دیجیتال بر روی کامپیوترهای خانگی

آموزش ساخت کتاب اندرویدی بدون دانش برنامه نویسی

آموزش ساخت کتاب اندرویدی بدون دانش برنامه نویسی

طراحی و ساخت کتاب اندروید

تفسیر دعاهای روزانه ماه رمضان

تفسیر دعاهای روزانه ماه رمضان

معنای دعاهای روزانه ماه رمضان

Retrovirus

Retrovirus

ویروس زُدایی

مجله کارآفرینی ستکا شماره 1 تا 12

مجله کارآفرینی ستکا شماره 1 تا 12

مجله کارآفرینی ستکا

سیستم عصبی مرکزی و مغز

سیستم عصبی مرکزی و مغز

بررسی اجمالی آناتومی و فیزیولوژی مغز انسان،

Forrest Gump

Forrest Gump

فارست گامپ دوبله فارسی

Adobe Media Encoder 2019 13.1.5.35 + Portable / macOS 13.1.5

Adobe Media Encoder 2019 13.1.5.35 + Portable / macOS 13.1.5

ادوب مدیا انکودر 2019

مستند غیررسمی ۴: دیدار طنزپردازان با آیت‌الله خامنه‌ای

مستند غیررسمی ۴: دیدار طنزپردازان با آیت‌الله خامنه‌ای

مستند غیررسمی

تاریخ فتوحات اسلامی

تاریخ فتوحات اسلامی

آشنایی با فتوحات اسلامی

Wise Auto Shutdown 2.0.8.109

Wise Auto Shutdown 2.0.8.109

وایز اتو شات‌داون

AKVIS Plugins for Photoshop Updated in 2023.03.22

AKVIS Plugins for Photoshop Updated in 2023.03.22

پلاگین های گرافیکی آکویس

سخنرانی حجت الاسلام پناهیان درمورد فرج

سخنرانی حجت الاسلام پناهیان درمورد فرج

سخنرانی حجت الاسلام پناهیان با موضوع ظهور

HD Camera Pro 3.0.3 for Android 3.2

HD Camera Pro 3.0.3 for Android 3.2

دوربین اچ دی

Digital Tutors – 2D Racing Game Series in Unity - Volume 1-2-3-4-5

Digital Tutors – 2D Racing Game Series in Unity - Volume 1-2-3-4-5

فیلم آموزش ساخت بازی دوبعدی مسابقه ای - بخش 1 ، 2 ، 3 ، 4 و 5

Coma - Mortuary

Coma - Mortuary

ماجرایی ترسناک

Intel ARK 2.1.2 for Android +2.3

Intel ARK 2.1.2 for Android +2.3

اطلاعات Cpu های اینتل

Adobe Substance 3D Designer 15.0.3

Adobe Substance 3D Designer 15.0.3

ساخت تکسچر

سخنرانی حجت الاسلام سید محمد ضیاء آبادی با موضوع ولایت امیرمؤمنان علی (ع)

سخنرانی حجت الاسلام سید محمد ضیاء آبادی با موضوع ولایت امیرمؤمنان علی (ع)

سخنرانی ولایت امیرمؤمنان علی (ع) با سید محمد ضیاء آبادی

Citrix XenApp 6.5 for Windows Server 2008 R2 + Hotfix Rollup Pack 1

Citrix XenApp 6.5 for Windows Server 2008 R2 + Hotfix Rollup Pack 1

نرم افزاری برای ارائه نرم افزار های دسکتاپ روی پروتکل http و نمایش در صفحه وب

SAP PowerDesigner 16.7.0.3 SP03 / 16.6.6.4 SP06 / 16.6.1

SAP PowerDesigner 16.7.0.3 SP03 / 16.6.6.4 SP06 / 16.6.1

پاور دیزاینر نرم افزار مدل سازی داده ها

آموزش Microsoft Office Word 2013

آموزش Microsoft Office Word 2013

آموزش Word 2013

The Ascent - Cyber Heist

The Ascent - Cyber Heist

اسنت

Darkest Dungeon + Update v16708

Darkest Dungeon + Update v16708

تاریک ترین سیاه چال

PluralSight - VMware vSphere 5.5 New Features Tutorial

PluralSight - VMware vSphere 5.5 New Features Tutorial

فیلم‌ آموزش ویژگی‌ها و امکانات جدید نرم‌افزار VMware vSphere 5.5

Part of the Undergraduate Topics in Computer Science book series

Part of the Undergraduate Topics in Computer Science book series

مبانی زبان برنامه نویسی

Nuclear Coffee Recover Keys Enterprise 12.0.6.311

Nuclear Coffee Recover Keys Enterprise 12.0.6.311

ریکاوری و نمایش شماره سریال فعالسازی نرم‌افزارها

Space Invaders Extreme

Space Invaders Extreme

مهاجمان فضایی

FIFA Manager 2012

FIFA Manager 2012

دانلود نسخه جدید فیفا منیجر 12 برای علاقه مندان به فوتبال با فرمت جاوا

Redux - Dark Matters

Redux - Dark Matters

سفینه‌ی جنگنده

Guncraft

Guncraft

تفنگچی

Deltaplan Simulator

Deltaplan Simulator

شبیه ساز

سخنرانی حجت الاسلام ناصر رفیعی با موضوع رعایت ادب از صفات حضرت عباس علیه السلام

سخنرانی حجت الاسلام ناصر رفیعی با موضوع رعایت ادب از صفات حضرت عباس علیه السلام

سخنرانی رعایت ادب از صفات حضرت عباس علیه السلام با ناصر رفیعی

6 جلسه شرح فرازهایی از زیارت جامعه ی کبیره از حجت الاسلام والمسلمین سیدمحمدمهدی میرباقری

6 جلسه شرح فرازهایی از زیارت جامعه ی کبیره از حجت الاسلام والمسلمین سیدمحمدمهدی میرباقری

حاج آقا سیدمحمدمهدی میرباقری با موضوع شرح فرازهایی از زیارت جامعه ی کبیره

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!