سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
آیکون جستجو در سایت سافت گذر
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2279
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
eMule 0.5a

eMule 0.5a

بهترین برنامه اشتراک گذاری فایل و دانلود از P2P و شبکه eDonkey

Formula Truck Simulator 2013

Formula Truck Simulator 2013

شبیه ساز مسابقات کامیون و ماشین سنگین 2013

SoftwarePassport Armadillo Professional 9.64

SoftwarePassport Armadillo Professional 9.64

قوی‌ترین ابزار محافظت و قفل گذاری اطلاعات در برابر کپی غیر مجاز

Night in the Woods

Night in the Woods

اکشن ماجرایی

AUTOCROSS MADNESS

AUTOCROSS MADNESS

اتومبیلرانی برای کامپیوتر

لایسنس اورجینال محصولات License ESET NOD32

لایسنس اورجینال محصولات License ESET NOD32

لایسنس محصولات ESET

Don't Starve Shipwrecked + Together

Don't Starve Shipwrecked + Together

از گرسنگی نمیر | جدیدترین نسخه دارای تمامی آپدیت‌ها و دی‌ال‌سی‌ها

آشنایی با امام زادگان

آشنایی با امام زادگان

نسخه خطی کتاب کمیاب بحر الانساب

Bentley AutoPIPE CONNECT Edition 12.07.00.346 / Vessel 41.04.00.013 / Nozzle 8.11.8.35

Bentley AutoPIPE CONNECT Edition 12.07.00.346 / Vessel 41.04.00.013 / Nozzle 8.11.8.35

بنتلی اتوپایپ

سخنرانی حجت الاسلام سید حسین مومنی با موضوع امام علیه السلام وسیله ی تقرب

سخنرانی حجت الاسلام سید حسین مومنی با موضوع امام علیه السلام وسیله ی تقرب

سخنرانی امام علیه السلام وسیله ی تقرب با سید حسین مومنی

Microsoft Office SharePoint Server 2007 SP3 x86 x64

Microsoft Office SharePoint Server 2007 SP3 x86 x64

نرم افزار ساخت پرتال اطلاعاتی مایکروسافت

سخنرانی دکتر ناصر رفیعی با موضوع برکات حضرت فاطمه زهرا (س)

سخنرانی دکتر ناصر رفیعی با موضوع برکات حضرت فاطمه زهرا (س)

سخنرانی دکتر رفیعی با موضوع برکات حضرت فاطمه زهرا (س)

Grandmaster Chess Tournament

Grandmaster Chess Tournament

شطرنج گرند مستر

Super Cleaner 2.4.30.115711 for Android +4.0

Super Cleaner 2.4.30.115711 for Android +4.0

بهینه ساز سوپر کلینر

Art of Rally - Indonesia v1.4.2a

Art of Rally - Indonesia v1.4.2a

مسابقات رالی

تاریخ سلطانى

تاریخ سلطانى

تاریخ صفویه

Battle for Wesnoth 1.14.11-57 / LEGACY 1.10.7-39 for Android +2.3

Battle for Wesnoth 1.14.11-57 / LEGACY 1.10.7-39 for Android +2.3

جنگ برای Wesnoth

سخنرانی محمدمهدی ماندگاری با موضوع رمز حرکت در مسیر اراده خدا

سخنرانی محمدمهدی ماندگاری با موضوع رمز حرکت در مسیر اراده خدا

رمز حرکت در مسیر اراده خدا با محمدمهدی ماندگاری

آموزش Kaspersky Internet Security 2013

آموزش Kaspersky Internet Security 2013

کسپرسکی

Resktop 1.0.0.33

Resktop 1.0.0.33

رسکتاپ

Comodo Mobile Security 4.5.0000 for Android +4

Comodo Mobile Security 4.5.0000 for Android +4

آنتی ویروس موبایل کومودو

Adobe Flash CS4 Professional 10.0.2

Adobe Flash CS4 Professional 10.0.2

نرم افزار اصلی برای ساخت کلیپ های انیمیشنی فلش

AccuWeather 21.1.2 For Android +4.1

AccuWeather 21.1.2 For Android +4.1

وضعیت آب و هوا

Drawn The Painted Tower

Drawn The Painted Tower

برج نقاشی شده

Rescue HQ - The Tycoon

Rescue HQ - The Tycoon

بهترین بازی های استراتژیک برای کامپیوتر

Abelssoft File Organizer 2024 6.03.55060

Abelssoft File Organizer 2024 6.03.55060

مرتب‌سازی فایل‌های کامپیوتر

Sky Recorder pro 5.0.27 for Android +4.0

Sky Recorder pro 5.0.27 for Android +4.0

ضبط صدا با قابلیت Cloud

کتاب شدن اثر میشل اوباما

کتاب شدن اثر میشل اوباما

شدن (زندگی شخصی همسر اولین رئیس‌جمهور سیاه‌پوست آمریکا)

TIBCO Statistica v13.5.0.17 / 12.5.192.7

TIBCO Statistica v13.5.0.17 / 12.5.192.7

نرم افزار آماری جهت کنترل کیفیت و انجام آنالیز پیشرفته آماری

رویاپردازی با یک دوربین

رویاپردازی با یک دوربین

تصویربرداری حرفه ای خیابانی

Parking Truck Deluxe 2.7 for Android

Parking Truck Deluxe 2.7 for Android

بازی پارک تریلی

Diluvion v1.17.93 GOG

Diluvion v1.17.93 GOG

زیردریایی جنگی

The Grapes of Wrath

The Grapes of Wrath

خوشه های خشم

Data Usage Monitor 1.17.1923 Premium for Android +6.0

Data Usage Monitor 1.17.1923 Premium for Android +6.0

مانیتور مصرف داده

RealTimes 5.7.5 / RealPlayer Cloud 2.8.65 for Android 4.0

RealTimes 5.7.5 / RealPlayer Cloud 2.8.65 for Android 4.0

پخش کننده رییل پلیر

My Beach HD 2.2 for Android +2.3

My Beach HD 2.2 for Android +2.3

جزیره زیبا با کیفیت HD

Evertales 1.13 for Android

Evertales 1.13 for Android

بازی مبارز قدرتمند

آموزش حرفه‌ای پاورپوینت 2013

آموزش حرفه‌ای پاورپوینت 2013

آموزش روان ومصور پاورپوینت 2013

آموزش نرم افزار Sound Forge

آموزش نرم افزار Sound Forge

آموزش نرم افزار سوند فورگ

Dehancer Pro 7.1.0 for OFX

Dehancer Pro 7.1.0 for OFX

درجه بندی رنگ ویدئوها با ظرافت و دقت بسیار بالا

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!