سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
جستجو
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2272
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
آموزش ساخت تم با برنامه Carbide.ui Theme Edition

آموزش ساخت تم با برنامه Carbide.ui Theme Edition

آموزش ساخت تم با Carbide.ui Theme Edition

PC Building Simulator 2 v1.5.20

PC Building Simulator 2 v1.5.20

شبیه ساز ساخت کامپیوتر

Hibernator Pro 2.55.00 for Android +6.0

Hibernator Pro 2.55.00 for Android +6.0

خواب زمستانی

Bad Piggies 2.2.3 / HD 2.4.3141for Android +2.3

Bad Piggies 2.2.3 / HD 2.4.3141for Android +2.3

بد پیگت

سخنرانی حجت الاسلام مومنی با موضوع تاثیر رفتن به زیارت و هیئت

سخنرانی حجت الاسلام مومنی با موضوع تاثیر رفتن به زیارت و هیئت

سخنرانی حجت الاسلام مومنی با موضوع جوان زیبا و فرار از زمینه گناه

سخنرانی آیت‌الله مکارم شیرازی با موضوع شرح خطبه پرهیزگاران

سخنرانی آیت‌الله مکارم شیرازی با موضوع شرح خطبه پرهیزگاران

سخنرانی آیت‌الله مکارم شیرازی درباره شرح خطبه همام

NetSetMan 5.4.0

NetSetMan 5.4.0

مدیریت تنظیمات شبکه

SuperBeam | WiFi Direct Share Pro 5.0.8 for Android & Windows

SuperBeam | WiFi Direct Share Pro 5.0.8 for Android & Windows

انقلابی در زمینه ارسال و دریافت اطلاعات

Overkill 2 v1.46 / 3 v1.4.0 for Android +4.1

Overkill 2 v1.46 / 3 v1.4.0 for Android +4.1

بازی تیرانداز نسخه 2 و 3

داستانی است فرح انگیز و خنده دار

داستانی است فرح انگیز و خنده دار

احساسات پرشور و شاعرانه زندگی دانش آموزان شوروی

تلاوت مجلسی استاد کریم منصوری سوره مبارکه آل عمران

تلاوت مجلسی استاد کریم منصوری سوره مبارکه آل عمران

تلاوت کریم منصوری سوره آل عمران

MadOut

MadOut

ماشین جنگی | جنون سرعت

FreezeME

FreezeME

متوقفم کن

سخنرانی حجت الاسلام علی اکبر فرجام با موضوع نقش مادران در ترویج فرهنگ ایثار و شهادت

سخنرانی حجت الاسلام علی اکبر فرجام با موضوع نقش مادران در ترویج فرهنگ ایثار و شهادت

حاج آقا علی اکبر فرجام با موضوع نقش مادران در ترویج فرهنگ ایثار و شهادت

Intermediate Robot Building

Intermediate Robot Building

Learning Robot Building

CBT Nuggets - Microsoft Windows Server 2012 70-417 with R2 Updates

CBT Nuggets - Microsoft Windows Server 2012 70-417 with R2 Updates

ناگت Windows Server 2012

GMD GestureControl 10.1.9 for Android +4.0

GMD GestureControl 10.1.9 for Android +4.0

کنترل گوشی با Gesture

Trillian 6.6.0 Build 8 + Pro

Trillian 6.6.0 Build 8 + Pro

مسنجر چند کاره تریلیان

رضا سوادکوهی، رضا خان یا رضا شاه

رضا سوادکوهی، رضا خان یا رضا شاه

رضاشاه پهلوی

PDF Shaper Ultimate 15.3

PDF Shaper Ultimate 15.3

مدیریت فایل های پی دی اف

مولودی حاج حسین سیب سرخی برای امام حسن مجتبی

مولودی حاج حسین سیب سرخی برای امام حسن مجتبی

نوایی برای امام حسن مجتبی

Postman 8.0.6 Win/Linux/macOS

Postman 8.0.6 Win/Linux/macOS

پست من

دورهٔ آموزش ویدئویی نرم‌افزار افتر افکتس به زبان فارسی

دورهٔ آموزش ویدئویی نرم‌افزار افتر افکتس به زبان فارسی

آموزش افتر افکت به زبان فارسی

NI LabView 2020 SP1 v20.0.1 / 2019.1.1 SP1 f1 + Vision Development Module

NI LabView 2020 SP1 v20.0.1 / 2019.1.1 SP1 f1 + Vision Development Module

لب ویو 2018 برنامه نویسی گرافیکی

Fort Firewall 3.19.9

Fort Firewall 3.19.9

فایروال ویندوز

سه نوع اسلام در منطقه

سه نوع اسلام در منطقه

اخلاق دستاورد بعثت

روش های نصب ویندوز XP

روش های نصب ویندوز XP

روش های نصب ویندوز ایکس پی

Fotor Photo Editor 7.7.6.2 for Android +7.0

Fotor Photo Editor 7.7.6.2 for Android +7.0

ویرایش عکس فوتور

TrackMania 2 Canyon

TrackMania 2 Canyon

ماشین‌سواری جذاب و منحصر به فرد مسیر جنون 2 تنگه

گلچین بهترین مداحی حاج سید مهدی میرداماد

گلچین بهترین مداحی حاج سید مهدی میرداماد

مداحی حاج سید مهدی میرداماد

Tetra Filer 3.2.2 for Android

Tetra Filer 3.2.2 for Android

مدیریت فایل اندروید

برنامه جهان آرا سری جدید | جوان امروز از امام خمینی (ره) چه می داند؟

برنامه جهان آرا سری جدید | جوان امروز از امام خمینی (ره) چه می داند؟

برنامه جهان آرا شبکه افق

Empire Total War

Empire Total War

امپراتوری - جنگ تمام‌عیار

MDaemon Email Server Pro 21.05.2 / 20.0.4 / 18.0.2 + Messaging Server 17.0.2

MDaemon Email Server Pro 21.05.2 / 20.0.4 / 18.0.2 + Messaging Server 17.0.2

میل سرور ام دیمون

Phoning Home + Updates

Phoning Home + Updates

کنترل ربات هوشمند

PowerArchiver Professional v2021 20.00.62

PowerArchiver Professional v2021 20.00.62

فشرده سازی فایل ها

The Lord of the Rings - War in the North

The Lord of the Rings - War in the North

ارباب حلقه ها جنگ در شمال

دورهٔ آموزش ویدئویی لینوکس به زبان فارسی از مقدماتی تا پیشرفته

دورهٔ آموزش ویدئویی لینوکس به زبان فارسی از مقدماتی تا پیشرفته

آموزش لینوکس

Native Instruments Kontakt 8 v8.7.2

Native Instruments Kontakt 8 v8.7.2

ویرایش فایل صوتی

Wipe Professional 2025.13

Wipe Professional 2025.13

پاکسازی کامپیوتر از اطلاعات اضافی

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!