خبرهای جذاب سافت گذر را در ایتا دنبال کنید

در حال جستجو ...

کاربر عزیز ! اگر میخواهید به طور لحظه ای از بروز رسانی نرم افزار مورد نظر خود آگاه شوید و ایمیل بروز رسانی برنامه مورد نظر خود را در لحظه دریافت نمایید و فهرست برنامه های منتخب خود را در محیط کاربری خود ذخیره کنید همچنین دسترسی به تمامی برنامه های مخصوص اعضای ویژه(VIP) داشته باشید، با پرداخت ماهی فقط 5700 تومان تا یکسال از این امکان بهره مند شوید عضویــــــت

جهت استفاده بهتر از بخش نرم افزارهای موبایل از اینجا اپلیکیشن سافت گذر را دانلود کنید

تعداد برنامه ها: 9161 | مشاهده و دانلود: 735293501 | آخرین بروزرسانی: 1403/02/06 | اعضاء: 316276 | نظرات: 37883

آپدیت آفلاین نود 32

اینترنت دانلود منیجر

انی دسک نرم‌افزار کنترل از راه دور کامپیوتر

گوگل کروم

فوتوشاپ

فایرفاکس مرورگر اینترنتی

پات پلیر

آپدیت آفلاین کسپرسکی

ویندوز 11

ویندوز 10

سی کیلینر

درایور کارت گرافیک انویدیا جیفورس

مرورگر اینترنتی اپرا

فعالساز ویندوز و آفیس

ادوب اکروبات ریدر

آفیس 2021

پخش فیلم و صدا کالایت

دات نت فریم ورک

لایسنس محصولات ESET

نمایش پی دی اف

وین رار

مجازی ساز وی ام ویر

الترا ایزو ویرایش فایل ISO

درایور پک سولوشن

ویندوز 7 آلتیمیت

تبدیل ویدیو کانورتر ژیلی سافت

بازیابی اطلاعات

نود 32 اندپوینت آنتی ویروس 5

برترین نرم افزارهای اندروید

اینترنت دانلود منیجر

قرآن

ام ایکس پلیر

اشتراک گذاری شیر ایت

مایکروسافت آفیس موبایل

کا ام پلیر موبایل

گوگل مپس

آنتی ویروس 360

حذف اطلاعات کلین مستر

تروکالر برنامه تماس

ویرایشگر قدرتمند ویدئو

فایل منیجر کامندر

حذف اطلاعات موبایل سی کلینر

مفاتیح نفیس برگرفته شده از پایگاه اطلاع رسانی شیخ حسین انصاریان

اطلاعیه های مهم سایت

🔰 لایسنس نود 32 آخرین نسخه با تخفیف باورنکردنی با پشتیبانی سافت گذر را از اینجا تهیه کنید.

جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید

اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

محصولات ESET نسخه 9 و 10 و 11 و 12 و 13 را با سریال های ارائه شده در اینجا فعال کنید. در صورتمی از کارافتادن جایگزین می شود.

سافت گذر را در ایتا دنـبـال کنـیـد

سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

مشاوره رایگان خانواده
راهی سریع و رایگان جهت حل مشکلات خانوادگی، ازدواج، طلاق، دوست یابی و تربیت فرزندان
montazer.ir

آموزش مهارت های کامپیوتری ICDL

● آموزش‌های رایگان

پیشنهاد سافت گذر

دانلود آموزش Acronis True Image Workstation

دانلود آموزش اکرونیس ترو ایمیج ورکستیشن آشنایی با نرم ا ...

دانلود Motorcycle Club

دانلود باشگاه موتورسیکلت باشگاه موتورسیکلت ...

دانلود The Night of The Rabbit Premium Edition

دانلود شب خرگوش | نسخه‌ی پرمیوم شب خرگوش | نسخه‌ی پرمیو ...

دانلود دینداری هزینه دارد

دانلود سخنرانی دینداری هزینه دارد با ناصر رفیعی سخنرانی ...

دانلود Spintires MudRunner

دانلود شبیه ساز رانندگی با کامیون اسپین‌تایرز مودرانر ...

دانلود Sid Meiers Starships

دانلود سفینه‌های فضایی سفینه‌های فضایی ...

دانلود آموزش پارسیکس

دانلود آشنایی با سیستم عامل Parsix آشنایی با سیستم عام ...

دانلود مدیریت کارهای روزانه نگار

دانلود تقویم نگار 90 با محیط بسیار زیبا تقویم نگار 90 ب ...

دانلود پرسیتی شهر پارسی

دانلود پرسیتی - شهر پارسی شهر پارسی خود را بسازید ...

دانلود Tapet

دانلود ساخت تصویر زمینه ساخت تصویر زمینه ...

دانلود Adobe Photoshop CS6

دانلود نسخه نهایی فتوشاپ CS6 نسخه نهایی فتوشاپ CS6 ...

دانلود Nyan Cat Lost In Space

دانلود گربه‌ی شکمو - گمشده در فضا گربه‌ی شکمو - گمشده د ...

دانلود English humor proverbs

دانلود ضرب المثل های طنز انگلیسی مجموعه هزار و یک ضرب ا ...

دانلود سرگذشت بشر

دانلود سرگذشت بشر و داستانهای قرآنی سرگذشت بشر و داستان ...

دانلود CamCard

دانلود اسکن کارت های ویزیت برنامه ای کاربردی و قدرتمند ...

دانلود Easy Scanner

دانلود ایزی اسکنر برنامه اسکن آسان اندروید ...

دانلود Total Commander

دانلود توتال کامندر فایل منیجر ویندوز جایگزین قدرتمند ف ...

دانلود Next Target Hd

دانلود نشانه گیری دقیق نشانه گیری دقیق ...

دانلود Jet Car Stunts MULTi6

دانلود ماشین جت مسابقه‌ای بامانع ماشین جت مسابقه‌ای بام ...

دانلود سخنرانی رفیعی

دانلود حجت الاسلام رفیعی سخنرانی های زیبا از دکتر رفیعی ...

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.

ÚÚ¯ÙÙÙ Ø§Ø·ÙØ§Ø¹Ø§Øª ÙÛÚ©Û Ù¾Ø¯ÛØ§ Ø±Ø§ Ø§Ø³ØªØ®Ø±Ø§Ø¬ Ù ØªØÙÛÙ Ú©ÙÛÙØ

غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟

Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا

select

url

from

pages

where

url_domain = 'wikipedia.org'

متغیر url نمایانگر آدرس صفحه است

pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است

با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.

مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا

select

url,

css_text_first(content, 'h1#firstHeading') as title

from

pages

where

url_domain = 'wikipedia.org'

and

url like '%/wiki/%'

css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.

مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk

select

url,

css_text_first(content, 'h1#firstHeading') as title

from

pages

where

url_domain = 'wikipedia.org'

and

url like '%/wiki/%'

and

contains(content, 'Elon Musk')

contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.

مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات

select

url,

css_text_first(content, 'h1#firstHeading') as title,

cardinality(css_text(content, 'ol.references li')) as reference_count

from

pages

where

url_domain = 'wikipedia.org'

and

url like '%/wiki/%'

order by reference_count desc

بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.

مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله

select

url,

css_text_first(content, 'h1#firstHeading') as title,

cardinality(words(css_text_first(content, '#content'))) as article_length

from

pages

where

url_domain = 'wikipedia.org'

and

url like '%/wiki/%'

order by article_length desc

words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.

مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا

select

avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length

from

pages

where

url_domain = 'wikipedia.org'

and

url like '%/wiki/%'

تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.

مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن

select

url,

remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,

cardinality(words(css_text_first(content, '#content'))) as discussion_length

from

pages

where

url_domain = 'wikipedia.org'

and

url like '%/wiki/Talk:%'

order by discussion_length desc

مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.

مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند

select

url,

css_text_first(content, 'h1#firstHeading') as title

from

pages

where

url_domain = 'wikipedia.org'

and

url like '%/wiki/%'

and

contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2031

اخبار سایت را در شبکه اجتماعی ایتا دنبال کنید

کلید واژه ها: اطلاعات ویکی پدیا , استخراج , تحلیل

اخبار مرتبط

سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

پنجاه دستور سریع و کاربردی در ویندوز 11 که حتما شگفت زده‌تان می کند

20 نکته مهم با مثال کاربردی جهت راه اندازی یک استارت آپ در اینترنت که کمتر می دانید

روش‌های موثر برای مدیریت زمان در پروژه‌های تیمی

الگوریتم پرامپت نویسی در چت با ChatGPT

از ربات ChatGPT پرسیدیم: اگر می‌توانستی یک مهارت جدید یاد بگیری، آن مهارت چیست؟

چطور عمر باتری موبایل و لپتاپ خود را افزایش دهیم؟