سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

نرم افزار
آموزشی آنتی ویروس و فایروال ایرانی (فارسی) اینترنت (وب) بازیابی اطلاعات (Recovery) برنامه نویسی بهینه ساز پرتابل پشتیبان گیری (Backup) تبدیل کننده فرمت ها تلفن و فکس چند رسانه ای (مالتی مدیا) درایور (Driver) زیبا سازی (تم و اسکین) ساخت و Rip کردن DVD سیستم عامل سیستمی و محافظتی ضد جاسوسی (آنتی اسپای) فرهنگ لغت و دانشنامه فشرده ساز فونت و ابزار ساخت و ویرایش گرافیک گوناگون (متفرقه) محافظ صفحه نمایش مهندسی و تخصصی ویرایش صدا و تصویر کار با متن و PDF (آفیس) کاربردی کپی و رایت CD و DVD
بازی
ورزشی استراتژیک اکشن اکشن ماجرایی بازیهای کنسولی جنگی رانندگی شبیه‌ساز عمومی فلش فکری گوناگون ماجرایی متفرقه معمایی معمایی متفرقه نقش‌آفرینی
موبایل
آب و هوا ارتباطات امنیتی اینترنت بازی زبان سرگرمی سلامت سیستمی شخصی سازی عکس / طراحی مالتی مدیا متفرقه محاسبه گر مدیریت سیستم عامل مذهبی مسیر یابی نرم افزار بانک ها نمایشی / صفحه کلید کاربردی کتاب اندرویدی یادآور
فیلم
آموزشی انیمیشن سریال سینمایی طنز علمی مذهبی مستند ورزشی
صوت
آموزشی اذان ، تواشیح و ابتهال انقلابی سخنرانی قرآن و دعا و زیارت موسیقی موسیقی پاپ موسیقی سنتی مولودی و مداحی نمایش رادیویی ویژه‌ی کودکان و نوجوانان
کتاب
نرم افزار اینترنت بازی رایانه‌ای برنامه نویسی پایگاه داده سخت افزار سیستم عامل شبکه و امنیت فناوری اطلاعات گرافیک و انیمیشن هوش مصنوعی سایر موضوعات
ویژه ها
نرم افزارهای ویژه بیشترین دانلودها بیشترین مشاهده شده ها بالاترین حجم ها آخرین آپدیت ها
اخبار
مناسبت ها حدیث روز فناوری اطلاعات نرم افزار هوش مصنوعی آموزشی امنیت و ویروس بازی های رایانه ای موبایل و تبلت بانکداری الکترونیکی سخت افزار
خبرخوان
خبرخوان نرم افزار خبرخوان بازی خبرخوان کتاب خبرخوان اندروید خبرخوان اخبار
پشتیبانی
ارتباط با ما درباره ما قوانین و مقررات حمایت مالی

اطلاعیه های مهم سایت

جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
به مناسبت ماه رجب، در سایت https://esetupdate.ir/ تخفیف ویژه‌ای برای محصولات در نظر گرفته شده است؛ فرصت را از دست ندهید. 🌸
اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

محیط کاربری خروج از سایت

تعداد برنامه ها : 9927 مشاهده و دانلود : 808,575,894 آخرین بروزرسانی : 1405/02/08 اعضاء : 335029 نظرات : 38716 تبلیغات در سافت گذر

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.

ÚÚ¯ÙÙÙ Ø§Ø·ÙØ§Ø¹Ø§Øª ÙÛÚ©Û Ù¾Ø¯ÛØ§ Ø±Ø§ Ø§Ø³ØªØ®Ø±Ø§Ø¬ Ù ØªØÙÛÙ Ú©ÙÛÙØ

غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟

Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا

select

url

from

pages

where

url_domain = 'wikipedia.org'

متغیر url نمایانگر آدرس صفحه است

pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است

با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.

مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا

select

url,

css_text_first(content, 'h1#firstHeading') as title

from

pages

where

url_domain = 'wikipedia.org'

and

url like '%/wiki/%'

css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.

مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk

select

url,

css_text_first(content, 'h1#firstHeading') as title

from

pages

where

url_domain = 'wikipedia.org'

and

url like '%/wiki/%'

and

contains(content, 'Elon Musk')

contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.

مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات

select

url,

css_text_first(content, 'h1#firstHeading') as title,

cardinality(css_text(content, 'ol.references li')) as reference_count

from

pages

where

url_domain = 'wikipedia.org'

and

url like '%/wiki/%'

order by reference_count desc

بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.

مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله

select

url,

css_text_first(content, 'h1#firstHeading') as title,

cardinality(words(css_text_first(content, '#content'))) as article_length

from

pages

where

url_domain = 'wikipedia.org'

and

url like '%/wiki/%'

order by article_length desc

words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.

مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا

select

avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length

from

pages

where

url_domain = 'wikipedia.org'

and

url like '%/wiki/%'

تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.

مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن

select