سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
آیکون جستجو در سایت سافت گذر
اطلاعیه های مهم سایت اطلاعیه های مهم سایت

 

💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. به مناسبت ماه رجب، در سایت https://esetupdate.ir/ تخفیف ویژه‌ای برای محصولات در نظر گرفته شده است؛ فرصت را از دست ندهید. 🌸
  3. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2302
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
Republique Remastered

Republique Remastered

جمهوری - نسخه‌ی جدید بازسازی‌شده و ارتقا یافته

روشهای جستجو در گوگل

روشهای جستجو در گوگل

آشنایی با کاوش رابط بر مبنای وب گوگل

Men of War - Assault Squad 2 + Update v3.033.0

Men of War - Assault Squad 2 + Update v3.033.0

مردان جنگ - جوخه‌ی مهاجم 2

Diamond Cut Audio Restoration Tools 11.02

Diamond Cut Audio Restoration Tools 11.02

ارتقای کیفیت صدای فایل های صوتی ضبط شده یا قدیمی

آموزش نرم افزار Mechanical Desktop به زبان ساده

آموزش نرم افزار Mechanical Desktop به زبان ساده

آموزش مچنیکال دسکتاپ

Pluralsight - A Tour of PostgreSQL

Pluralsight - A Tour of PostgreSQL

دوره‌ی آموزش تصویری (بصورت فیلم) پُستگرس‌کیواِل

Udemy - Cell Phone Repair - iPhone 4CDMA (Verizon or Sprint)

Udemy - Cell Phone Repair - iPhone 4CDMA (Verizon or Sprint)

تعمیرات تلفن همراه - گوشی آیفون 4CDMA

ارزش یاری امام زمان

ارزش یاری امام زمان

یاری خورشید: یاری امام زمان عجل الله تعالی فرجه الشریف

مولودی حاج محمود کریمی برای ولادت حضرت معصومه

مولودی حاج محمود کریمی برای ولادت حضرت معصومه

مولودی محمود کریمی برای روز دختر

تفسیر المیزان 2

تفسیر المیزان 2

تفسیر 20 جلدی المیزان نسخه‌ی دوم اثر علامه طباطبایی

Adobe Photoshop Lightroom 9.1.1 For Android +4.1

Adobe Photoshop Lightroom 9.1.1 For Android +4.1

فتوشاپ لایت روم

Plaxis Professional 8.6 / 3D Tunnel 1.2 / 3D Foundation 1.6 + Portable 8.5

Plaxis Professional 8.6 / 3D Tunnel 1.2 / 3D Foundation 1.6 + Portable 8.5

مهمترین نرم افزار های رشته مهندسی ژئوتکنیک (خاک و پی) جهت تحلیل دو بعدی، تغییر شکل و پایداری سنگ و خاک

تفسیر صوتی سوره لیل

تفسیر صوتی سوره لیل

تفسیر سوره 92 از حجت الاسلام قرائتی

هفته نامه خبری تایم

هفته نامه خبری تایم

مجله تایم دسامبر 2020

Kitaro - Sarasvati

Kitaro - Sarasvati

زیباترین آهنگ های کیتارو

Intelligent Editing PerfectIt Pro 5.7.4

Intelligent Editing PerfectIt Pro 5.7.4

بررسی و تصحیح متن

My Friend Pedro + Updates

My Friend Pedro + Updates

اکشن برای کامپیوتر

Callistics 2.7.1 Premium for Android +2.3

Callistics 2.7.1 Premium for Android +2.3

گزارش تماس، پیام، دیتا

معرفى انسان قرآنى

معرفى انسان قرآنى

مقدمه‌ای بر جهان‌ بینی اسلامی

7*3  نکته در طراحی بنر برای تبلیغات اینترنتی

7*3 نکته در طراحی بنر برای تبلیغات اینترنتی

21 نکته در طراحی حرفه ای و پربازدید تبلیغات اینترنتی

Udemy – Ethereum and Solidity: The Complete Developer's Guide

Udemy – Ethereum and Solidity: The Complete Developer's Guide

آموزش اتریوم و سالیدیتی

MultiDrive 1.2

MultiDrive 1.2

کلون‌سازی و پشتیبان‌گیری دیسک

European Ship Simulator

European Ship Simulator

شبیه‌ساز کَشتی اروپایی

InfiniteSkills - Learning Adobe Premiere Elements 12 Training Video

InfiniteSkills - Learning Adobe Premiere Elements 12 Training Video

فیلم آموزش ادوبی پریمیِـر اِلـِمنتس 12

Parallels Toolbox Business 7.1.1.4366

Parallels Toolbox Business 7.1.1.4366

مجموعه ابزارهای مفید برای ویندوز

Train Valley - Germany

Train Valley - Germany

شبیه‌ساز ساخت و ساز خطوط راه آهن | نسخه کامل

آشنایی با انواع حیوانات اهلی

آشنایی با انواع حیوانات اهلی

نگهداری و پرورش حیوانات اهلی

Fotor Photo Editor 7.7.6.2 for Android +7.0

Fotor Photo Editor 7.7.6.2 for Android +7.0

ویرایش عکس فوتور

!The Most Relaxing Piano Album in the World...Ever

!The Most Relaxing Piano Album in the World...Ever

بهترین های موسیقی بی کلام پیانو کلاسیک

آموزش ابزار Power Options

آموزش ابزار Power Options

آموزش ابزار پاور آپشن

WRC Generations Deluxe Edition

WRC Generations Deluxe Edition

رالی برای کامپیوتر

Motoracing

Motoracing

موتورسواری در جاده

Navitel Navigator 11.11.1075 for Android +4.4

Navitel Navigator 11.11.1075 for Android +4.4

مسیر یاب ناویتل

Call of the Sea v1.5.15.0

Call of the Sea v1.5.15.0

آوای دریا

Runtime RAID Recovery for Windows 4.04

Runtime RAID Recovery for Windows 4.04

ریکاوری RAID

Symantec Norton Ghost 15.0.1.36526 SP1 /Symantec Backup Exec 2015 14.2 / Symantec Ghost 12.0.0.11761 BootCD

Symantec Norton Ghost 15.0.1.36526 SP1 /Symantec Backup Exec 2015 14.2 / Symantec Ghost 12.0.0.11761 BootCD

قوی‌ترین نرم افزار بکاپ و بازگردانی اطلاعات سیستم

سخنرانی حجت الاسلام پناهیان با موضوع نیت و انتخاب هدف

سخنرانی حجت الاسلام پناهیان با موضوع نیت و انتخاب هدف

سخنرانی حجت الاسلام پناهیان با موضوع نیت و انتخاب هدف

آموزش فارسی برنامه نویسی Swift

آموزش فارسی برنامه نویسی Swift

آموزش سوئیفت

VXG Video Player Pro 5.2.4 for Android +4.0

VXG Video Player Pro 5.2.4 for Android +4.0

ویدئو پلیر منحصر به فرد و قدرتمند اندروید با پشتیبانی از تمام فرمت ها

مقدمه ای بر برنامه نویسی وب

مقدمه ای بر برنامه نویسی وب

برنامه نویسی وب

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!