سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
جستجو
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. سافت گذر جهت آپدیت بخش نرم افزار نیاز به همکار حرفه ای دارد. ارسال درخواست به بخش ارتباط با ما / سردبیری
  2. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  3. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2224
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
آموزش نرم افزار Noiseware

آموزش نرم افزار Noiseware

آموزش نویزویر

فیلم پدرخوانده 2 با دوبله فارسی

فیلم پدرخوانده 2 با دوبله فارسی

پدرخوانده 2

Top Gear Specials

Top Gear Specials

مستند تخت گاز

گلچین سخنرانی وفات حضرت خدیجه (سلام الله علیها)

گلچین سخنرانی وفات حضرت خدیجه (سلام الله علیها)

گلچین سخنرانی پیرامون حضرت خدیجه

Wildlife Park 3 - Down Under

Wildlife Park 3 - Down Under

شبیه ساز مدیریت باغ وحش

راهنمای گام به گام ساخت برند

راهنمای گام به گام ساخت برند

چگونه برندی را از صفر تا صد بسازیم؟

Lindo Lingo 18.0.44

Lindo Lingo 18.0.44

حل مسائل برنامه ریزی خطی

WD SmartWare Pro 2.4.2.26

WD SmartWare Pro 2.4.2.26

نرم افزار پشتیبان گیری هارد اکسترنال های Western Digital

StreamGaGa 1.2.1.5

StreamGaGa 1.2.1.5

دانلودکننده ویدئو و آهنگ

Pixologic ZBrush 2025.3.0 / 2024.0.3 / 2023.1.1 / 2022.0.7

Pixologic ZBrush 2025.3.0 / 2024.0.3 / 2023.1.1 / 2022.0.7

ساخت انیمیشن 3 بعدی

منزلت امام نزد خدا

منزلت امام نزد خدا

امام کیست؟

Autodesk Moldflow 2026 / 2024 / 2023 / 2021 / 2018 SP2  / Simulation 2018.2.0 x64 / Utility Design 2017 x64 / Moldflow Synergy 2017.3

Autodesk Moldflow 2026 / 2024 / 2023 / 2021 / 2018 SP2 / Simulation 2018.2.0 x64 / Utility Design 2017 x64 / Moldflow Synergy 2017.3

شبیه ساز اتودسک مولد فلو و سیمولیشن

Extreme Road Trip 2 v3.17.0.26 for Android +2.3

Extreme Road Trip 2 v3.17.0.26 for Android +2.3

مسابقه سرعت در جاده

مجموعه قوانین ساختار واژه‌ها، جمله‌ها، واج‌ها و آواها و معناها

مجموعه قوانین ساختار واژه‌ها، جمله‌ها، واج‌ها و آواها و معناها

دستور زبان انگلیسی به زبان ساده

سخنرانی حجت الاسلام انصاریان  با موضوع اهل بیت و فرهنگ اهل بیت علیهم السلام - 7 جلسه

سخنرانی حجت الاسلام انصاریان با موضوع اهل بیت و فرهنگ اهل بیت علیهم السلام - 7 جلسه

حاج آقا انصاریان با موضوع اهل بیت و فرهنگ اهل بیت علیهم السلام

نکته هایی برای تبدیل روزهای کسل کننده به روزهای شاد

نکته هایی برای تبدیل روزهای کسل کننده به روزهای شاد

ده راز شادکامی

Battery Calibration 2.5.3 for Android +2.1

Battery Calibration 2.5.3 for Android +2.1

کالیبره کردن باتری

OmniBus

OmniBus

رانندگی با اتوبوس سریع

FontLab 8.4.1.8926 Final

FontLab 8.4.1.8926 Final

طراحی فونت

Nero Multimedia Suite Platinum HD 11.2.00700 + Add-ons + Vision + Video + Lite + Micro + Portable

Nero Multimedia Suite Platinum HD 11.2.00700 + Add-ons + Vision + Video + Lite + Micro + Portable

کامل ترین ویرایش نرم افزار نرو با امکانات اضافی فراوان

خطابه غدیر با ترجمه فارسی محمد باقر انصاری

خطابه غدیر با ترجمه فارسی محمد باقر انصاری

خطابه غدیر با ترجمه فارسی

ChinaTaxi HD 2.0.4 for Android

ChinaTaxi HD 2.0.4 for Android

تاکسی چینی

Brink of Extinction

Brink of Extinction

اکشن استراتژیک

InfiniteSkills - Learning Oracle 12c

InfiniteSkills - Learning Oracle 12c

فیلم آموزش اوراکل 12‌سی

سخنرانی حجت الاسلام والمسلمین  حسین انصاریان سال 98

سخنرانی حجت الاسلام والمسلمین حسین انصاریان سال 98

محرم شب اول تا شام غریبان انصاریان

InfiniteSkills – Learning Oracle 11g Training Video

InfiniteSkills – Learning Oracle 11g Training Video

فیلم آموزش کامل اُراکل 11‌جی ، برترین نرم‌افزار پایگاه داده

آموزش ارتباط با بانک اطلاعاتی در Asp.NET MVC

آموزش ارتباط با بانک اطلاعاتی در Asp.NET MVC

آموزش ای اس پی دات نت ام وی سی

Lynda - AutoCAD 2017 Essential Training

Lynda - AutoCAD 2017 Essential Training

فیلم آموزش اتوکد لیندا

Macrorit Data Wiper 7.1.0

Macrorit Data Wiper 7.1.0

پاک کردن اطلاعات هارد

Children of Men

Children of Men

فرزندان بشر

Smart Keyboard Pro 4.23.1 for Android +2.2

Smart Keyboard Pro 4.23.1 for Android +2.2

کیبورد اسمارت

سخنرانی حجت الاسلام پناهیان درمورد فرهنگ عاشورا

سخنرانی حجت الاسلام پناهیان درمورد فرهنگ عاشورا

سخنرانی حجت الاسلام پناهیان با موضوع فرهنگ عاشورا

Habit Browser Donate 1.1.77 for Android

Habit Browser Donate 1.1.77 for Android

مرورگر اینترنت اندروید

HD Caller ID Pro 3.1.2 for Android +2.3

HD Caller ID Pro 3.1.2 for Android +2.3

نمایش تمام صفحه تصویر تماس گیرنده

QuickPic 9.0.3 for Android +2.3

QuickPic 9.0.3 for Android +2.3

گالری تصاویر

Ant Smasher 9.75 for Android +2.3

Ant Smasher 9.75 for Android +2.3

بازی کشتن مورچه

Star Nomad 2

Star Nomad 2

کوچ فضایی 2

Stellar Repair for MS SQL Technician 10.0.0

Stellar Repair for MS SQL Technician 10.0.0

تعمیر پایگاه داده

سخنرانی دکتر ناصر رفیعی با موضوع برکات حضرت فاطمه زهرا (س)

سخنرانی دکتر ناصر رفیعی با موضوع برکات حضرت فاطمه زهرا (س)

سخنرانی دکتر رفیعی با موضوع برکات حضرت فاطمه زهرا (س)

Singapore education system

Singapore education system

رهبری مدرسه و تغییر آموزش در کشور سنگاپور

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!