سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
آیکون جستجو در سایت سافت گذر
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. به مناسبت ماه رجب، و ولادت امام جواد (علیه السلام) در سایت https://esetupdate.ir/ تخفیف ویژه‌ای برای محصولات در نظر گرفته شده است؛ فرصت را از دست ندهید. 🌸
  3. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2304
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
AccessAgility WiFi Scanner 2.9.6.557

AccessAgility WiFi Scanner 2.9.6.557

اسکن و مدیریت شبکه های وای فای

رخدادهای تاریخی ایران از هنگام مرگ نادرشاه افشار تا پایان زندگی آقامحمدخان قاجار

رخدادهای تاریخی ایران از هنگام مرگ نادرشاه افشار تا پایان زندگی آقامحمدخان قاجار

آغا محمد خان قاجار

Effortless English Complete Lessons

Effortless English Complete Lessons

آموزش زبان افورتلس Aj Hoge

!Tesla Breaks the World

!Tesla Breaks the World

نیکولا تسلا دنیا را درهم می‌شکند

Imagine 2.3.0

Imagine 2.3.0

ویرایش عکس

آموزش کار با کنترل WinSock

آموزش کار با کنترل WinSock

آموزش WinSock

DS CATIA P3 V5-6R2021 (V5R31) SP0 incl Doc x64 + All Version / CATIA Composer R2023 HF3

DS CATIA P3 V5-6R2021 (V5R31) SP0 incl Doc x64 + All Version / CATIA Composer R2023 HF3

کتیا

Microsoft Windows Server 2016

Microsoft Windows Server 2016

ویندوز سرور 2016

افزایش فروش اینترنتی

افزایش فروش اینترنتی

ترفند‌های افزایش فروش آنلاین

Paperama 1.5.7 for Android +2.3

Paperama 1.5.7 for Android +2.3

بازی با اریگامی

Autodesk AutoCAD 2012 SP2 x86/x64

Autodesk AutoCAD 2012 SP2 x86/x64

نسخه 2012 قدرتمندترین برنامه نقشه‌کشی ویرایش 32 بیتی و 64 بیتی

Trojan Remover v6.9.4.2943 Portable

Trojan Remover v6.9.4.2943 Portable

قوی‌ترین و دقیق ترین نرم افزار شناسایی انواع تروجان

NBA 2K12 + Update 1.01

NBA 2K12 + Update 1.01

بسکتبال NBA 12

آموزش MySQL

آموزش MySQL

آموزش مای اس کیو ال

Nimbuzz Messenger 7.1.0 Android/Symbian/Java

Nimbuzz Messenger 7.1.0 Android/Symbian/Java

نیم باز

آموزش نقاشی کودکان

آموزش نقاشی کودکان

آموزش نقاشی

Axialis IconWorkshop Professional Edition 6.97

Axialis IconWorkshop Professional Edition 6.97

آیکون ورک شاپ ساخت و ویرایش آیکون‌ها

Sonic Generations

Sonic Generations

سونیک برای کامپیوتر

HOT WHEELS UNLEASHED 2 – Turbocharged Fast and Furious

HOT WHEELS UNLEASHED 2 – Turbocharged Fast and Furious

مسابقه ای برای کامپیوتر

آموزش نرم افزار Resource Hacker

آموزش نرم افزار Resource Hacker

آشنایی با نرم افزار قدرتمند Resource Hacker

سلسله مباحث استاد شجاعی قسمت ششم

سلسله مباحث استاد شجاعی قسمت ششم

ظهور

فیلم آموزش بهترین و جالب‌ترین ترفندها در زندگی روزمره

فیلم آموزش بهترین و جالب‌ترین ترفندها در زندگی روزمره

لایف هک

TeamSpeak Client 3.5.6 + Server 3.13.6

TeamSpeak Client 3.5.6 + Server 3.13.6

ارتباط صوتی اینترنتی و گروهی تیم اسپیک

سوال و جواب پیرامون امام زمان (عج) نسخه 32.8.9 برای اندروید 2.3+

سوال و جواب پیرامون امام زمان (عج) نسخه 32.8.9 برای اندروید 2.3+

97 پرسش و پاسخ پیرامون امام زمان (عج)

Udemy - The Complete Web Developer Course 2.0

Udemy - The Complete Web Developer Course 2.0

آموزش کامل طراحی سایت

3Planesoft 3D Screensavers AIO 143 05.2025

3Planesoft 3D Screensavers AIO 143 05.2025

اسکرین سیورهای سه بعدی و زیبای شرکت تری پلین سافت

مجله تخصصی برای علاقه مندان به اسب سواری و سوارکاری

مجله تخصصی برای علاقه مندان به اسب سواری و سوارکاری

مجله Horse Illustrated می 2019

Stealth Inc 2 - A Game of Clones

Stealth Inc 2 - A Game of Clones

شرکت مخفی 2 - بازی کلون‌ها

Ontrack EasyRecovery Technician 16.0.0.8 / Toolkit + Mac

Ontrack EasyRecovery Technician 16.0.0.8 / Toolkit + Mac

ایزی ریکاوری قوی ترین نرم افزار بازیابی اطلاعات

سخنرانی حجت الاسلام راشد یزدی با موضوع کونُوا لَنا زَیْناً وَ لا تَکونُوا عَلَیْنا شَیْناً

سخنرانی حجت الاسلام راشد یزدی با موضوع کونُوا لَنا زَیْناً وَ لا تَکونُوا عَلَیْنا شَیْناً

حاج آقا راشد یزدی با موضوع کونُوا لَنا زَیْناً وَ لا تَکونُوا عَلَیْنا شَیْناً

Despicable Me: Minion Rush 7.8.1a for android +2.3

Despicable Me: Minion Rush 7.8.1a for android +2.3

من نفرت انگیز

Autodesk AutoCAD Civil 3D 2013 x86/x64 + 2014 SP1 x64

Autodesk AutoCAD Civil 3D 2013 x86/x64 + 2014 SP1 x64

نرم افزار اتوکد ویژه عمران و شهر سازی

شبکه کردن کامپیوتر و ارتباط تصویری

شبکه کردن کامپیوتر و ارتباط تصویری

آشنایی با شبکه کردن کامپیوتر و انتقال فایل ها توسط آن و ایجاد ارتباط تصویری

سخنرانی حجت الاسلام واعظ موسوی با موضوع الگو گرفتن از حضرت زهرا در رفتار با همسر

سخنرانی حجت الاسلام واعظ موسوی با موضوع الگو گرفتن از حضرت زهرا در رفتار با همسر

سخنرانی واعظ موسوی با موضوع الگو گرفتن از حضرت زهرا در رفتار با همسر

تجربه های گردشگری گرجستان

تجربه های گردشگری گرجستان

تفلیس و سواحل و طبیعتی جذاب

Immortal Redneck

Immortal Redneck

اکشن شوتر

Microsoft Flight Simulator X + Acceleration Expansion

Microsoft Flight Simulator X + Acceleration Expansion

شبیه سازی پرواز نسخه X

ai.type Keyboard Plus + Emoji 9.6.2.0 for Android +4.0

ai.type Keyboard Plus + Emoji 9.6.2.0 for Android +4.0

کیبورد فارسی

Guild Commander

Guild Commander

شبیه‌ساز مدیریت منابع

Chaos Enscape 4.14.0.668

Chaos Enscape 4.14.0.668

رندر سه‌بعدی

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!