سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
آیکون جستجو در سایت سافت گذر
اطلاعیه های مهم سایت اطلاعیه های مهم سایت

 

💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2292
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
Faces 4.0

Faces 4.0

قویترین نرم افزار چهره نگاری (مورد استفاده نیروهای پلیس و امنیتی مانند FBI، CIA و ارتش ایالات متحده)

MiniTool Partition Wizard 13.5 Technician + WinPE ISO

MiniTool Partition Wizard 13.5 Technician + WinPE ISO

پارتیشن بندی هارد

LipseUI 1.8 for Android +4.0

LipseUI 1.8 for Android +4.0

آیکون اندروید

مقدمه ای بر Registry

مقدمه ای بر Registry

آموزش رجیستری

نشاط و عوامل آن

نشاط و عوامل آن

به سوی شادمانی

تلاوت مجلسی استاد محمد محمود الطبلاوی سوره مبارکه آل عمران

تلاوت مجلسی استاد محمد محمود الطبلاوی سوره مبارکه آل عمران

تلاوت محمد محمود الطبلاوی سوره آل عمران

Turtle Odyssey II

Turtle Odyssey II

لاک پشت 2

Crimsonland 1.9.9

Crimsonland 1.9.9

کریمسو لند

آموزش نرم افزار Noiseware

آموزش نرم افزار Noiseware

آموزش نویزویر

Wondershare MobileGo 8.5.0.109

Wondershare MobileGo 8.5.0.109

بهترین نرم‌افزار مدیریت گوشی اندروید

Billiard

Billiard

بیلیارد فلش

Goat Simulator - GOATY Edition + Waste of Space

Goat Simulator - GOATY Edition + Waste of Space

شبیه ساز برای کامپیوتر

Pluralsight - CompTIA Server+ Part 1 Server Hardware/Part 2 Networking and Storage/Part 3 Security and Troubleshooting

Pluralsight - CompTIA Server+ Part 1 Server Hardware/Part 2 Networking and Storage/Part 3 Security and Troubleshooting

مجموعه‌ی 3 دوره‌ آموزش تصویری مدرک CompTIA Server+ شامل مباحث سخت‌افزارهای سِـروِر، شبکه‌سازی و ذخیره‌سازی، امنیت و عیب‌یابی

سخنرانی حجت الاسلام محمدمهدی ماندگاری با موضوع دفاع مقدس - 2 جلسه

سخنرانی حجت الاسلام محمدمهدی ماندگاری با موضوع دفاع مقدس - 2 جلسه

حاج آقا ماندگاری با موضوع دفاع مقدس

Lex Mortis

Lex Mortis

جزیره‌ی وحشت

آموزش برنامه نویسی Microsoft.NET Framework

آموزش برنامه نویسی Microsoft.NET Framework

آموزش مایکروسافت دات نت فریم ورک

Test Drive - Ferrari Racing Legends

Test Drive - Ferrari Racing Legends

تست درایو - اسطوره های مسابقات فِراری

The Beggar's Ride

The Beggar's Ride

سفر گدا

پرتاب توپ به داخل حلقه

پرتاب توپ به داخل حلقه

مهارت‌هایی فردی در بسکتبال

سخنرانی حضرت امام خمینی قدس سره درباره اهمیت خدمت و بی ارزشی پست و مقام

سخنرانی حضرت امام خمینی قدس سره درباره اهمیت خدمت و بی ارزشی پست و مقام

سخنرانی حضرت امام خمینی قدس سره درباره پست و مقام

Zombie Forest 2 + Updates

Zombie Forest 2 + Updates

زامبی

Animal ABC 3.2 for Android +3.0

Animal ABC 3.2 for Android +3.0

آموزش حروف انگلیسی برای کودکان (حیوانات)

Autodesk PowerMill Ultimate 2026 / 2025.0.1 / 2024 / 2023 / 2022 / 202 / 2020 / 2019.2.2 / 2018.1.5 / 2017

Autodesk PowerMill Ultimate 2026 / 2025.0.1 / 2024 / 2023 / 2022 / 202 / 2020 / 2019.2.2 / 2018.1.5 / 2017

اتودسک پاورمیل ماشین کاری قطعات

نشانه‌های حتمی و نشانه‌های غیرحتمی ظهور امام زمان(عج)

نشانه‌های حتمی و نشانه‌های غیرحتمی ظهور امام زمان(عج)

نشانه‌های ظهور

شب اول مراسم گرامیداشت سی و یکمین سالگرد ارتحال حضرت امام خمینی رحمت الله علیه

شب اول مراسم گرامیداشت سی و یکمین سالگرد ارتحال حضرت امام خمینی رحمت الله علیه

سی و یکمین سالگرد ارتحال بنیانگذار کبیر انقلاب اسلامی

Turner

Turner

اکشن سکویی

آلبوم کامل موسیقی سریال بازی تاج و تخت فصل 4 - با دو کیفیت 128kbps + 320kbps

آلبوم کامل موسیقی سریال بازی تاج و تخت فصل 4 - با دو کیفیت 128kbps + 320kbps

آهنگ سریال بازی تاج و تخت

Lynda - Typing Fundamentals

Lynda - Typing Fundamentals

فیلم آموزش اصول تایپ صحیح و سریع

راهنمای گام به گام در تهیه و استفاده از داروهای گیاهی

راهنمای گام به گام در تهیه و استفاده از داروهای گیاهی

داروهای طبیعی

InfiniteSkills – Adobe Premiere Pro CC Training Video

InfiniteSkills – Adobe Premiere Pro CC Training Video

فیلم آموزش ادوبی پریمیر پرو سی سی

چالش های مدیران ارگان و سازمان ها

چالش های مدیران ارگان و سازمان ها

نگرشی برچالش های مدیران سازمان ها در قرن بیست و یکم

Okdo Document Converter Professional 5.9

Okdo Document Converter Professional 5.9

نرم افزار تبدیل فرمت های مختلف به PDF ، Images ، Wrod ، Powerpoint و دیگر سندها

سخنرانی حجت الاسلام محسن قرائتی با موضوع اصول عقاید اسلامی، نبوت - 4 جلسه

سخنرانی حجت الاسلام محسن قرائتی با موضوع اصول عقاید اسلامی، نبوت - 4 جلسه

سخنرانی اصول عقاید اسلامی، نبوت با محسن قرائتی

Harry Potter 3

Harry Potter 3

هری پاتر برای کامپیوتر

موجودات فراطبیعی در ادیان الهی

موجودات فراطبیعی در ادیان الهی

مطالب جالب درباره عجایب علوم غریبه

Polaris Office Pro + PDF 9.8.12 for Android +4.4

Polaris Office Pro + PDF 9.8.12 for Android +4.4

پولاریس آفیس

Waveform

Waveform

شکل موج

InfiniteSkills - Microsoft SQL Server 2012 Certification - Exam 70-461 Training Video

InfiniteSkills - Microsoft SQL Server 2012 Certification - Exam 70-461 Training Video

فیلم آموزش SQL Server 2012

سخنرانی حجت الاسلام محمدمهدی ماندگاری با موضوع نحوه برخورد با مشکلات خانوادگی

سخنرانی حجت الاسلام محمدمهدی ماندگاری با موضوع نحوه برخورد با مشکلات خانوادگی

سخنرانی نحوه برخورد با مشکلات خانوادگی با ماندگاری

مراحل خوشنویسی

مراحل خوشنویسی

کتاب خوشنویسی و آداب و وظایف خوشنویسان

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!