سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
آیکون جستجو در سایت سافت گذر
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. به مناسبت ماه رجب، در سایت https://esetupdate.ir/ تخفیف ویژه‌ای برای محصولات در نظر گرفته شده است؛ فرصت را از دست ندهید. 🌸
  3. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2306
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
ETAP 16.0.0 x64

ETAP 16.0.0 x64

مدیریت انتقال برق و شبکه توزیع

Universal Book Reader Premium 5.0.2203 for Android +3.0

Universal Book Reader Premium 5.0.2203 for Android +3.0

کتابخوان اندروید

آموزش متدولوژی و تکنولوژی طراحی وب CIW

آموزش متدولوژی و تکنولوژی طراحی وب CIW

آشنایی با تکنولوژی طراحی وب

Evernote 10.167.4.43528

Evernote 10.167.4.43528

نکته برداری ابری

InfiniteSkills - Learning AutoCAD 2014

InfiniteSkills - Learning AutoCAD 2014

فیلم آموزش اُتوکد 2014

DX Toolbox 3.5.0 / DX Battery Saver 3.4.0 for Android +2.2

DX Toolbox 3.5.0 / DX Battery Saver 3.4.0 for Android +2.2

مدیریت کامل سیستم عامل اندروید

EPLAN Fluid 2023.0.3.19351 / 2.7.3.11418

EPLAN Fluid 2023.0.3.19351 / 2.7.3.11418

ایپلن فلوید مدلسازی در مهندسی سیالات

20 نکته در مورد وب و مرورگرها

20 نکته در مورد وب و مرورگرها

راهنمای اصول اولیه مرورگرها و وب

StarDrive 2

StarDrive 2

استار-درایو 2

سخنرانی حجت الاسلام سیدمحمود مدنی با موضوع خصوصیات جامعه مهدوی

سخنرانی حجت الاسلام سیدمحمود مدنی با موضوع خصوصیات جامعه مهدوی

سخنرانی خصوصیات جامعه مهدوی با مدنی

آموزش نرم افزار Adobe Premiere Pro CS3

آموزش نرم افزار Adobe Premiere Pro CS3

آشنایی با نرم افزار پریمیر

Autodesk SketchBook Pro 5.2.5 for Android +4.0

Autodesk SketchBook Pro 5.2.5 for Android +4.0

نرم افزار طراحی و نقاشی معروف و فوق العاده SketchBook

PAC-MAN 10.2.1 For Android +4.1

PAC-MAN 10.2.1 For Android +4.1

جدیدترین نسخه بازی مهیج پکمن(نقطه خور)

ImTOO Video Converter Ultimate 7.8.26 Build 20220609 + Portable

ImTOO Video Converter Ultimate 7.8.26 Build 20220609 + Portable

تبدیل ویدیو کانورتر ایمتو

Autodesk Maya 2016 SP6 x64 / Mac

Autodesk Maya 2016 SP6 x64 / Mac

پیشرفته ترین نرم افزار انیمیشن و مدل سازی سه بعدی

Figaro Pho Creatures Critters 8 for Android

Figaro Pho Creatures Critters 8 for Android

بازی فیگارو در جستجوی کلید

one hundred (100) Doors 2013 1.1.4 for Android

one hundred (100) Doors 2013 1.1.4 for Android

بازی جدید one hundred (100) Doors 2013

آموزش رمزگذاری بر روی فلش مموری

آموزش رمزگذاری بر روی فلش مموری

آشنایی رمز گذاری فلش مموری و هارد اکسترنال بدون نرم افزار

Burnout Paradise: The Ultimate Box

Burnout Paradise: The Ultimate Box

ماشین سواری و موتورسیکلت‌رانی برای کامپیوتر

Digital Anarchy Bundle 2023.9 (x64)

Digital Anarchy Bundle 2023.9 (x64)

پلاگین افتر افکت و پریمیر

Real Bokeh 3.6 for Android +4.0

Real Bokeh 3.6 for Android +4.0

افکت گذاری با اشیاء رنگی

4 جلسه سخنرانی دکتر رفیعی با موضوع پیام های اخلاقی در نامه های امام حسین(ع)

4 جلسه سخنرانی دکتر رفیعی با موضوع پیام های اخلاقی در نامه های امام حسین(ع)

سخنرانی پیام های اخلاقی در نامه های امام حسین(ع) با ناصر رفیعی

Not Dying Today

Not Dying Today

امروز نمی میرد

ai.type Keyboard Plus + Emoji 9.6.2.0 for Android +4.0

ai.type Keyboard Plus + Emoji 9.6.2.0 for Android +4.0

کیبورد فارسی

نماهنگ خاک مهر آئین

نماهنگ خاک مهر آئین

خاک مهر آئین

WYSIWYG Web Builder 20.4.0

WYSIWYG Web Builder 20.4.0

طراحی سایت بدون کدنویسی

کتاب درمانی

کتاب درمانی

کتاب خوانی و مطالعه

iMediaShare – Photos & Music 1.0.10 for Android +2.2

iMediaShare – Photos & Music 1.0.10 for Android +2.2

برنامه استریم و اشتراک محتوای دیجیتال

OpenGL 2.0.0 / OpenGL Extension Viewer 6.3.2

OpenGL 2.0.0 / OpenGL Extension Viewer 6.3.2

اپن جی ال

Teenage Mutant Ninja Turtles Mutants in Manhattan

Teenage Mutant Ninja Turtles Mutants in Manhattan

لاکپشت های نینجا

Gun Strike 1 v1.5.2 / 2 v1.2.7 for Android +2.3

Gun Strike 1 v1.5.2 / 2 v1.2.7 for Android +2.3

بازی تیراندازی با تفنگ های گوناگون

Microsoft OneDrive 25.222.1112.0002

Microsoft OneDrive 25.222.1112.0002

وان‌درایو

حکمرانی در قلمرو ETABS

حکمرانی در قلمرو ETABS

آموزش ایتبس

المراجعات تالیف سید عبد الحسین شرف الدین

المراجعات تالیف سید عبد الحسین شرف الدین

مناظره شیعه و سنی

Stargate SG-1 Unleashed Ep 1 1.0.8 for Android

Stargate SG-1 Unleashed Ep 1 1.0.8 for Android

بازی دروازه ستارگان

سندبادنامه ظهیری سمرقندی

سندبادنامه ظهیری سمرقندی

حکیم سندباد یا داستان هفت‌وزیر

Farming Simulator 2013 + Update 2.0

Farming Simulator 2013 + Update 2.0

شبیه ساز کشاورزی

PassFab for RAR 9.5.4 / PassFab for ZIP 8.2.5.3

PassFab for RAR 9.5.4 / PassFab for ZIP 8.2.5.3

بازیابی پسورد فایل های وین رر

دوره آموزش ادوبی آدیشن Adobe Audition به زبان فارسی

دوره آموزش ادوبی آدیشن Adobe Audition به زبان فارسی

آموزش فارسی Adobe Audition

Planetbase

Planetbase

پایگاه سیاره‌ای

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!