Elasticsearch چیست؟
Elasticsearch محصول شرکتی به نام الاستیک (Elastic) است که در سال ۲۰۱۲ بنیان گذاشته شد. Elasticsearch یک موتور جستجوی متن باز با تجزیه و تحلیل کامل است که به زبان جاوا توسعه یافته است. دادههای غیرساختاریافته را از منابع مختلف میگیرد و آن را در یک فرمت پیچیده ذخیره میکند که برای جستجوی متنی بسیار بهینه است. Elasticsearch از Lucene Apache در هستهی خود برای نمایهسازی و جستجو استفاده میکند. Lucene کتابخانهای است که کار کردن با آن واقعا پیچیده است؛ اما لازم نیست نگران آن بود چرا که Elasticsearch تمام پیچیدگیها را با فراهم کردن قابلیت استفاده از API از بین میبرد. API به شکل API RESTful HTTP است که از JSON به عنوان فرمت تبادل داده استفاده میکند؛ در نتیجه با استفاده از Elasticsearch میتوان حجم زیادی از دادهها را به روش سریع و کارآمد ذخیره و تحلیل کرد. این امر به خصوص در هنگام برخورد با دادههای نیمه ساختاریافتهی زبان طبیعی بسیار مفید است.
Elasticsearch در کجا استفاده میشود؟
مقیاس پذیری (scalability) و سرعت Elasticsearch بالاست و میتوان از آن برای موارد زیر استفاده کرد:
- جستجوی برنامه
- جستجوی وب سایت
- جستجوی سازمانی
- تحلیل و تجزیهی اطلاعات ورودی
- بررسی عملکرد برنامه
- آنالیز و تجسم دادهها
- تجزیه و تحلیل امنیتی
- تجزیه و تحلیل تجاری
مفاهیم مورد استفادهی Elasticsearch
برای آشنایی و درک بهتر اینکه Elasticsearch چیست؟ مفاهیمی وجود دارند که باید با آنها آشنا شویم:
تقریبا بلادرنگ (Near Real-Time)
Elasticsearch یک سکوی جستجوی بلادرنگ است؛ به این معنی است که میتواند به طور پیوسته یک وضعیت جدید از اسناد قابل جستجو را برنامهریزی کند. نرخ پیشفرض، هر وضعیت در ثانیه است. بنابراین میزان زمان از لحظهی جستجوی سند توسط کاربر تا لحظهی اعلام نتایج کم و ناچیز میباشد.
شاخص (Index)
Elasticsearch مجموعهای از اسناد است که دارای ویژگیهای مشابهی هستند. این دادهها با استفاده از دستورات SQL در یک یا چند شاخص ذخیره میشوند و از شاخصها برای نگهداری و خواندن اسناد از آن استفاده میشود. در Elasticsearch، یک شاخص با نامی منحصر به فرد شناسایی میشود و باید تمام حروفش کوچک باشد. سپس از این نام برای اشاره به یک شاخص خاص در هنگام انجام فعالیتهای مختلف بر روی اسناد موجود استفاده میشود.
سند (Document)
در Elasticsearch، یک سند، واحد اصلی اطلاعاتی است که میتوان شاخص کرد. این اسناد شامل فیلدهای مختلفی هستند و هر یک از این فیلدها با نام خود شناسایی شدهاند و میتوانند حاوی یک یا چند مقدار باشند.
نوع (Type)
در Elasticsearch، یک نوع برای اسناد متشکل از مجموعهای از فیلدها تعریف میشود. نوع سند توسط کاربر تعریف شده و همچنین میتوان بیش از یک نوع را در یک شاخص مشخص کرد.
گره (Node)
گره به یک نمونه از سرور Elasticsearch گفته میشود که دادهها را ذخیره میکند. یک گره دارای نام است و با آن شناسایی میشود. به طور پیشفرض در زمان شروع، یک شناسهی منحصر به فرد تصادفی به گره تخصیص داده میشود. این نام برای اهداف اجرایی مورد استفاده قرار میگیرد.
خوشه (Cluster)
یک خوشه مجموعهای از یک یا چند گره یا همان سرور است که با هم کار میکنند. خوشه تمامی دادهها را نگه میدارد و امکان جستجوی آسان را در تمام گرهها فراهم میکند و موجب کنترل آسان اطلاعات برای هر گره میشود. همانند یک گره، یک خوشه نیز با نام منحصر به فرد مشخص میشود و به طور پیشفرض، نامش “elasticsearch” است. برای اتصال چند گره به یک خوشه از نام خوشه استفاده میشود و به همین دلیل است که نام خوشه بسیار مهم است.
Shards
ذخیرهی حجم زیادی از اطلاعات میتواند فراتر از تواناییهای یک سرور واحد باشد. برای حل این مشکل، Elasticsearch اجازه میدهد تا شاخص را به چند بخش تقسیم کرد که shards نامیده میشوند. تعداد بخشهای مورد نیاز میتواند در حین ایجاد یک شاخص مشخص شود. هر shard برای هر شاخص کاملا مستقل است و میتواند میزبان هر گره درون خوشه باشد.
Replicas
برای جلوگیری از هر نوع خطای تصادفی، مانند اشتراکگذاری یک گرهی آفلاین، Elasticsearch مفهومی شبیه به کپی را ارائه میدهد. Replicas در اصل فقط یک کپی دیگر از یک تکه است و میتواند برای پرسوجوها به عنوان تکهی اصلی مورد استفاده قرار گیرد.
سازوکار Elasticsearch چیست؟
Elasticsearch مجموعهای از اسناد است که با هم مرتبط هستند و دادهها را به عنوان اسناد JSON ذخیره میکند. هر سند مجموعهای از کلیدها را با مقادیر متناظر خود مانند رشتهها، اعداد، Booleans، تاریخها، آرایههای حاوی مقادیر یا انواع دیگر دادهها مرتبط میکند.
Elasticsearch همچنین از یک ساختار داده با نام شاخص معکوس استفاده میکند که برای جستجوهای کامل متن (full text) طراحی شدهاست. یک شاخص معکوس، هر کلمهی منحصر به فرد که در هر سند نمایان میشود را لیست میکند و تمام اسنادی را که آن کلمه در آن رخ میدهد را مشخص میکند.
در طول فرآیند شاخصگذاری، Elasticsearch اسناد را ذخیره کرده و یک شاخص معکوس ایجاد میکند تا دادهها در زمان واقعی قابل جستجو باشند. نمایهسازی با API آغاز میشود که از طریق آن میتوان یک سند JSON را در یک شاخص مشخص بروزرسانی یا اضافه کرد. APIهای مطرح عبارتند از:
- Index API: برای ثبت شاخص استفاده میشود.
- Get API: برای بازیابی سند استفاده میشود.
- API Search: برای ارسال درخواست و دریافت نتیجه استفاده میشود.
- Put API: برای انتخاب گزینههای پیشفرض و تعریف نقشه استفاده میشود.
همچنین میتوان APIهای دیگری را براساس نیاز بررسی و ایجاد کرد؛ چراکه پروژههای دنیای واقعی نیازمند پرسوجوهای متفاوت در زمینههای گوناگون با اعمال شرایط مخصوص به خود هستند.
تمام این پیچیدگی را میتوان از طریق پرسوجوها آسان کرد. DSL پرسوجویی قدرتمند است و برای رسیدگی به پیچیدگی از طریق یک پرسوجو طراحی شده است. APIهای Elasticsearch به طور مستقیم با lucene ارتباط دارند و از همین نام برای کار با lucene استفاده میکنند. DSL نیز از Lucene TermQuery برای اجرا استفاده میکند.
مزایای استفاده از Elasticsearch چیست؟
استفاده از Elasticsearch دارای مزایای زیادی است؛ از این مزایا میتوان به موارد زیر اشاره کرد:
- مقیاس پذیری: یعنی با افزایش حجم دادهها، عملکرد همچنان بسیار ساده مانده و نتایج قابلاطمینان است. این یک ویژگی بسیار مهم است که به سادهسازی معماریهای پیچیده و صرفهجویی در زمان در طول اجرای پروژهها کمک میکند.
- سرعت: Elasticsearch از شاخصگذاری معکوس استفاده میکند. همانطور که در بخش قبل آموختیم، شاخصگذاری معکوس یک روش مبتني بر کلمه است که براي جستجوی سريع اسناد شامل يک کلمهی خاص به کار میرود. در نتیجه حتی زمانی هم که در مجموعه دادههای بسیار بزرگ جستجو میکند، بسیار سریع است.
- استفاده از API: Elasticsearch APIهای ساده RESTful را ارائه میدهد و از اسناد JSON، بدون الگو استفاده میکند که نمایهسازی، جستجو و پرس و جوی دادهها را بسیار آسان میسازد.
- چندزبانه: یکی از ویژگیهای Elasticsearch این است که چندزبانه است. این موتور از نوشتارهای گستردهای در زبانهای مختلف مانند عربی، برزیلی، چینی، انگلیسی، فرانسوی، کرهای و … پشتیبانی میکند.
- بهینه بودن در کار با اسناد: Elasticsearch ماهیت پیچیدهی دنیای واقعی را به عنوان اسناد JSON ساختاربندی کرده و تمام مفاهیم را به طور پیشفرض در یک شاخص (index) جمعآوری میکند تا بتوان دادهها را جستجو کرد. از آنجا که هیچ ردیف و ستون دادهای وجود ندارد، میتوان به راحتی جستجوی متن کامل را انجام داد.
- تکمیل خودکار: Elasticsearch با پیشبینی کلمه (حتی اگر شامل تعداد بسیار کمی از کاراکترها باشد) ، تعامل انسان و رایانه را سرعت میبخشد.
- عاری از شما: Elasticsearch با وجود اینکه اسناد JSON را میپذیرد، عاری از شِما است. در واقع Elasticsearch سعی میکند ساختار دادهها را شناسایی کند، دادهها را شاخصبندی کند و در نهایت بتواند دادهها را جستجو کند.
معایب Elasticsearch چیست؟
باید توجه داشت که هنگامی از Elasticsearch باید استفاده کرد که دادههای مورد بررسی دارای ویژگیهایی باشند که بتوان از نقاط قوت Elasticsearch استفاده کرد. چرا که اگر اینگونه نباشد، نتیجه معکوس خواهد شد و آن جنبههای بیان شده بهعنوان مزایا، تبدیل به معایب کار میشوند. با این حال Elasticsearch نیز خالی از عیب نیست. برخی از این معایب عبارتند از:
- Elasticsearch از لحاظ مدیریت درخواست و پاسخ هنگام کار با سرویسها، برخلاف برخی سیستمها که در فرمتهای CSV، XML و JSON هم کار میکنند، پشتیبانی چند زبانی ندارد.
- Elasticsearch همچنین دارای مشکل split brain میباشد. این مشکل هنگامی به وجود میآید که برقراری ارتباط بین سرورها قطع میشود و نگهداری دو مجموعهی دادهی مجزا که در یک موضوع همپوشانی دارند، دچار مشکل میشود.
- اگر فرد به آن مسلط نباشد، استفاده از ابزارهایی مانند Algolia آسان نیست. البته همانطور که گفتیم، Elasticsearch روشی قدرتمندتر و انعطافپذیرتر از حالت عادی است، اما باز هم یادگیری آن زمانبر است.