پردازش اطلاعات با kafka
تاریخچه
آپاچی کافکا در ابتدا توسط لینکدین توسعه یافت و در اوایل سال ۲۰۱۱ بصورت نرمافزار متن باز درآمد. در نوامبر ۲۰۱۴ ، چندین مهندس که در لینکدین بر روی کافکا کار میکردند یک شرکت جدید به نام Confluentایجاد کرده و به صورت انحصاری بر روی توسعه کافکا کار کردند.
آپاچی کافکا چیست؟
آپاچی کافکا یک پلتفرم توزیعشده برای پردازش دادههای جریانی بوده و قادر به رسیدگی و پردازش چندین تریلیون رویداد به صورت همزمان است. کافکا در ابتدا به عنوان یک ابزار برای ارسال پیامهایی با تعداد بالا بکار برده میشد. کافکا از زمانایجاد و منبع باز شدن توسط لینکدین در سال ۲۰۱۱ ، به سرعت از ارسال پیام به یک پلتفرم پردازش توزیعی کامل تبدیل شده است.
آپاچی کافکا، به عنوان یک پلتفرم دادههای در جریان، دارای قابلیتهایی ازقبیل زمان پاسخ کوتاه، کارایی بالا و تحمل خطا بوده و قادر به پردازش جریانهایی سریع از رویدادها میباشد. کافکا، برای پشتیبانی از برنامههای کاربردی مشتری و اتصال سیستمهای پایین دست به دادههای زمان واقعی پاسخهای در حد میلی ثانیه فراهم میکند.
لایه ذخیرهسازی آن اساسا برای یک معماری کارگزار صف پیام (Message Broking) انبوه و مقیاس پذیر و برای تراکنشهای توزیع شده تولید شده است. تکنولوژی کافکا به طور مشخص برای پردازش جریان دادهها (Stream Processing) و کارگزار ارسال و دریافت پیام مورد استفاده قرار میگیرد که آن را بسیار با ارزش برای زیرساخت پردازش جریانی دادهها نموده است. علاوه براین، کافکا اتصال به سیستمهای خارجی (برای دادههای ورودی / خروجی) از طریق Kafka Connect و provides Kafka Streams فراهم میکند.
کافکا برای مواجهه با انبوهی از دادهها که بیوقفه در حال ارسال هستند و شما فرصت کافی برای پردازش و ذخیرهسازی آنها نداشته باشید تولید شده است.
کاربردهای کافکا
کافکا ™ برای استفاده در پروژههای زمان واقعی (real-time) به منظور فراهم آوردن خط لوله دادهها و جریان برنامهها استفاده میشود. کافکا به صورت افقی مقیاس پذیر، مقاوم در برابر خطا و بسیار سریع است و در تولیدات هزاران شرکت استفاده میشود.
دو مورد از اصلی ترین کاربردهای کافکا شامل موارد ذیل میشود:
1.ایجاد خطوط انتقال دادههای جریانی و بههنگام که دادهها را میان سیستمها و برنامهها بصورت قابل اطمینانی انتقال داده و رد و بدل میکند.
2.ایجاد برنامههای کاربردی برای دادههای جریانی و بههنگام که به موقع نسبت به جریانی از دادهها واکنش نشان داده و آنها را انتقال میدهد
ساختار و نحوه کار کافکا
قبل ازاینکه به ساختار کافکا بپردازیم ابتدا چند اصطلاح را توضیح میدهیم:
- کافکا به صورت خوشهای بر روی یک یا چند سرور کار میکند.
- کافکا جریان دادهها و رکوردها را در ساختارهایی به نام تاپیک( topics) ذخیره میکند.
- هر رکوردی دارای یک کلید، یک مقدار و یک برچسب زمانی میباشد تا بصورت مجزا از سایر رکوردها مشخص باشد.
کافکا دارای 4 رابط کاربری برای برنامه خود میباشد که هر کدام نقشی در مجموعه فعالیتهای کافکا دارند.این رابطها شامل:
- رابط تولیدکننده (Producer) که به یک برنامه اجازه میدهد رشتههایی از رکوردها را بر روی یک یا چند تاپیک کافکا منتشر کند.
- رابط مصرفکننده (Consumer) که به یک برنامه اجازه میدهد به یک یا چند تاپیک متصل شده و رکورهای موجود را پردازش کند.
- رابط جریانی (Streams) که به یک برنامه اجازه میدهد بصورت پردازشگر دادههای جریانی عمل کرده و دادههای ورودی موجود بر یک یا چند تاپیک را مصرف کرده و خروجی آن نیز تولید جریانی از دادهها بر روی تاپیکهای خروجی بوده و بصورت موثری جریانهای ورودی را به خروجی تبدیل میکند.
- رابط اتصالدهنده (Connector) که اجازه ساخت و اجرای تولیدکنندهها و مصرفکنندههایی با قابلیت استفاده مجدد را میدهد که تاپیکهای کافکا را به برنامهها و سیستمهای دادهای موجود متصل میکند. مثلا یک اتصالدهنده به یک پایگاه داده رابطهای میتواند هر نوع تغییری که بر روی یک جدول اعمال شده را ثبت و ضبط کند.
شکل زیر رابطهای کاربری و نحوه کار کافکا را بصورت شماتیک نشان میدهد.
اولین قدم برای استفاده از این سیستم، ایجاد یک Topic میباشد. از این به بعد میتوان از طریق ارتباط TCP پیامهای جدید را جهت ذخیرهسازی در Topic جدید ارسال نمود. این کار به سادگی از طریق Clientهای پیادهسازی شده که به زبانها و برای پلتفرمهای مختلف طراحی شدهاند قابل انجام است. سپس این پیامها باید در جایی ذخیره گردد. کافکا این پیامها را در فایلهایی با نام Log ذخیرهسازی مینماید. دادههای جدید به انتهای فایلهای Log افزوده میگردند. کافکااین توانایی را دارد که پیامهای ارسالی را بر روی مجموعهای از سرورهای کافکا (Node) که با یکدیگر کلاستر(Cluster) شدهاند، ذخیرهسازی نماید. اگر به طور مثال تعداد n سرور کافکا در یک کلاستر وجود داشته باشند، دادههای مرتبط با هر پیام ارسالی پس از ذخیرهسازی بر روی سرور لیدر، بر روی تمامی سرورهای پشتیبانی نیز کپی خواهد گردید. بااین وصف، حتی اگر n-1 عدد از سرورها از سرویس خارج شوند، دادههای Topic مورد نظر کماکان در دسترس و قابل استفاده خواهند بود. از این رو تحمل پذیری در برابر خطا به خوبی در کافکا دیده شده است.
خواندن اطلاعات ذخیره شده بر روی کافکا (Kafka) نیز از طریق همان Clientهایی که برای ارسال پیامها مورد استفاده بودند قابل انجام است. کلاینت مصرفکننده پیام که به اصطلاح Consumer نامیده میشود، جهت خواندن پیامها باید خود را Subscribe یک Topic مشخص نماید. ازاین پس با اجرای متد Poll دادهها به سمت مصرفکننده سرازیر میشوند. در هنگام تعریف Topic جدید این امکان وجود دارد که دادههای مرتبط با آن در چند پارتیشن ذخیره شوند. پارتیشنها به سادگی جداسازی فیزیکی دادهها بر روی دیسک را انجام میدهند. در واقع کافکا تمامی پیامهای ارسالی به یک Topic را در تمامی پارتیشنها به همان ترتیبی که ارسال شدهاند به صورت توزیع شده ذخیره میکند.
دراین مدل ذخیرهسازی، هر پارتیشن بر روی یک سرور ذخیره شده و سایر سرورهای حاضر در Cluster نسخه پشتیبان آن پارتیشن را کپی خواهند کرد.این ویژگی کافکا به مصرفکننده پیام این امکان را میدهد که به صورت موازی اطلاعات را دریافت نماید. روش کار بهاین شکل است که به تعداد پارتیشنهای موجود یک Topic باید Consumer جدید تعریف شود و همگی آنها عضو یک گروه شوند. این کار به سادگی با انتخاب مشخصه group.id یکسان برای همه آنها قابل انجام است و پس از آن میتوان شروع به خواندن پیامها نمود. تمام هماهنگیهای مورد نیاز جهت تخصیص هر پارتیشن به یک مصرفکننده توسط کافکا (Kafka) انجام خواهد پذیرفت. در صورتی که تعداد مصرفکننده بیشتر از پارتیشنها باشد یکی از آنها در عمل استفاده نخواهد شد ولی اگر تعداد پارتیشنها بیشتر از تعداد مصرفکنندهها باشد به هر مصرفکننده بیش از یک پارتیشن جهت خواندن پیامها اختصاص داده خواهد شد. با تغییر در تعداد مصرفکنندهها، کافکا گروه مصرفکننده را دوباره تنظیم یا به اصطلاح Rebalance مینماید.
انواع کارگزارهای پیام کافکا
Message Brokerها به طور استاندارد به دو شکل Queuing و یا Topic (ویا Publish-Subscribe ) وجود دارند. در روش اول دادهها در یک صف قرار میگیرند و میتوان آنها را با ترتیب وارد شده به صف خواند. مزیت این روش این است که میتوان خواندن و پردازش را به صورت موازی انجام داد ولی با مصرف شدن هر پیام، به طور کامل از صف حذف میگردد. این ایراد در روش دوم به دلیل ارسال یک پیام به تمامی Subscriberها وجود ندارد ولی در عوض تقسیم بار کاری بی معنی میباشد. استفاده از کافکا مزیت هر دو روش را در اختیار میگذارد.
پارتیشنها پیامها را به ترتیب ورود ذخیره میکنند و مصرفکننده نیز به همان ترتیب پیام را دریافت میکند. با تخصیص هر مصرفکننده به یک پارتیشن، دریافت اطلاعات به صورت موازی انجام میگیرد. در عین حال محدودیتی در تعداد گروههای مصرفکننده یک Topicوجود ندارد و offset خوانده شده هر گروه جدا از گروههای دیگر نگهداری میگردد. Offset به نقطهای از پارتیشن که در فرمان Poll بعدی دادهها باید از آنجا خوانده شود اشاره دارد که میتواند به صورت خودکار توسط مصرفکننده بعد از خواندن دادهها کامیت شود و یا به صورت دستی توسط برنامه نویس بعد از پرداش اطلاعات کامیت گردد.
نحوه نگهداری اطلاعات پیکربندی کافکا
هر سرور کافکا دارای شناسهای میباشد که در کلاستر منحصر یه فرد است و به آن broker.id میگویند. هر Broker دارای Topicهای مربوط به خود است و هر Topic از مجموعهای از پارتیشنها تشکیل شده است. و در نهایت هر پارتیشن به ازای هر گروه مصرفکننده offset جداگانه نیاز خواهد داشت. این اطلاعات پیکربندی توسط Apache Zookeeper نگهداری میشود و کافکا برای اجرا نیاز بهاین سرویس دارد. Zookeeper اطلاعات مربوط به Topicهای یک Broker را در ساختار درختی ذخیره میکند.
این اطلاعات که در یک ساختار فایل سیستم مانند و به صورت Key,Value ذخیره میشوند در سرتاسر کلاستر در دسترس هستند. پیش از راهاندازی کافکا سرویس Zookeeper باید راهاندازی شده باشد و در پیکربندی کافکا نحوه اتصال به آن مشخص میگردد.
همینطور کافکا این ویژگی را دارد که جریان دادههای ورودی به یک Topic را پس از عبور دادن از یک پردازشکننده و تغییر حالت دادهها، در Topicهای جدید ذخیره نماید که این عمل به صورت بلادرنگ انجام میگیرد. به طور خلاصه کافکا ذخیرهسازی دادهها بر روی کلاستر، خواندن اطلاعات به صورت Publish-Subscribe و البته موازی جهت تقسیم بار کاری و پردازش همزمان جریان دادهها را در اختیار سیستمهایی میگذارد که دغدغه پردازش دادههای انبوه را دارند.