چرا دیتاسنترهای هوش مصنوعی سرورهاشون توی یک مرکز نیستن؟
همیشه دیتاسنترهای هوش مصنوعی سرورهاشون رو توی چند مرکز مختلف میذارن. بین این مرکزها هم چندین کیلومتر فاصلهست. این قضیه دلایل خودش رو داره. مثلا؛
مصرف زیاد برق
دیتاسنترهای هوش مصنوعی انرژی زیادی مصرف میکنن و اگر همهی سرورها توی یک محل باشن، مصرف برق زیاد میشه و این قضیه هیچ صرفه اقتصادی نداره.
مشکلات خنکسازی
مورد بعدی خنکسازیه. این سرورها گرمای زیادی تولید میکنن و خنک کردن همهی این سرورها توی یک مرکز سخت و پرهزینهست.
حالا کجا مشکل پیش میاد؟
اگه فکر میکنید با دور کرد این سرورها از هم دیگه مشکل حل میشه، سخت در اشتباهید! چون اگر شبکه بین این مرکزهای دور از هم بیثبات باشه یا کند باشه، کل آموزش اون مدل هوش مصنوعی خراب میشه یا شرعتش چندین برابر میشه و کلی طول میکشه.
حالا راهحل چیه؟
شرکت سیسکو اومده یک چیپ جدید ساخته به اسم Silicon One P200، که ازش توی تجهیزات شبکهش استفاده میکنه.
این چیپ میتونه ارتباط بین دیتاسنترهای هوش مصنوعی رو سریعتر، پایدارتر و با مصرف برق کمتر برقرار کنه.
چجوری اینکارو میکنه؟
Deep-buffer memory:
وقتی هزاران GPU یا سرور همزمان دیتا ارسال میکنن، ممکنه مسیر شلوغ بشه یا بستهها پشتهم گیر کنن. بافر حافظه عمیق اینجا مثل یک صف بزرگ عمل میکنه، بستههارو تا زمانیکه نوبتشون بشه نگهمیداره بدون اسنکه بستهای از بین بره.
Cut-through switching
این قابلیت چیکار میکنه؟ وقتی بستهای فقط یه قسمت کوچیکی ازش برسه، مسیرش شروع میشه. این یعنی چی؟ یعنی بسته سریعتر حرکت میکنه و تاخیر پایین میاد.
مشخصات فنیش چیه؟
پردازنده شبکه (Router Processor) از خانواده Silicon One داره بهعلاوه NPU داخلی برای پردازشهای هوشمند.
قابلیت Flow Policing، Telemetry و مانیتورینگ دقیق ترافیک داره. بهعلاوه قابلیت P4 programming داره که میتونه رفتار بستههارو به دلخواه تغییر بده. اگر میخواید اطلاعات بیشتری دربارهش بدونید، دیتاشیت این چیپ رو از سایت سیسکو بخونید.

