نماذج الانتشار Diffusion Models:

شهد العالم مؤخراً طفرة مذهلة في قدرة الآلات على الإبداع، حيث أصبح بإمكان أي شخص كتابة جملة بسيطة مثل رائد فضاء يركب خيلاً على المريخ بأسلوب فان جوخ، ليقوم الحاسوب فوراً بإنتاج لوحة فنية مبهرة. هذه الثورة في أدوات مثل ميدجورني ودال-إي هي نتاج لخوارزميات ذكية تُعرف باسم نماذج الانتشار Diffusion Models. في هذا المقال، سنستكشف هذا العالم بأسلوب مبسط لنفهم كيف تحول الآلة الضجيج إلى فن، ولماذا غيرت هذه التقنية قواعد اللعبة.

ما هي نماذج الانتشار؟
لفهم نماذج الانتشار، دعونا نتخيل مثالاً بسيطاً من حياتنا اليومية. تخيل تمثالاً رخامياً تم تحطيمه حتى صار غباراً؛ التحدي هو إعادة بنائه من ذلك الغبار. نماذج الانتشار تفعل شيئاً مشابهاً؛ فهي نماذج توليدية مصممة لإنشاء بيانات جديدة صور، أصوات عبر مفهومين متضادين: إضافة الضجيج وإزالة الضجيج.

 1. العملية الأمامية إضافة الضجيج أو التدمير المنظم
تبدأ العملية بصورة واضحة تماماً، ولنقل صورة لقطة. يقوم النموذج بإضافة كميات صغيرة جداً من الضجيج Noise - وهو عبارة عن نقاط عشوائية تشبه وشوشة التلفاز القديم - إلى الصورة تدريجياً. في كل خطوة، تصبح الصورة أقل وضوحاً، حتى نصل في النهاية إلى مرحلة تختفي فيها معالم القطة تماماً، ولا يتبقى سوى ضجيج عشوائي خالص لا معنى له. قد تتساءل: لماذا نفعل ذلك؟ لماذا ندمر الصورة؟ الإجابة تكمن في أننا نريد تعليم الحاسوب كيفية التدمير لكي يتعلم لاحقاً كيفية الإصلاح.

2. العملية العكسية إزالة الضجيج أو السحر التوليدي
هنا يبدأ الذكاء الاصطناعي عمله الحقيقي. خلال مرحلة التدريب، يراقب النموذج كل خطوة من خطوات التدمير، ويتعلم كيف يتوقع مقدار الضجيج الذي تمت إضافته في كل مرحلة. وبمجرد أن يتقن ذلك، نطلب منه القيام بالعكس: إليك هذه الكومة من الضجيج العشوائي، هل يمكنك إزالة القليل من الغموض عنها لتقترب أكثر من صورة حقيقية؟ يقوم النموذج بإزالة الضجيج خطوة بخطوة، وفي كل مرة يخمن الشكل الذي يجب أن تكون عليه الصورة. وبمرور الوقت، تبدأ الملامح في الظهور من وسط الضباب، حتى تكتمل الصورة النهائية. هذا هو السبب في أننا نرى الصور في برامج مثل ميدجورني تبدأ كبقع لونية مشوشة ثم تصبح حادة وواضحة تدريجياً أمام أعيننا.

لماذا تفوقت نماذج الانتشار على سابقاتها؟
قبل ظهور نماذج الانتشار، كان هناك ملك متوج لعالم توليد الصور يُعرف باسم شبكات التنافس الابتكارية GANs. كانت هذه الشبكات تعمل كفريق من شخصين: أحدهما يحاول تزييف لوحة المولد، والآخر يحاول كشف التزييف المميز. رغم نجاحها، كانت لهذه التقنية عيوب كبيرة:

·  صعوبة التدريب: كانت تشبه ميزاناً حساساً جداً؛ إذا تفوق المولد على المميز أو العكس، ينهار النظام بالكامل.

·  نقص التنوع: كانت تميل لإنتاج صور متشابهة جداً وتتجاهل الكثير من الاحتمالات.

هنا جاءت نماذج الانتشار لتقدم الحل الجذري. تاريخياً، بدأت المحاولات مع المشفرات التلقائية المتغيرة VAEs التي كانت جيدة في فهم هيكل البيانات لكن صورها كانت تفتقر للوضوح ضبابية. ثم جاءت شبكات GANs لتقدم صوراً حادة لكنها كانت متقلبة المزاج وصعبة المراس في التدريب. نماذج الانتشار جمعت بين أفضل ما في العالمين؛ فهي تقدم دقة بصرية مذهلة تفوق GANs، وتتمتع باستقرار في التدريب يتفوق على VAEs. الأهم من ذلك، أنها لا تحاول تقليد الصور فحسب، بل هي تفهم التوزيع الإحصائي العميق للبيانات. هذا يعني أنها عندما ترسم شجرة، فهي لا تضع بقعاً خضراء تشبه ما رأته سابقاً، بل هي تبني مفهوم الشجرية من الصفر، مما يمنحها قدرة هائلة على الابتكار والتنوع. لقد حولت عملية التوليد من معركة تنافسية محفوفة بالمخاطر إلى رحلة تعلم وتطوير هادئة ومنظمة، حيث كل خطوة من خطوات إزالة الضجيج هي تحسين مدروس نحو الهدف النهائي.

كيف يفهم الذكاء الاصطناعي ما نطلبه منه؟
قد يتساءل البعض: حسناً، النموذج يتعلم تحويل الضجيج إلى صورة، ولكن كيف يعرف أنه يجب أن يرسم قطة وليس كلباً عندما أطلب منه ذلك؟ السر يكمن في عملية تسمى التوجيه Guidance، وهي الجسر الذي يربط بين عالم الكلمات وعالم البكسلات. أثناء تدريب النموذج، لا يتم إلقاء الصور إليه بشكل عشوائي، بل يتم إرفاق كل صورة بوصف نصي دقيق Metadata. هنا يتعلم النموذج لغة بصرية فريدة؛ فهو يدرك أن كلمة غروب ترتبط دائماً بتدرجات اللون البرتقالي والأرجواني، وأن كلمة انعكاس تتطلب تكرار الأنماط العلوية في الجزء السفلي من الصورة كما في الماء. بفضل تقنية ثورية تسمى كليب CLIP، التي طورتها شركة OpenAI، أصبح لدى النموذج مترجم فوري. تعمل هذه التقنية كحلقة وصل تفهم المعنى السياقي؛ فهي لا تعرف فقط أن الكلب هو حيوان، بل تفهم الفرق بين كلب يجري وكلب نائم. عندما يكتب المستخدم أمراً نصياً Prompt، يقوم نظام التوجيه بالهمس في أذن نموذج الانتشار خلال كل خطوة من خطوات إزالة الضجيج: اجعل هذه البقعة تبدو أكثر شبهاً بخوذة رائد فضاء، أضف بعض اللمعان هنا لتبدو كأنها في الفضاء. هذا التفاعل اللحظي والمستمر هو ما يسمح للنموذج بتحويل جملة مكتوبة إلى واقع بصري ملموس بدقة مدهشة. وهنا نصل إلى قلب المحرك التقني، وهو ما يسمى بشبكة يو-نت U-Net. تخيلها كعدسة مكبرة ذكية تمر فوق الصورة في كل مرحلة. وظيفتها هي البحث عن الضجيج وتحديده بدقة لإزالته. هي تسمى U-Net لأن هيكلها يشبه حرف U؛ حيث تبدأ بضغط الصورة لفهم سياقها العام مثل: أين توجد السماء؟ وأين توجد الأرض؟، ثم تعيد تكبيرها لتهتم بالتفاصيل الدقيقة مثل: ملمس العشب أو لمعان العين. هذا التوازن بين الرؤية الشاملة والدقة المتناهية هو ما يجعل النتائج النهائية تبدو واقعية إلى هذا الحد.

تطبيقات تتجاوز مجرد الصور الجميلة
على الرغم من أن شهرة نماذج الانتشار ارتبطت بالصور الفنية، إلا أن إمكانياتها تمتد إلى مجالات أوسع بكثير مما نتخيل:

·  صناعة السينما والفيديو
أدوات مثل سورا Sora من OpenAI تعتمد على مبادئ مشابهة لتوليد مقاطع فيديو كاملة وواقعية من مجرد نص. هذا سيغير طريقة صناعة الأفلام، حيث يمكن للمخرجين إنشاء مشاهد معقدة أو تجريب أفكار بصرية بتكلفة زهيدة وسرعة فائقة.

·  الطب واكتشاف الأدوية
قد يبدو هذا غريباً، ولكن يمكن اعتبار بنية البروتينات أو الجزيئات الكيميائية كنوع من الصور ثلاثية الأبعاد. يستخدم العلماء نماذج الانتشار لتوليد تصميمات جديدة لبروتينات لم تكن موجودة في الطبيعة، مما يساعد في ابتكار أدوية لعلاجات أمراض مستعصية.

·  تحسين جودة الصور القديمة
يمكن لهذه النماذج أن تأخذ صوراً قديمة مشوشة أو منخفضة الدقة، وتعتبرها ضجيجاً جزئياً، ثم تقوم بإعادة بنائها بدقة عالية جداً Super Resolution، مما يعيد الحياة للذكريات القديمة أو الصور التاريخية.

·  التنبؤ بالطقس والمناخ
تُستخدم نماذج الانتشار لإنشاء محاكاة دقيقة جداً لحركة الرياح والسحب، مما يساعد خبراء الأرصاد في تقديم توقعات أكثر دقة للظواهر الجوية المتطرفة.

التحديات والأخلاقيات
كما هو الحال مع كل تقنية ثورية، تثير نماذج الانتشار تساؤلات صعبة ومهمة:

·  حقوق الملكية الفكرية والعدالة الفنية: هذه هي القضية الأكثر سخونة حالياً. بما أن هذه النماذج تغذت على ملايين الصور المتاحة على الإنترنت، والتي تعود ملكيتها لفنانين ومصورين بذلوا سنوات في تطوير أساليبهم، يبرز سؤال أخلاقي وقانوني: هل من حق شركات الذكاء الاصطناعي استخدام هذا الإنتاج البشري دون إذن أو تعويض؟ ظهرت مؤخراً مبادرات مثل Nightshade التي تسمح للفنانين بـ تسميم بيانات صورهم رقمياً لجعلها غير قابلة للتعلم من قبل الآلة، مما يعكس حجم الصراع بين الإبداع البشري والنمو التقني.

·  معضلة الحقيقة والتزييف العميق Deepfakes: مع وصول نماذج الانتشار إلى مستوى الواقعية الفائقة، أصبح من الصعب جداً على العين غير المدربة التمييز بين صورة حقيقية وأخرى مولدة. هذا يفتح باباً واسعاً لمخاطر التضليل السياسي، وتزييف الحقائق التاريخية، والابتزاز الشخصي. نحن الآن بحاجة ماسة إلى علامات مائية رقمية Digital Watermarks غير قابلة للتزوير تُلحق بكل ما تنتجه الآلة لضمان الشفافية.

·  تحيز البيانات والنمطية: الذكاء الاصطناعي هو مرآة لما تدرب عليه. إذا كانت معظم صور الأطباء في بيانات التدريب لرجال، فإن النموذج سيميل دائماً لتوليد صور أطباء رجال، متجاهلاً الواقع المتنوع. مكافحة هذه التحيزات تتطلب جهداً واعيًا من المطورين لضمان أن تكون هذه النماذج عادلة وتمثل جميع الأطياف البشرية.

·  مستقبل الوظائف الإبداعية: القلق من استبدال البشر حقيقي ومبرر. لكن التاريخ يعلمنا أن الأدوات الجديدة غالباً ما تغير طبيعة العمل بدلاً من إلغائه. تماماً كما لم تقتل الكاميرا فن الرسم، بل دفعته نحو التجريد والمدارس الحديثة، فإن نماذج الانتشار قد تدفع الفنانين البشر نحو مستويات جديدة من الإبداع المفاهيمي، حيث تصبح الفكرة والرؤية أهم من مجرد مهارة التنفيذ اليدوي. سيتعلم المصممون كيف يصبحون مخرجين فنيين يوجهون الآلة، بدلاً من قضاء ساعات في مهام تكرارية مملة.

نماذج الانتشار ليست مجرد صرعة تقنية عابرة، بل هي إعادة تعريف لكيفية تعاملنا مع البيانات والإبداع. لقد انتقلنا من مرحلة كان فيها الحاسوب مجرد آلة تنفذ الأوامر، إلى مرحلة أصبح فيها شريكاً قادراً على التخيل والابتكار من وسط الفوضى. نحن لا نزال في العصر الحجري لهذه التقنية. التطور يمتد الآن للواقع الافتراضي لبناء عوالم رقمية بالوصف الصوتي. مستقبلاً، قد تصمم هذه النماذج مدناً كاملة أو تبتكر مواد بناء جديدة. إن القدرة على توليد الحلول من وسط ضجيج الاحتمالات هي القوة التي ستقود الابتكار القادم. في النهاية، يظل الذكاء الاصطناعي مرآة لنا؛ هو يتعلم من بياناتنا، ويحاكي إبداعنا، والسر الحقيقي ليس في الخوارزمية نفسها، بل في الخيال البشري الذي يوجهها ويطرح عليها الأسئلة الصحيحة. لذا، في المرة القادمة التي ترى فيها صورة مذهلة مولدة بالذكاء الاصطناعي، تذكر أنها بدأت كفوضى من الضجيج، وبقليل من العلم والكثير من الخيال، تحولت إلى فن.