نظام ذكاء اصطناعي جديد يترجم إشارات الدماغ إلى نص بدقة 97%

لقد اعتاد العالم فقط على قوة وتطور المساعدين الافتراضيين الذين صنعتهم شركات مثل أمازون وغوغل، والتي يمكنها فك شفرة خطابنا المنطوق بدقة غريبة مقارنة بما كانت التكنولوجيا قادرة عليه قبل بضع سنوات قصيرة فقط. ومع ذلك، في الحقيقة، قد تكون العلامة الفارقة الأكثر إثارة للإعجاب لم تظهر بعد، مما يجعل التعرف على الكلام يبدو وكأنه لعب أطفال تقريبًا: أنظمة الذكاء الاصطناعي (AI) التي يمكن أن تترجم نشاط دماغنا إلى نص كامل التكوين، دون سماع نطق كلمة واحدة.

إنه ليس مجرد خيال علمي. تطورت واجهات الدماغ-الماكنة على نحو سريع على مدى العقود الأخيرة، وانتقلت من النماذج الحيوانية إلى المشاركين من البشر. ليس فقط بدقة كبيرة حتى الآن، يشرح الباحثون من جامعة كاليفورنيا سان فرانسيسكو في دراسة جديدة.

لمعرفة ما إذا كان بإمكانهم تحسين ذلك، استخدم فريق بقيادة جراح الأعصاب إدوارد تشانغ من مختبر تشانغ التابع لـ UCSF طريقة جديدة لفك شفرة مخطط كهربية القلب: سجل النبضات الكهربائية التي تحدث أثناء النشاط القشري، والتي تم التقاطها بواسطة أقطاب كهربائية مزروعة في الدماغ.

في الدراسة، التي ارتدى فيها أربعة مرضى بالصرع الغرسات لرصد النوبات الناجمة عن حالتهم الطبية، أجرى فريق UCSF تجربة جانبية: حيث قام المشاركون بقراءة وتكرار عدد من الجمل المحددة بصوتٍ عال، بينما سجلت الأقطاب الكهربائية نشاط دماغهم أثناء التمرين.

ثم تم إدخال هذه البيانات في شبكة عصبية قامت بتحليل الأنماط في نشاط الدماغ المطابق لتوقيعات الكلام المعينة، مثل حروف العلة أو الحروف الساكنة أو حركات الفم، بناءً على التسجيلات الصوتية في التجربة.

بعد ذلك، قامت شبكة عصبية أخرى بفك تشفير هذه التصورات – التي تم جمعها من تكرار 30 إلى 50 جملة منطوقة – واستخدمتها لمحاولة التنبؤ بما يقال، استنادًا إلى التوقيعات القشرية للكلمات.

في أفضل حالاته، أنتج النظام معدل خطأ في الكلمات (WER) مع مشارك واحد بنسبة 3 بالمائة فقط في ترجمة إشارات الدماغ إلى نص – والتي قد تكون قريبة من قراءة عقل شخص ما بالذكاء الاصطناعي بدقة لم تسبق من قبل، على الأقل في هذه الشروط التجريبية المحددة.

في ورقتهم، قام الفريق بتفصيل العديد من الأمثلة على الجمل المرجعية التي قالها المشاركون، إلى جانب “التنبؤات” التي ولدتها الشبكة، وأحيانًا كانت خاطئة، ولكن ليس دائمًا.

عندما ظهرت الأخطاء، على الرغم من ذلك، تبدو مختلفة تمامًا عن نتائج الكلام التي تُساء فهمها بواسطة آذان بشرية (والتي يمكن أن تكون تأثيرًا جانبيًا لمجموعة البيانات المحدودة المقدمة إلى الذكاء الاصطناعي).

ومن الأمثلة على الأخطاء: “يستأجر المتحف الموسيقيين كل مساء”، والذي كان متوقعًا بأنه “يستأجر المتحف الموسيقيين كل صباح باهظ الثمن”؛ يكون “جزء من الكعكة أكل من قبل الكلب” تم توقعها بشكل خاطئ إلى “جزء من الكعكة هو بسكويت”؛ و “تينا تورنر مغنية بوب”، والتي أصبحت “هل تورنر مغنية بوب”.

في الحالات الأقل دقة، لا تحمل الأخطاء فعليًا أي علاقة لغويًا أو صوتيًا، مع ما قيل: “كانت ترتدي ملابس صوفية دافئة” تم توقعها على أنها “واحة سراب ”.

ومع ذلك، على الرغم من غرابة الأخطاء الواضحة، فقد يشكل النظام بشكل عام معيارًا جديدًا لفك تشفير نشاط الدماغ القائم على الذكاء الاصطناعي، وهو في أفضل حالاته، على قدم المساواة مع النسخ الاحترافي لخطاب الإنسان، والذي يحتوي على 5 بالمئة نسبة خطأ.

بالطبع، يجب على الناسخين المحترفين الذين يتعاملون مع متحدثين بشريين عاديين أن يتعاملوا مع المفردات التي تمتد إلى عشرات الآلاف من الكلمات. على النقيض من ذلك، كان على هذا النظام فقط أن يتعلم التوقيعات القشرية لحوالي 250 كلمة فريدة مستخدمة في مجموعة محدودة من الجمل القصيرة، لذا فهي ليست مقارنة عادلة حقًا.

في حين أن هناك العديد من العقبات التي يجب التغلب عليها، يقترح الفريق أن النظام قد يعمل يومًا ما كأساس لأطراف اصطناعية للمرضى الذين فقدوا القدرة على التحدث.

إذا كان مثل هذا الشيء ممكنًا، فقد يكون أمرًا كبيرًا – تزويد بعض الأشخاص بطريقة للتواصل مع العالم – وبطرق قد تتجاوز بكثير ما تظهره التجارب حتى الآن.

المصادر: 1