الذكاء الاصطناعي يُطلق العنان للاحتيال الصوتي: مكالمة واحدة تكفي للخداع

كان الأمر يتطلب في السابق جهودًا هائلة لإنشاء نظام ذكاء اصطناعي يدير حوارًا هاتفيًا يشبه الطبيعي، حيث يجمع بين تقنيات التعرف على الصوت، ومعالجة اللغة الطبيعية، وتوليد الكلام، مع الاعتماد على برمجيات اتصال غير مستقرة تمامًا.
لكن اليوم، انقلبت المعادلة مع انتشار نماذج الذكاء الاصطناعي الصوتية التي تعمل في الوقت الفعلي، مثل واجهة برمجة التطبيقات RealTime API من OpenAI، التي أُطلقت في العام السابق. هذه الأداة تسمح ببناء نظام محادثة صوتية كامل في غضون دقائق قليلة فقط.
وباستخدام الأكواد المفتوحة المصدر، أصبح من الممكن ربط هذه النماذج مباشرة بخط هاتفي، مما يتيح للذكاء الاصطناعي “الاستماع” والتحليل والرد الفوري بصوت اصطناعي يتدفق بسلاسة، يتفاعل بذكاء، ويحاكي السلوكيات البشرية العفوية بدقة مذهلة.
ومع ذلك، أدى هذا الابتكار إلى فتح أبواب شكل خطير جديد من الجرائم الإلكترونية، وهو الاحتيال الصوتي المدعوم بالذكاء الاصطناعي، المعروف باسم “vishing” أو التصيد الصوتي بالذكاء الاصطناعي.
في العام الماضي، سُجلت حوادث مذهلة، مثل تلك التي تعرضت لها شركة أروب البريطانية للتكنولوجيا، حيث خُدعت وفقدت 25 مليون دولار بفضل تقنية “التزييف العميق للصوت”.
كما تعرضت شركة سى لهجوم مشابه، مما سمح للمهاجمين بسرقة بيانات من نظام إدارة علاقات العملاء السحابي.
لقد أزالت هذه النماذج الصوتية العوائق التقنية الأخيرة أمام الاحتيال الصوتي الفوري، حيث يمكن الآن إنشاء نظام يقلد موظفًا في قسم الموارد البشرية أو مخدوعًا مصرفيًا بمجرد كتابة تعليمات بسيطة.
ويبرز تفوقه في قدرته على التفكير والتكيف أثناء المحادثة، مما يجعله أكثر إقناعًا وفعالية في الخداع.
رغم أن التقنية تحمل تطبيقات إيجابية في قطاعات مثل الرعاية الصحية، ودعم العملاء، والتدريب اللغوي، إلا أن سهولة الوصول إليها حولتها إلى أداة متاحة للجميع. فبرنامج واحد يمكنه، نظريًا، إطلاق مئات الآلاف من المكالمات الاحتيالية يوميًا، مصممة خصيصًا لكل ضحية.
تزداد المخاطر مع انتشار منصات مثل ElevenLabs وCartesia، التي تتيح استنساخ الأصوات بدقة فائقة باستخدام عينات صوتية قصيرة فقط. أما بالنسبة للشخصيات البارزة، فيصبح جمع التسجيلات الصوتية لساعات كاملة أمرًا بسيطًا، مما يسمح بإنتاج نسخ صوتية واقعية دون إذن. ولهذا السبب، أصدر مكتب التحقيقات الفيدرالي الأمريكي (FBI) تحذيرًا بعد رصد هجمات استخدمت أصوات مسؤولين حكوميين مزيفة.
في ظل هذا التهديد المتزايد، تحولت أنظمة التحقق الصوتي القائمة على بصمة الصوت إلى نقاط ضعف أكبر من كونها دروع أمان، مما يفرض اللجوء إلى آليات التحقق متعددة العوامل، خاصة في الإجراءات الحساسة أو المعاملات المالية الكبيرة.
بالنسبة للأفراد العاديين، الرسالة واضحة: الصوت الذي تسمعُه عبر الهاتف لم يعد ضمانًا لهوية المتحدث. كما تعلّم العالم التعامل بحذر مع البريد الإلكتروني المشبوه، يجب اليوم التشكيك في الأصوات “البشرية” المقنعة. وقد يتطلب المستقبل إدخال “علامات مائية صوتية” أو “توقيعات إلكترونية” للتحقق من أصالة المحادثات.



