أخبار تقنيةإفهم الإنترنتذكاء إصطناعي AI

كيف أستعمل شات جي بي تي الصوتي

7 أسباب لإستخدام الوضع الصوتي في شات جي بي تي

في ظل التطورات السريعة في مجال الذكاء الاصطناعي، برزت أدوات المحادثة الذكية كواحدة من أبرز الابتكارات التي تُحدث تحولًا جذريًا في طريقة تفاعل الإنسان مع التقنية. ومن بين هذه الأدوات، يأتي “شات جي بي تي الصوتي” كحل مبتكر يدمج بين قوة الذكاء الاصطناعي والواجهة الصوتية الطبيعية، مما يتيح للمستخدمين إجراء محادثات تفاعلية ومباشرة باستخدام الصوت فقط. هذه التقنية لا تسهم فقط في تسهيل الوصول إلى المعلومات، بل تعزز أيضًا من تجارب المستخدمين في مجالات التعليم، الدعم الفني، والإنتاجية اليومية. في هذا المقال، نستعرض أبرز مزايا شات جي بي تي الصوتي، تطبيقاته المختلفة، والتحديات التي تواجه هذا النوع من التكنولوجيا.

لم أكن أتوقع الكثير في المرة الأولى التي ضغطت فيها على أيقونة الموجة الصوتية (wavelength icon) لتجربة الوضع الصوتي في شات جي بي تي (ChatGPT’s voice mode). كنت أعتقد أنه مجرد خدعة أخرى من خدع الذكاء الاصطناعي (AI gimmick). فبعد كل شيء، لقد شعرت بخيبة أمل من مساعدين صوتيين آخرين (voice assistants) من قبل. لكن هذا ليس سيري (Siri).

بصراحة، الوضع الصوتي (voice mode) يندمج بسلاسة مع تدفق المحادثة البشرية الحقيقية. يلتقط تَوقّفاتي، وأفكاري غير المكتملة، وحتى لحظات التردد القصيرة مثل “أمم”. باستخدام الوضع الصوتي، أستطيع أن أقرر ماذا أطبخ على العشاء وأنا عالق في الزحام، أو أراجع لغتي البولندية (Polish) وأنا أنظف شقتي. وكل ذلك من دون أن أقطع المحادثة أو ألمس لوحة المفاتيح (keyboard).

شات جي بي تي (ChatGPT) ليس روبوت الدردشة (chatbot) الوحيد الذي يدعم المكالمات بدون استخدام اليدين (hands-free calling). خدمة “جيميني لايف” من جوجل (Google’s Gemini Live) تقدم نفس الميزة – لكن يجب أن يكون عمرك أكثر من 18 سنة. أما “كلود” من شركة أنثروبيك (Anthropic’s Claude) فيوفر إصدارًا تجريبيًا (beta version) من الوضع الصوتي على تطبيقاته المحمولة (mobile apps)، مع نقاط تظهر على الشاشة أثناء الحديث. ومساعد “بيربليكسيتي” على أجهزة آيفون وأندرويد (Perplexity’s iOS and Android assistant) يجيب أيضًا عن الأسئلة الصوتية ويطلق تطبيقات مثل أوبر (Uber).

لكن، رغم أن الجميع يسعون لإتقان المحادثة اللحظية مع الذكاء الاصطناعي (real-time AI conversation)، يظل شات جي بي تي هو خياري الأول. أيًا كان روبوت الدردشة الذي تختاره، خذ لحظة راحة… وجرب الخيار الصوتي في شات جي بي تي. ستجده أكثر فائدة مما تتخيل.

ما هو الوضع الصوتي (Voice Mode)؟

المحادثة الصوتية (Voice Chat) – أو ما يُعرف بـ”المحادثات الصوتية” (Voice Conversations) – هي وضع شات جي بي تي (ChatGPT) الذي يُتيح التفاعل بدون استخدام اليدين (hands-free mode)، حيث يمكنك التحدث مباشرة إلى نموذج الذكاء الاصطناعي وسماع ردّه عليك، دون الحاجة إلى الكتابة.

في تطبيق الهاتف المحمول، وسطح المكتب، والنسخة الخاصة بالويب، ستجد أيقونة الصوت (voice icon) في الزاوية اليمنى السفلى من أي محادثة جارية. عند الضغط على الزر، يمكنك طرح سؤالك بصوت مسموع، وسيقوم شات جي بي تي بتحويله إلى نص (transcribe it)، ثم التفكير فيه (reason on it)، والإجابة عليه. وبمجرد انتهاء النموذج من الرد، يبدأ فورًا في الاستماع مجددًا، مما يخلق حوارًا طبيعيًا ومتبادلًا.

تذكير: يستخدم الوضع الصوتي نفس نموذج اللغة (language model) المستخدم في شات جي بي تي العادي، لذلك قد يختلق أحيانًا معلومات (hallucinate) أو يرتكب أخطاء. لذا من الأفضل دائمًا التحقق من أي معلومات مهمة.

تُقدّم شركة أوبن إيه آي (OpenAI) نسختين من المحادثات الصوتية:

  • الوضع الصوتي القياسي (Standard Voice): الخيار الافتراضي، خفيف وسهل، ومتاح مجانًا.
  • الوضع الصوتي المتقدم (Advanced Voice): متاح فقط للمستخدمين المشتركين بنسخة مدفوعة (paid users).

في الوضع القياسي، يتم أولاً تحويل صوتك إلى نص (speech-to-text) ثم معالجته باستخدام نموذج GPT-4o (أو GPT-4o mini)، وهذا يستغرق وقتًا أطول قليلًا حتى يصلك الرد.

أما في الوضع المتقدم، فيتم استخدام نماذج متعددة الوسائط بشكل أصلي (natively multimodal models). بمعنى أن النظام “يسمعك” وينتج الصوت مباشرة، مما يجعل المحادثة أكثر طبيعية وتحدث في الوقت الفعلي (real time). كما يمكنه التقاط إشارات غير لفظية، مثل سرعة كلامك أو نبرة صوتك (emotion in your voice)، والتفاعل معها. نعم، يبدو الأمر مدهشًا وربما غريبًا بعض الشيء.

7 أسباب تدفعك لاستخدام الوضع الصوتي في شات جي بي تي (ChatGPT’s Voice Mode)

1. محادثة حقيقية بكل معنى الكلمة
على عكس الكتابة، عندما أتحدث مع شات جي بي تي، لا أبحث عن الكلمة المناسبة، ولا أعود لتصحيح أي خطأ مطبعي.
أنا فقط أتحدث، كما أفعل مع صديق أو أحد أفراد العائلة، بترددي وتوقفاتي مثل “أمممم” وغيرها من اللحظات المحرجة.

الوضع الصوتي يتقبل كل أفكاري غير المكتملة، ويعطيني إجابة مفصلة أو يطرح سؤالًا يساعدني على التركيز فيما أحتاج إليه. هذا التفاعل السلس والمباشر يبدو طبيعيًا أكثر بكثير من الكتابة.

2. يمكنك استخدام شات جي بي تي دون استخدام اليدين (Hands-Free)
بالطبع، ما زلت بحاجة إلى فتح تطبيق شات جي بي تي والضغط على زر الوضع الصوتي (Voice Mode button) لبدء الاستخدام.
لكن بمجرد أن أبدأ، لا حاجة لاستخدام يدي لمتابعة الحديث مع روبوت الدردشة (AI chatbot).

يمكنني أن أكون عالقًا في الزحام وأفكر في الإجازة التي أود أخذها لاحقًا هذا العام. يمكنني أن أطرح أسئلة حول الرحلات الجوية، والفنادق، والمعالم السياحية، والمطاعم، وكل شيء آخر – دون لمس هاتفي.

كما أن المحادثة تُحفظ في التطبيق تلقائيًا، لذلك لست مضطرًا لتذكّر كل ما يخبرني به شات جي بي تي.

3. مفيد في تعلم لغة جديدة بفضل الترجمة الفورية (Real-Time Translation)
ذكرت سابقًا أنني أستخدم الوضع الصوتي لممارسة اللغات. أستطيع أن أطلب من شات جي بي تي الرد عليّ باللغة البولندية (Polish)، مع تقديم نصائح في النطق (pronunciation tips).

ببساطة، يمكنك أن تقول للوضع الصوتي: “هل يمكنك مساعدتي في ممارسة (اسم اللغة)؟” وسيرد عليك بعدة طرق مفيدة، مثل بدايات للمحادثة (conversation starters)، مفردات أساسية (basic vocabulary)، أو الأرقام (numbers).

والأجمل أنه يتذكر أين توقفت، مما يعني أنك تستطيع – بطريقة ما – أخذ دروس دون الحاجة إلى تطبيق مثل دولينجو (Duolingo).

4. الحصول على إجابات حول ما تراه في العالم الحقيقي
هذه الميزة متوفرة فقط في الوضع الصوتي المتقدم (Advanced Voice)، لكنها ربما أكثر ميزة أحببتها في هذا الوضع. بفضل القدرات متعددة الوسائط (multimodal superpowers)، يمكنني تشغيل كاميرا هاتفي أو التقاط صورة/فيديو وطلب المساعدة من شات جي بي تي.

على سبيل المثال، واجهت صعوبة في التعرف على لوحة فنية وجدتها في سوق للسلع المستعملة (flea market)، وكان البائع لا يعرف أصلها. فتحت الدردشة الصوتية، شغلت الكاميرا، وسألت الوضع الصوتي عن أصل اللوحة.

وخلال ثوانٍ، أخبرني باسم اللوحة، واسم الفنان، وتاريخ رسمها.

5. خيار ممتاز للأشخاص ذوي الإعاقات
بالنسبة للأشخاص الذين يعانون من ضعف البصر (visual impairments) أو عسر القراءة (dyslexia)، فإن التحدث أفضل بكثير من الكتابة.

الوضع الصوتي يمكنه تحويل كلامك إلى نص (transcribe your speech)، وقراءة الرد بصوت مسموع بالسرعة التي تختارها (يمكنك تعديل هذه السرعة من الإعدادات أو طلب من شات جي بي تي أن يتكلم ببطء).

كما أن خيار الاستخدام بدون يدين (hands-free option) مفيد للأشخاص الذين يعانون من صعوبات حركية (motor difficulties)، حيث يكفي الضغط مرة واحدة لبدء الحديث ومرة أخرى للإيقاف، دون الحاجة إلى الكتابة المطولة على لوحة المفاتيح (keyboard).

6. عصف ذهني أسرع (Faster Brainstorming)
أحيانًا تراودني أفكار كثيرة بسرعة تفوق قدرتي على الكتابة. وهنا يكون الوضع الصوتي في شات جي بي تي هو الحل المثالي لطرح الأفكار، سواء لإعادة ترتيب غرفة المعيشة (living room layout) أو لاختيار وجبات الأسبوع.

لأنني أفكر بصوت عالٍ، فإن أفكاري تتدفق بشكل أسهل وأسرع، خصوصًا مع ردود شات جي بي تي الفورية (instant follow-ups).

هذا يساعدني على الحفاظ على الزخم (momentum) حتى تتضح الفكرة التي تدور في ذهني بالكامل.

7. ملخصات فورية يمكنك الاستماع إليها (Instant Summaries You Can Listen To)
ضع ملف PDF من 90 صفحة في المحادثة – مثل سيناريو فيلم أو كتاب دراسي – واطلب من الذكاء الاصطناعي تلخيصه، وسيقوم بقراءته لك بصوت عالٍ وأنت تطوي الغسيل.

الأمر أشبه بتحويل أي مستند إلى بودكاست (Podcast)… عند الطلب. حتى صفحات ويكيبيديا (Wikipedia pages) أفعل بها نفس الشيء.

الوضع الصوتي ليس مجرد خدعة ذكية، بل هو طريقة أسرع وأكثر طبيعية لاستخدام شات جي بي تي. سواء كنت تترجم لافتات في الشارع، أو تُطلق أفكارًا إبداعية، أو تستمع إلى ملخص الأخبار، فإن التحدث مع شات جي بي تي لا يُشبه التفاعل مع روبوت دردشة، بل يُشبه الحديث مع خبير.

وبمجرد أن تعتاد على التفكير بصوت عالٍ، لن ترغب في العودة إلى لوحة المفاتيح أبدًا.

 

مقالات ذات صلة

زر الذهاب إلى الأعلى