OpenAI, yapay zeka tabanlı ses teknolojilerinde önemli bir adım attı. Şirket, önceki nesil modellerine kıyasla daha doğal konuşma üretebilen modellerini duyurdu. Bu modeller, yapay zekaların insanlarla daha sezgisel ve akıcı bir şekilde iletişim kurmasını sağlayacak.
OpenAI, yeni nesil ses modellerini tanıttı
Şirketin tanıttığı yeni konuşma modeli gpt-4o-mini-tts, önceki konuşma sentezleme teknolojilerine göre daha gerçekçi ve esnek bir konuşma sunuyor. Geliştiriciler, bu modelin konuşma tarzını yönlendirebiliyor ve yapay zekanın belirli bir ton ya da karakterde konuşmasını sağlayabiliyor. Örneğin, modele “Ortaçağ şövalyesi gibi konuş” komutu verildiğinde, bu doğrultuda bir konuşma ortaya çıkıyor.
Diğer yandan OpenAI, Whisper modelinin yerini alacak gpt-4o-transcribe ve gpt-4o-mini-transcribe modellerini de duyurdu. Bu modeller, farklı aksanları ve konuşma biçimlerini daha iyi anlayabilmek için çeşitli ve yüksek kaliteli ses verileriyle eğitildi. Whisper’ın geçmişte yaşadığı hata oranlarının önemli ölçüde azaltıldığı belirtilirken, yeni sistemlerin transkripsiyon doğruluğunu artırdığı ifade ediliyor.
Fakat OpenAI, yeni transkripsiyon modellerini açık kaynak olarak yayımlamayacağını açıkladı. Şirket geçmişte Whisper’ı açık kaynak olarak sunmuştu, ancak bu kez modellerin daha karmaşık olduğunu belirterek yalnızca belirli kullanım senaryoları için açık kaynak çözümleri sunacağını duyurdu.
Yeni nesil ses modelleri, OpenAI’ın API platformu üzerinden tüm geliştiricilere açılmış durumda. Peki siz bu konu hakkında ne düşünüyorsunuz? Görüşlerinizi aşağıdaki yorumlar kısmından bizimle kolayca paylaşabilirsiniz.