Microsoft VALL-E 2 korkutuyor
Daha önce de metinden konuşmaya (text-to-speech – TTS) yapay zeka araçları görmüştük ancak VALL-E 2, ilk defa karşılaştırma ölçütlerinde insanlarla aynı seviyeye ulaşan türünün tek örneği oluyor. Bu da modelin çok gerçekçi ses taklitleri yapabildiği anlamına geliyor. Microsoft’un VALL-E 2’yi halka açık bir şekilde yayınlamama nedeni de aslında bu. Aşağıdaki bağlantıdan bir örneğe bakabilirsiniz. Ayrıca Microsoft’un kendi sitesindeki örneklere de bakmanızı tavsiye ederiz.
VALL-E 2 ile tek bir ses dosyasıyla yapılan ilk denemede modelin insan seviyesinde performans gösterdiği belirtiliyor. Bununla birlikte VALL-E 2, karmaşıklığı veya tekrar eden ifadeleri nedeniyle geleneksel olarak zor olan cümlelerde bile konuşma sentezini bozmuyor. VALL-E 2 esasında ilk modelin üzerine inşa ediliyor ancak iki önemi geliştirmeyle destekleniyor: “Tekrara Duyarlı Örnekleme” ve “Gruplandırılmış Kod Modelleme“.
LibriSpeech ve VCTK veri kümelerini kullanarak test edilen VALL-E 2 için araştırmacılar, konuşma sağlamlığı, doğallık ve konuşma benzerliği açısından önceki TTS sistemlerinin geride bırakıldığını söyledi.
Microsoft, sahip olduğu yeteneklere rağmen potansiyel kötüye kullanım riskleri nedeniyle VALL-E 2’yi halka sunmayacak. Ses klonlama ve deepfake teknolojisinin son derece erişilebilir olduğu düşünüldüğünde bu, yerinde bir karar. OpenAI gibi diğer yapay zeka şirketleri de kendi ses teknolojilerine benzer kısıtlamalar uyguluyor.