Apple bugün yapay zeka oyununun en iyi oyuncularından biri değil, ancak şirketin görüntü düzenlemeye yönelik yeni açık kaynaklı yapay zeka modeli, alana ne kadar katkıda bulunabileceğini gösteriyor. Görüntüleri işlerken metin tabanlı komutları yorumlamak için çok modlu büyük dil modellerini (MLLM’ler) kullanan MLLM Kılavuzlu Görüntü Düzenleme (MGIE) adı verilen modeldir. Başka bir deyişle, araç, kullanıcının yazdığı metne göre fotoğrafları düzenleme yeteneğine sahiptir.
Apple MGIE teknolojisini üniversiteden araştırmacılarla geliştirdi
Şirket, MGIE’yi Santa Barbara’daki Kaliforniya Üniversitesi’nden araştırmacılarla geliştirdi. MLLM’ler, basit veya belirsiz metin istemlerini, fotoğraf düzenleyicinin izleyebileceği daha ayrıntılı ve net talimatlara dönüştürme gücüne sahiptir. Örneğin, bir kullanıcı biberli pizzanın fotoğrafını daha sağlıklı hale getirmek için düzenlemek isterse, MLLM’ler bunu sebze malzemeleri ekleyin olarak yorumlayabilir ve fotoğrafı bu şekilde düzenleyebilir.
MGIE, görüntülerde büyük değişiklikler yapmanın yanı sıra, metin istemleri yoluyla fotoğrafları kırpabilir, yeniden boyutlandırabilir ve döndürebilir, ayrıca parlaklığını, kontrastını ve renk dengesini iyileştirebilir. Ayrıca bir fotoğrafın belirli alanlarını düzenleyebilir ve örneğin fotoğraftaki bir kişinin saçını, gözlerini ve kıyafetlerini değiştirebilir veya arka plandaki öğeleri kaldırabilir.