Nihat Adar Üye : Prof.Dr

Bu çalışmada, insan vücut parçalarının açısal özelliklerine göre bir pozerden geçerek poz dizileri elde etmek ve bu diziler üzerinden el sallama, yürüme ve koşma hareketlerini tanımak için kullanılan bir örüntü algılama prosedürü sunulmaktadır. Bu bölümde görüntü etiketleme, açısal özellik vektörü çıkarımı ve kümelemede kullanılan k-ortalamalar algoritması üzerinde durulacak ve bu işlemler için geliştirilen yazılımlar akış şemaları üzerinden incelenecektir. Bu bölümde konum dizilerinin nasıl elde edileceği ve bu dizilerin eğitim ve test setlerinde nasıl kullanılacağı açıklanacaktır.

Test sonuçlarında kullanılan sınıflandırmalar, performans oranlarının karşılaştırılmasında kullanılan metrikler ve bu oranların karşılaştırılması 4. Bölümde açıklanmıştır.

Hareket Analizi Tabanlı Görü Uygulamaları

Akıllı güvenlik sistemleri: Akıllı kelimesi burada uygulamanın hareketi ne kadar iyi algıladığını ve yanlış alarmlara karşı ne kadar hassas olduğunu göstermek için kullanılmıştır. Günümüzde güvenlik sistemleri sadece insan varlığını tespit etmekle kalmıyor, aynı zamanda yüz tanıma, retina tarama, parmak izi tanıma gibi uygulamaları da yaygın olarak kullanıyor. Aynı zamanda gerçek zamanlı işaret dili algılama uygulamaları insan-bilgisayar arayüzünün bir örneğidir.

Pentland çalışmasında, Amerikan İşaret Dili'nin sürekli cümleler düzeyinde tespiti için masaüstü kamera ve kameraya monte kamera kullanılmış ve karşıdaki kişinin kol hareketlerini gerçek zamanlı takip ederek sırasıyla %92 ve %98 başarı elde etmiştir. (Pentland ve diğerleri, 1998).

Çizelge 1: Bilgisayarlı görü işleme uygulamaları ve alanları (Gavrila., 1999)

Đnsan Hareketinin Analizi

Đnsan vücut yapısının analizi

Model tabanlı yaklaşımlarda bir nesnenin hareketi analiz edilirken o nesnenin önceden bilinen veya tasarlanmış bir şekil yapısı kullanılır. Ancak bu yaklaşımda hareketi analiz edilecek nesnenin şekli hakkında hiçbir ön bilgi veya model bilinmemektedir. Bu gibi durumlarda ardışık görüntülerde özellik eşleştirmesi, aranan özelliğe bağlıdır.

Model tabanlı ve model tabanlı olmayan yaklaşım arasındaki en belirgin fark, ardışık görüntüler arasındaki özellikler arasındaki tutarlılıktır.

Şekil 1-6: Model yapısına göre insan vücut parçaları

Poz Bilgisinin Çıkarımı

Vücut planları

Vücut planları insan ve hayvan vücutlarını dairesel veya silindirik şekiller halinde modeller (bkz. Şekil 1-7). Bu modeli kullanan arama yöntemleri aynı zamanda bir görüntüde insan veya hayvan şekli ararken çok düzeyli bir arama gerçekleştirir. Bulunan gövde planları daha sonra eğitim ve test sınıflandırıcıları kullanılarak farklı görüntüler üzerinde test edilir.

Resimsel yapılar

Ronfard'ın çalışmasında ilk aşamada 100 adet görüntü manuel olarak etiketlenmiş ve Tablo 2'de belirtilen parçalar bulunarak sınıflandırıcıların eğitiminde kullanılmıştır. Söz konusu çalışmanın ilk aşamasında parça dedektörlerinin bulunması için el işaretleme yöntemi kullanılmış ve elde edilen özellik vektörleri sınıflandırıcının eğitiminde kullanılmıştır. Bu sayede farklı özellik vektörleri ile çalışan diğer çalışmalara da bir arayüz sağlanmaktadır.

Bizim çalışmamızda kapalı olan kısımlar hiç işaretlenmemiştir ancak işaretlenmediği uygulama sırasında kaydedilmiştir.

Şekil 1-8: Đnsan yüzü için geliştirilen resimsel yapılar modeli

Hareketin Algılanması

BoW modeli

Poz dizileri ile hareket arasındaki ilişkinin benzerliği hece-kelime-cümle ilişkisinden hareketle ortaya çıkarılmıştır. Bu noktadan hareketle bir hareketin görsellerindeki duruşlar çıkarıldıktan sonra bunların birbiri ardına sıralanması hareketin kendisini tanımlar.

BoW modelinin görüntü algılamada uygulanışı

Nitelik tanımlarının çıkarılması: Parçalar çıkarıldıktan sonra her parçanın sayısal vektör olarak ifade edilmesi işlemidir. Öznitelik kimlikleri, tespit edilen her öznitelik için döndürme, boyut vb. değerleri ifade edebilen vektör dizileri olmalıdır. Bu yöntem, birbirine benzeyen nitelik kimliklerini aynı etiketli kümelere yerleştirir ve bir kod kitabı oluşturur.

Kardelen ve Duygulu yaptıkları çalışmada test setindeki her hareketin sırasının Αi ve poz kelimelerinin sıralı dizisinden oluştuğunu ileri sürmüşlerdir. Poz kelimelerini bulmak için resimdeki tüm pozların fij∈Ai, j=1..|A|, HOG (Yönlendirilmiş Gradyanların Histogramı) özellikleri bulunmuştur. Daha sonra her hareket kendisini oluşturan poz kelimelerinin sıralı dizilişiyle ifade edildi ve buna poz cümlesi adı verildi.

Son bölümde ise torba cümleler dize karşılaştırma yöntemleri kullanılarak birbirleriyle karşılaştırılmıştır (Kardelen ve Duygulu., 2008). Kardelen ve Duygulu'nun çalışmalarında izledikleri yöntem incelendiğinde poz kullanımı açısından çalışmamızla benzerlik göstermektedir. Görüntü işleme yöntemleriyle özellik vektörlerinin çıkarılması çalışmamızda soyutlanmış ancak söz konusu çalışmada HOG yöntemi kullanılmıştır.

Önerilen Yöntem

Çalışmada vücut parçalarının vücuda göre açılarının özellik vektörleri olarak kullanılması, farklı vücut boyutları ve yönelimlerinin olumsuz etkilerini en aza indirmektedir. Özellik vektörleri olarak açısal özellikleri kullanmamızın nedeni, ölçekleme ve yönlendirme gibi yerel etkilerden kaçınmaktır.

Şekil 1-14: Çalışmaya ait genel akış diyagramı

Kullanılan Veri Tabanları

ESOGU-IP LAB veritabanı

NADA veritabanı

Görüntü veritabanlarından derlenerek kütüphane oluşturulması

Görüntü veritabanların kullanım dağılımı

Açısal özelliklerden poz kelimeleri kütüphanesi oluşturulması

Bu pozisyon etiketleri, hareketi yapan kişilere göre hareketin başından sonuna kadar sıralandıktan sonra pozisyon dizilerinden oluşan bir kütüphane elde edilecektir. Kütüphaneden farklı çalışmalarda yararlanmak için açısal özelliklerin ve aydınlatma aşamalarının çıkarılmasının manuel olarak veya başka yöntemlerle tekrarlanması gerekir. Daha önce de açıklandığı gibi açısal fonksiyonları kullanmanın en önemli avantajı farklı gövde boyutları ve parça oryantasyonlarının olumsuz etkilerinden kaçınmaktır.

Kullanılan insan vücut modeli

Çalışmada görüntülerde hareket algılama özelliği olarak vücut parçalarının vücutla olan göreceli açıları kullanılmıştır. İşaretleme sonunda her parçanın merkezi ile gövde arasındaki açı ve yatay ekseni bulunacak ve aşağıdaki şekil işaretlenecektir (bkz. Şekil 3-1(a)). Koşma ve yürüme sırasında kollar ve bacaklar örtülüyken figürün ortası arkadan görülemediği için bu hareketlerde sadece ön kollar ve bacaklar işaretlenir (bkz. Şekil 3-1(b)).

Bu, el sallama, koşma ve yürüme gibi karakteristik vektörlerin uzunluğunun değişmesine neden oldu. Vücut ve parçalar arasındaki açılar için sallanma için Fe vektörünün ve koşma ve yürüme hareketi için Fkr vektörünün açısal özellikleri aşağıdaki gibi olsun.

Elle işaretleme

Dalga hareketinde bacaklar hiç hareket etmediği için ilk görüntü puanlandıktan sonra diğer tüm dalga hareketlerinde bacak kısımlarına otomatik olarak aynı merkez noktalar atanır. Açıklamada bir hata olması durumunda, gerçek zamanlı veya geriye dönük olarak şekil üzerinde düzeltmeler yapmak mümkündür. Bu rutin, görüntü üzerinde görsel olarak seçilen bir koordinatta istenen renkte bir nokta çizer ve çağrıldığı uygulamaya bir işaretçi döndürür.

İşaretleme modunda, her seferinde baştan işaretlenerek hata oranını artırmayacak şekilde o an yüklü olan görüntünün önceki verileri kontrol edilir.

Açıların hesaplanması

K-means ile poz kümelerinin oluşturulması

K-means algoritması adımları
Pozlandırıcı için küme sayısının çıkarılışı
Test gruplarının pozlandırıcıdan geçirilmesi
Poz dizilimlerinin oluşturulması

Hareketler için küme sayısı çıkartılırken tüm pozlar incelendi ve hareket türüne göre kaç farklı poz olabileceği belirlendi. Buna göre el fanının hareketinin hareket aralığı yan kapalı konumdan ellerin üstte yakınlaşmasına kadardır. Koşma ve yürüme hareketlerinde hareket aralığı, kişinin görüntü çerçevesine tam olarak girdiği ve kol veya ayağının çerçeve kenarına ilk kez dokunduğu alan olarak belirlendi.

Pozlama işlemi tamamlandığında görsel doğruluk testi yapıldı ve bir öğenin kümelerine düşen görüntüler varsa, bunlar diğer benzer görüntüleri içeren kümelere aktarıldı. Aynı zamanda ilgisiz görseller aynı kümeye yerleştirilmişse benzer görsellerle manuel olarak kümelenmiştir. El sallamaların neredeyse tamamı kümelere sığsa da, yürüme ve koşma hareketleriyle ilgisi olmayan görüntüler bazen aynı kümelere yerleştiriliyordu.

Yanlış yapılan pozların bazılarında kol ve bacak işaretlerinin sırtta yanlış işaretlendiği, bazılarında ise işaretlerin orta noktalardan uzağa yerleştirildiği fark edildi. Ancak bu görüntüler için yukarıda anlatılan k-ortalama kümelemesi yerine, eğitim verileri üzerinde kümeleme işleminin sonucu olan küme merkezleri verilmektedir. Test setleri poz setlerine yerleştirildiğinde, her açısal özellik vektörü ile poz setinin merkezi arasındaki Öklid mesafesi ölçülür.

Bu işlem her hareket grubu ve her kişi için tekrarlandığında poz dizileri elde edilir. Bu durumlarda torba sıra vektörü daha küçük olan kişiler için torba sıra vektörlerinin son kısmına 0 veya tekrarlanan torba dizisi eklenerek yani en uzun vektörün uzunluğuna eşitlenir.

Şekil 3-6: K-means ilk atanan kümeye göre farklı sonuçlar verir

Destek Vektör Makineleri

Bu sınıflandırıcıların bir kısmı ikili sınıflandırıcı, ikili sınıflandırıcı olarak kullanılırken, bir kısmı da çoklu sınıflandırıcı, çok sınıflı sınıflandırıcı olarak kullanılmaktadır. Çalışmanın hareket tanıma kısmında Destek Vektör Makineleri ve Yapay Sinir Ağları olmak üzere 2 farklı sınıflandırıcı kullanılmıştır. Ayırma düzlemi w • x + b = 0 çizgisiyle ifade edilebilir; burada x değişkeni, veri kümesindeki vektörleri, göreceli konum (ofset) değeri b'yi ve ayırma düzleminin normal vektörünü w temsil eder.

Burada en yakın eğitim örneğine olan uzaklık değeri (marj) 2 / ||w|| en büyük düzleme arayüz denir. Belirli (eğitilmiş) bir arayüze sahip bir destek vektör makinesi için, bazı yeni verilerin sınıflandırılması (yi bulma) bu denklemle gerçekleştirilebilir (Muller, vd., 2001). i b) x sgn(w. Doğrusal destek vektör makineleri için, en iyi arayüzü bulmak amacıyla en yakın eğitim örneğine olan mesafe dikkate alınır.

Doğrusal olarak sınıflandırılamayan veriler için, verilerin doğrusal olarak sınıflandırılabileceği ve iç çarpımın belirlenebileceği başka bir uzaya dönüştürülmesi için çeşitli çekirdek fonksiyonları tanımlanır.

Şekil 4-1: Ayırıcı düzlem ve destek vektörleri

Yapay Sinir Ağları

Bu işlem birimi diğer nöronlardan sinyaller alır; bunları birleştirir, dönüştürür ve sayısal bir sonuç üretir. En basit haliyle, bir işlem birimi, bir girdiyi bir dizi ağırlıkla tartar, onu doğrusal olmayan bir şekilde dönüştürür ve bir çıktı değeri üretir. Nöral hesaplamanın gücü, genel işlem yükünü paylaşan işlem birimlerinin sıkı bağlantısından gelir.

Daha açık ifade etmek gerekirse fonksiyonun temel yapısı ağırlıkların büyüklüğüne ve işleme elemanlarının çalışmasına göre belirlenir.

Örüntü Algılamada Performans Ölçüm Kriterleri

Örneğin, kanser tümörü taramasında kullanılan bir MRI makinesinde yanlış negatif okumalardan kaçınmak hayati öneme sahiptir, ancak çok az sayıda yanlış pozitif, personel tarafından sıralı izlemeyle tolere edilebilir (Veropoulos, ve diğerleri, 1999). Yukarıda açıklandığı gibi yanlış negatif, yanlış pozitif, doğru pozitif ve yanlış pozitif değerlerinin dağılımı, sınıflandırıcının performansını değerlendirirken oldukça önemlidir. Tablo 9'daki gösterimi kullanarak pozitif tahminleri TP + FN, yanlış tahminleri TN + FP ve veri setindeki tüm örneği TP + FN + FN + TN olarak göstermek mümkündür.

Bu çalışmada sınıflandırıcıların performans yüzdeleri burada verilen doğruluk, duyarlılık ve özgüllük yüzdeleri şeklinde verilecektir.

Çizelge 9: Hata matrisi gösterimi Hata Matrisi

Eğitim ve Test Verileri

Poz Dizilimlerinin Eğitimi ve Testi

Uygulama ve Test Detayları

Test başarım oranları

Birleşim yeri yerleştirme ve tekrarlı yerleştirme yöntemleri için her sınıflandırıcıda testlerin başarı oranları ayrı ayrı test edilmiş ve sonuçlar kaydedilmiştir. T3 veri setindeki tüm hareketlerin doğru algılanması, bu veri setindeki poz dizilerinin sayısının az olmasından kaynaklanmaktadır. Poz ekleme yönteminde koşu hareketinin yürüme hareketi kadar etkilenmemesi bu hareketin poz sırasının daha kısa olmasıdır.

Bu da tamamen normaldir çünkü koşmak daha hızlı bir harekettir ve daha az atış ve pozla sonuçlanır. Burada, NN tarafından tahmin edilen sınıfları etiketlemek için kullanılan karşılaştırıcının mevcut eşiğini değiştirerek farklılıkları azaltmak mümkündür. Yapılan testlerde, sallanma hareketinin her zaman tam olarak algılanması ve yürüme ve koşma hareketlerinde yüksek performans görülmesi, yöntemin uygulanması açısından özellikle memnuniyet vericidir.

Giriş vektörlerine farklı poz dizisi uzunluklarına göre ortak veya tekrarlanan pozların eklenmesinin sınıflandırıcının performans ölçümleri üzerindeki etkisi incelenmiş ve ortak pozların eklenmesinin rastgele pozların eklenmesinden daha iyi sonuçlar verdiği gözlemlenmiştir. boyut. Karıştırma ve ters çevirme yoluyla atış dizilerinin test edilmesinden elde edilen tespitin azalması, dizilerin sırasının önemli olduğunu gösterir. Böyle bir çalışma ile oluşturulan atış dizileri kütüphanesinin birleştirilmesiyle çalışan atış dizileri hareket algılama uygulamaları alanında daha verimli hale gelecektir.