눈맞춤은 인간이 사용하는 가장 기본적인 사회적 의사소통 수단 중 하나입니다. 눈맞춤의 정량화는 사회적 역할 및 의사소통 기술의 분석 및 임상 검사의 일부로서 가치가 있습니다. 피사체의 시선 방향을 추정하는 것은 어려운 작업이지만 독특한 시점을 제공하는 웨어러블 POV 카메라로 시선을 효과적으로 포착할 수 있습니다. 이 관점에서 눈을 마주치는 순간은 손으로 코딩할 수 있지만 그러한 프로세스는 힘들고 주관적인 경향이 있습니다. 본 연구에서는 자기중심적 영상에서 자동으로 눈맞춤을 감지하는 심층신경망 모델을 개발합니다. 인간 전문가 수준의 정확도를 달성한 최초의 제품입니다. 우리는 다양한 인구 통계학적 배경을 가진 103명의 주제로 구성된 4,339,879개의 주석이 달린 이미지 데이터 세트를 사용하여 심층 컨볼루션 네트워크를 훈련합니다. 57명의 대상이 자폐 스펙트럼 장애 진단을 받았습니다. 네트워크는 18개의 검증 주제에 대해 0.936의 전체 정밀도와 0.943의 재현율을 달성했으며 성능은 평균 정밀도 0.918 및 0.946으로 훈련된 인간 코더 10명과 동등합니다. 우리의 방법은 임상의와 연구원을 위한 확장 가능하고 객관적이며 접근 가능한 도구 역할을 함으로써 시선 행동 분석에 중요한 역할을 할 것입니다.
눈맞춤은 사회적 의사소통에서 중요한 기능
응시 행동은 대면 사회적 상호 작용의 핵심 기반입니다. 다른 사람의 눈을 바라보는 행위인 아이 컨택은 발달 단계에서 가장 먼저 나타나는 사회적 기술 중 하나이며 연구에 따르면 유아는 태어날 때부터 얼굴을 보는 데 맞춰져 있습니다. 눈맞춤은 파트너 간의 관계 설정 및 인식, 관심 및 주의 표현을 포함하여 사회적 의사소통에서 여러 중요한 기능을 수행합니다. 또한, 중요한 발달 이정표인 다른 제스처와 함께 공동 주의의 핵심 구성 요소입니다. 비전형적인 눈맞춤 사용과 비정상적인 시선 패턴은 종종 자폐 스펙트럼 장애(ASD), 취약 증후군, ADHD, 윌리엄스 증후군, 사회 불안 행동 억제, 그리고 반항장애를 나타냅니다. 특히 눈맞춤 감소는 ASD의 DSM-5 진단기준에 포함되어 조기검진 및 치료의 초점이기도 합니다. 시선의 중요성으로 인해 시선 동작 측정을 자동화하기 위한 다양한 기술이 개발되었으며, 그 중 시선 추적이 가장 잘 알려진 예입니다. 기존의 모니터 기반 시선 추적은 대면 상호 작용 중에 사회적 시선의 우연한 현실 세계 측면을 측정하는 데 적합하지 않습니다. 웨어러블 아이트래커는 성인 및 유아의 시선 행동을 측정하는 데 사용할 수 있지만 비용이 많이 들고 대상자에게 부담이 됩니다. 시선 추적 하드웨어를 착용하고 보정해야 하는 필요성은 규정 준수, 주의 산만 또는 피로 문제가 있는 피험자에게 엄청난 도전이 될 수 있으며 이는 데이터의 수율과 품질 모두에 영향을 미칠 수 있습니다. 유아, 어린이 및 건강 문제가 있는 개인은 이러한 어려움을 겪을 가능성이 있는 주제 그룹의 예입니다. 또한 시선 추적기는 캡처된 비디오 녹화에서 시선 지점만 제공하므로 시선 대상을 식별하기 위해 비디오에 수동 관심 영역 주석을 수행해야 하므로 접근 방식의 확장성이 제한됩니다. 우리는 대면 상호 작용 중에 개인 간의 눈 접촉 순간을 자동으로 감지하는 새롭고 확장 가능하며 부담이 적은 접근 방식을 개척했습니다. 비디오 레코더 역할을 하는 브리지에 내장된 뷰(PoV) 카메라. 배치 덕분에 피사체는 대화형 파트너와 눈을 마주칠 때마다 카메라를 직접 바라보게 되어 컴퓨터 비전 방법을 사용하여 카메라를 향한 시선을 자동으로 감지할 수 있습니다. 우리의 접근 방식에서는 안경이 가볍고 눈에 거슬리지 않기 때문에 주제가 완전히 방해받지 않고 대화 상대의 부담이 적습니다. 실험에서 우리는 안경의 렌즈를 제거하여 대상에게 대화형 파트너의 눈을 방해하지 않는 시야로 제공한다는 점에 유의하십시오. 인간 평가자는 PoV 비디오에서 눈맞춤 사례를 식별할 때 90% 이상의 동의 수준을 달성할 수 있지만 이전 작업에서 달성된 자동 감지 접근 방식의 정확도는 이 수준의 성능보다 훨씬 낮기 때문에 연구자와 연구자가 자동 코딩을 사용할 수 없게 만들고 측정 도구로서의 실무자입니다. 이 백서에서는 세 가지 방향을 탐색하여 이 문제를 해결합니다. 첫째, 최신 딥 러닝 아키텍처가 470만 개의 인간 주석이 달린 눈 접촉 이벤트의 대규모 데이터 세트를 활용하여 더 높은 정확도를 달성할 수 있다고 가정합니다. 그러나 우리의 데이터 세트는 표준에 따라 크지만 약 100개의 고유한 주제만 포함합니다. 대조적으로, 심층 모델을 사용할 때 고성능을 산출하는 것으로 나타난 얼굴 감지, 인식 및 기타 작업을 위한 데이터 세트는 훨씬 더 많은 변동성을 포함합니다. 따라서 두 번째 가설은 작업의 핵심인 머리 자세와 시선 방향 간의 관계를 모델링하는 추가 데이터 세트에서 작업 전달 학습을 사용하여 이 격차를 좁힐 수 있다는 것입니다. 전이 학습은 하나의 작업에 대해 학습된 표현을 활용하여 관련 작업의 성능을 향상시키는 것을 기반으로 합니다. 셋째, 우리는 자동화된 방법으로 식별된 눈 접촉 순간의 빈도와 지속 시간이 ASD를 가진 개인의 사회적 손상 측정과 상관 관계가 있다고 가정합니다. 이 가설을 설정하면 우리의 접근 방식을 사용하여 완전히 자동화된 눈맞춤 코딩의 가능성이 검증됩니다.
이전 연구의 재현성
감지 모델과 인간 평가자를 비교하여 각 주제에 대한 눈 접촉 빈도 및 지속 시간 비율의 시각화를 제공합니다. 모델 추정치가 휴먼 코더가 정의한 범위 내에서 일관되게 떨어지는 것과 함께 주제 간에 좋은 질적 일치를 보여줍니다. 일부 주제는 평가하기가 더 어려워 측정값이 더 많이 퍼집니다. 자동화된 코딩 결과를 사용하여 이전 연구의 유의성에 대한 가설 테스트를 복제했습니다. 자동화된 결과는 인간 코딩에서 얻은 결과와 동일했습니다.
상관 분석
ASD를 가진 개인의 경우, ADOS CSS SA는 ESCS 동안 자동으로 측정된 직접 응시의 빈도 및 지속 시간과의 관계를 보여주었습니다(n = −0.41, 빈도: r = −0.41, p < 0.01, 지속 시간: r = −0.36, p <0) . 그리고 BOSCC 동안(n = 58; 빈도: r = −0.26, p < 0.05; 지속 시간: r = −0.29, p < 0.05), 주로 낮은 사회적 영향 심각도 점수를 가진 소수의 주제에 의해 주도되었습니다. BOSCC(BOSCC SA) 동안 전반적인 사회적 증상의 심각도는(n = 25, 빈도: r = −0.75, p < 0.001, 지속 시간: r = −0.78) 빈도 및 기간 모두와 강한 상관 관계를 보여주었습니다.
'과학스터디' 카테고리의 다른 글
복원력에 대한 강조는 지역사회의 변화를 방해합니다. (0) | 2022.10.27 |
---|---|
미세플라스틱의 장거리 이동의 증거 (0) | 2022.10.25 |
맨틀 기둥으로 조각된 아프리카 크라톤 암석권 (0) | 2022.10.21 |
심부정맥 혈전증의 급등에서 판막 강성의 역할 (0) | 2022.10.20 |
태양열 충전식 전지 분야에서 효율적인 광전극을 위한 설계 (0) | 2022.10.19 |