712                     
                
                                                    
                        
                            1                        
                    
                                                                            
                    Американская нейросетевая модель Speech2Face, анализируя спектограмму речи человека, научилась создавать более менее-похожее изображение лица, учитывая три параметра: расу, пол и возраст.
Ученые Массачусетского технологического института обучили нейросеть, используя набор данных AVSpeech, состоящий из более миллиона коротких видео с изображением людей. Каждое такое видео разделено на аудио- и видеодорожку.
            
                        
	Ученые Массачусетского технологического института обучили нейросеть, используя набор данных AVSpeech, состоящий из более миллиона коротких видео с изображением людей. Каждое такое видео разделено на аудио- и видеодорожку.
	Только по голосу человека можно определить достаточно точно несколько его особенностей: его пол, возраст и национальную принадлежность. Несмотря на то, что Speech2Face далека от совершенства и все еще не определяет возраст, возможно примерно представить, как выглядит говорящий человек.
Изначально «натренированный» алгоритм VGG-Face, который раньше работал над проектом по определению сексуальной ориентации человека, использует особенные черты человека из определенного кадра для того, чтобы создать изображение лица в анфас с нейтральным выражением. Другая же часть алгоритма, используя аудиодорожки видео и результаты из параллельной нейросети, генерирующей изображение, создает спектограмму речи и выдает примерное изображение лица человека.
Цель исследования состояла в выделении точных параметров возраста, пола и этнической принадлежности. При этом станет возможным создавать анимационные аватары человека по голосу, но далеко не настоящее изображение со 100% точностью.
		    Изначально «натренированный» алгоритм VGG-Face, который раньше работал над проектом по определению сексуальной ориентации человека, использует особенные черты человека из определенного кадра для того, чтобы создать изображение лица в анфас с нейтральным выражением. Другая же часть алгоритма, используя аудиодорожки видео и результаты из параллельной нейросети, генерирующей изображение, создает спектограмму речи и выдает примерное изображение лица человека.
Цель исследования состояла в выделении точных параметров возраста, пола и этнической принадлежности. При этом станет возможным создавать анимационные аватары человека по голосу, но далеко не настоящее изображение со 100% точностью.
Источник:
Ссылки по теме: 
- История о том, как "Человек из пещеры" обрел покой
 - Нейросеть научили создавать реалистичные портреты несуществующих людей
 - Нейросеть показала, какими будут российские актеры в роли женщин
 - Аналитики назвали имена водителей, которые чаще других попадают в аварии
 - На святое покусились: нейросеть создает портреты котиков, место которых - в фильмах ужаса
 
        
                                                
                                                
                                                
                                                
                                                
                                                
                                                
                                                
                                                
                                                
                                                
                                                
                                                
                                                
                                                
                                                
                                                
                                                
                                                
            
        
        
    
                                    

        
                                        
                                            
                                        
                                        
                                        
                                            
                                        
                                        
                                        
                                            
                                        
                                        
                                        
                                        
                                            
                                        
                                            
                                        
                                            
                                        
                                        
                                            
                                        
                                            
                                        
                                            
                                        
                                            
                                        
                                            
                                        
                                        
                                            
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                        
                                            
                                        
                                        
                                        
                                            
                                        
                                            
                                        
                                            
                                        
                                            
                                        
                                            
                                        
                                        
                                        
                                        
                                        
                                            
                                        
                                            
                                        
                                        
                                        
                                            
                                        
                                        
                                        
                                        
                                            
                                        
                                            
                                        
                                        
                                            
                                        
                    
                    
            
                    
                    
                    
                
                
                
                
                
                
                
                
                
                
                