Media Information Laboratory

2025

Journal Papers

Masao Okazaki & Kaoru Sano (2025). Northcott Numbers for Generalized Weighted Weil Heights. Acta Arithmetica, 217, 235-259.
Reimi Irokawa (2025). Activity Measures of Dynamical Systems Over Non-Archimedean Fields. Journal of Physics A: Mathematical and Theoretical, 45 (2), 361-390.
Ryo Hiromasa, Akihiro Mizutani, Yuki Takeuchi & Seiichiro Tani (2025). Rewindable Quantum Computation and Its Equivalence to Cloning and Adaptive Postselection. Theory of Computing Systems, 69 (1).

Peer-reviewed Conference Papers

Shogo Sato, Takuhiro Kaneko, Kazuhiko Murasaki, Taiga Yoshida, Ryuichi Tanida & Akisato Kimura (2025). Unsupervised Single-Image Intrinsic Image Decomposition with LiDAR Intensity Enhanced Training. 2025 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Los Alamitos, CA, USA.
Risako Tanigawa, Kenji Ishikawa, Noboru Harada & Yasuhiro Oikawa (2025). SoundSil-DS: Deep Denoising and Segmentation of Sound-field Images with Silhouettes. IEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2025). Arizona, USA.

2024

Journal Papers

Seiseki Akibue, Go Kato & Seiichiro Tani (2024). Probabilistic unitary synthesis with optimal accuracy. ACM Transactions on Quantum Computing, 5 (3), 1-27.
Ryo Nishikimi, Masahiro Nakano, Kunio Kashino & Shingo Tuskada (2024). Variational Autoencoder-Based Neural Electrocardiogram Synthesis Trained by FEM-Based Heart Simulator. Cardiovascular Digital Health Journal, 5 (1), 19-28.
Moyu Hasegawa, Kenji Miki, Takuji Kawamura, Ikue Sasozaki, Yuki Hikashiyama, Masaru Tuchida, Kunio Kashino, Masaki Taira, Emiko Ito, Maki Tkeda, Hidekazu Ishida, Shuichiro Higo, Yasushi Sakata & Shigeru Miyagawa (2024). Gene correction and overexpression of TNNI3 improve impaired relaxation in engineered heart tissue model of pediatric restrictive cardiomyopathy. Development, Growth & Differentiation, 66 (2), 119-132.
Tetsuya Ueda, Tomohiro Nakatani, Rintaro Ikeshita, Shoko Araki & Shoji Makino (2024). DOA-Informed Switching Independent Vector Extraction and Beamforming for Speech Enhancement in Underdetermined Situations. EURASIP Journal on Audio, Speech, and Music Processing, 2024.
Takanori Ashihara, Marc Delcroix, Yusuke Ijima & Makio Kashino (2024). Unveiling the Linguistic Capabilities of a Self-Supervised Speech Model Through Cross-Lingual Benchmark and Layer- Wise Similarity Analysis. IEEE Access, 12, 98835-98855.
Reinhold Haeb-Umbach, Tomohiro Nakatani, Marc Delcroix, Christoph Boeddeker & Tsubasa Ochiai (2024). Microphone Array Signal Processing and Deep Learning for Speech Enhancement: Combining model-based and data-driven approaches to parameter estimation and filtering. IEEE Signal Processing Magazine, 41 (6), 12-23.
Rintaro Ikeshita & Tomohiro Nakatani (2024). Geometrically-Regularized Fast Independent Vector Extraction by Pure Majorization-Minimization. IEEE Transactions on Signal Processing, 72, 1560-1575.
Tsubasa Ochiai, Kazuma Iwamoto, Marc Delcroix, Rintaro Ikeshita, Hiroshi Sato, Shoko Araki & Shigeru Katagiri (2024). Rethinking Processing Distortions: Disentangling the Impact of Speech Enhancement Errors on Speech Recognition Performance. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 32, 3589-3602.
Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo & Shogo Seki (2024). VoiceGrad: Non-Parallel Any-to-Many Voice Conversion with Annealed Langevin Dynamics. IEEE/ACM Transactions on Audio, Speech, and Language Processing (IEEE/ACM TASLP), 32, 2213-2226.
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada & Kunio Kashino (2024). Masked Modeling Duo: Towards a Universal Audio Pre-training Framework. IEEE/ACM Transactions on Audio, Speech, and Language Processing (IEEE/ACM TASLP), 32, 2391-2406.
Tetsuya Ueda, Tomohiro Nakatani, Rintaro Ikeshita, Keisuke Kinoshita, Shoko Araki & Shoji Makino (2024). Blind and Spatially-Regularized Online Joint Optimization of Source Separation, Dereverberation, and Noise Reduction. IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP), 32, 1157-1172.
Kazufumi Kimoto & Masato Wakayama (2024). Partition functions for non-commutative harmonic oscillators and related divergent series. Indagation Mathematicae.
Cid Reyes-Bustos & Masato Wakayama (2024). Zeta Limits for The Spectrum of Quantum Rabi Models. Journal of Mathematical Physics, 65 (9).
Linh Thi Hoai Nguyen, Cid Reyes-Bustos, Daniel Braak & Masato Wakayama (2024). Spacing Distribution for Quantum Rabi Models. Journal of Physics A: Mathematical and Theoretical, 57 (29), 295201.
Koizumi Junnosuke & Miyazaki Hiroyasu (2024). A motivic construction of the de Rham-Witt complex. Journal of Pure and Applied Algebra, 228 (6), 107602.
Ryosuke Nakahama (2024). Representation theory of sl(2,R). Mathematical Foundations for Post-Quantum Cryptography.
Cid Reyes (2024). Towards hash functions based on group-subgroup pair graphs. Mathematical Foundations for Post-Quantum Cryptography.
Hiroto Kasai, Yuki Takeuchi, Yuichiro Matsuzaki & Yasuhiro Tokura (2024). Direct Moment Estimation of Intensity Distribution of Magnetic Fields with Quantum Sensing Network. New Journal of Physics, 26 (12).
Jisho Miyazaki & Seiseki Akibue (2024). Non-locality of conjugation symmetry: characterization and examples in quantum network sensing. New Journal of Physics, 26 (5), 053017.
Yu Mitsuzumi, Go Irie, Akisato Kimura & Atsushi Nakazawa (2024). Phase Randomization: A Data Augmentation for Domain Adaptation in Human Action Recognition. Pattern Recognition, 146.
Cid Reyes-Bustos, Naoya Yamaguchi & Yuka Yamaguchi (2024). Wolstenholme Primes and Group Determinants of Cyclic Groups. Proceedings of the Japan Academy. Series. A, Mathematical Sciences, 100 (9), 51-55.
Seiseki Akibue, Go Kato & Seiichiro Tani (2024). Probabilistic state synthesis based on optimal convex approximation. Quantum Information, 10 (1).

Peer-reviewed Conference Papers

Chihiro Watanabe & Hirokazu Kameoka (2024). GE2E-AC: Generalized End-to-End Loss Training for Accent Classification. 2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Macau, China.
Xiao Zhang, Haoran Xing, Mingxue Song, Daiki Takeuchi, Noboru Harada & Shoji Makino (2024). Prediction-Error-Based Adaptive SpecAugment for Fine-tuning the Masked Model on Audio Classification Tasks. 2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Macau, China.
Yu Mitsuzumi, Akisato Kimura, Go Irie & Atsushi Nakazawa (2024). Cross-Action Cross-Subject Skeleton Action Recognition Via Simultaneous Action-Subject Learning With Two-Step Feature Removal. 2024 IEEE International Conference on Image Processing (ICIP). Abu Dhabi, United Arab Emirates.
Akihiro Mizutani, Yuki Takeuchi & Kiyoshi Tamaki (2024). Finite-key Security Analysis of Differential-Phase-Shift QKD. 24th Asian Quantum Information Science Conference(AQIS). Sapporo, Japan.
Yusuke Oumi, Yuto Shibata, Go Irie, Akisato Kimura, Yoshimitsu Aoki & Mariko Isogawa (2024). Acoustic-Based 3D Human Pose Estimation Robust to Human Position. 35th British Machine Vision Conference 2024,(BMVC). Glasgow, UK.
Seiseki Akibue, Go Kato & Seiichiro Tani (2024). Probabilistic Unitary and State Synthesis with Optimal Accuracy. 6th International Workshop on Quantum Compilation. Berlin, Germany.
Yasuhiro Fujiwara, Atsutoshi Kumagai, Yasutoshi Ida, Masahiro Nakano, Makoto Nakatsuji & Akisato Kimura (2024). Efficient Algorithm for K-Multiple-Means. ACM SIGMOD International Conference on Management of Data. Santiago, Chile.
Yuto Kondo, Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko & Noboru Harada (2024). LEARNING TO ASSESS SUBJECTIVE IMPRESSIONS CONVEYED THROUGH SPEECH. European Signal Processing Conference (EUSIPCO). Lyon, France.
Shunsuke Tsugaki, Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada & Keisuke Imoto (2024). Refining knowledge transfer on audio-image temporal agreement for audio-text cross retrieval. European Signal Processing Conference (EUSIPCO). Lyon, France.
Hao Shi, Naoyuki Kamo, Marc Delcroix, Tomohiro Nakatani & Shoko Araki (2024). ENSEMBLE INFERENCE FOR DIFFUSION MODEL-BASED SPEECH ENHANCEMENT. ICASSP2024 Satellite Workshop on Hands-Free Speech Communication and Microphone Array (HSCMA). Seoul, Korea.
Thilo von Neumann, Christoph Cord-Landwehr Boeddeker, Marc Delcroix & Reinhold Haeb-Umbach (2024). Meeting Recognition with Continuous Speech Separation and Transcription-Supported Diarization. ICASSP2024 Satellite Workshop on Hands-Free Speech Communication and Microphone Array (HSCMA). Seoul, Korea.
Rino Kimura, Tomohiro Nakatani, Naoyuki Kamo, Delcroix Marc, Shoko Araki, Tetsuya Ueda & Shoji Makino (2024). Diffusion model-based MIMO speech denoising and dereverberation. ICASSP2024 Satellite Workshop on Hands-Free Speech Communication and Microphone Array (HSCMA) Workshop. Seoul, Korea.
Bo He, Shiqi Zhang, Xianrui Wang, Zheng Qiu, Daiki Takeuchi, Daisuke Niizumi, Noboru Harada & Shoji Makino (2024). Light Gated Multi Mini-patch Extractor for Audio Classification. ICASSP2024 Satellite Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA 2024).
Junyi Peng, Marc Delcroix, Tsubasa Ochiai, Oldrich Plchot, Takanori Ashihara, Shoko Araki & Jan Cernocky (2024). Probing Self-supervised Learning Models with Target Speech Extraction. ICASSP2024 Satellite Workshop on Self-supervision in Audio, Speech, and Beyond (SASB). Seoul, Korea.
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada & Kunio Kashino (2024). Exploring Pre-trained General-purpose Audio Representations for Heart Murmur Detection. IEEE Engineering in Medicine and Biology Society (EMBC). Orlando, Florida, USA.
Takanori Ashihara, Marc Delcroix, Takafumi Moriya, Kohei Matsuura, Taichi Asami & Yusuke Ijima (2024). What do self-supervised speech and speaker models learn? New findings from a cross model layer-wise analysis. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea.
William Chen, Takatomo Kano, Atsunori Ogawa, Marc Delcroix & Shinji Watanabe (2024). Train Long and Test Long: Leveraging Full Document Contexts in Speech Processing. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea.
Kenichi Fujita, Hiroshi Sato, Takanori Ashihara, Hiroki Kanagawa, Marc Delcroix, Takafumi Moriya & Yusuke Ijima (2024). Noise-robust zero-shot text-to-speech synthesis conditioned on self-supervised speech-representation model with adapters. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea.
Kazuma Iwamoto, Tsubasa Ochiai, Marc Delcroix, Rintaro Ikeshita, Hiroshi Sato, Shoko Araki & Shigeru Katagiri (2024). How does end-to-end speech recognition training impact speech enhancement artifacts?. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea.
Takuhiro Kaneko, Hirokazu Kameoka & Kou Tanaka (2024). Training Generative Adversarial Network-Based Vocoder with Limited Data Using Augmentation-Conditional Discriminator. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea.
Dominik Klement, Mireia Diez, Federico Landini, Lukáš Burget, Anna Silnova, Marc Delcroix & Naohiro Tawara (2024). Discriminative Training of VBx Diarization. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea.
Yuto Kondo, Hirokazu Kameoka, Kou Tanaka & Takuhiro Kaneko (2024). SELECTING N-LOWEST SCORES FOR TRAINING MOS PREDICTION MODELS. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea.
Masahiro Nakano, Ryohei Shibue & Kunio Kashino (2024). Sunflower Strategy for Bayesian Relational Data Analysis. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea.
Yasunori Ohishi, Marc Delcroix, Tsubasa Ochiai, Shoko Araki, Daiki Takeuchi, Daisuke Niizumi, Akisato Kimura, Noboru Harada & Kunio Kashino (2024). Target Speech Spotting and Extraction Based on ConceptBeam. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea.
Junyi Peng, Marc Delcroix, Tsubasa Ochiai, Oldrich Plchot, Shoko Araki & Jan Cernocky (2024). Target Speech Extraction with pre-trained self-supervised learning models. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea.
Hanako Segawa, Tsubasa Ochiai, Marc Delcroix, Tomohiro Nakatani, Rintaro Ikeshita, Shoko Araki, Takeshi Yamada & Shoji Makino (2024). Neural network-based virtual microphone estimation with virtual microphone and beamformer-level multi-task loss. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea.
Naohiro Tawara, Marc Delcroix, Atsushi Ando & Atsunori Ogawa (2024). NTT speaker diarization system for CHiME-7: multi-domain, multi-microphone End-to-end and vector clustering diarization. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea.
Keigo Wakayama, Tsubasa Ochiai, Marc Delcroix, Masahiro Yasuda, Shoichiro Saito, Shoko Araki & Akira Nakayama (2024). Online Target Sound Extraction with Knowledge Distillation from Partially Non-Causal Teacher. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea.
Shiqi Zhang, Zheng Qiu, Daiki Takeuchi, Noboru Harada & Shoji Makino (2024). Unrestricted Global-Phase-Bias Aware Single-channel Speech Enhancement with Conformer-based Metric GAN. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul, Korea.
Takuhiro kaneko (2024). Improving Physics Augmented Continuum Neural Radiance Fileds-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA.
Yu Mitsuzumi, Akisato Kimura & Hisashi Kashima (2024). Understanding and Improving Source-free Domain Adaptation from a Theoretical Perspective. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA.
Kunio Kashino, Akisato Kimura & Shoji Matsuya (2024). Detection of acute myeloid leukemia without labeling individual blood cells. International Conference of the IEEE Engineering in Medicine and Biology Society. Orlando, USA.
Masahiro Nakano, Hiroki Sakuma, Ryo Nishikimi, Ryohei Shibue, Takashi Sato & Kunio Kashino (2024). Warped Diffusion for Latent Differentiation Inference. International Conference on Artificial Intelligence and Statistics (AISTATS). Valencia, Spain.
Kenichi Fujita, Takanori Ashihara, Marc Delcroix & Yusuke Ijima (2024). Lightweight Zero-shot Text-to-Speech with Mixture of Adapters. Interspeech2024. Kos Island, Greece.
Keigo Hojo, Yukoh Wakabayashi, Kengo Ohta, Atsunori Ogawa & Norihide Kitaoka (2024). Boosting CTC-based ASR using inter-layer attention-based CTC loss. Interspeech2024. Kos Island, Greece.
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka & Yuto Kondo (2024). FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillationa. Interspeech2024. Kos Island, Greece.
Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa & Marc Delcroix (2024). Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation. Interspeech2024. Kos Island, Greece.
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Masahiro Yasuda, Shunsuke Tsubaki & Keisuke Imoto (2024). M2D-CLAP: Masked Modeling Duo Meets CLAP for Learning General-purpose Audio-Language Representation. Interspeech2024. Kos Island, Greece.
Hiroshi Sato, Takafumi Moriya, Masato Mimura, Shota Horiguchi, Tsubasa Ochiai, Takanori Ashihara, Atsushi Ando, Kentaro Shinayama & Marc Delcroix (2024). SpeakerBeam-SS: Real-time Target Speaker Extraction with Lightweight Conv-TasNet and State Space Modeling. Interspeech2024. Kos Island, Greece.
Tatsunari Takagi, Yukoh Wakabayashi, Atsunori Ogawa & Norihide Kitaoka (2024). Text-only domain adaptation for CTC-based speech recognition through substitution of implicit linguistic information in the search space. Interspeech2024. Kos Island, Greece.
Marvin Tammen, Tsubasa Ochiai, Marc Delcroix, Tomohiro Nakatani, Shoko Araki & Simon Doclo (2024). Array Geometry-Robust Attention-Based Neural Beamformer for Moving Speakers. Interspeech2024. Kos Island, Greece.
Kou Tanaka, Hirokazu Kameoka, Takuhiro Kaneko & Yuto Kondo (2024). PRVAE-VC2: Non-Parallel Voice Conversion by Distillation of Speech Representations. Interspeech2024. Kos Island, Greece.
Daisuke Niizumi, Noboru Harada, Yasunori Ohishi, Daiki Takeuchi & Masahiro Yasuda (2024). ToyADMOS2#: Yet Another Dataset for The DCASE2024 Challenge Task 2 First-Shot Anomalous Sound Detection. Proceedings of the Detection and Classification of Acoustic Scenes and Events 2024 Workshop (DCASE2024). Tokyo, Japan.
Tomoya Nishida, Noboru Harada, Daisuke Niizumi, Davide Albertini, Roberto Sannino, Simone Pradolini, Filippo Augusti, Keisuke Imoto, Kota Dohi, Harsh Purohit, Takashi Endo & Yohei Kawaguchi (2024). Description and Discussion on DCASE 2024 Challenge Task 2: First-Shot Unsupervised Anomalous Sound Detection for Machine Condition Monitoring. Proceedings of the Detection and Classification of Acoustic Scenes and Events 2024 Workshop (DCASE2024). Tokyo, Japan.
Daiki Takeuchi, Masahiro Yasuda, Daisuke Niizumi & Noboru Harada (2024). Towards Learning a Difference-Aware General-Purpose Audio Representation. Proceedings of the Detection and Classification of Acoustic Scenes and Events 2024 Workshop (DCASE2024). Tokyo, Japan.
Thilo von Neumann, Christoph Boeddeker, Marc Delcroix & Reinhold Haeb-Umbach (2024). MeetEval, Show Me the Errors! Interactive Visualization of Transcript Alignments for the Analysis of Conversational ASR. Show & Tell Demo, IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Seoul, Korea.

2023

Journal Papers

Hiroaki Matsunaga, Tomohiro Yendo, Wataru Kihara, Yoshifumi Shiraki, Takashi G. Sato & Takehiro Moriya (2023). I/Q Demodulator based Optical Camera Communicatio. IEEE Photonics Journal, 153, 1138-1146.
Akihiro Mizutani, Yuki Takeuchi & Kiyoshi Tamaki (2023). Finite-key Security Analysis of Differential-Phase-Shift Quantum Key Distribution. Physical Review Research, 5 (2).
Cid Reyes-Bustos & Masato Wakayama (2023). Covering families of the asymmetric quantum Rabi model: η-shifted non-commutative harmonic oscillators. Communications in Mathematical Physics, 403, 1429-1476.
Cid Reyes-Bustos (2023). The heat kernel of the asymmetric quantum Rabi model. Journal of Physics A: Mathematical and Theoretical, 56 (42).
Shane Kelly & Hiroyasu Miyazaki (2023). Hodge cohomology with a ramification filtration, I. Mathematische Zeitschrift, 305 (70).
Shuji Horinaga & Hiroaki Narita (2023). Cuspidal components of Siegel modular forms for large discrete series representations of Sp_4(R). Manuscripta Mathematica, (13).
Kazuma Takeda, Yasutomo Kawanishi, Takatsugu Hirayama, Daisuke Deguchi, Ichiro Ide, Hiroshi Murase & Kunio Kashino (2023). Estimation of Targets' Locations and Attention Degrees by Spatio-temporal Integration of Audiences' Facial Orientations. IEICE Transactions on Information and Systems, J106-A (3), 58-69.
Shinnosuke Matsuo, Xiaomeng Wu, Gantugs Atarsaikhan, Akisato Kimura, Kunio Kashino, Brian Kenji Iwana & Seiichi Uchida (2023). Deep attentive time warping. Pattern Recogntiion, 136.
Yasuhiro Fujiwara, Yasutoshi Ida, Atsutoshi Kumagai, Masahiro Nakano, Akisato Kimura & Naonori Ueda (2023). Efficient Network Representation Learning via Cluster Similarity. Data Science and Engineering, 8, 279-291.
Naoki Chihara, Tadafumi Takata, Yasuhiro Fujiwara, Koki Noda, Keisuke Toyoda, Kaito Higuchi & Makoto Onizuka (2023). Effective Detection of Variable Celestial Objects Using Machine Learning-based Periodic Analysis. Astronomy and Computing, 45.
Katerina Zmolikova, Marc Delcroix, Tsubasa Ochiai, Keisuke Kinoshita, Jan Cernocky & Dong Yu (2023). Neural Rarget Speech Extraction: An Overview. IEEE Signal Processing Magazine, 40 (3), 8-29.
Tsubasa Ochiai, Marc Delcroix, Tomohiro Nakatani & Shoko Araki (2023). Mask-based Neural Beamforming for Moving Speakers with Self-Attention-based Tracking. IEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 31, 835-848.
Takafumi Moriya, Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix & Takahiro Shinozaki (2023). Streaming End-to-End Target-Speaker Automatic Speech Recognition and Activity Detection. IEEE Access, 11, 13906-13917.
Phuc Duc Nguyen, Yoshifumi Shiraki, Kenji Ishikawa, Jun Muramatsu, Noboru Harada & Takehiro Moriya (2023). Distribution Matching for Dimming Control in Visible-Light Region-of-Interest Signaling. IEEE Photonics Journal, 15 (1), 1-14.
Denny Hermawanto, Kenji Ishikawa, Kohei Yatabe & Yasuhiro Oikawa (2023). Determination of Microphone Acoustic Center from Sound Field Projection Measured by Optical Interferometry. The Journal of the Acoustical Society of America, -.
Shogo Seki, Hirokazu Kameoka, Takuhiro Kaneko & Kou Tanaka (2023). Non-parallel Whisper-to-Normal Speaking Style Conversion Using Auxiliary Classifier Variational Autoencoder. IEEE Access, 11, 44590-44599.
Samuel A. Verburg, Kenji Ishikawa, Efren Fernandez-Grande & Yasuhiro Oikawa (2023). A Century of Acousto-Optics: From Early Discoveries to Modern Sensing of Sound with Light. Acoustics Today, 19 (3), 54-62.
Ryosuke Sugiura, Yutaka Kamamoto & Takehiro Moriya (2023). General form of almost instantaneous fixed-to-variable-length codes and optimal code tree construction. IEEE Transactions on Information Theory, 69 (12).
Kenji Ishikawa, Yoshifumi Shiraki, Takehiro Moriya, Atsushi Ishizawa, Kenichi Hitachi & Katsuya Oguri (2023). Comprehensive Noise Analysis for Acousto-optic Measurement of Airborne Sound. IEEE Trans on Instrumentation and Measurement, 73 (7000309).

Peer-reviewed Conference Papers

Shuji Horinaga (2023). Cuspidal Components of Siegel Modular Forms for Large Discrete Series Representations. π∞. Sendai, Japan.
Ryo Hiromasa, Akihiro Mizutani, Yuki Takeuchi & Seiichiro Tani (2023). Rewindable Quantum Computation and Its Equivalence to Cloning and Adaptive Postselection. Proc. Theory of Quantum Computation, Communication and Cryptography (TQC). Aveiro, Portugal.
Yuki Takeuchi, Yasuhiro Takahashi, Tomoyuki Morimae & Seiichiro Tani (2023). Divide-and-Conquer Verification Method for Noisy Intermediate-Scale Quantum Computation. Proc. Asian Quantum Information Science Conference (AQIS). Seoul, Korea.
Hiroto Kasai, Yuki Takeuchi, Hideaki Hakoshima, Yuichiro Matsuzaki & Yasuhiro Tokura (2023). Anonymous Quantum Sensing. Proc. The Seventeenth International Conference on Quantum, Nano/Bio, and Micro Technologies(ICQNM 2023). Porto, Portugal.
Ryosuke Nakahama (2023). Holographic and symmetry breaking operators of holomorphic discrete series representations for (SU(3,3), SO*(6)). Proc. Geometric and Harmonic Analysis on Homogeneous Spaces and Applications. Monastir, Tunisia.
Seiseki Akibue, Go Kato & Seiichiro Tani (2023). Optimal convex approximation of quantum superposition and its application in reshaping compilation errors. Proc. Quantum Innovation. Tokyo, Japan.
Yuki Takeuchi (2023). Quantum Computation and Sensing on Network. Proc. The International Symposium on Wireless Personal Multimedia Communications(WPMC2023). Tampa, USA.
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada & Kunio Kashino (2023). Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input. Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Island of Rhodes,Greek.
Yasuhiro Fujiwara, Yasutoshi Ida, Atsutoshi Kumagai, Masahiro Nakano, Akisato Kimura & Naonori Ueda (2023). Efficient Network Representation Learning via Cluster Similarity. Proc. International Conference on Database Systems for Advanced Applications (DASFAA). Tianjin, China.
Xiaomeng Wu, Yongqing Sun & Akisato Kimura (2023). Deep Quantigraphic Image Enhancement via Comparametric Equations. Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). island of Rhodes,Greek.
Yuto Shibata, Yutaka Kawashima, Mariko Isogawa, Go Irie, Akisato Kimura & Yoshimitsu Aoki (2023). Listening Human Behavior: 3D Human Pose Estimation with Acoustic Signals. Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, Canada.
Shogo Sato, Yasuhiro Yao, Taiga Yoshida, Takuhiro Kaneko, Shingo Ando & Jun Shimamura (2023). Unsupervised Intrinsic Image Decomposition with LiDAR Intensity. Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, Canada.
Shohei Matsugu, Yasuhiro Fujiwara & Hiroaki Shiokawa (2023). Uncovering the Largest Community in Social Networks at Scale. Proc. International Joint Conference on Artificial Intelligence (IJCAI). Cape Town, South Africa.
Takuhiro Kaneko (2023). MIMO-NeRF: Fast Neural Rendering with Multi-input Multi-output Neural Radiance Fields. Proc. IEEE/CVF International Conference on Computer Vision (ICCV). Paris, France.
Ayaka Ideno, Takuhiro Kaneko & Tatsuya Harada (2023). Frame-Level Event Representation Learning for Semantic-Level Generation and Editing of Avatar Motion. Proc. ACM International Conference on Multimodal Interaction (ICMI). Paris, France.
Rentaro Kataoka, Akisato Kimura & Seiichi Uchida (2023). Towards defensive letter design. Proc. Asian Conference on Pattern Recognition (ACPR). Kitakyushu, Japan.
Hayato Mitani, Akisato Kimura & Seiichi Uchida (2023). Selective scene text removal. Proc. British Machine Vision Conference (BMVC). Aberdeen, Britain.
Takatomo Kano, Atsunori Ogawa, Marc Delcroix, Roshan Sharma, Kohei Matsuura & Shinji Watanabe (2023). Speech Summarization of Long Spoken Document: Improving Memory Efficiency of Speech/Text Encoders. Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Island of Rhodes, Greek.
Atsunori Ogawa, Takafumi Moriya, Naoyuki Kamo, Naohiro Tawara & Marc Delcroix (2023). Iterative Shallow Fusion of Backward Language Model for End-to-End Speech Recognition. Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Island of Rhodes, Greek.
Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Tomohiro Tanaka, Atsunori Ogawa, Marc Delcroix & Ryo Masumura (2023). Leveraging Large Text Corpora for End-to-End Speech Summarization. Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Island of Rhodes, Greek.
Thilo von Neumann, Christoph Boeddeker, Keisuke Kinoshita, Marc Delcroix & Reinhold Haeb-Umbach (2023). On Word Error Rate Definitions and their Efficient Computation for Multi-Speaker Speech Recognition Systems. Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). island of Rhodes, Greek.
Taishi Nakashima, Rintaro Ikeshita, Nobutaka Ono, Shoko Araki & Tomohiro Nakatani (2023). Fast Online Source Steering Algorithm for Tracking Single Moving Source Using Online Independent Vector Analysis. Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). island of Rhodes, Greek.
Marc Delcroix, Naohiro Tawara, Mireia Diez, Federico Landini, Anna Silnova, Atsunori Ogawa, Tomohiro Nakatani, Lukas Burget & Shoko Araki (2023). Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization. Proc. Interspeech. Dublin, Ireland.
Naoyuki Kamo, Marc Delcroix & Tomohiro Nakatani (2023). Target Speaker Extraction with Conditional Diffusion Model. Proc. Interspeech. Dublin, Ireland.
Shoko Araki, Ayako Yamamoto, Tsubasa Ochiai, Kenichi Arai, Atsunori Ogawa, Tomohiro Nakatani & Toshio Irino (2023). Impact of Residual Noise and Artifacts in Speech Enhancement Errors on Intelligibility of Human and Machine. Proc. Interspeech. Dublin, Ireland.
Hiroshi Sato, Ryo Masumura, Tsubasa Ochiai, Marc Delcroix, Takafumi Moriya, Takanori Ashihara, Kentaro Shinayama, Saki Mizuno, Mana Ihori, Tomohiro Tanaka & Nobukatsu Hojo (2023). Downstream Task Agnostic Speech Enhancement Conditioned on Self-Supervised Representation Loss. Proc. Interspeech. Dublin, Ireland.
Takafumi Moriya, Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Takanori Ashihara, Kohei Matsuura, Tomohiro Tanaka, Ryo Masumura, Atsunori Ogawa & Taichi Asami (2023). Knowledge Distillation for Neural Transducer-based Target-Speaker ASR: Exploiting Parallel Mixture/Single-Talker Speech Data. Proc. Interspeech. Dublin, Ireland.
Takanori Ashihara, Takafumi Moriya, Kohei Matsuura, Tomohiro Tanaka, Yusuke Ijima, Taichi Asami, Marc Delcroix & Yukinori Honma (2023). SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge?. Proc. Interspeech. Dublin, Ireland.
Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Tomohiro Tanaka, Takatomo Kano, Atsunori Ogawa & Marc Delcroix (2023). Transfer Learning from Pre-trained Language Models Improves End-to-End Speech Summarization. Proc. Interspeech. Dublin, Ireland.
Hikaru Yanagida, Yusuke Ijima & Naohiro Tawara (2023). Influence of Personal Traits on Impressions of One's Own Voice. Proc. Interspeech. Dublin, Ireland.
Yuki Kitagishi, Naohiro Tawara, Atsunori Ogawa, Ryo Masumura & Taichi Asami (2023). What are differences? Comparing DNN and human by their performance and characteristics in speaker age estimation. Proc. Interspeech. Dublin, Ireland.
Yuki Kitagishi, Hosana Kamiyama, Naohiro Tawara, Atsunori Ogawa, Noboru Miyazaki & Taichi Asami (2023). Coarse-age loss: A new training method using coarse-age labeled data for speaker age estimation. Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC). Taipei, Taiwan.
Koharu Horii, Kengo Ohta, Ryota Nishimura, Atsunori Ogawa & Norihide Kitaoka (2023). Language modeling for spontaneous speech recognition based on disfluency labeling and generation of disfluent text. Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC). Taipei, Taiwan.
Keigo Hojo, Daiki Mori, Yukoh Wakabayashi, Kengo Ohta, Atsunori Ogawa & Norihide Kitaoka (2023). Combining multiple end-to-end speech recognition models based on density ratio approach. Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC). Taipei, Taiwan.
Tatsunari Takagi, Atsunori Ogawa, Norihide Kitaoka & Yukoh Wakabayashi (2023). Streaming end-to-end speech recognition using a CTC decoder with substituted linguistic information. Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC). Taipei, Taiwan.
Kou Tanaka, Hirokazu Kameoka, Takuhiro Kaneko & Shogo Seki (2023). Distilling sequence-to-sequence voice conversion models for streaming conversion applications. Proc. IEEE Spoken Language Technology Workshop (SLT). Doha, Qatar.
Shogo Seki, Hirokazu Kameoka, Kou Tanaka & Takuhiro Kaneko (2023). JSV-VC: Jointly Trained Speaker Verification and Voice Conversion Models. Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Island of Rhodes,Greek.
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka & Shogo Seki (2023). Wave-U-Net Discriminator: Fast and Lightweight Discriminator for Generative Adversarial Network-Based Speech Synthesis. Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Island of Rhodes,Greek.
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka & Shogo Seki (2023). iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using 1D-2D CNN. Proc. Interspeech. Dublin, Ireland.
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada & Kunio Kashino (2023). Masked Modeling Duo for Speech: Specializing General-Purpose Audio Representation to Speech using Denoising Distillation. Proc. Interspeech. Dublin, Ireland.
Kou Tanaka, Takuhiro Kaneko, Hirokazu Kameoka & Shogo Seki (2023). CFVC: Conditional Filtering for Controllable Voice Conversion. Proc. Interspeech. Dublin, Ireland.
Noboru Harada, Daisuke Niizumi, Yasunori Ohishi, Daiki Takeuchi & Masahiro Yasuda (2023). First-Shot Anomaly Sound Detection for Machine Condition Monitoring: A Domain Generalization Baseline. Proc. European Signal Processing Conference（EUSIPCO）. Helsinki, Finland.
Shogo Seki, Kanami Imamura, Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka & Noboru Harada (2023). W2N-AVSC: Audiovisual Extension for Whisper-to-Normal Speech Conversion. Proc. European Signal Processing Conference（EUSIPCO）. Helsinki, Finland.
Kou Tanaka, Hirokazu Kameoka & Takuhiro Kaneko (2023). PRVAE-VC: Non-Parallel Many-to-Many Voice Conversion with Perturbation-Resistant Variational Autoencoder. Proc.ISCA Speech Synthesis Workshop（SSW）. Grenoble, France.
Boxin Liu, Shiqi Zhang, Daiki Takeuchi, Daisuke Niizumi, Noboru Harada & Shoji Makino (2023). Masked modeling duo vision transformer with multi-layer feature fusion on respiratory sound classification. Proc. Detection and Classification of Acoustic Scenes and Events(DCASE) Workshop. Tampere, Finland.
Chihiro Watanabe & Hirokazu Kameoka (2023). DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion. Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC). Taipei, Taiwan.
Kota Dohi, Keisuke Imoto, Noboru Harada, Daisuke Niizumi, Yuma Koizumi, Tomoya Nishida, Harsh Purohit, Ryo Tanabe, Takashi Endo & Yohei Kawaguchi (2023). Description and Discussion on DCASE 2023 Challenge Task 2: First-Shot Unsupervised Anomalous Sound Detection for Machine Condition Monitoring. Proc. Detection and Classification of Acoustic Scenes and Events(DCASE) Workshop. Tampere, Finland.
Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada & Kunio Kashino (2023). Similarity-discrepancy disentanglement for audio difference captioning. Proc. Detection and Classification of Acoustic Scenes and Events(DCASE) Workshop. Tampere, Finland.
Noboru Harada, Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi & Masahiro Yasuda (2023). ToyADMOS2+: New Toyadmos Data and Benchmark Results of the First-Shot Anomalous Sound Event Detection Baseline. Proc. Detection and Classification of Acoustic Scenes and Events(DCASE) Workshop. Tampere, Finland.
Keisuke Takazawa, Hirokazu Kameoka & Masahiro Yukawa (2023). Multiple Sound Source Tracking Based on Generative Modeling and Recursive Bayesian Filtering of Spatial Gradient Spectra. Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC). Taipei, Taiwan.
Noboru Harada, Daisuke Niizumi, Yasunori Ohishi, Daiki Takeuchi & Masahiro Yasuda (2023). First-shot anomaly sound detection for machine condition monitoring: A Domain Generalization baseline. Proc. Asia-Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (ASC). Helsinki, Finland.
Haruka Nozawa, Mayuko Imanishi, Yasuhiro Oikawa & Kenji Ishikawa (2023). Physical-model-based reconstruction of three-dimensional sound field from multi-directional measurement by parallel phase-shift interferometry. Proc. The Australian Acoustical Society(Acoustics2023). Sydney, Australia.

2022

Journal Papers

Ken Mano, Hideki Sakurada & Yasuyuki Tsukada (2022). Quality and quantity pair as trust metric. IEICE Transactions on Information and Systems.
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada & Kunio Kashino (2022). Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representations. EEE/ACM Transactions on Audio, Speech and Language Processing (TASLP).
Wangyou Zhang, Xuankai Chang, Christoph Boeddeker, Tomohiro Nakatani, Shinji Watanabe & Yanmin Qian (2022). End-to-end dereverberation, beamforming, and speech recognition in a cocktail party. IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP), 30, 3173-3188.
Marc Delcroix, Jorge Bennasar Vázquez, Tsubasa Ochiai, Keisuke Kinoshita, Yasunori Ohishi & Shoko Araki (2022). Soundbeam: target sound extraction conditioned on sound-class labels and enrollment clues for increased performance and continuous learning. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP).
Kenji Ishikawa, Kohei Yatabe, Yasuhiro Oikawa, Yoshifumi Shiraki & Takehiro Moriya (2022). Speckle holographic imaging of sound field using fresnel lens. Optics Letters.
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada & Kunio Kashino (2022). BYOL for audio: Exploring pre-trained general-purpose audio representations. IEEE/ACM Transactions on Audio Speech and Language Processing (TASLP).
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada & Kunio Kashino (2022). Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representations. Proceedings of Machine Learning Research (PMLR).
Li Li, Kohei Yatabe, Hirokazu Kameoka & Shoji Makino (2022). FastMVAE2: On improving and accelerating the fast variational autoencoder-based source separation algorithm for determined mixtures. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP).
X. Wu, Y. Sun, A. Kimura, and K. Kashino, "Contrast enhancement based on reflectance-oriented probabilistic equalization," Signal Processing, vol. 194, 2022.
Tomohiro Nakatani, Rintaro Ikeshita, Keisuke Kinoshita, Hiroshi Sawada, Naoyuki Kamo & Shoko Araki (2022). Switching Independent Vector Analysis and its Extension to Blind and Spatially Guided Convolutional Beamforming Algorithms. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 30, 1032-1047.
Thilo von Neumann, Keisuke Kinoshita, Christoph Boeddeker, Marc Delcroix & Reinhold Haeb-Umbach (2022). Segment-Less Continuous Speech Separation of Meetings: Training and Evaluation Criteria. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 31, 576-589.
Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Hiroto Ashihara, Tetsunori Kobayashi & Tetsuji Ogawa (2022). Multi-Source Domain Generalization Using Domain Attributes for Recurrent Neural Network Language Models. IEICE Transactions on Information and Systems, E105.D (1), 150-160.
Zili Huang, Marc Delcroix, Leibny Paola Garcia, Shinji Watanabe, Desh Raj & Sanjeev Khudanpur (2022). Joint speaker diarization and speech recognition based on region proposal networks. Computer Speech & Language, 72, 101316.

Peer-reviewed Conference Papers

Masato Wakayama (2022). Quantum Interaction and number theory, representation theory - modular forms a bit beyond, infinite symmetric group, Fuchsian ODE. Painlevé Seminar.
Yasunori Ohishi, Marc Delcroix, Tsubasa Ochiai, Shoko Araki, Daiki Takeuchi, Daisuke Niizumi, Akisato Kimura, Noboru Harada & Kunio Kashino (2022). ConceptBeam: Concept driven target speech extraction. Proc. ACM International Conference on Multimedia(ACMMM). Lisbon, Portugal.
Seiya Matsuda, Akisato Kimura & Seiichi Uchida (2022). Font generation with missing impression labels. in Proc. International Conference on Pattern Recognition (ICPR). Montreal Quebec, Canada.
Kana Goto, Tetsuya Ueda, Li Li, Takeshi Yamada & Shoji Makino (2022). Geometrically constrained independent vector analysis with auxiliary function approach and iterative source steering. in Proc. European Signal Processing Conference (EUSIPCO). Belgrade, Serbia.
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada & Kunio Kashino (2022). Composing general audio representation by fusing multi-layer features of pre-trained model. in Proc. European Signal Processing Conference (EUSIPCO). Belgrade, Serbia.
Natsuki Ueno & Hirokazu Kameoka (2022). Multiple sound source localization based on stochastic modeling of spatial gradient spectra. in Proc. European Signal Processing Conference (EUSIPCO). Belgrade, Serbia.
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka & Shogo Seki (2022). MISRNet: Lightweight neural vocoder using multi-input single shared residual blocks. in Proc. Interspeech. Incheon, Korea.
Hirokazu Kameoka, Takuhiro Kaneko, Shogo Seki & Kou Tanaka (2022). CAUSE: Crossmodal action unit sequence estimation from speech. in Proc. Interspeech. Incheon, Korea.
Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada & Kunio Kashino (2022). Introducing auxiliary text query-modifier to content-based audio retrieval. in Proc. Interspeech. Incheon, Korea.
Takashi Shibata, Masatoshi Okutomi & Masayuki Tanaka (2022). Robustizing object detection networks using augmented feature pooling. in Proc. Asian Conference on Computer Vision (ACCV). Macau SAR, China.
Yu Moriyasu, Takashi Shibata, Masayuki Tanaka & Masatoshi Okutomi (2022). Top-K ensemble for semantic segmentation robust against unexpected degradation. Proc. IEEE International Conference on Consumer Electronics(ICCE). Bordeaux,France.
Yasuhiro Fujiwara, Masahiro Nakano, Atsutoshi Kumagai, Yasutoshi Ida, Akisato Kimura & Naonori Ueda (2022). Fast binary network hashing via graph clustering. Proc. IEEE BigData. Osaka, Japan.
Denny Hermawanto, Kenji Ishikawa, Kohei Yatabe & Yasuhiro Oikawa (2022). Visualization of microphone's acoustic center using phase-shifting interferometry. Proc. International Congress on Acoustics (ICA). Gyeongju,Korea.
M. Nakano, R. Nishikimi, Y. Fujiwara, A. Kimura, T. Yamada, and N. Ueda, "Nonparametric relational models with superrectangulation," in Proc. International Conference on Artificial Intelligence and Statistics (AISTATS), 2022.
G. Irie, T. Shibata, and A. Kimura, "Co-attention-guided bilinear model for echo-based depth estimation," in Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022.
T. Kaneko, K. Tanaka, H. Kameoka, and S. Seki, "Fastening and lightening convolutional mel-spectrogram vocoder using inverse short-time fourier transform," in Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022.
S. Seki, H. Kameoka, and L. Li, "Exploring and improving multichannel variational autoencoder for underdetermined source separation," in Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022.
L. Li, H. Kameoka, and S. Seki, "HBP: An efficient block permutation solver using hungarian algorithm and spectrogram inpainting for multichannel audio source separation," in Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022.
H. Kameoka, S. Seki, L. Li, and C. Watanabe, "AttentionPIT: Soft permutation invariant training for audio source separation with attention mechanism," in Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022.
T. Kaneko, "AR-NeRF: Unsupervised learning of depth and defocus effects from natural images with aperture rendering neural radiance fields," in Proc. Conference on Computer Vision and Pattern Recognition (CVPR), 2022.
S. Yoneda, G. Irie, T. Shibata, M. Nishiyama, and I. Yoshio, "Deep segmentation network without mask image supervision for 2D image registration," in Proc. International Workshop on Frontiers of Computer Vision (IW-FCV), 2022.
M. Ueda, A. Kimura, and S. Uchida, "Font shape-to-impression translation," in Proc. International Workshop on Document Analysis Systems (DAS), 2022.
C. Kabore, M. Tsuchida, I. Suzuki, S. Sugaya, A. Kimura, and N. Harada, "Prototyping of low-cost color enhancement lighting using multicolor LEDs," in Proc. International Symposium on Electronic Imaging (EI), 2022.
Hiroshi Sawada, Rintaro Ikeshita, Keisuke Kinoshita & Tomohiro Nakatani (2022). Multi-Frame Full-Rank Spatial Covariance Analysis for Underdetermined BSS in Reverberant Environments. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
Naoyuki Kamo, Rintaro Ikeshita, Keisuke Kinoshita & Tomohiro Nakatani (2022). Importance of Switch Optimization Criterion in Switching WPE Dereverberation. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Naoyuki Kamo & Takafumi Moriya (2022). Learning to Enhance or Not: Neural Network-Based Switching of Enhanced and Observed Signals for Overlapping Speech Recognition. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
Takatomo Kano, Atsunori Ogawa, Marc Delcroix & Shinji Watanabe (2022). Integrating Multiple ASR Systems into NLP Backend with Attention Fusion. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
Atsunori Ogawa, Naohiro Tawara, Marc Delcroix & Shoko Araki (2022). Lattice Rescoring Based on Large Ensemble of Complementary Neural Language Models. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
Keisuke Kinoshita, Marc Delcroix & Tomoharu Iwata (2022). Tight Integration Of Neural- And Clustering-Based Diarization Through Deep Unfolding Of Infinite Gaussian Mixture Model. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
Thilo von Neumann, Keisuke Kinoshita, Christoph Boeddeker, Marc Delcroix & Reinhold Haeb-Umbach (2022). SA-SDR: A Novel Loss Function for Separation of Meeting Style Data. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
Takafumi Moriya, Takanori Ashihara, Atsushi Ando, Hiroshi Sato, Tomohiro Tanaka, Kohei Matsuura, Ryo Masumura, Marc Delcroix & Takahiro Shinozaki (2022). Hybrid RNN-T/Attention-Based Streaming ASR with Triggered Chunkwise Attention and Dual Internal Language Model Integration. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
Kazuma Iwamoto, Tsubasa Ochiai, Marc Delcroix, Rintaro Ikeshita, Hiroshi Sato, Shoko Araki & Shigeru Katagiri (2022). How bad are artifacts?: Analyzing the impact of speech enhancement errors on ASR. Proc. Interspeech 2022.
Marc Delcroix, Keisuke Kinoshita, Tsubasa Ochiai, Katerina Zmolikova, Hiroshi Sato & Tomohiro Nakatani (2022). Listen only to me! How well can target speech extraction handle false alarms?. Proc. Interspeech 2022.
Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Takafumi Moriya, Naoki Makishima, Mana Ihori, Tomohiro Tanaka & Ryo Masumura (2022). Strategies to Improve Robustness of Target Speech Extraction to Enrollment Variations. Proc. Interspeech 2022.
Takafumi Moriya, Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix & Takahiro Shinozaki (2022). Streaming Target-Speaker ASR with Neural Transducer. Proc. Interspeech 2022.
Martin Kocour, Katerina Zmolikova, Lucas Ondel, Jan Svec, Marc Delcroix, Tsubasa Ochiai, Lukas Burget & Jan Cernocky (2022). Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model. Proc. Interspeech 2022.
Koharu Horii, Meiko Fukuda, Kengo Ohta, Ryota Nishimura, Atsunori Ogawa & Norihide Kitaoka (2022). End-to-End Spontaneous Speech Recognition Using Disfluency Labeling. Proc. Interspeech 2022.
Keisuke Kinoshita, Thilo von Neumann, Marc Delcroix, Christoph Boeddeker & Reinhold Haeb-Umbach (2022). Utterance-by-utterance overlap-aware neural diarization with Graph-PIT. Proc. Interspeech 2022.
Rintaro Ikeshita & Tomohiro Nakatani (2022). ISS2: An Extension of Iterative Source Steering Algorithm for Majorization-Minimization-Based Independent Vector Analysis. 2022 30th European Signal Processing Conference (EUSIPCO).
Ján Švec, Kateřina Žmolíková, Martin Kocour, Marc Delcroix, Tsubasa Ochiai, Ladislav Mošner & Jan Honza Černocký (2022). Analysis of Impact of Emotions on Target Speech Extraction and Speech Separation. 2022 International Workshop on Acoustic Signal Enhancement (IWAENC).
Hanako Segawa, Tsubasa Ochiai, Marc Delcroix, Tomohiro Nakatani, Rintaro Ikeshita, Shoko Araki, Takeshi Yamada & Shoji Makino (2022). Neural Virtual Microphone Estimator: Application to Multi-Talker Reverberant Mixtures. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC).
Naoyuki Kamo, Kenichi Arai, Atsunori Ogawa, Shoko Araki, Tomohiro Nakatani, Keisuke Kinoshita, Marc Delcroix, Tsubasa Ochiai & Toshio Irino (2022). Speech Intelligibility Prediction through Direct Estimation of Word Accuracy Using Conformer. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC).
Kenichi Arai, Atsunori Ogawa, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani, Naoyuki Kamo & Toshio Irino (2022). Intelligibility prediction of enhanced speech using recognition accuracy of end-to-end ASR systems. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC).
Ayako Yamamoto, Toshio Irino, Shoko Araki, Kenichi Arai, Atsunori Ogawa, Keisuke Kinoshita & Tomohiro Nakatani (2022). Effective data screening technique for crowdsourced speech intelligibility experiments: Evaluation with IRM-based speech enhancement. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC).
Tomohiro Nakatani, Rintaro Ikeshita, Keisuke Kinoshita, Hiroshi Sawada, Naoyuki Kamo & Shoko Araki (2022). Switching Independent Vector Extraction and Its Joint Optimization with Weighted Prediction Error Dereverberation. Proc.~of 24th INTERNATIONAL congress on acoustics (ICA2022).
Takatomo Kano, Atsunori Ogawa, Marc Delcroix & Shinji Watanabe (2021). Attention-Based Multi-Hypothesis Fusion for Speech Summarization. 2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU).
Naohiro Tawara, Atsunori Ogawa, Yuki Kitagishi, Hosana Kamiyama & Yusuke Ijima (2021). Robust speech-age estimation using local maximum mean discrepancy under mismatched recording condition. 2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU).