なぜ存在しない声なのに「リアル」なのか?声とキャラクター、声のバーチャル性を考える──声遊楽クロスダイアローグ#5レポート【明渡隼人×永田大輔×松本大輝】
私たちの身近に存在する無数の「声」。日常に溶け込みながらも、自己と他者、話者とキャラクター、あるいは人間と機械の境界を映し出す興味深いメディアです。
いま、ポップカルチャーにおける人間の声の技術の発展と、工学技術の進歩が相まって、声にまつわるさまざまな“間”がゆらいでいます。
「私らしさ」を規定している声が機械によって変質したとき、「私」という存在はどうなるのか?
2.5次元文化、VTuberなどの声は誰のものなのか?
こうした声をめぐるさまざまな問いに応え、未来の人間らしさ、「心の豊かさ」につながる文化を創造していくことを目指す「声遊楽プロジェクト」。その一環として開催しているのが、研究者や企業人、表現者らが垣根を越えて語り合う「声遊楽クロスダイアローグ」です。
第5回のテーマは、「『声』に誰を見るのか?声とキャラクター、声のバーチャル性を考える」。
登壇したのは、主にAI技術を活用したエンタメ・サービス開発を行う株式会社Pictoriaの設立者・明渡隼人さん。明治学院大学等非常勤講師で、文化社会学、メディア論、アニメ研究を専門にしている永田大輔さん。そして、分析美学におけるフィクション論を通して、スポーツや現代のポップカルチャーなどの領域を扱う松本大輝さんです。ファシリテーターは、声遊楽プロジェクト・マネージャーである林大輔さんが務めました。
アニメキャラクター、VTuber、ボーカロイド、そしてAI VTuber……声が物理的な身体から切り離されていく局面が増えるほど、「声に誰を見るのか」も変わってきています。本記事では、研究と制作、文化史と技術の最前線を往復しながら、「声とキャラクターはいかに結びつき、いかにズレてきたのか」「技術は私たちの聴き方や欲望をどう変えてきたのか」を考えていきます。
(Text by Shiho Umehara, Edit by Masaki Koike)
(登壇者プロフィール)
・明渡隼人(あけど・はやと)
2017年12月に株式会社Pictoriaを設立。現在は主にAI技術を活用したエンタメ・サービス開発に注力している。2019年にバーチャルYouTuber「斗和キセキ」をデビューさせ、クラウドファンディングにて約1,500万円のご支援を頂く。 以降、2020年にはAIを掛け合わせたAI VTuber「紡ネン」をリリース。 2023年には世界初のAI VTuber事務所「AICAST」を発表。
・永田大輔(ながた・だいすけ)
明治学院大学等非常勤講師。専門は文化社会学、メディア論、アニメ研究。アニメ文化を表象のみならず、産業・受容(消費)者・技術の関係に着目。中でもビデオ技術等を通じてアニメが趣味文化として成熟していったプロセスを研究。プロジェクトでは声優について研究中。単著『アニメオタクとビデオの文化社会学—-映像視聴経験の系譜』青弓社、共著に『産業変動の労働社会学──アニメーターの経験史』晃洋書房、編著に『アニメの社会学—-アニメファンとアニメ制作者たちの文化産業論』ナカニシヤ出版他多数
・松本大輝(まつもと・ひろき)
美学者。専門は分析美学におけるフィクション論。虚構の経験と現実の経験との絡み合いを精緻に議論するための枠組みを模索しつつ、スポーツや現代のポップカルチャーなどの様々な領域へと拡張する可能性も追究している。とりわけバーチャル文化における音や声のあり方が目下の関心事。
声はいかにして「商品」となるのか?
登壇者の一人目は、美学者の松本大輝さん。専門は分析美学におけるフィクション論で、対象はスポーツや現代のポップカルチャーなどの領域に拡張しています。漫画やアニメ、小説といったフィクション作品に私たちがどのように感情を向けているのか、そもそもフィクションとは何なのか。近年はボーカロイドやVTuber、バーチャル音声論などを通して、「リアル」と「バーチャル」について考察しています。
その具体的な成果として、初音ミクをめぐるボーカロイド論のほか、『VTuber学』(岩波書店、2024)への寄稿があります。同書の中で松本さんは、VTuberを従来のフィクション文化を継承しながら、独自の創造の様態を確立している存在でもあると結論づけます。
「フィクション論を扱っていますが、基本的な問題意識は『現実(リアル)がどのように生まれているか』ということです。そしてリアルの対になるものは何かと考えたときに、そのひとつがフィクションではないか、と」(松本)
続いて登壇したのは、文化社会学・メディア論を専門とする永田大輔さん。アニメ文化を表象だけでなく、産業・受容(消費者)・技術の関係として捉え、作品がどのように作られ、流通し、受け取られてきたのかを研究してきました。その成果は、単著『アニメオタクとビデオの文化社会学』(青弓社、2024)、共編著『アニメの社会学』(ナカニシヤ出版、2020)などで発表されています。
こうした視点をふまえ、声遊楽プロジェクトにおいて永田さんが関心を向けたのは、声優文化における「声の価値づけ」の問題でした。
「声を魅力的に感じることと、声がマーケット的な価値をもつことは必ずしもイコールではないはずです。『この声は誰々の声だ』とファンのあいだで共通認識が生まれることによって、結果的にその声を魅力的に感じている場合があるわけですから。
たとえば、80・90年代ぐらいから、アニメならではのマイクワーク、つまりアニメっぽい芝居が確立していったり、クールのあり方が変化して10年以上同じキャラクターを演じるようになったり、といったことで、声優とキャラクターの関係性が生まれていく。こうした特定の声が『商品』として成立する背景にある、さまざまな歴史性に着目して研究しています」(永田)
声優文化は産業や制度、ファン文化の中で成立してきたもの。深夜アニメの拡大、1クール化、ゲームやドラマCDへの展開など、メディア環境の変化が、声とキャラクターの結びつき方を変えてきたという事例が併せて紹介されました。
そして三人目は、株式会社Pictoria代表の明渡隼人さん。AI技術を用いたエンターテインメントの開発、とりわけAI VTuberの開発・プロデュースを行っています。
Pictoriaのミッションは、「推せる未来をつくる」。人間でない存在に感情を向け、時間とお金を投じ、関係を結ぼうとする。その営みを、単なる錯覚や代替ではなく、現代的な関係の一形態として捉えたいといいます。
「VTuberやキャラクターって、人の気持ちを動かせる存在でないといけないと思うんです。現代的な言い方をすれば、『推されるに足りうる人格』を作らなきゃいけない。AIだから推せないとか、AIだから人より劣っている、といった常識を取っ払いたいんです」(明渡)
声優とキャラクターの結びつきは「自然」ではない?
視覚的なキャラクター表現と声優の声は、どのように結びついているのでしょうか? 林さんのそんな問いかけから、議論は始まりました。
「『ツンデレ声』のようにカテゴライズされた声と、特定のキャラクターと結びついた声は違うものでしょう。たとえば、ツンデレっぽい声と釘宮理恵さん(編注:少年・少女から大人の女性、人外キャラクターまで幅広く演じている声優。とくにツンデレの女性キャラクターに定評がある)の声は違うものだと考えられる。後者は特定のキャラクターと結びつくことで価値を持つ声になった、といえると思います。
アニメで演じた声が、ドラマCDやCMなどの別のメディアでも『あのキャラクターの声』として期待される。そうやって声優の声とキャラクターが一対一で結びついていく。それはボーカロイドの声のあり方とは違う構造です。
一方で、その結びつきは武器にも足かせにもなる。国民的アニメのように強く結びついた声だと、同じ声優で他のキャラクターを演じることがマイナスに働く場合もあります」(永田)
「声優と特定のキャラクターが同一視されるということですよね。この結びつきから抜け出そうとするのか、それを前提に戦略を組むのかは作り手側に任されている。
初音ミクの場合は、Appendという拡張機能で声質を増やしながらも『ミクらしさ』を残す戦略がありました。声の個性は固定されるだけでなく、拡張もされる。それは聴く側にも『ミクらしさ』を聴き取る文化が形成されていたということでもあると思います」(松本)
こうして見ると、声とキャラクターの結びつきは自然なものというより、文化的・制度的に作られてきた関係であることがわかります。そして、その関係は固定されたものではなく、戦略や技術、聴き方の変化によって、揺らぎ続けるものでもあるようです。
VTuberと声優の文化的な差異
続けて、声優とVTuberという二つの存在の違いに焦点が当てられました。まず制作サイドである明渡さんが、VTuberの成り立ちについて説明します。
「VTuberは産業構造的にキャラクターのビジュアルが先にリリースされて、あとから声が決まる場合があります。その結果、ビジュアルと声のズレに違和感を持つ人が出てくる場合もあります。たとえば、正統派イケメンの男性VTuberの声が、どこにでもいる男の人の声に聞こえる、という感想もありました。
だからといって、そのズレが悪いということではありません。キャラクターっぽい声よりも、普通に喋っている声のほうが好まれることも多いんです。VTuber業界における『いい声』の基準自体が、まだ揺れていると思います」(明渡)
これを受けて永田さんは、声優とVTuberの違いを文化史の側から整理します。
「VTuberが出るまでに、ニコニコ動画のように『素人がやってみる』文化の蓄積があります。プロの声優とキャラクターの関係づけとは違う場で、声真似をしたりする人が出たり、ちょっとうまい人がキャラクター化したり、といったことが起こっていました。
声優は、いろんなキャラクターと自身の声を関係づけることで専門性を獲得してきたけれど、VTuberは逆で、一人のキャラクターにならなければならない。声優が長期シリーズのアニメで『特定のキャラの声』に紐づけられるのと似ていて、むしろ複数のキャラクターイメージが出てはいけない構造を持っていると思います」(永田)
なぜAI VTuberに「存在」を感じるのか
議論はここから、声やキャラクターそのものよりも、それを支える技術が私たちの文化や感覚をどう変えてきたのか、という問いへと移っていきます。
モデレーターの林さんは、VTuberとAI VTuberの違いに着目します。VTuberはその背後に「中の人(=人間)」がいるが、AI VTuberに「中の人」はいない。それでも、視聴者はAI VTuberにも何らかの存在を感じている。両者の違いはどこにあるのか、と問いかけます。
松本さんはそれに応える形で、声という存在の特殊さについて語ります。
「初音ミクなどもそうですが、ビジュアル的な要素がまずあって、そこからイメージが喚起されることは多いと思います。一方で、声のみでも喚起されるものがあります。声は『いるはずのないものがいる』感じを強く喚起すると思うんですよね。風の音が声に聴こえて、不気味だと感じるのも同じことでしょう。だから、『中の人』がいなくても存在を感じ取ることができる。
合成音声が可能なのも、そうした人間の声に対する認知能力が際立っているからかもしれません。録音がなかった時代と、録音文化が成立してからの声の聴き方、さらに合成音声が生まれてからの聴き方は、同じ『聴く』という言葉を使っていても、実は全然違うことをやっている可能性があると思います」(松本)
永田さんは、技術論の視点から応答します。
「技術が我々の文化を代替するかどうかよりも、むしろ我々そのものを変えてきた、という点が重要だと思っています。長谷正人さんが『ベンヤミンの映画俳優論』(岩波書店、2025)という本で紹介していることの言い換えですが、技術が入ってくることで行為が変わる。
初音ミクも、音楽そのものを変えた可能性がある。ボーカロイドと自分の声を連動させながら音楽文化を作る例も出てきた。合成音声が出てきたことで、我々の歌い方や音楽の作り方は変わったと思うんです」(永田)
パーソナライズされた、一対一の「推し」
巷では、AIをめぐってシンギュラリティの問題がよく注目されます。では、AI VTuberの場合はどうでしょうか。AI VTuberは、どこまで人間に近づくべきなのでしょうか。
「人間らしいAI VTuber」の制作について林さんが明渡さんに問いかけると、それを受けて永田さんがこう重ねました。VTuberを鑑賞する際にキャラクター同士の関係性が重要なケースがあるように、AI VTuber同士、あるいはAI VTuberとVTuberとのコラボレーションが大事になるのではないか、という問いです。
これに対し、明渡さんは制作サイドの現実を語ります。
「人間社会の中に入ったとしても一際輝くAI VTuberのスターを作るのは、会社の目標のひとつではあります。そしてYouTubeやTikTokのようなプラットフォームで戦う以上、人間社会にまみれながら、キャラクター同士の関係性を含めて豊かなコンテンツを作っていくことが必要だと思います。
ただ一方で、AIはパーソナライズできるという良さもあります。ユーザーと一対一で関係を作るという方向があり得る。つまり、ユーザーが好みの声や画像を作って、そのキャラと関係を深める、ということができるというものです」(明渡)
松本さんは、この話をより広い文脈に置き直します。
「AI VTuberだけでなく、AIエージェントも視野に入る話ですね。それはつまり、動画プラットフォームで見る、チャットで会話する、投げ銭する、という形とは別で、日常的な対話相手としての役割も担う存在です。
ユーザーが自分の好みを持ち込み、それを洗練させていく、ということが一つの技術になる。自分が心地よいもの、愛せるものを理解して、それを組み上げていく。そうすることで、動画配信などのマスマーケットとは別の、新しい『推し』の形が生まれるかもしれません」(松本)
「今は『推す』という言葉が普及していますが、マスマーケットの中で推すことと、一対一の関係でケアされることは、違う欲望かもしれないですね。同じ『推す』という言葉を使っていても、ユーザーは別のことを欲しているのかもしれません」(永田)
関係性の構築に「物理的な身体」は必要か?
より日常的な場面でのAIの使われ方をめぐる話題から、「声だけのAIエージェントは成立するのか」という問いが浮かび上がりました。松本さんは、ビジュアルのない存在のほうが、かえって日常に入り込みやすい可能性があるのではないかと指摘します。
「もっと日常的な場面で、AIがアドバイザーやエージェントとして使われるようになるとき、むしろビジュアルがあるほうが浸透しにくい可能性もあるんじゃないかと思います。声だけの存在のほうが、生活に入り込みやすいかもしれません」(松本)
これに対して明渡さんは、制作側の実感から慎重な見方を示します。
「イメージを作れるユーザーなら、声だけでもいいかもですが、基本的にはビジュアルがあったほうが入りやすいのではないかと思います。AIとの音声対話で、そこに人格を感じ取る人もいれば、感じない人もいるので」(明渡)
一方で永田さんは、「日常に入り込む」という点では、むしろ音声のほうが強いのではないかと補足します。
「テレビって視覚文化だと思われがちだけど、実は音声が主体なのではないでしょうか。家事をしながら、ご飯を食べながら、たまに画面を見ている。目は塞ぐことができても、耳を塞ぐことはできないので、そう考えれば耳のほうが優位にあるともいえます。音が主体でありつつ視覚も存在する、という状態が、最も日常に浸透するのかもしれません」(永田)
ここで林さんは、「声から始まる関係」の例として、ひと昔前の電話交換手の話を引き合いに出します。声に惹かれる関係は確かにある。しかしそこには、物理的な身体を持った他者がいるという前提があった。では、身体を持たないAI VTuberの場合、何が起こるのか──という問いです。
松本さんは、身体を持たなければならないという前提そのものを問い直します。
「我々は、人間同士の関係を基準に考えすぎているのかもしれません。声に恋をするとき、それが人間であるという前提がないと奇妙に見える、というだけで、本当に不可能かどうかは別だと思います。傾向として起こりにくいのは事実だと思いますが、可能性としては十分ありうる」(松本)
この「可能性」を、永田さんは欲望と技術の関係から捉え直します。
「人はいくらAIで自由に絵を作れるようになっても、手描きを選んだりする。写真よりも、写真みたいな絵をすごいと感じるのは、美しさというより、異常な労力をかけて再現したことに対して感じる魅力があります。一方で初音ミクが成功したのは、人間にはできない特殊な表現を作れたからだと思います。AI VTuberも、VTuberの代替になるかどうかより、機械にしかできない表現をどれだけ作れるかが大事なんじゃないでしょうか」(永田)
「裏切り」が文化を駆動する
最後に永田さんが、AIやキャラクターをめぐる議論に、少し異なる角度からの問いを投げかけました。
「気になっているのは、ヒューマンインタレスト(人間の感情や経験に訴えかける話題や物語)の問題です。芸能やキャラクター文化の駆動力は、実は『裏切られるかもしれない、思い通りにならないかもしれない』というところにあると思うんです。
作者の判断で、好きなキャラが死ぬかもしれない。ファンだった声優のゴシップ的な話を聞いてしまうかもしれない。そういう『裏切り』の可能性が、関係や欲望を駆動してきた側面があるはずです。
今のAIは、どちらかというと『わかってくれる』方向に設計されている。でも、ちゃんと裏切ってくれる存在でいられるのか、というのは大きな論点だと考えています」(永田)
明渡さんも、この指摘に頷きつつ、現場感覚から補足します。
「心地よく裏切ってくれるAIキャラクターを、まだ作れていないのかもしれないですね。VTuberにガチ恋するファンの言葉で、印象に残っているものがあります。その人は『俺がこの配信を見ていないときに、この子がどうなっているか心配だ』というんです。
VTuberの場合、配信の外に『何をしているかわからない時間』がある。でも、今のAIにはそれがまだない。それでも『この子はどうしているんだろう』とファンが思うような存在を実現してみたいですね」(明渡)
声は、誰かの身体に属するもののようでいて、同時にキャラクターや技術、そして受け取る側の想像力の中にも広がっています。声優、ボーカロイド、VTuber、そして新たに登場したAI VTuberは、その広がり方の違いを示しているにすぎません。
「声に誰を見るのか」という問いは、私たちが対象とどのような関係を結びたいのかという問いでもある。そのことが、今回の議論を通して示されていたように思います。
「今回の声遊楽クロスダイアローグは、歴史的な観点を踏まえつつ研究を行う美学者・社会学者と、歴史の最先端を走る企業人との対談でした。抽象的な概念・観点と具体的な実装・事例との間、あるいは過去と未来との間を行き来しながら展開された議論は刺激的で、聞いていてとても楽しい時間でした。様々な『キャラクター』という存在の『声』を題材に思考や議論を深めていくことで、プロジェクトの大きな問いである『声におけるその人らしさ/人間らしさ』について多くの示唆が得られました。話者とキャラクターの間、あるいは人間と機械の間を、これからもプロジェクトでは探求していければと思います」(プロジェクトマネージャー・林大輔さん)
***
★今回のクロスダイアローグから得られたインサイト
① 「声×キャラクター」の結びつきは“自然”ではなく、制度・産業・受容の歴史が作る
「ツンデレ声」のような類型的な声の“らしさ”と、「この声はこのキャラクターのものだ」という一対一の結びつきは別物であり、後者はアニメ/ドラマCD/CMなどメディア横断の期待や、1クール化・深夜アニメ拡大・ゲーム展開といった環境変化の中で強化されてきた。声が「商品」として成立するのは、魅力の“内在”だけでなく、ファンの共通認識・流通・制度が声に価値を付与するからである。
② 「存在しない声」が“リアル”に聴こえるのは、声が想像力を起動するメディアだから
ビジュアルが先にありイメージが喚起される場合が多い一方で、声はそれ単体でも「いるはずのないものがいる」という感覚を喚起しうる。録音文化/合成音声の登場によって「聴く」という行為自体が変化しており、AI VTuberのように「中の人」が不在でも、受け手は声を手がかりに存在を構成してしまう。この“リアル”は、現実の再現というより、聴取の側が作り出す現実(リアルの生成)として理解できる。
③ 技術は「文化を代替する」というよりも「私たちの行為・欲望」を作り替える
合成音声やボーカロイドの登場は、単に既存表現を置き換えるのではなく、歌い方・作り方・推し方など、受け手/作り手双方の実践を変えてきた。同様にAI VTuberも、VTuberの代替になれるかではなく、機械にしかできない表現や、ユーザーが好みを持ち込み洗練させるようなパーソナライズされた関係(一対一の推し/日常的対話相手)を通じて、欲望の形式そのものを変える可能性がある。
④ 関係を駆動するのは「わかってくれる」ことだけではなく、「裏切りの可能性/不在/不可視の時間」である
キャラクター文化の駆動力には、「思い通りにならないかもしれない」「裏切られるかもしれない」というヒューマンインタレストが含まれる。現状のAIは“理解・最適化”方向に寄りがちだが、VTuberのように配信外の「何をしているかわからない時間」や、心地よい形での「裏切り」を内包できるかが、AI VTuberの“存在感”と関係性を左右する論点として浮上した。
※本ダイアローグの全編は、下記のアーカイブ動画よりご視聴いただけます。
「声」に誰を見るのか?声とキャラクター、声のバーチャル性を考える:声遊楽クロスダイアローグ第5回【明渡隼人×永田大輔×松本大輝】
***
声遊楽クロスダイアローグでは、さまざまな分野の専門家をお呼びし、声をめぐる文化や可能性を広く探求しています。次回のテーマは「『声を聞く』とはどのような行為か?――声と聞き手の関係を探求する」。現象学・心理学・計算論的神経科学の視点を交差させて問い直し、声と聞き手の関係を掘り下げます。
■日時
2026/1/30(金)
18:00~19:30(開催済)
■場所
YouTube配信(全編無料)
▶▶▶YouTubeでのご視聴はこちら
■登壇者
・上村卓也(こうむら・たくや)
人間の進化を計算機上でゼロから創りたい。専門は計算論的神経科学・知覚心理学。分子から個体まで幅広いスケールを対象とした計算シミュレーションや、動物実験・ヒトを対象とした心理実験などの経験を活かし、現在は主に計算シミュレーションを用いた聴覚特性の創発原理解明に取り組んでいる。最近の特技は早寝早起き(夜9時には眠くなる)。趣味はダンスやテレビゲームなど。NTT コミュニケーション科学基礎研究所所属。博士(学術)。
・田中章浩(たなか・あきひろ)
東京女子大学現代教養学部心理学科教授。博士(心理学)。人間が視覚・聴覚といった五感を通して他者とわかりあう心のはたらきに関心を持ち、認知心理学的なアプローチで研究を進めている。研究テーマは顔・声・身体・音楽・自己の多感覚知覚およびそれらの文化間比較など。著書に『顔を聞き、声を見る―私たちの多感覚コミュニケーション―』(共立出版)。小中学生の頃はラジオ、高校生以降は音楽にハマり、自称「聴覚派」。
研究室HPはこちら
・堀内彩虹(ほりうち・あやこ)
早稲田大学文学学術院次席研究員、日本学術振興会特別研究員PD。博士(学術)。専門は美学、聴覚論、ヴォイス・スタディーズ。東京大学大学院総合文化研究科博士課程修了。2024-25年、米国のカリフォルニア大学ロサンゼルス校音楽学部で客員研究員。第4回柴田南雄音楽評論賞本賞受賞。発話者が伝えた言語的意味が聴き手によって別の意味に読みかえられる現象に興味があり、人は他者の音声をどう経験するのかを現象学的に研究している。2019年以降、現代音楽作品を自分の身体と声で体験する聴取ワークショップを開催している。



