アカウント名:
パスワード:
人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできる
シッタカぶっていい加減なことを書かないように。じゃあ何で初期の電話のデジタル回線のサンプリング周波数は8kHzまであったと思ってるの?
音声周波数帯域 [wdic.org]
人間の声は、その主成分はおおむね0.2〜4kHzの周波数範囲にあるとされている。
音楽で使う周波数を調べれば、実態が分かる。
基本音とされるC4が440Hz。これは、実際に話す際の音よりも意外と高い。
あとは、1オクターブで倍半分なのを思い出せば、基音の周波数もすぐに分かるかと。
で、別コメだと声帯は100~200Hzらしいから、人間は普段から裏声を常用してるって事なのかな?
間違った情報を、確認も取らずに「これが肝心なところ」とそのまま引用してくるのは、無実なのか?
常識を”間違った情報”というあなたこそその証を示すべきではないの?
だからリンクを貼ったでしょ。読んでごらん。
~250Hzでほとんどカバーできるなら、電話のサンプリング周波数も600Hz程度で済んだんだよ。そのほうが安上がりに済むのに、わざわざデータ量がかさむ8kHzサンプリングにしたのは、最低そのくらい無いと相手が何を言っているのか聞き取れないから。
8kHzサンプリングでも、相手の声色など微妙な部分を聞き分けるのには不十分で、旧来のデジタル電話では、電話を通すと誰が話しているのか区別をつけにくかった。
今回の実験だって、
スタンフォード大学のYan Michalevsky氏とRafaelのGabi Nakibly氏によっ
原音を再現できるかどうかという意味での「サンプリング定理」と、「低サンプリングレートなデータに解析に必要じゃ情報が含まれているかどうか」は区別しないとダメですよ。
サンプリング定理は、「200Hzでサンプリングした標本データからは、100Hzまでの信号を正確に再現できる」というものです。これは、「200Hzでサンプリングした標本データには、100Hz以上の周波数の信号が情報として含まれない」というわけではありません。
実際には、100Hzを超えた周波数の信号は100Hzまでの範囲に折り畳まれてデータ化されます。つまり、120Hzの信号は、見かけ上80Hzの信号のような形でデータになりますし、180Hzの信号は20Hzになり、さらに上の周波数ならさらに折り返されて240Hzの信号は40Hzになったりする。
このとき、見かけ上80Hzのデータは、本当に80Hzの信号なのか、元は120Hzの折り返し雑音なのかは判別はまったく不可能です。そこで、信号処理においては、標本化する前にローパスフィルタを通して、高周波数の信号は無い状態で取り込むのが普通。
今回のようなジャイロセンサーには入力段にローパスなどは入っていないでしょうから、200Hzサンプリングでも、100Hz以上の振動信号が折りたたまれてデータ化されることになるでしょう。このサンプリングデータは「自分で聞いてみて、認識できる」ようなものではありませんが、「100Hz以上の信号も情報としては含まれている」のです。
あとは「同じように畳み込まれた音声見本データ」を多数用意した上で、「畳み込まれたデータ」の上での認識システムを構築すれば、「音声の、100Hz以上の成分の違い」を区別できるような「ジャイロセンサーからの音声認識」ができるようになるわけです。
#つまり、ここでいう「機械学習システム」は、「100Hzに畳み込まれたデータ」から、「人間の発生パターンに限定する」ことで、「折りたたみ前のデータを推定する」という学習システムってことになるかと思います。
そちらが読み直せば?
「ジャイロセンサーでも録音できるよ」という話の、「肝心な部分」として引用してきた文章にある
この「200Hz」という数値は人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできるからです
というのは間違ってるだろ、と言う話をしているんだよ。それに関しては、リンクを示して説明しているだろう。
それ以降の話は、そこから導き出される、付け加えの解説。記事で「ほとんどカバーできるからです」と書いているが、カバーできてないから精度が高々65%どまりなんだよ、つまりそもそもこの文章を書いた人は、話を勘違いしているんだよ、と言う話。
う~む、なるほど。どうも 元になった論文 [usenix.org](PDF)を読んでみると、仰るとおりらしい。
どうやら、それを引用してブログ [symantec.com]を書いたSymantecの人間が、論文を勘違いして解釈して紹介し、それをGIGAZINEなどがそのまま信じて紹介した、というのが事の真相のようだ。(GIGAZINEの記事にはSymantecの該当ブログへのリンクは無いが、説明文がブログの文章そのままだ)
音声の周波数範囲の件も、ブログで
Human speech ranges from between 80 to 250 hertz
と、そのブログ主は書いているが、引用した論文にはちゃんと
Since the fundamentals of human voices are roughly in the range of 80 – 1100 Hz
とあり、そもそも、その紹介した論文を、彼自身ろくに
それは声帯が出せる音域をカバーするためであって、肉声の主な音域が200Hz辺りだというのは間違ってない。
肉声の主な音域が200Hz辺りだというのは間違ってない。
ソースをどうぞ。
中間周波数はおおむね1kHz前後とされており、この前後の周波数をある程度網羅できれば、その全ての周波数を網羅せずとも音声を見分ける(聞き分ける)ことが可能な音質が実現できる。
フォルマント [wikipedia.org]
それは「人間が聞いて認識できない」だけであって、今回のは記録した信号を再生して聞くわけじゃなくプログラムに解析させるわけだから話がズレてるんじゃ?
同じページに
音声の源となる声帯振動は会話の時は100~200Hz付近で
とあるのに。全部読もうよ。
よく読むべきなのは君の方。
声帯の振動が100~200Hzで、それが
この声帯音源が、声道つまり咽頭喉頭および唇・舌・歯・顎・頬で構成される口腔、さらに鼻腔、副鼻腔で共鳴することによって特定帯域ごとに倍音が増幅される。この増幅された成分の塊もしくはピークをフォルマントと言う。この音は、さらに口から外部への放射、伝播を経て、我々が普段耳にしている音声へと変わる。
だから、声帯の振動周波数が100~200Hzでも、発声される音声の主要成分が100~200Hzの範囲にあるというわけではないの。字面を眺めているだけで、全然文章の意味を理解しようとしていないでしょ?
音声として認識できないようなデータから意味を拾える程度の音声データを復元できるってニュースなのに音声として認識できないできないって騒いでるやつなんなの。
この伸びているツリーでのトピックは「人間の声の周波数帯域である80Hz~250Hz」ってのは間違いだろ、と言う話。話をすり替えようとしているのはそっち。
実際、収集できるデータが、センサーの制限で、音声の主要成分の周波数域をはずしているので、機械を使って解析技術を駆使しても、高々65%までしか精度をあげられない。
髪型だけで人を見分けようとするような話。
つまり、髪型だけ見分ければよい用途には、それで十分という話。
漫画やアニメ、ゲームなんて髪型でしか区別できないのがいっぱいいるじゃないか。
「人間の声の周波数帯域」って表現がわるいんだろうな。ほかのコメントで音域って出てるけど、これは地声の音域、音高・基本周波数の範囲が~って意味だろう。それと「音声の主要成分の周波数域」は違っているけど、「人間の声の周波数帯域」は声が声として聞こえるのに必要な周波数域って意味にも取れるからだろうね。
この場合、聞いて認識するのは人間じゃないから。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
あと、僕は馬鹿なことをするのは嫌いですよ (わざとやるとき以外は)。-- Larry Wall
肝心なところ (スコア:0)
**********
なぜジャイロセンサーで音を録音できるのかというと、Androidではジャイロセンサーに200Hzもしくは1秒間に200回までの動きを検知できるように設定しているからであり、この「200Hz」という数値は人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできるからです。
**********
Re:肝心なところ (スコア:2, 参考になる)
人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできる
シッタカぶっていい加減なことを書かないように。
じゃあ何で初期の電話のデジタル回線のサンプリング周波数は8kHzまであったと思ってるの?
音声周波数帯域 [wdic.org]
人間の声は、その主成分はおおむね0.2〜4kHzの周波数範囲にあるとされている。
Re:肝心なところ (スコア:2)
音楽で使う周波数を調べれば、実態が分かる。
基本音とされるC4が440Hz。
これは、実際に話す際の音よりも意外と高い。
あとは、1オクターブで倍半分なのを思い出せば、基音の周波数もすぐに分かるかと。
で、別コメだと声帯は100~200Hzらしいから、人間は普段から裏声を常用してるって事なのかな?
-- Buy It When You Found It --
Re: (スコア:0)
Re: (スコア:0)
間違った情報を、確認も取らずに「これが肝心なところ」とそのまま引用してくるのは、無実なのか?
Re: (スコア:0)
常識を”間違った情報”というあなたこそその証を示すべきではないの?
Re: (スコア:0)
常識を”間違った情報”というあなたこそその証を示すべきではないの?
だからリンクを貼ったでしょ。読んでごらん。
~250Hzでほとんどカバーできるなら、電話のサンプリング周波数も600Hz程度で済んだんだよ。
そのほうが安上がりに済むのに、わざわざデータ量がかさむ8kHzサンプリングにしたのは、
最低そのくらい無いと相手が何を言っているのか聞き取れないから。
8kHzサンプリングでも、相手の声色など微妙な部分を聞き分けるのには不十分で、旧来のデジタル電話では、
電話を通すと誰が話しているのか区別をつけにくかった。
今回の実験だって、
スタンフォード大学のYan Michalevsky氏とRafaelのGabi Nakibly氏によっ
Re:肝心なところ (スコア:2)
原音を再現できるかどうかという意味での「サンプリング定理」と、
「低サンプリングレートなデータに解析に必要じゃ情報が含まれているかどうか」は区別しないとダメですよ。
サンプリング定理は、「200Hzでサンプリングした標本データからは、100Hzまでの信号を正確に再現できる」というものです。これは、「200Hzでサンプリングした標本データには、100Hz以上の周波数の信号が情報として含まれない」というわけではありません。
実際には、100Hzを超えた周波数の信号は100Hzまでの範囲に折り畳まれてデータ化されます。つまり、120Hzの信号は、見かけ上80Hzの信号のような形でデータになりますし、180Hzの信号は20Hzになり、さらに上の周波数ならさらに折り返されて240Hzの信号は40Hzになったりする。
このとき、見かけ上80Hzのデータは、本当に80Hzの信号なのか、元は120Hzの折り返し雑音なのかは判別はまったく不可能です。
そこで、信号処理においては、標本化する前にローパスフィルタを通して、高周波数の信号は無い状態で取り込むのが普通。
今回のようなジャイロセンサーには入力段にローパスなどは入っていないでしょうから、200Hzサンプリングでも、100Hz以上の振動信号が折りたたまれてデータ化されることになるでしょう。
このサンプリングデータは「自分で聞いてみて、認識できる」ようなものではありませんが、「100Hz以上の信号も情報としては含まれている」のです。
あとは「同じように畳み込まれた音声見本データ」を多数用意した上で、「畳み込まれたデータ」の上での認識システムを構築すれば、
「音声の、100Hz以上の成分の違い」を区別できるような「ジャイロセンサーからの音声認識」ができるようになるわけです。
#つまり、ここでいう「機械学習システム」は、「100Hzに畳み込まれたデータ」から、「人間の発生パターンに限定する」ことで、「折りたたみ前のデータを推定する」という学習システムってことになるかと思います。
Re: (スコア:0)
という文脈で勝手に音声認識の話をされてもな。
スレ頭から読み直せ。
Re: (スコア:0)
そちらが読み直せば?
「ジャイロセンサーでも録音できるよ」という話の、「肝心な部分」として引用してきた文章にある
この「200Hz」という数値は人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできるからです
というのは間違ってるだろ、と言う話をしているんだよ。
それに関しては、リンクを示して説明しているだろう。
それ以降の話は、そこから導き出される、付け加えの解説。
記事で「ほとんどカバーできるからです」と書いているが、カバーできてないから精度が高々65%どまりなんだよ、
つまりそもそもこの文章を書いた人は、話を勘違いしているんだよ、と言う話。
Re: (スコア:0)
う~む、なるほど。
どうも 元になった論文 [usenix.org](PDF)を読んでみると、仰るとおりらしい。
どうやら、それを引用してブログ [symantec.com]を書いたSymantecの人間が、
論文を勘違いして解釈して紹介し、それをGIGAZINEなどがそのまま信じて紹介した、というのが事の真相のようだ。
(GIGAZINEの記事にはSymantecの該当ブログへのリンクは無いが、説明文がブログの文章そのままだ)
音声の周波数範囲の件も、ブログで
Human speech ranges from between 80 to 250 hertz
と、そのブログ主は書いているが、引用した論文にはちゃんと
Since the fundamentals of human voices are roughly in the range of 80 – 1100 Hz
とあり、そもそも、その紹介した論文を、彼自身ろくに
Re: (スコア:0)
それは声帯が出せる音域をカバーするためであって、肉声の主な音域が200Hz辺りだというのは間違ってない。
Re: (スコア:0)
肉声の主な音域が200Hz辺りだというのは間違ってない。
ソースをどうぞ。
音声周波数帯域 [wdic.org]
中間周波数はおおむね1kHz前後とされており、この前後の周波数をある程度網羅できれば、
その全ての周波数を網羅せずとも音声を見分ける(聞き分ける)ことが可能な音質が実現できる。
フォルマント [wikipedia.org]
Re: (スコア:0)
それは「人間が聞いて認識できない」だけであって、今回のは記録した信号を再生して聞くわけじゃなくプログラムに解析させるわけだから話がズレてるんじゃ?
Re: (スコア:0)
同じページに
音声の源となる声帯振動は会話の時は100~200Hz付近で
とあるのに。全部読もうよ。
Re:肝心なところ (スコア:1)
Re: (スコア:0)
よく読むべきなのは君の方。
声帯の振動が100~200Hzで、それが
この声帯音源が、声道つまり咽頭喉頭および唇・舌・歯・顎・頬で構成される口腔、
さらに鼻腔、副鼻腔で共鳴することによって特定帯域ごとに倍音が増幅される。
この増幅された成分の塊もしくはピークをフォルマントと言う。この音は、さらに口から外部への放射、伝播を経て、
我々が普段耳にしている音声へと変わる。
だから、声帯の振動周波数が100~200Hzでも、発声される音声の主要成分が100~200Hzの範囲にあるというわけではないの。
字面を眺めているだけで、全然文章の意味を理解しようとしていないでしょ?
Re: (スコア:0)
音声として認識できないようなデータから意味を拾える程度の音声データを復元できるってニュースなのに
音声として認識できないできないって騒いでるやつなんなの。
Re: (スコア:0)
この伸びているツリーでのトピックは「人間の声の周波数帯域である80Hz~250Hz」ってのは間違いだろ、と言う話。
話をすり替えようとしているのはそっち。
実際、収集できるデータが、センサーの制限で、音声の主要成分の周波数域をはずしているので、
機械を使って解析技術を駆使しても、高々65%までしか精度をあげられない。
髪型だけで人を見分けようとするような話。
Re: (スコア:0)
つまり、
髪型だけ見分ければよい用途には、それで十分という話。
Re: (スコア:0)
漫画やアニメ、ゲームなんて髪型でしか区別できないのがいっぱいいるじゃないか。
Re: (スコア:0)
「人間の声の周波数帯域」って表現がわるいんだろうな。
ほかのコメントで音域って出てるけど、これは地声の音域、音高・基本周波数の範囲が~って意味だろう。
それと「音声の主要成分の周波数域」は違っているけど、「人間の声の周波数帯域」は声が声として聞こえるのに必要な周波数域って意味にも取れるからだろうね。
Re: (スコア:0)
この場合、聞いて認識するのは人間じゃないから。