アカウント名:
パスワード:
人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできる
シッタカぶっていい加減なことを書かないように。じゃあ何で初期の電話のデジタル回線のサンプリング周波数は8kHzまであったと思ってるの?
音声周波数帯域 [wdic.org]
人間の声は、その主成分はおおむね0.2〜4kHzの周波数範囲にあるとされている。
間違った情報を、確認も取らずに「これが肝心なところ」とそのまま引用してくるのは、無実なのか?
常識を”間違った情報”というあなたこそその証を示すべきではないの?
だからリンクを貼ったでしょ。読んでごらん。
~250Hzでほとんどカバーできるなら、電話のサンプリング周波数も600Hz程度で済んだんだよ。そのほうが安上がりに済むのに、わざわざデータ量がかさむ8kHzサンプリングにしたのは、最低そのくらい無いと相手が何を言っているのか聞き取れないから。
8kHzサンプリングでも、相手の声色など微妙な部分を聞き分けるのには不十分で、旧来のデジタル電話では、電話を通すと誰が話しているのか区別をつけにくかった。
今回の実験だって、
スタンフォード大学のYan Michalevsky氏とRafaelのGabi Nakibly氏によって作成された、機械学習を用いて学習する音声認識プログラムにより正確に音を解析し、実際にどのような音が鳴っていたのかを判断できるようにまでなった。・・・・・・・・・・・・被験者の話す言葉の一語一語を65%の確率で正確に識別できるレベル
という感じで、解析技術を駆使して、やっと半分ちょいぐらいの精度なのは、音声情報の主要成分が含まれていないから。サンプルデータがGIGAZINEのリンクからたどれるから、自分で聞いてみて、認識できるかどうか確かめてみると良い。
原音を再現できるかどうかという意味での「サンプリング定理」と、「低サンプリングレートなデータに解析に必要じゃ情報が含まれているかどうか」は区別しないとダメですよ。
サンプリング定理は、「200Hzでサンプリングした標本データからは、100Hzまでの信号を正確に再現できる」というものです。これは、「200Hzでサンプリングした標本データには、100Hz以上の周波数の信号が情報として含まれない」というわけではありません。
実際には、100Hzを超えた周波数の信号は100Hzまでの範囲に折り畳まれてデータ化されます。つまり、120Hzの信号は、見かけ上80Hzの信号のような形でデータになりますし、180Hzの信号は20Hzになり、さらに上の周波数ならさらに折り返されて240Hzの信号は40Hzになったりする。
このとき、見かけ上80Hzのデータは、本当に80Hzの信号なのか、元は120Hzの折り返し雑音なのかは判別はまったく不可能です。そこで、信号処理においては、標本化する前にローパスフィルタを通して、高周波数の信号は無い状態で取り込むのが普通。
今回のようなジャイロセンサーには入力段にローパスなどは入っていないでしょうから、200Hzサンプリングでも、100Hz以上の振動信号が折りたたまれてデータ化されることになるでしょう。このサンプリングデータは「自分で聞いてみて、認識できる」ようなものではありませんが、「100Hz以上の信号も情報としては含まれている」のです。
あとは「同じように畳み込まれた音声見本データ」を多数用意した上で、「畳み込まれたデータ」の上での認識システムを構築すれば、「音声の、100Hz以上の成分の違い」を区別できるような「ジャイロセンサーからの音声認識」ができるようになるわけです。
#つまり、ここでいう「機械学習システム」は、「100Hzに畳み込まれたデータ」から、「人間の発生パターンに限定する」ことで、「折りたたみ前のデータを推定する」という学習システムってことになるかと思います。
そちらが読み直せば?
「ジャイロセンサーでも録音できるよ」という話の、「肝心な部分」として引用してきた文章にある
この「200Hz」という数値は人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできるからです
というのは間違ってるだろ、と言う話をしているんだよ。それに関しては、リンクを示して説明しているだろう。
それ以降の話は、そこから導き出される、付け加えの解説。記事で「ほとんどカバーできるからです」と書いているが、カバーできてないから精度が高々65%どまりなんだよ、つまりそもそもこの文章を書いた人は、話を勘違いしているんだよ、と言う話。
う~む、なるほど。どうも 元になった論文 [usenix.org](PDF)を読んでみると、仰るとおりらしい。
どうやら、それを引用してブログ [symantec.com]を書いたSymantecの人間が、論文を勘違いして解釈して紹介し、それをGIGAZINEなどがそのまま信じて紹介した、というのが事の真相のようだ。(GIGAZINEの記事にはSymantecの該当ブログへのリンクは無いが、説明文がブログの文章そのままだ)
音声の周波数範囲の件も、ブログで
Human speech ranges from between 80 to 250 hertz
と、そのブログ主は書いているが、引用した論文にはちゃんと
Since the fundamentals of human voices are roughly in the range of 80 – 1100 Hz
とあり、そもそも、その紹介した論文を、彼自身ろくに
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
皆さんもソースを読むときに、行と行の間を読むような気持ちで見てほしい -- あるハッカー
肝心なところ (スコア:0)
**********
なぜジャイロセンサーで音を録音できるのかというと、Androidではジャイロセンサーに200Hzもしくは1秒間に200回までの動きを検知できるように設定しているからであり、この「200Hz」という数値は人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできるからです。
**********
Re: (スコア:2, 参考になる)
人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできる
シッタカぶっていい加減なことを書かないように。
じゃあ何で初期の電話のデジタル回線のサンプリング周波数は8kHzまであったと思ってるの?
音声周波数帯域 [wdic.org]
人間の声は、その主成分はおおむね0.2〜4kHzの周波数範囲にあるとされている。
Re: (スコア:0)
Re: (スコア:0)
間違った情報を、確認も取らずに「これが肝心なところ」とそのまま引用してくるのは、無実なのか?
Re: (スコア:0)
常識を”間違った情報”というあなたこそその証を示すべきではないの?
Re:肝心なところ (スコア:0)
常識を”間違った情報”というあなたこそその証を示すべきではないの?
だからリンクを貼ったでしょ。読んでごらん。
~250Hzでほとんどカバーできるなら、電話のサンプリング周波数も600Hz程度で済んだんだよ。
そのほうが安上がりに済むのに、わざわざデータ量がかさむ8kHzサンプリングにしたのは、
最低そのくらい無いと相手が何を言っているのか聞き取れないから。
8kHzサンプリングでも、相手の声色など微妙な部分を聞き分けるのには不十分で、旧来のデジタル電話では、
電話を通すと誰が話しているのか区別をつけにくかった。
今回の実験だって、
スタンフォード大学のYan Michalevsky氏とRafaelのGabi Nakibly氏によって作成された、
機械学習を用いて学習する音声認識プログラムにより正確に音を解析し、
実際にどのような音が鳴っていたのかを判断できるようにまでなった。・・・・・・
・・・・・・被験者の話す言葉の一語一語を65%の確率で正確に識別できるレベル
という感じで、解析技術を駆使して、やっと半分ちょいぐらいの精度なのは、音声情報の主要成分が含まれていないから。
サンプルデータがGIGAZINEのリンクからたどれるから、自分で聞いてみて、認識できるかどうか確かめてみると良い。
Re:肝心なところ (スコア:2)
原音を再現できるかどうかという意味での「サンプリング定理」と、
「低サンプリングレートなデータに解析に必要じゃ情報が含まれているかどうか」は区別しないとダメですよ。
サンプリング定理は、「200Hzでサンプリングした標本データからは、100Hzまでの信号を正確に再現できる」というものです。これは、「200Hzでサンプリングした標本データには、100Hz以上の周波数の信号が情報として含まれない」というわけではありません。
実際には、100Hzを超えた周波数の信号は100Hzまでの範囲に折り畳まれてデータ化されます。つまり、120Hzの信号は、見かけ上80Hzの信号のような形でデータになりますし、180Hzの信号は20Hzになり、さらに上の周波数ならさらに折り返されて240Hzの信号は40Hzになったりする。
このとき、見かけ上80Hzのデータは、本当に80Hzの信号なのか、元は120Hzの折り返し雑音なのかは判別はまったく不可能です。
そこで、信号処理においては、標本化する前にローパスフィルタを通して、高周波数の信号は無い状態で取り込むのが普通。
今回のようなジャイロセンサーには入力段にローパスなどは入っていないでしょうから、200Hzサンプリングでも、100Hz以上の振動信号が折りたたまれてデータ化されることになるでしょう。
このサンプリングデータは「自分で聞いてみて、認識できる」ようなものではありませんが、「100Hz以上の信号も情報としては含まれている」のです。
あとは「同じように畳み込まれた音声見本データ」を多数用意した上で、「畳み込まれたデータ」の上での認識システムを構築すれば、
「音声の、100Hz以上の成分の違い」を区別できるような「ジャイロセンサーからの音声認識」ができるようになるわけです。
#つまり、ここでいう「機械学習システム」は、「100Hzに畳み込まれたデータ」から、「人間の発生パターンに限定する」ことで、「折りたたみ前のデータを推定する」という学習システムってことになるかと思います。
Re: (スコア:0)
という文脈で勝手に音声認識の話をされてもな。
スレ頭から読み直せ。
Re: (スコア:0)
そちらが読み直せば?
「ジャイロセンサーでも録音できるよ」という話の、「肝心な部分」として引用してきた文章にある
この「200Hz」という数値は人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできるからです
というのは間違ってるだろ、と言う話をしているんだよ。
それに関しては、リンクを示して説明しているだろう。
それ以降の話は、そこから導き出される、付け加えの解説。
記事で「ほとんどカバーできるからです」と書いているが、カバーできてないから精度が高々65%どまりなんだよ、
つまりそもそもこの文章を書いた人は、話を勘違いしているんだよ、と言う話。
Re: (スコア:0)
う~む、なるほど。
どうも 元になった論文 [usenix.org](PDF)を読んでみると、仰るとおりらしい。
どうやら、それを引用してブログ [symantec.com]を書いたSymantecの人間が、
論文を勘違いして解釈して紹介し、それをGIGAZINEなどがそのまま信じて紹介した、というのが事の真相のようだ。
(GIGAZINEの記事にはSymantecの該当ブログへのリンクは無いが、説明文がブログの文章そのままだ)
音声の周波数範囲の件も、ブログで
Human speech ranges from between 80 to 250 hertz
と、そのブログ主は書いているが、引用した論文にはちゃんと
Since the fundamentals of human voices are roughly in the range of 80 – 1100 Hz
とあり、そもそも、その紹介した論文を、彼自身ろくに