アカウント名:
パスワード:
人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできる
シッタカぶっていい加減なことを書かないように。じゃあ何で初期の電話のデジタル回線のサンプリング周波数は8kHzまであったと思ってるの?
音声周波数帯域 [wdic.org]
人間の声は、その主成分はおおむね0.2〜4kHzの周波数範囲にあるとされている。
それは声帯が出せる音域をカバーするためであって、肉声の主な音域が200Hz辺りだというのは間違ってない。
肉声の主な音域が200Hz辺りだというのは間違ってない。
ソースをどうぞ。
中間周波数はおおむね1kHz前後とされており、この前後の周波数をある程度網羅できれば、その全ての周波数を網羅せずとも音声を見分ける(聞き分ける)ことが可能な音質が実現できる。
フォルマント [wikipedia.org]
母音の識別には、各フォルマントの周波数が重要である。録音した音声から主要フォルマント(主に500~3000Hz近辺に点在する)を除去して再生すると、発音された母音とは認識できなくなる。
それは「人間が聞いて認識できない」だけであって、今回のは記録した信号を再生して聞くわけじゃなくプログラムに解析させるわけだから話がズレてるんじゃ?
同じページに
音声の源となる声帯振動は会話の時は100~200Hz付近で
とあるのに。全部読もうよ。
よく読むべきなのは君の方。
声帯の振動が100~200Hzで、それが
この声帯音源が、声道つまり咽頭喉頭および唇・舌・歯・顎・頬で構成される口腔、さらに鼻腔、副鼻腔で共鳴することによって特定帯域ごとに倍音が増幅される。この増幅された成分の塊もしくはピークをフォルマントと言う。この音は、さらに口から外部への放射、伝播を経て、我々が普段耳にしている音声へと変わる。
だから、声帯の振動周波数が100~200Hzでも、発声される音声の主要成分が100~200Hzの範囲にあるというわけではないの。字面を眺めているだけで、全然文章の意味を理解しようとしていないでしょ?
音声として認識できないようなデータから意味を拾える程度の音声データを復元できるってニュースなのに音声として認識できないできないって騒いでるやつなんなの。
この伸びているツリーでのトピックは「人間の声の周波数帯域である80Hz~250Hz」ってのは間違いだろ、と言う話。話をすり替えようとしているのはそっち。
実際、収集できるデータが、センサーの制限で、音声の主要成分の周波数域をはずしているので、機械を使って解析技術を駆使しても、高々65%までしか精度をあげられない。
髪型だけで人を見分けようとするような話。
つまり、髪型だけ見分ければよい用途には、それで十分という話。
漫画やアニメ、ゲームなんて髪型でしか区別できないのがいっぱいいるじゃないか。
「人間の声の周波数帯域」って表現がわるいんだろうな。ほかのコメントで音域って出てるけど、これは地声の音域、音高・基本周波数の範囲が~って意味だろう。それと「音声の主要成分の周波数域」は違っているけど、「人間の声の周波数帯域」は声が声として聞こえるのに必要な周波数域って意味にも取れるからだろうね。
この場合、聞いて認識するのは人間じゃないから。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
私はプログラマです。1040 formに私の職業としてそう書いています -- Ken Thompson
肝心なところ (スコア:0)
**********
なぜジャイロセンサーで音を録音できるのかというと、Androidではジャイロセンサーに200Hzもしくは1秒間に200回までの動きを検知できるように設定しているからであり、この「200Hz」という数値は人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできるからです。
**********
Re: (スコア:2, 参考になる)
人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできる
シッタカぶっていい加減なことを書かないように。
じゃあ何で初期の電話のデジタル回線のサンプリング周波数は8kHzまであったと思ってるの?
音声周波数帯域 [wdic.org]
人間の声は、その主成分はおおむね0.2〜4kHzの周波数範囲にあるとされている。
Re: (スコア:0)
それは声帯が出せる音域をカバーするためであって、肉声の主な音域が200Hz辺りだというのは間違ってない。
Re:肝心なところ (スコア:0)
肉声の主な音域が200Hz辺りだというのは間違ってない。
ソースをどうぞ。
音声周波数帯域 [wdic.org]
中間周波数はおおむね1kHz前後とされており、この前後の周波数をある程度網羅できれば、
その全ての周波数を網羅せずとも音声を見分ける(聞き分ける)ことが可能な音質が実現できる。
フォルマント [wikipedia.org]
母音の識別には、各フォルマントの周波数が重要である。
録音した音声から主要フォルマント(主に500~3000Hz近辺に点在する)を除去して再生すると、発音された母音とは認識できなくなる。
Re: (スコア:0)
それは「人間が聞いて認識できない」だけであって、今回のは記録した信号を再生して聞くわけじゃなくプログラムに解析させるわけだから話がズレてるんじゃ?
Re: (スコア:0)
同じページに
音声の源となる声帯振動は会話の時は100~200Hz付近で
とあるのに。全部読もうよ。
Re:肝心なところ (スコア:1)
Re: (スコア:0)
よく読むべきなのは君の方。
声帯の振動が100~200Hzで、それが
この声帯音源が、声道つまり咽頭喉頭および唇・舌・歯・顎・頬で構成される口腔、
さらに鼻腔、副鼻腔で共鳴することによって特定帯域ごとに倍音が増幅される。
この増幅された成分の塊もしくはピークをフォルマントと言う。この音は、さらに口から外部への放射、伝播を経て、
我々が普段耳にしている音声へと変わる。
だから、声帯の振動周波数が100~200Hzでも、発声される音声の主要成分が100~200Hzの範囲にあるというわけではないの。
字面を眺めているだけで、全然文章の意味を理解しようとしていないでしょ?
Re: (スコア:0)
音声として認識できないようなデータから意味を拾える程度の音声データを復元できるってニュースなのに
音声として認識できないできないって騒いでるやつなんなの。
Re: (スコア:0)
この伸びているツリーでのトピックは「人間の声の周波数帯域である80Hz~250Hz」ってのは間違いだろ、と言う話。
話をすり替えようとしているのはそっち。
実際、収集できるデータが、センサーの制限で、音声の主要成分の周波数域をはずしているので、
機械を使って解析技術を駆使しても、高々65%までしか精度をあげられない。
髪型だけで人を見分けようとするような話。
Re: (スコア:0)
つまり、
髪型だけ見分ければよい用途には、それで十分という話。
Re: (スコア:0)
漫画やアニメ、ゲームなんて髪型でしか区別できないのがいっぱいいるじゃないか。
Re: (スコア:0)
「人間の声の周波数帯域」って表現がわるいんだろうな。
ほかのコメントで音域って出てるけど、これは地声の音域、音高・基本周波数の範囲が~って意味だろう。
それと「音声の主要成分の周波数域」は違っているけど、「人間の声の周波数帯域」は声が声として聞こえるのに必要な周波数域って意味にも取れるからだろうね。
Re: (スコア:0)
この場合、聞いて認識するのは人間じゃないから。