パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

スマートフォンのジャイロセンサを使って周囲の音声を解析する」記事へのコメント

  • by Anonymous Coward
    肝心なところをちゃんと引用しよう。
    **********
    なぜジャイロセンサーで音を録音できるのかというと、Androidではジャイロセンサーに200Hzもしくは1秒間に200回までの動きを検知できるように設定しているからであり、この「200Hz」という数値は人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできるからです。
    **********
    • Re: (スコア:2, 参考になる)

      by Anonymous Coward

      人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできる

      シッタカぶっていい加減なことを書かないように。
      じゃあ何で初期の電話のデジタル回線のサンプリング周波数は8kHzまであったと思ってるの?

      音声周波数帯域 [wdic.org]

      人間の声は、その主成分はおおむね0.2〜4kHzの周波数範囲にあるとされている。

      • by Anonymous Coward
        GIGAZINEに言えよ。
        • by Anonymous Coward on 2014年10月16日 10時35分 (#2694684)

          間違った情報を、確認も取らずに「これが肝心なところ」とそのまま引用してくるのは、無実なのか?

          親コメント
          • by Anonymous Coward
            (#2694660) あたりじゃ常識の範囲らしいですね。
            常識を”間違った情報”というあなたこそその証を示すべきではないの?
            • by Anonymous Coward

              常識を”間違った情報”というあなたこそその証を示すべきではないの?

              だからリンクを貼ったでしょ。読んでごらん。

              ~250Hzでほとんどカバーできるなら、電話のサンプリング周波数も600Hz程度で済んだんだよ。
              そのほうが安上がりに済むのに、わざわざデータ量がかさむ8kHzサンプリングにしたのは、
              最低そのくらい無いと相手が何を言っているのか聞き取れないから。

              8kHzサンプリングでも、相手の声色など微妙な部分を聞き分けるのには不十分で、旧来のデジタル電話では、
              電話を通すと誰が話しているのか区別をつけにくかった。

              今回の実験だって、

              スタンフォード大学のYan Michalevsky氏とRafaelのGabi Nakibly氏によっ

              • 原音を再現できるかどうかという意味での「サンプリング定理」と、
                「低サンプリングレートなデータに解析に必要じゃ情報が含まれているかどうか」は区別しないとダメですよ。

                サンプリング定理は、「200Hzでサンプリングした標本データからは、100Hzまでの信号を正確に再現できる」というものです。これは、「200Hzでサンプリングした標本データには、100Hz以上の周波数の信号が情報として含まれない」というわけではありません。

                実際には、100Hzを超えた周波数の信号は100Hzまでの範囲に折り畳まれてデータ化されます。つまり、120Hzの信号は、見かけ上80Hzの信号のような形でデータになりますし、180Hzの信号は20Hzになり、さらに上の周波数ならさらに折り返されて240Hzの信号は40Hzになったりする。

                このとき、見かけ上80Hzのデータは、本当に80Hzの信号なのか、元は120Hzの折り返し雑音なのかは判別はまったく不可能です。
                そこで、信号処理においては、標本化する前にローパスフィルタを通して、高周波数の信号は無い状態で取り込むのが普通。

                今回のようなジャイロセンサーには入力段にローパスなどは入っていないでしょうから、200Hzサンプリングでも、100Hz以上の振動信号が折りたたまれてデータ化されることになるでしょう。
                このサンプリングデータは「自分で聞いてみて、認識できる」ようなものではありませんが、「100Hz以上の信号も情報としては含まれている」のです。

                あとは「同じように畳み込まれた音声見本データ」を多数用意した上で、「畳み込まれたデータ」の上での認識システムを構築すれば、
                「音声の、100Hz以上の成分の違い」を区別できるような「ジャイロセンサーからの音声認識」ができるようになるわけです。

                #つまり、ここでいう「機械学習システム」は、「100Hzに畳み込まれたデータ」から、「人間の発生パターンに限定する」ことで、「折りたたみ前のデータを推定する」という学習システムってことになるかと思います。

                親コメント
              • by Anonymous Coward
                ジャイロセンサーでも録音できるよ
                という文脈で勝手に音声認識の話をされてもな。
                スレ頭から読み直せ。
              • by Anonymous Coward

                そちらが読み直せば?

                「ジャイロセンサーでも録音できるよ」という話の、「肝心な部分」として引用してきた文章にある

                この「200Hz」という数値は人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできるからです

                というのは間違ってるだろ、と言う話をしているんだよ。
                それに関しては、リンクを示して説明しているだろう。

                それ以降の話は、そこから導き出される、付け加えの解説。
                記事で「ほとんどカバーできるからです」と書いているが、カバーできてないから精度が高々65%どまりなんだよ、
                つまりそもそもこの文章を書いた人は、話を勘違いしているんだよ、と言う話。

              • by Anonymous Coward

                う~む、なるほど。
                どうも 元になった論文 [usenix.org](PDF)を読んでみると、仰るとおりらしい。

                どうやら、それを引用してブログ [symantec.com]を書いたSymantecの人間が、
                論文を勘違いして解釈して紹介し、それをGIGAZINEなどがそのまま信じて紹介した、というのが事の真相のようだ。
                (GIGAZINEの記事にはSymantecの該当ブログへのリンクは無いが、説明文がブログの文章そのままだ)

                音声の周波数範囲の件も、ブログで

                Human speech ranges from between 80 to 250 hertz

                と、そのブログ主は書いているが、引用した論文にはちゃんと

                Since the fundamentals of human voices are roughly in the range of 80 – 1100 Hz

                とあり、そもそも、その紹介した論文を、彼自身ろくに

アレゲはアレゲを呼ぶ -- ある傍観者

処理中...