パスワードを忘れた? アカウント作成
11654545 story
プライバシ

スマートフォンのジャイロセンサを使って周囲の音声を解析する 65

ストーリー by hylom
動きを音に 部門より
あるAnonymous Coward 曰く、

ジャイロセンサー(角加速度センサ)はほとんどのスマホに搭載されているが、マイクを使わずにジャイロセンサーから得られる情報を使って周囲の音声を解析する、という手法が開発されたという(GIGAZINE)。

スタンフォード大学の研究チームによると、ジャイロセンサーから得られる超長波情報をもとに、周囲の会話の内容を認識可能なレベルにまで解析できることが判明したそうだ。実験では個人を特定できるレベルの情報はもちろん、社会保障番号やクレジットカード番号まで得ることができたとのこと。スマートフォンのジャイロセンサーは高い頻度で動きを検知でき、たとえばAndroidであれば1秒間に200回まで動きの検知が可能であるため、これを利用することで200Hzまでの音声情報を検出できるという。

問題点として、iOSやAndroidではジャイロセンサーを利用する際にユーザーからの許可が必要ないということが挙げられている。そのため、ユーザーが意識することなしに盗聴などが行われる可能性があるという。また、iOSでは動き検出感度が最大100回/秒に制限されているため、Android端末よりは音声の解析が難しいそうだ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Sune (7520) on 2014年10月16日 9時11分 (#2694622)

    ウーファーとかサブウーファーでずんどこ音を鳴らしておけば攪乱できるってこと?

    駅前をぐるぐる回ってる例の車達、わりとセキュリティ意識が高かったんだな(白目

    • by masahikoi (1183) on 2014年10月16日 11時58分 (#2694734)

      ポテチの袋をしょっちゅう放置しているうちはセキュリティ意識が低すぎだったかも。w
      そのうちスマホのカメラで撮影した動画からも音が復元できるようになったりして。
      # あれは普通じゃ手に入らないようなハイスピードカメラだけど

      親コメント
    • by Anonymous Coward

      べっ別にセキュリティの為に貧乏ゆすりをしてるんじゃないんだからねっっ!!

    • by Anonymous Coward

      200Hz以下ってことは、嘘八百レベルの研究、というか単なる話題つくりに過ぎないということ
      固定電話程度の品位の音声伝送の帯域幅は300Hz~3kHz程度、無線などで了解度は低下するものの何を言っているのか分かる(なんとか言語的メッセージの伝達が出来る)最低限の帯域幅は500Hz~2kHz程度
      200Hz以下で音声認識というのは専門家からは相手にされない極めて特殊な条件下で実験しましたということです

      • by Anonymous Coward
        >音声伝送の

        誰が音声伝送の話をしてるの?
        • by Anonymous Coward

          そうか、素人には音声認識と音声伝送は同じことだということが理解できないのか......(音声伝送=音声波形伝送じゃないよ)

          • by Anonymous Coward
            玄人さんたちはデジタルならなんでも一緒くたなんですか?
      • by Anonymous Coward

        引用元どころかGIGAZINEすら読もうとしないのはどうかと……。
        GIGAZINEには「人間の耳にとってはほんのわずかな風切り音のようなもの」が音声認識プログラムにより判別可能になると書かれていますよ。
        引用元をざっと翻訳すると、

        Gyrophone: Recognizing Speech From Gyroscope Signals [stanford.edu](※PDF)

        The signal recording, as captured by the gyroscope, is not comprehensible to a human ear, and exhibits a mixture of low frequencies and aliases of frequencies beyond the Nyquist sampling frequency (which is 1/2 the sampling rate of the Gyroscope,

        • by Anonymous Coward

          引用元どころかGIGAZINEどころかタレ込み文すら読もうとしないのはどうかと……。

          >実験では個人を特定できるレベルの情報はもちろん、社会保障番号やクレジットカード番号まで得ることができたとのこと。

          といったことが書かれています。(コピペのミスがあったら失礼)

          • by Anonymous Coward


            タレコミの「実験では個人を特定できるレベルの情報はもちろん、社会保障番号やクレジットカード番号まで得ることができた」というのは、全文を音声認識できたという意味ではないですよ。
            まさか、この段階に至ってもGIGAZINE記事すら読んでいないのですか?

    • by Anonymous Coward

      ジェイムス・カーでもないかぎりは普通にしゃべってりゃ大丈夫。
      気になるなら裏声で喋ったらいいよ。

  • by manmos (29892) on 2014年10月16日 12時39分 (#2694760) 日記

    アナログ時代のNHKの時報の「ポッ」が440Hz(「ぴーん」は880Hz)で、その1オクターブ下って、バリトンかバスの人の音域ですね。
    その音域で歌える人はかなり少ない。喋るよのと違うけど。

    まあ、言語には、様々な周波数の成分が含まれるので、その一部を拾っていってるんだろうけど…

    • by rhodamine (32563) on 2014年10月16日 13時01分 (#2694776)

      基本周波数と,その高調波の和が音声として聞こえると考えると
      納得できる数字ですね.

      三角波を,それなりに三角形にするためには,5次高調波くらいの
      周波数成分を重ねあわせないといけません.

      音声も,正弦波でなく「人の声」に聞こえるように音色を再現する
      には,5次高調波くらいの成分が必要なのでしょう.

      親コメント
  • by saratoga (23467) on 2014年10月17日 0時39分 (#2695181) 日記

    > ジャイロセンサー(角加速度センサ)は
    ここまで読んだ時点で、?でした。
    回転運動に対するセンサには、角度[度]、角速度[度/s]、角加速度[度/s^2]が測れるものがありますが、一般的には、コリオリの力(フーコーの振り子のあれ)を使った角速度が測れるセンサが一般的です。ジャイロセンサというのもコマが回っているのは原理的に角速度センサです(光ファイバとか、ガスレートはジャイロと呼ぶけどまた原理が別)。大抵は回転角度情報が欲しいので角速度を一回積分して角度情報を取り出します。角加速度だと2回積分が必要で精度が悪くなってしまいますので角速度の方が都合がよいのです。
    一方、直線運動に対するセンサにも、変位[m]、速度[m/s]、加速度[m/s^2]が測れるものがありますが、やはり一般的には梁のようなばね-マス系の撓みを使った加速度が測れるセンサが一般的です。実はこちらも角度情報を取り出すために使われていて、重力の互いに直行する3軸へのベクトル分解の比率から、地面に鉛直方向に対するセットの姿勢を割り出します。
    この話題では、スマートフォンが話し声でぐるぐる回りそうにないし、1回余計に微分が入って微小なズレでも感度がある「加速度センサ」といいたかったのではないかと想像します。

  • by the.ACount (31144) on 2014年10月16日 14時08分 (#2694811)

    マイク無しでも盗聴されるから安心できんてことだ。
    音声に限らず他の手段も増えてくるんだろうなー

    --
    the.ACount
  • by Anonymous Coward on 2014年10月16日 9時12分 (#2694623)

    Androidであれば1秒間に200回まで動きの検知が可能であるため、これを利用することで200Hzまでの音声情報を検出できるという。

    それが200Hzでサンプリングしていると言う意味なら、それから得られる元の音声に忠実な成分の周波数はせいぜい100Hzどまりじゃないのか?

    • by Anonymous Coward

      取得できるのがスカラーではなくベクトルなので、
      普通のサンプリングとは違うのかも

  • by Anonymous Coward on 2014年10月16日 9時33分 (#2694644)
    肝心なところをちゃんと引用しよう。
    **********
    なぜジャイロセンサーで音を録音できるのかというと、Androidではジャイロセンサーに200Hzもしくは1秒間に200回までの動きを検知できるように設定しているからであり、この「200Hz」という数値は人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできるからです。
    **********
    • Re:肝心なところ (スコア:2, 参考になる)

      by Anonymous Coward on 2014年10月16日 10時19分 (#2694673)

      人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできる

      シッタカぶっていい加減なことを書かないように。
      じゃあ何で初期の電話のデジタル回線のサンプリング周波数は8kHzまであったと思ってるの?

      音声周波数帯域 [wdic.org]

      人間の声は、その主成分はおおむね0.2〜4kHzの周波数範囲にあるとされている。

      親コメント
      • by BIWYFI (11941) on 2014年10月16日 19時44分 (#2695033) 日記

        音楽で使う周波数を調べれば、実態が分かる。

        基本音とされるC4が440Hz。
        これは、実際に話す際の音よりも意外と高い。

        あとは、1オクターブで倍半分なのを思い出せば、基音の周波数もすぐに分かるかと。

        で、別コメだと声帯は100~200Hzらしいから、人間は普段から裏声を常用してるって事なのかな?

        --
        -- Buy It When You Found It --
        親コメント
      • by Anonymous Coward
        GIGAZINEに言えよ。
        • by Anonymous Coward

          間違った情報を、確認も取らずに「これが肝心なところ」とそのまま引用してくるのは、無実なのか?

          • by Anonymous Coward
            (#2694660) あたりじゃ常識の範囲らしいですね。
            常識を”間違った情報”というあなたこそその証を示すべきではないの?
            • by Anonymous Coward

              常識を”間違った情報”というあなたこそその証を示すべきではないの?

              だからリンクを貼ったでしょ。読んでごらん。

              ~250Hzでほとんどカバーできるなら、電話のサンプリング周波数も600Hz程度で済んだんだよ。
              そのほうが安上がりに済むのに、わざわざデータ量がかさむ8kHzサンプリングにしたのは、
              最低そのくらい無いと相手が何を言っているのか聞き取れないから。

              8kHzサンプリングでも、相手の声色など微妙な部分を聞き分けるのには不十分で、旧来のデジタル電話では、
              電話を通すと誰が話しているのか区別をつけにくかった。

              今回の実験だって、

              スタンフォード大学のYan Michalevsky氏とRafaelのGabi Nakibly氏によっ

              • 原音を再現できるかどうかという意味での「サンプリング定理」と、
                「低サンプリングレートなデータに解析に必要じゃ情報が含まれているかどうか」は区別しないとダメですよ。

                サンプリング定理は、「200Hzでサンプリングした標本データからは、100Hzまでの信号を正確に再現できる」というものです。これは、「200Hzでサンプリングした標本データには、100Hz以上の周波数の信号が情報として含まれない」というわけではありません。

                実際には、100Hzを超えた周波数の信号は100Hzまでの範囲に折り畳まれてデータ化されます。つまり、120Hzの信号は、見かけ上80Hzの信号のような形でデータになりますし、180Hzの信号は20Hzになり、さらに上の周波数ならさらに折り返されて240Hzの信号は40Hzになったりする。

                このとき、見かけ上80Hzのデータは、本当に80Hzの信号なのか、元は120Hzの折り返し雑音なのかは判別はまったく不可能です。
                そこで、信号処理においては、標本化する前にローパスフィルタを通して、高周波数の信号は無い状態で取り込むのが普通。

                今回のようなジャイロセンサーには入力段にローパスなどは入っていないでしょうから、200Hzサンプリングでも、100Hz以上の振動信号が折りたたまれてデータ化されることになるでしょう。
                このサンプリングデータは「自分で聞いてみて、認識できる」ようなものではありませんが、「100Hz以上の信号も情報としては含まれている」のです。

                あとは「同じように畳み込まれた音声見本データ」を多数用意した上で、「畳み込まれたデータ」の上での認識システムを構築すれば、
                「音声の、100Hz以上の成分の違い」を区別できるような「ジャイロセンサーからの音声認識」ができるようになるわけです。

                #つまり、ここでいう「機械学習システム」は、「100Hzに畳み込まれたデータ」から、「人間の発生パターンに限定する」ことで、「折りたたみ前のデータを推定する」という学習システムってことになるかと思います。

                親コメント
              • by Anonymous Coward
                ジャイロセンサーでも録音できるよ
                という文脈で勝手に音声認識の話をされてもな。
                スレ頭から読み直せ。
      • by Anonymous Coward

        それは声帯が出せる音域をカバーするためであって、肉声の主な音域が200Hz辺りだというのは間違ってない。

        • by Anonymous Coward

          肉声の主な音域が200Hz辺りだというのは間違ってない。

          ソースをどうぞ。

          音声周波数帯域 [wdic.org]

          中間周波数はおおむね1kHz前後とされており、この前後の周波数をある程度網羅できれば、
          その全ての周波数を網羅せずとも音声を見分ける(聞き分ける)ことが可能な音質が実現できる。

          フォルマント [wikipedia.org]

          • by Anonymous Coward

            それは「人間が聞いて認識できない」だけであって、今回のは記録した信号を再生して聞くわけじゃなくプログラムに解析させるわけだから話がズレてるんじゃ?

          • by Anonymous Coward

            同じページに

            音声の源となる声帯振動は会話の時は100~200Hz付近で

            とあるのに。全部読もうよ。

            • by Anonymous Coward on 2014年10月16日 11時44分 (#2694726)
              太字は荒らしかキチガイだから読む価値なし。相手しちゃだめって何度言ったら分かるの?
              親コメント
            • by Anonymous Coward

              よく読むべきなのは君の方。

              声帯の振動が100~200Hzで、それが

              この声帯音源が、声道つまり咽頭喉頭および唇・舌・歯・顎・頬で構成される口腔、
              さらに鼻腔、副鼻腔で共鳴することによって特定帯域ごとに倍音が増幅される。
              この増幅された成分の塊もしくはピークをフォルマントと言う。この音は、さらに口から外部への放射、伝播を経て、
              我々が普段耳にしている音声へと変わる。

              だから、声帯の振動周波数が100~200Hzでも、発声される音声の主要成分が100~200Hzの範囲にあるというわけではないの。
              字面を眺めているだけで、全然文章の意味を理解しようとしていないでしょ?

              • by Anonymous Coward

                音声として認識できないようなデータから意味を拾える程度の音声データを復元できるってニュースなのに
                音声として認識できないできないって騒いでるやつなんなの。

              • by Anonymous Coward

                この伸びているツリーでのトピックは「人間の声の周波数帯域である80Hz~250Hz」ってのは間違いだろ、と言う話。
                話をすり替えようとしているのはそっち。

                実際、収集できるデータが、センサーの制限で、音声の主要成分の周波数域をはずしているので、
                機械を使って解析技術を駆使しても、高々65%までしか精度をあげられない。

                髪型だけで人を見分けようとするような話。

              • by Anonymous Coward

                つまり、
                髪型だけ見分ければよい用途には、それで十分という話。

          • by Anonymous Coward

            この場合、聞いて認識するのは人間じゃないから。

    • by miyuri (33181) on 2014年10月16日 18時45分 (#2694999) 日記

      この「200Hz」という数値は人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできるからです。

      (200, 250][Hz]をカバーしていないのに、80Hz~250Hzの殆どなのかー。

      親コメント
  • by Anonymous Coward on 2014年10月16日 10時07分 (#2694667)

    一秒間200回以上口を動かせばいいんだ!(違

  • by inouek (31502) on 2014年10月16日 10時12分 (#2694670)

    盗聴機能も潜在的にに持っているということだな…

    --
    ---------------------------- うちの猫は、ながぬこ
  • by maia (16220) on 2014年10月16日 10時59分 (#2694697) 日記

    つまりiOSは盗聴が難しいという事か!(FBI長官)(ちょっと違

  • by Anonymous Coward on 2014年10月16日 12時54分 (#2694771)

    スマホの加速度センサーならkHzレベルも普通に読めるよ?

    • 当然ですが,元の論文で詳細に説明されています
      https://www.usenix.org/system/files/conference/usenixsecurity14/sec14-... [usenix.org]

      この論文の2.3.1節よると
      - 携帯電話のマイクロフォンは最大44.1KHzで音声をサンプリングできる
      - 電話(昔のアナログ方式)は8KHzで音声をサンプリングしていた
      - STMicroelectronics製のモバイル端末用ジャイロセンサは,デバイスとしては最高800Hzで計測できる
      - InvenSense製のモバイル端末用ジャイロセンサは,デバイスとしては最高8KHzで計測できる
      - ただしモバイル端末は電力を節約する必要があるので,OSでサンプリングレートを制限している
      - 彼らの調査によると, Android 4.4 の制限値は200Hz, iOS 7は100Hz
      とのことです

      また,彼らの調査によると
      iPhoneなどのAppleのデバイスは,入力段にローパスフィルタを入れているようで
      iOS7でのサンプリング周波数は100Hzですが,エイリアシングを回避する工夫がなされていたとのことです.

      親コメント
typodupeerror

ハッカーとクラッカーの違い。大してないと思います -- あるアレゲ

読み込み中...