スマートフォンのジャイロセンサを使って周囲の音声を解析する

スマートフォンのジャイロセンサを使って周囲の音声を解析する 65

ストーリー by hylom 2014年10月16日 8時00分
動きを音に部門より

あるAnonymous Coward 曰く、

ジャイロセンサー（角加速度センサ）はほとんどのスマホに搭載されているが、マイクを使わずにジャイロセンサーから得られる情報を使って周囲の音声を解析する、という手法が開発されたという（GIGAZINE）。
スタンフォード大学の研究チームによると、ジャイロセンサーから得られる超長波情報をもとに、周囲の会話の内容を認識可能なレベルにまで解析できることが判明したそうだ。実験では個人を特定できるレベルの情報はもちろん、社会保障番号やクレジットカード番号まで得ることができたとのこと。スマートフォンのジャイロセンサーは高い頻度で動きを検知でき、たとえばAndroidであれば1秒間に200回まで動きの検知が可能であるため、これを利用することで200Hzまでの音声情報を検出できるという。
問題点として、iOSやAndroidではジャイロセンサーを利用する際にユーザーからの許可が必要ないということが挙げられている。そのため、ユーザーが意識することなしに盗聴などが行われる可能性があるという。また、iOSでは動き検出感度が最大100回/秒に制限されているため、Android端末よりは音声の解析が難しいそうだ。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索65コメント Log In/Create an Account

200Hz以下ってことは (スコア:3)

by Sune (7520) on 2014年10月16日 9時11分 (#2694622)

ウーファーとかサブウーファーでずんどこ音を鳴らしておけば攪乱できるってこと？
駅前をぐるぐる回ってる例の車達、わりとセキュリティ意識が高かったんだな（白目
- Re:200Hz以下ってことは (スコア:1)
  
  by masahikoi (1183) on 2014年10月16日 11時58分 (#2694734)
  
  ポテチの袋をしょっちゅう放置しているうちはセキュリティ意識が低すぎだったかも。ｗ
  そのうちスマホのカメラで撮影した動画からも音が復元できるようになったりして。
  # あれは普通じゃ手に入らないようなハイスピードカメラだけど
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    今回の発見で低周波での音声認識というテクニックが出てきたのでスマホカメラでも比較的容易に解析可能になるかも？
    後例のポテチ論文は、ハイスピードカメラと同時に普通の60fps撮影なデジタル一眼レフカメラでもローリングシャッターの原因となる原理を利用して質は悪いですが音声復元可能と発表してます。 [youtu.be]
- Re: (スコア:0)
  
  by Anonymous Coward
  
  べっ別にセキュリティの為に貧乏ゆすりをしてるんじゃないんだからねっっ！！
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    200Hzの貧乏ゆすりですか
    - Re:200Hz以下ってことは (スコア:1)
      
      by digoh (17917) on 2014年10月16日 11時14分 (#2694708) 日記
      
      貧乏ゆすりの主運動(?)は周波数が低かったとしても、その運動で生まれた”音”の振動が低いとは限りませんよね。
      つまり貧乏揺すりとノコギリと弓を組み合わせることで
      あらゆる言葉を表現することも可能ッッッ！！！
      ♪お～ま～え～は～ア～ホ～か～？
      
      シェア
      
      親コメント
      - Re:200Hz以下ってことは (スコア:1)
        
        by nekopon (1483) on 2014年10月16日 11時40分 (#2694724) 日記
        
        それ貧乏ゆすり組み合わせる必要あったっけ?
        
        シェア
        
        親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      人間では 16Hz くらいが最高じゃなかったっけ？
      - Re:200Hz以下ってことは (スコア:1)
        
        by Anonymous Coward on 2014年10月16日 10時37分 (#2694685)
        
        16Hzと言うと、高橋名人かな。
        
        シェア
        
        親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  200Hz以下ってことは、嘘八百レベルの研究、というか単なる話題つくりに過ぎないということ
  固定電話程度の品位の音声伝送の帯域幅は300Hz～3kHz程度、無線などで了解度は低下するものの何を言っているのか分かる（なんとか言語的メッセージの伝達が出来る）最低限の帯域幅は500Hz～2kHz程度
  200Hz以下で音声認識というのは専門家からは相手にされない極めて特殊な条件下で実験しましたということです
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ＞音声伝送の
    
    誰が音声伝送の話をしてるの？
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      そうか、素人には音声認識と音声伝送は同じことだということが理解できないのか．．．．．．（音声伝送＝音声波形伝送じゃないよ）
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        玄人さんたちはデジタルならなんでも一緒くたなんですか？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    引用元どころかGIGAZINEすら読もうとしないのはどうかと……。
    GIGAZINEには「人間の耳にとってはほんのわずかな風切り音のようなもの」が音声認識プログラムにより判別可能になると書かれていますよ。
    引用元をざっと翻訳すると、
    Gyrophone: Recognizing Speech From Gyroscope Signals [stanford.edu]（※PDF）
    The signal recording, as captured by the gyroscope, is not comprehensible to a human ear, and exhibits a mixture of low frequencies and aliases of frequencies beyond the Nyquist sampling frequency (which is 1/2 the sampling rate of the Gyroscope,
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      引用元どころかGIGAZINEどころかタレ込み文すら読もうとしないのはどうかと……。
      ＞実験では個人を特定できるレベルの情報はもちろん、社会保障番号やクレジットカード番号まで得ることができたとのこと。
      といったことが書かれています。（コピペのミスがあったら失礼）
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        ？
        タレコミの「実験では個人を特定できるレベルの情報はもちろん、社会保障番号やクレジットカード番号まで得ることができた」というのは、全文を音声認識できたという意味ではないですよ。
        まさか、この段階に至ってもGIGAZINE記事すら読んでいないのですか？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ジェイムス・カーでもないかぎりは普通にしゃべってりゃ大丈夫。
  気になるなら裏声で喋ったらいいよ。
低いなぁ (スコア:2)

by manmos (29892) on 2014年10月16日 12時39分 (#2694760) 日記

アナログ時代のNHKの時報の「ポッ」が440Hz（「ぴーん」は880Hz）で、その１オクターブ下って、バリトンかバスの人の音域ですね。
その音域で歌える人はかなり少ない。喋るよのと違うけど。
まあ、言語には、様々な周波数の成分が含まれるので、その一部を拾っていってるんだろうけど…
- Re:低いなぁ (スコア:2)
  
  by rhodamine (32563) on 2014年10月16日 13時01分 (#2694776)
  
  基本周波数と，その高調波の和が音声として聞こえると考えると
  納得できる数字ですね．
  三角波を，それなりに三角形にするためには，5次高調波くらいの
  周波数成分を重ねあわせないといけません．
  音声も，正弦波でなく「人の声」に聞こえるように音色を再現する
  には，5次高調波くらいの成分が必要なのでしょう．
  
  シェア
  
  親コメント
重箱の隅 (スコア:2)

by saratoga (23467) on 2014年10月17日 0時39分 (#2695181) 日記

> ジャイロセンサー（角加速度センサ）は
ここまで読んだ時点で、？でした。
回転運動に対するセンサには、角度[度]、角速度[度/s]、角加速度[度/s^2]が測れるものがありますが、一般的には、コリオリの力（フーコーの振り子のあれ）を使った角速度が測れるセンサが一般的です。ジャイロセンサというのもコマが回っているのは原理的に角速度センサです（光ファイバとか、ガスレートはジャイロと呼ぶけどまた原理が別）。大抵は回転角度情報が欲しいので角速度を一回積分して角度情報を取り出します。角加速度だと2回積分が必要で精度が悪くなってしまいますので角速度の方が都合がよいのです。
一方、直線運動に対するセンサにも、変位[m]、速度[m/s]、加速度[m/s^2]が測れるものがありますが、やはり一般的には梁のようなばね-マス系の撓みを使った加速度が測れるセンサが一般的です。実はこちらも角度情報を取り出すために使われていて、重力の互いに直行する3軸へのベクトル分解の比率から、地面に鉛直方向に対するセットの姿勢を割り出します。
この話題では、スマートフォンが話し声でぐるぐる回りそうにないし、1回余計に微分が入って微小なズレでも感度がある「加速度センサ」といいたかったのではないかと想像します。
要するに (スコア:1)

by the.ACount (31144) on 2014年10月16日 14時08分 (#2694811)

マイク無しでも盗聴されるから安心できんてことだ。
音声に限らず他の手段も増えてくるんだろうなー

--
the.ACount
1秒間に200回まで動きの検知が可能というなら (スコア:0)

by Anonymous Coward on 2014年10月16日 9時12分 (#2694623)

Androidであれば1秒間に200回まで動きの検知が可能であるため、これを利用することで200Hzまでの音声情報を検出できるという。
それが200Hzでサンプリングしていると言う意味なら、それから得られる元の音声に忠実な成分の周波数はせいぜい100Hzどまりじゃないのか？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  取得できるのがスカラーではなくベクトルなので、
  普通のサンプリングとは違うのかも
肝心なところ (スコア:0)

by Anonymous Coward on 2014年10月16日 9時33分 (#2694644)

肝心なところをちゃんと引用しよう。
**********
なぜジャイロセンサーで音を録音できるのかというと、Androidではジャイロセンサーに200Hzもしくは1秒間に200回までの動きを検知できるように設定しているからであり、この「200Hz」という数値は人間の声の周波数帯域である80Hz～250Hzをほとんどカバーできるからです。
**********
- Re:肝心なところ (スコア:2, 参考になる)
  
  by Anonymous Coward on 2014年10月16日 10時19分 (#2694673)
  
  人間の声の周波数帯域である80Hz～250Hzをほとんどカバーできる
  シッタカぶっていい加減なことを書かないように。
  じゃあ何で初期の電話のデジタル回線のサンプリング周波数は8kHzまであったと思ってるの？
  音声周波数帯域 [wdic.org]
  人間の声は、その主成分はおおむね0.2〜4kHzの周波数範囲にあるとされている。
  
  シェア
  
  親コメント
  - Re:肝心なところ (スコア:2)
    
    by BIWYFI (11941) on 2014年10月16日 19時44分 (#2695033) 日記
    
    音楽で使う周波数を調べれば、実態が分かる。
    基本音とされるC4が440Hz。
    これは、実際に話す際の音よりも意外と高い。
    あとは、1オクターブで倍半分なのを思い出せば、基音の周波数もすぐに分かるかと。
    で、別コメだと声帯は100～200Hzらしいから、人間は普段から裏声を常用してるって事なのかな？
    
    --
    -- Buy It When You Found It --
    
    シェア
    
    親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    GIGAZINEに言えよ。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      間違った情報を、確認も取らずに「これが肝心なところ」とそのまま引用してくるのは、無実なのか？
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        (#2694660) あたりじゃ常識の範囲らしいですね。
        常識を”間違った情報”というあなたこそその証を示すべきではないの？
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        常識を”間違った情報”というあなたこそその証を示すべきではないの？
        だからリンクを貼ったでしょ。読んでごらん。
        ~250Hzでほとんどカバーできるなら、電話のサンプリング周波数も600Hz程度で済んだんだよ。
        そのほうが安上がりに済むのに、わざわざデータ量がかさむ8kHzサンプリングにしたのは、
        最低そのくらい無いと相手が何を言っているのか聞き取れないから。
        8kHzサンプリングでも、相手の声色など微妙な部分を聞き分けるのには不十分で、旧来のデジタル電話では、
        電話を通すと誰が話しているのか区別をつけにくかった。
        今回の実験だって、
        スタンフォード大学のYan Michalevsky氏とRafaelのGabi Nakibly氏によっ
        
        Re:肝心なところ (スコア:2)
        
        by taka2 (14791) on 2014年10月16日 12時39分 (#2694761) ホームページ日記
        
        原音を再現できるかどうかという意味での「サンプリング定理」と、
        「低サンプリングレートなデータに解析に必要じゃ情報が含まれているかどうか」は区別しないとダメですよ。
        サンプリング定理は、「200Hzでサンプリングした標本データからは、100Hzまでの信号を正確に再現できる」というものです。これは、「200Hzでサンプリングした標本データには、100Hz以上の周波数の信号が情報として含まれない」というわけではありません。
        実際には、100Hzを超えた周波数の信号は100Hzまでの範囲に折り畳まれてデータ化されます。つまり、120Hzの信号は、見かけ上80Hzの信号のような形でデータになりますし、180Hzの信号は20Hzになり、さらに上の周波数ならさらに折り返されて240Hzの信号は40Hzになったりする。
        このとき、見かけ上80Hzのデータは、本当に80Hzの信号なのか、元は120Hzの折り返し雑音なのかは判別はまったく不可能です。
        そこで、信号処理においては、標本化する前にローパスフィルタを通して、高周波数の信号は無い状態で取り込むのが普通。
        今回のようなジャイロセンサーには入力段にローパスなどは入っていないでしょうから、200Hzサンプリングでも、100Hz以上の振動信号が折りたたまれてデータ化されることになるでしょう。
        このサンプリングデータは「自分で聞いてみて、認識できる」ようなものではありませんが、「100Hz以上の信号も情報としては含まれている」のです。
        あとは「同じように畳み込まれた音声見本データ」を多数用意した上で、「畳み込まれたデータ」の上での認識システムを構築すれば、
        「音声の、100Hz以上の成分の違い」を区別できるような「ジャイロセンサーからの音声認識」ができるようになるわけです。
        #つまり、ここでいう「機械学習システム」は、「100Hzに畳み込まれたデータ」から、「人間の発生パターンに限定する」ことで、「折りたたみ前のデータを推定する」という学習システムってことになるかと思います。
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        ジャイロセンサーでも録音できるよ
        という文脈で勝手に音声認識の話をされてもな。
        スレ頭から読み直せ。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    それは声帯が出せる音域をカバーするためであって、肉声の主な音域が200Hz辺りだというのは間違ってない。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      肉声の主な音域が200Hz辺りだというのは間違ってない。
      ソースをどうぞ。
      音声周波数帯域 [wdic.org]
      中間周波数はおおむね1kHz前後とされており、この前後の周波数をある程度網羅できれば、
      その全ての周波数を網羅せずとも音声を見分ける(聞き分ける)ことが可能な音質が実現できる。
      フォルマント [wikipedia.org]
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        それは「人間が聞いて認識できない」だけであって、今回のは記録した信号を再生して聞くわけじゃなくプログラムに解析させるわけだから話がズレてるんじゃ？
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        同じページに
        音声の源となる声帯振動は会話の時は100~200Hz付近で
        とあるのに。全部読もうよ。
        
        Re:肝心なところ (スコア:1)
        
        by Anonymous Coward on 2014年10月16日 11時44分 (#2694726)
        
        太字は荒らしかキチガイだから読む価値なし。相手しちゃだめって何度言ったら分かるの？
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        よく読むべきなのは君の方。
        声帯の振動が100~200Hzで、それが
        この声帯音源が、声道つまり咽頭喉頭および唇・舌・歯・顎・頬で構成される口腔、
        さらに鼻腔、副鼻腔で共鳴することによって特定帯域ごとに倍音が増幅される。
        この増幅された成分の塊もしくはピークをフォルマントと言う。この音は、さらに口から外部への放射、伝播を経て、
        我々が普段耳にしている音声へと変わる。
        だから、声帯の振動周波数が100~200Hzでも、発声される音声の主要成分が100~200Hzの範囲にあるというわけではないの。
        字面を眺めているだけで、全然文章の意味を理解しようとしていないでしょ？
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        音声として認識できないようなデータから意味を拾える程度の音声データを復元できるってニュースなのに
        音声として認識できないできないって騒いでるやつなんなの。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        この伸びているツリーでのトピックは「人間の声の周波数帯域である80Hz～250Hz」ってのは間違いだろ、と言う話。
        話をすり替えようとしているのはそっち。
        実際、収集できるデータが、センサーの制限で、音声の主要成分の周波数域をはずしているので、
        機械を使って解析技術を駆使しても、高々65%までしか精度をあげられない。
        髪型だけで人を見分けようとするような話。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        つまり、
        髪型だけ見分ければよい用途には、それで十分という話。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        この場合、聞いて認識するのは人間じゃないから。
- Re:肝心なところ (スコア:2)
  
  by miyuri (33181) on 2014年10月16日 18時45分 (#2694999) 日記
  
  この「200Hz」という数値は人間の声の周波数帯域である80Hz～250Hzをほとんどカバーできるからです。
  (200, 250][Hz]をカバーしていないのに、80Hz～250Hzの殆どなのかー。
  
  シェア
  
  親コメント
- - Re: (スコア:0)
    
    by Anonymous Coward
    
    (#2694622)以下のコメントも、
    (#2694623)以下のコメントも、
    
    あなたのいう”引用範囲のような常識の範囲のこと”を知らずに語っているようだったので挙げたまで。
そうだ！ (スコア:0)

by Anonymous Coward on 2014年10月16日 10時07分 (#2694667)

一秒間200回以上口を動かせばいいんだ！（違
マルチコプタが (スコア:0)

by inouek (31502) on 2014年10月16日 10時12分 (#2694670)

盗聴機能も潜在的にに持っているということだな…

--
---------------------------- うちの猫は、ながぬこ
さすがiOS (スコア:0)

by maia (16220) on 2014年10月16日 10時59分 (#2694697) 日記

つまりiOSは盗聴が難しいという事か！（FBI長官）（ちょっと違
- - Re:さすがiOS (スコア:2)
    
    by maia (16220) on 2014年10月17日 10時15分 (#2695285) 日記
    
    盗聴は分からないけど、元ネタは、FBI長官がiPhone 6のセキュリティが高度でけしからんと述べた話。
    ＦＢＩ長官、ｉＰｈｏｎｅ６を批判「法の適用を免れさせる商品」 [sankei.com]
    プライバシー保護を強化した機能により、捜査機関が端末のデータを容易に解読できなくなるためだ。ＦＢＩのコミー長官は「法の適用を免れさせてしまう商品を売っている」とアップルを批判した。（中略）ニューヨーク・タイムズ紙は「６」を、当局のプライバシー侵害に対抗する「ポスト・スノーデン世代の最初の端末」と表現した。
    盗聴の話ではないので、ちょっと違うと。
    #ちなみにこのネタはタレ込んだが、採用されていない。
    
    シェア
    
    親コメント
あれ？ジャイロって加速度センサーで無いの？ (スコア:0)

by Anonymous Coward on 2014年10月16日 12時54分 (#2694771)

スマホの加速度センサーならｋHzレベルも普通に読めるよ？
- Re:あれ？ジャイロって加速度センサーで無いの？ (スコア:1)
  
  by annoymouse coward (11178) on 2014年10月16日 13時37分 (#2694799) 日記
  
  当然ですが，元の論文で詳細に説明されています
  https://www.usenix.org/system/files/conference/usenixsecurity14/sec14-... [usenix.org]
  この論文の2.3.1節よると
  - 携帯電話のマイクロフォンは最大44.1KHzで音声をサンプリングできる
  - 電話(昔のアナログ方式)は8KHzで音声をサンプリングしていた
  - STMicroelectronics製のモバイル端末用ジャイロセンサは，デバイスとしては最高800Hzで計測できる
  - InvenSense製のモバイル端末用ジャイロセンサは，デバイスとしては最高8KHzで計測できる
  - ただしモバイル端末は電力を節約する必要があるので，OSでサンプリングレートを制限している
  - 彼らの調査によると， Android 4.4 の制限値は200Hz, iOS 7は100Hz
  とのことです
  また，彼らの調査によると
  iPhoneなどのAppleのデバイスは，入力段にローパスフィルタを入れているようで
  iOS7でのサンプリング周波数は100Hzですが，エイリアシングを回避する工夫がなされていたとのことです．
  
  シェア
  
  親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

スマートフォンのジャイロセンサを使って周囲の音声を解析する More ログイン

200Hz以下ってことは (スコア:3)

Re:200Hz以下ってことは (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:200Hz以下ってことは (スコア:1)

Re:200Hz以下ってことは (スコア:1)

Re: (スコア:0)

Re:200Hz以下ってことは (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

低いなぁ (スコア:2)

Re:低いなぁ (スコア:2)

重箱の隅 (スコア:2)

要するに (スコア:1)

1秒間に200回まで動きの検知が可能というなら (スコア:0)

Re: (スコア:0)

肝心なところ (スコア:0)

Re:肝心なところ (スコア:2, 参考になる)

Re:肝心なところ (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:肝心なところ (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:肝心なところ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:肝心なところ (スコア:2)

Re: (スコア:0)

そうだ！ (スコア:0)

マルチコプタが (スコア:0)

さすがiOS (スコア:0)

Re:さすがiOS (スコア:2)

あれ？ジャイロって加速度センサーで無いの？ (スコア:0)

Re:あれ？ジャイロって加速度センサーで無いの？ (スコア:1)