役に立つセンサーがAI in a Boxを立ち上げる

AI in a Boxによって役立つセンサーが立ち上がる

Googleスタッフの研究エンジニアの役割を辞めるのは、お茶を飲みに立ち上がるときに自動停止するテレビが欲しいからでしょうか？実際、それはどういう関係があるのでしょうか？ピート・ワーデン氏、元Googleスタッフの研究エンジニアで、現在はUseful SensorsのCEO兼創設者がそれについて言及しています。

JetpacからGoogle、そしてTinyMLへ、GoogleからAI in a Boxへ

ピート・ワーデン氏は世界で唯一の口髭検出画像処理アルゴリズムを開発しました。彼はまた、スタートアップJetpacの創設者兼CTOでもありました。彼はKhosla VenturesからシリーズAの資金を調達し、技術チームを構築し、Instagramの1億4000万枚以上の写真のピクセルデータを分析して、世界中の5000以上の都市の詳細ガイドに変換する独自のデータ製品を作り上げました。

Jetpacは2014年にGoogleに買収され、ワーデン氏はその後2022年3月までGoogleのスタッフの研究エンジニアとして活動していました。それが彼がUseful Sensorsを設立した時です。彼はそれをGoogleで行ってきた仕事の進化と見ています。ワーデン氏はTensorFlow Mobileチームのテクニカルリードであり、モバイルや組み込みデバイス上でのディープラーニングに責任を持っていました。

ワーデン氏は、TinyMLのサブドメインを立ち上げたとされています。もちろん、彼が行ったことの多くは他の人々が既に取り組んでいたことに基づいています。「私の貢献の多くは、これらのエンジニアリングの手法を広め、ドキュメント化することでした」とワーデン氏は語ります。いずれにせよ、TinyMLは大きくなっており、ワーデン氏もその一部です。

Tiny machine learning（TinyML）は、ハードウェア、アルゴリズム、およびソフトウェアを含む、エネルギー消費が非常に低いデバイス上でのセンサーデータの分析を行う機能を持つ機械学習技術とアプリケーションの急速に成長する分野として広く定義されています。通常、これにはmW以下の非常に低い電力での常時オンのユースケースを有効にするものを含み、バッテリー駆動のデバイスをターゲットにしています。

Useful Sensorsは、AI in a Boxという製品を発売しました。これは「オフラインで、プライベートで、オープンソースの会話用LLMなど」と称されています。Useful Sensorsが作成した最初の製品です。それはワーデン氏との話し合いの良い機会であり、Useful Sensorsの取り組んでいることについて話し合うことができました。

シンプリシティと不気味さの要素

確かに、ワーデン氏がテレビが自動的に一時停止することを望む理由の一部として、Useful Sensorsを始めたと述べたことは事実ですが、それには文脈が必要です。ワーデン氏の組み込みデバイス向けTensorflowの取り組みの一環として、日常のオブジェクトでの利用を見たかったのです。

ワーデン氏は次のように語ります。彼は、ライトスイッチやテレビを作っている会社に行って、「無料で入手できる素晴らしいオープンソースのコードや、すべてのカンファレンスやドキュメンテーション、例と書籍について説明しました」と言います。

しかし、最後には、彼らは通常こう言うのです。「それは素晴らしいですね。しかし、われわれにはほとんどソフトウェアエンジニアリングチームさえなく、ましてや機械学習チームはありません。だから、声のインターフェースを提供してくれるものか、誰かがテレビの前に座っていることを教えてくれるものを提供できますか？」

これは非常に意味深ですし、自己完結型のAI強化ハードウェアを生み出すことは新たなベンチャーに取り組む正当な理由です。ただし、それはGoogle自体が達成できないことではありません。たとえば、Google Pixelは、既に電話で再生されるコンテンツに対してデバイス上で自動的なキャプションを提供しています。しかし、それ以上にプライバシーやデータの主権、いわゆる「不気味さの要素」があります。

Useful Sensorsのホームページに掲載されているビデオでワーデン氏は触れており、Googleでの任期中に人々から「Googleは私たちを監視しているのではないか」という質問をよく受けたと述べています。これらの質問は非常に妥当なものであり、広く見られる現象によって引き起こされます。つまり、あなたが電話の周りでXYZの話題を出すと、数日間XYZに関する広告が連日にわたって表示されることがよくあるからです。

ワーデン氏は、彼が取り組んでいたコードがそうではないことを固く誓っています。しかし彼は続けて、コードがプロプライエタリであるためにそれを証明する方法はないと述べました。さらに、私たちが追加したいのは、Googleのコードベースの他の部分や他のアプリについても何も言えないということです。これほど広く共有された経験を軽々しく無視するのは難しいです。

便利なセンサー

それがすべての核心になるのですが、便利なセンサーはどのようなもので、どのように異なるのでしょうか。ワーデン氏が述べたとおり、ビジョンはマシンラーニングをローカルで実行し、それをプライベートかつ確認可能な方法で行うことです。すべてはインターネット接続なしでローカルで実行され、会話やデータは完全に安全です。アカウント、セットアップ、購読は必要ありません。

ワーデン氏は、すでに人物センサーを発売していることを共有しました。人物の近くにいるかどうかを示す小さなボードと、小さなQRコードの2つです。どちらも完全にローカルで動作し、それぞれ10ドルと7ドルの価格で販売されるとワーデン氏は述べています。しかし、これらの製品にはもう一つ共通しているものがあります。それはメーカー、即ち十分な動機と技術スキルを持つ趣味人たち、および電子機器の販売業者を対象としているということです。

ワーデン氏によると、便利なセンサーは現在いくつかの電子機器の販売業者と交渉中です。便利なセンサーの製品は評価中であり、ワーデン氏はそれが市場で販売されるまであまり時間がかからないことを期待しています。実際、それが便利なセンサーにとって最も有望な市場です。おそらくその可能性を見出しているのは、彼の支援者たちも同様で、同社はすでに500万ドルのシード資金を受け取っています。

ワーデン氏は、ユースフルセンサーズをCTOのManjunath Kudlurと共同設立しました。Kudlur氏は以前Cerebrasでコンパイラーチームリードを務めたほか、GoogleのTensorFlowとNvidiaのCUDAの創設者の一人でもあります。ワーデン氏は、Kudlur氏がユースフルセンサーズのためのトランスフォーマーモデルの高速化などに大きく貢献していると語りました。現時点ではチームは合計8人のメンバーからなっていますが、彼らの計画が実現すれば、追加の資金調達と成長は見えているとワーデン氏は述べています。

ユースフルセンサーズが新たに発売したAI in a Boxは、多くのことを行うために設計されたように思われます。まず第一に、メーカーを対象にしているため、ユースフルセンサーズの認知度を高めることができます。ワーデン氏曰く、人々はコードをいじくり回すことができますが、すでにデフォルトでいくつかの有用な機能を備えています。リアルタイムの字幕表示や音声コマンドの受信、複数の主要な言語間のリアルタイム翻訳などが可能です。

AI in a Boxはまた、ユースフルセンサーズに資金を提供するのにも役立ちます。しかし、もっと重要なのは、ユースフルセンサーズをエコシステムプロバイダーとして位置付けることです。これは会社のビジョンの一部のように思われますし、ワーデン氏は、人々がAI in the Boxを創造的に活用してほしいと望んでいると述べました。実際、彼は、ユースフルセンサーズの製品を使って既にいくつかのものが作られている例がHackster上に存在すると付け加えました。

内部構造

AI in a BoxはRockChip 3588S SoCとNPUを備えています。NPUはニューラルネットワークを高速化するために特別に設計されたユニットであり、チームはそれを活用して大規模言語モデルをローカルで実行することができました。AI in a Boxは、WhisperやLlama2などのオープンソースモデルを基盤に構築されています。同様に、同社はシステムを高速化し、制御するためのすべてのコードをオープンソースライセンスで公開しています。

ユースフルセンサーズのRockChip NPU上での最適化されたトランスフォーマー推論のためのライブラリも利用可能です。透明性はセキュリティとプライバシーの監査に役立つはずであり、ワーデン氏は規制当局にユースフルセンサーズの製品の監査を受けることを歓迎すると述べています。オープンソースコードの公開はまた、開発者がPythonでリアルタイム音声入力アプリケーションを構築するための基盤としてシステムを使用することを可能にします。

ワーデン氏は、リアルタイム音声からテキストへの変換を実現できるようになった後、ローカルで実行できる多くのLLMの選択肢があったと述べています。チームはまた、独自のファインチューニングも行いたいと考えていますが、単にインタラクションのためのプロンプトコンテキストを提供するだけでもかなりの進歩がありました。ワーデン氏は、LLMに詳しい人であれば、ユースフルセンサーズが何をしたかが簡単にわかるだろうと指摘しました。

リアルタイム音声テキスト変換は、AI in a Box in a boxがキーボードとして機能することを可能にし、その他にもさまざまなことができます。LLMも組み込むことで、さまざまな可能性が広がります。たとえば、LLMはAPIと連携することができることが知られています。ワーデンは、Raspberry Piを例として挙げ、声のコマンドを使用して複数のデバイスを制御できるようにすることが可能だと述べました。

AI、イノベーション、エンパワーメント

ワーデンによると、既に人々が取り組んでいる例の1つは、俳優がカンパニーの人感センサーを使用してソロパフォーマンスのスポットライト操作を自動化することです。スポットライトを操作するための人を雇わなくても、これを自動化することが可能であると俳優は期待しています。これは、イノベーションとAIが実際にどのような二重の刃物であるかを象徴する完璧なメタファーかもしれません。俳優にとっては良いアイデアのように聞こえるかもしれませんが、オペレーターについてはどうでしょうか？

「それはイノベーションの周りのあらゆるものに関する非常に重要な質問です。もし私たちが、いわゆることを言って、より効率的なものにしているのであれば、それには社会的な影響があるのでしょうか？私がやろうとしていることの一部は、これらの技術を人々の手に届けることです。それはエンジニアだけでなく、私たちが何をすべきかについての決定をする人々にも試してもらえるようにするためです。現行世代のLLMがどれほど有用であるか、またどれほど欠陥があるかを自身で試してみることができます。意思決定をするのは私たちテクノクラートではなく、よく情報を得た一般の人々であると願っています。私たちの望むものを実際に言える人々です」とワーデンは述べました。

それは確かに高潔な志向です。しかし、VCの支援、Googleのような企業によって支配される競争の激しい状況、一般の人々による独自の意見の詳細化能力、および行政機関が一般の人々を考慮に入れる意欲がどれほど実現可能かは、まだ見ていく必要があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AIDeep learningLanguage modelMachine learningOpen source

Was this article helpful?

93 out of 132 found this helpful

役に立つセンサーがAI in a Boxを立ち上げる

JetpacからGoogle、そしてTinyMLへ、GoogleからAI in a Boxへ

シンプリシティと不気味さの要素

便利なセンサー

内部構造

AI、イノベーション、エンパワーメント

Was this article helpful?

アップル M2 Max GPU vs Nvidia V100、P100、およびT4

スタンフォードの研究者たちは、「EquivAct」というロボット学習における画期的な提案を行いましたこの提案は、異なる規模や方向でのタスクを一般化するためのものです

機械学習

ミッドジャーニープロンプトのTシャツデザイン

インドのOla CEO、ブハビッシュ・アガルワルがAI開発に進出します

ネットワークの強化：異常検知におけるML、AI、およびDLの力を解き放つ

深層学習のマスタリング：非線形性をピースワイズな推定による近似するアートパート3

「LLMの評価にLLMを使用する」

私たちの早期警戒システムへのサポート