役に立つセンサーがAI in a Boxを立ち上げる

AI in a Boxによって役立つセンサーが立ち上がる

Googleスタッフの研究エンジニアの役割を辞めるのは、お茶を飲みに立ち上がるときに自動停止するテレビが欲しいからでしょうか? 実際、それはどういう関係があるのでしょうか? ピート・ワーデン氏、元Googleスタッフの研究エンジニアで、現在はUseful SensorsのCEO兼創設者がそれについて言及しています。

JetpacからGoogle、そしてTinyMLへ、GoogleからAI in a Boxへ

ピート・ワーデン氏は世界で唯一の口髭検出画像処理アルゴリズムを開発しました。彼はまた、スタートアップJetpacの創設者兼CTOでもありました。彼はKhosla VenturesからシリーズAの資金を調達し、技術チームを構築し、Instagramの1億4000万枚以上の写真のピクセルデータを分析して、世界中の5000以上の都市の詳細ガイドに変換する独自のデータ製品を作り上げました。

Jetpacは2014年にGoogleに買収され、ワーデン氏はその後2022年3月までGoogleのスタッフの研究エンジニアとして活動していました。それが彼がUseful Sensorsを設立した時です。彼はそれをGoogleで行ってきた仕事の進化と見ています。ワーデン氏はTensorFlow Mobileチームのテクニカルリードであり、モバイルや組み込みデバイス上でのディープラーニングに責任を持っていました。

ワーデン氏は、TinyMLのサブドメインを立ち上げたとされています。もちろん、彼が行ったことの多くは他の人々が既に取り組んでいたことに基づいています。「私の貢献の多くは、これらのエンジニアリングの手法を広め、ドキュメント化することでした」とワーデン氏は語ります。いずれにせよ、TinyMLは大きくなっており、ワーデン氏もその一部です。

Tiny machine learning(TinyML)は、ハードウェア、アルゴリズム、およびソフトウェアを含む、エネルギー消費が非常に低いデバイス上でのセンサーデータの分析を行う機能を持つ機械学習技術とアプリケーションの急速に成長する分野として広く定義されています。通常、これにはmW以下の非常に低い電力での常時オンのユースケースを有効にするものを含み、バッテリー駆動のデバイスをターゲットにしています。

Useful Sensorsは、AI in a Boxという製品を発売しました。これは「オフラインで、プライベートで、オープンソースの会話用LLMなど」と称されています。Useful Sensorsが作成した最初の製品です。それはワーデン氏との話し合いの良い機会であり、Useful Sensorsの取り組んでいることについて話し合うことができました。

シンプリシティと不気味さの要素

確かに、ワーデン氏がテレビが自動的に一時停止することを望む理由の一部として、Useful Sensorsを始めたと述べたことは事実ですが、それには文脈が必要です。ワーデン氏の組み込みデバイス向けTensorflowの取り組みの一環として、日常のオブジェクトでの利用を見たかったのです。

ワーデン氏は次のように語ります。彼は、ライトスイッチやテレビを作っている会社に行って、「無料で入手できる素晴らしいオープンソースのコードや、すべてのカンファレンスやドキュメンテーション、例と書籍について説明しました」と言います。

しかし、最後には、彼らは通常こう言うのです。「それは素晴らしいですね。しかし、われわれにはほとんどソフトウェアエンジニアリングチームさえなく、ましてや機械学習チームはありません。だから、声のインターフェースを提供してくれるものか、誰かがテレビの前に座っていることを教えてくれるものを提供できますか?」

これは非常に意味深ですし、自己完結型のAI強化ハードウェアを生み出すことは新たなベンチャーに取り組む正当な理由です。ただし、それはGoogle自体が達成できないことではありません。たとえば、Google Pixelは、既に電話で再生されるコンテンツに対してデバイス上で自動的なキャプションを提供しています。しかし、それ以上にプライバシーやデータの主権、いわゆる「不気味さの要素」があります。

Useful Sensorsのホームページに掲載されているビデオでワーデン氏は触れており、Googleでの任期中に人々から「Googleは私たちを監視しているのではないか」という質問をよく受けたと述べています。これらの質問は非常に妥当なものであり、広く見られる現象によって引き起こされます。つまり、あなたが電話の周りでXYZの話題を出すと、数日間XYZに関する広告が連日にわたって表示されることがよくあるからです。

ワーデン氏は、彼が取り組んでいたコードがそうではないことを固く誓っています。しかし彼は続けて、コードがプロプライエタリであるためにそれを証明する方法はないと述べました。さらに、私たちが追加したいのは、Googleのコードベースの他の部分や他のアプリについても何も言えないということです。これほど広く共有された経験を軽々しく無視するのは難しいです。

便利なセンサー

それがすべての核心になるのですが、便利なセンサーはどのようなもので、どのように異なるのでしょうか。ワーデン氏が述べたとおり、ビジョンはマシンラーニングをローカルで実行し、それをプライベートかつ確認可能な方法で行うことです。すべてはインターネット接続なしでローカルで実行され、会話やデータは完全に安全です。アカウント、セットアップ、購読は必要ありません。

ワーデン氏は、すでに人物センサーを発売していることを共有しました。人物の近くにいるかどうかを示す小さなボードと、小さなQRコードの2つです。どちらも完全にローカルで動作し、それぞれ10ドルと7ドルの価格で販売されるとワーデン氏は述べています。しかし、これらの製品にはもう一つ共通しているものがあります。それはメーカー、即ち十分な動機と技術スキルを持つ趣味人たち、および電子機器の販売業者を対象としているということです。

ワーデン氏によると、便利なセンサーは現在いくつかの電子機器の販売業者と交渉中です。便利なセンサーの製品は評価中であり、ワーデン氏はそれが市場で販売されるまであまり時間がかからないことを期待しています。実際、それが便利なセンサーにとって最も有望な市場です。おそらくその可能性を見出しているのは、彼の支援者たちも同様で、同社はすでに500万ドルのシード資金を受け取っています。

ワーデン氏は、ユースフルセンサーズをCTOのManjunath Kudlurと共同設立しました。Kudlur氏は以前Cerebrasでコンパイラーチームリードを務めたほか、GoogleのTensorFlowとNvidiaのCUDAの創設者の一人でもあります。ワーデン氏は、Kudlur氏がユースフルセンサーズのためのトランスフォーマーモデルの高速化などに大きく貢献していると語りました。現時点ではチームは合計8人のメンバーからなっていますが、彼らの計画が実現すれば、追加の資金調達と成長は見えているとワーデン氏は述べています。

ユースフルセンサーズが新たに発売したAI in a Boxは、多くのことを行うために設計されたように思われます。まず第一に、メーカーを対象にしているため、ユースフルセンサーズの認知度を高めることができます。ワーデン氏曰く、人々はコードをいじくり回すことができますが、すでにデフォルトでいくつかの有用な機能を備えています。リアルタイムの字幕表示や音声コマンドの受信、複数の主要な言語間のリアルタイム翻訳などが可能です。

AI in a Boxはまた、ユースフルセンサーズに資金を提供するのにも役立ちます。しかし、もっと重要なのは、ユースフルセンサーズをエコシステムプロバイダーとして位置付けることです。これは会社のビジョンの一部のように思われますし、ワーデン氏は、人々がAI in the Boxを創造的に活用してほしいと望んでいると述べました。実際、彼は、ユースフルセンサーズの製品を使って既にいくつかのものが作られている例がHackster上に存在すると付け加えました。

内部構造

AI in a BoxはRockChip 3588S SoCとNPUを備えています。NPUはニューラルネットワークを高速化するために特別に設計されたユニットであり、チームはそれを活用して大規模言語モデルをローカルで実行することができました。AI in a Boxは、WhisperLlama2などのオープンソースモデルを基盤に構築されています。同様に、同社はシステムを高速化し、制御するためのすべてのコードをオープンソースライセンスで公開しています。

ユースフルセンサーズのRockChip NPU上での最適化されたトランスフォーマー推論のためのライブラリも利用可能です。透明性はセキュリティとプライバシーの監査に役立つはずであり、ワーデン氏は規制当局にユースフルセンサーズの製品の監査を受けることを歓迎すると述べています。オープンソースコードの公開はまた、開発者がPythonでリアルタイム音声入力アプリケーションを構築するための基盤としてシステムを使用することを可能にします。

ワーデン氏は、リアルタイム音声からテキストへの変換を実現できるようになった後、ローカルで実行できる多くのLLMの選択肢があったと述べています。チームはまた、独自のファインチューニングも行いたいと考えていますが、単にインタラクションのためのプロンプトコンテキストを提供するだけでもかなりの進歩がありました。ワーデン氏は、LLMに詳しい人であれば、ユースフルセンサーズが何をしたかが簡単にわかるだろうと指摘しました。

リアルタイム音声テキスト変換は、AI in a Box in a boxがキーボードとして機能することを可能にし、その他にもさまざまなことができます。LLMも組み込むことで、さまざまな可能性が広がります。たとえば、LLMはAPIと連携することができることが知られています。ワーデンは、Raspberry Piを例として挙げ、声のコマンドを使用して複数のデバイスを制御できるようにすることが可能だと述べました。

AI、イノベーション、エンパワーメント

ワーデンによると、既に人々が取り組んでいる例の1つは、俳優がカンパニーの人感センサーを使用してソロパフォーマンスのスポットライト操作を自動化することです。スポットライトを操作するための人を雇わなくても、これを自動化することが可能であると俳優は期待しています。これは、イノベーションとAIが実際にどのような二重の刃物であるかを象徴する完璧なメタファーかもしれません。俳優にとっては良いアイデアのように聞こえるかもしれませんが、オペレーターについてはどうでしょうか?

「それはイノベーションの周りのあらゆるものに関する非常に重要な質問です。もし私たちが、いわゆることを言って、より効率的なものにしているのであれば、それには社会的な影響があるのでしょうか?私がやろうとしていることの一部は、これらの技術を人々の手に届けることです。それはエンジニアだけでなく、私たちが何をすべきかについての決定をする人々にも試してもらえるようにするためです。現行世代のLLMがどれほど有用であるか、またどれほど欠陥があるかを自身で試してみることができます。意思決定をするのは私たちテクノクラートではなく、よく情報を得た一般の人々であると願っています。私たちの望むものを実際に言える人々です」とワーデンは述べました。

それは確かに高潔な志向です。しかし、VCの支援、Googleのような企業によって支配される競争の激しい状況、一般の人々による独自の意見の詳細化能力、および行政機関が一般の人々を考慮に入れる意欲がどれほど実現可能かは、まだ見ていく必要があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ONNXフレームワークによるモデルの相互運用性と効率の向上」

ONNXは、異なるプラットフォーム間でのディープラーニングモデルの簡単な転送と実行を可能にするオープンソースのフレームワ...

人工知能

画像をプロンプトに変換する方法:Img2Prompt AIモデルによるステップバイステップガイド

シンプルなAPIコールと少しのNode.jsで画像からプロンプトを収集する

AIニュース

「AIが顧客がAmazonでより良いショッピングをするのを支援している方法」

顧客のレビューは、オンラインショッピングの基盤となり、購入前に貴重なインサイトを提供することで、購入者に力を与えてい...

データサイエンス

「ChatGPTのようなLLMの背後にある概念についての直感を構築する-パート1-ニューラルネットワーク、トランスフォーマ、事前学習、およびファインチューニング」

「たぶん私だけじゃないと思いますが、1月のツイートで明らかになっていなかったとしても、私は最初にChatGPTに出会ったとき...

AIニュース

新たなGoogle.orgの助成金により、30万人の学生がロボット技術とAIに触れることができます

Googleの25周年記念に、Google.orgはロボットプログラムとAI教育を支援するために1000万ドルの助成金を提供しています

データサイエンス

「AIコントロールを手にして、サイバーセキュリティシステムに挑戦しましょう」

あなたの組織のデータは、サイバー犯罪者の悪意のある行為に対して免疫を持っていますか?そうでなければ、弱い防御システム...