動くAI
「進化するAI」
サンフランシスコでの24時間のハードウェアハックのまとめ
もし2023年がLLM(大型言語モデル)の年だったなら、2024年はLMM(大型マルチモーダルモデル)の年になるでしょう。主な違いは、テキストと画像の認識による入出力の生成です。これにより、ハードウェアに対して新たな可能性が拓かれます。
最新のハードウェアと最新の機械学習モデルを組み合わせた場合に何が可能かを探るため、私たちはサンフランシスコの< a href=”https://www.voagi.com/vfx-studio-surfaced-studio-wows-with-a-scifi-creation-on-razers-edge-in-the-nvidia-studio.html”>スタジオ45で週末のハッカソンを開催しました。主な目的は、現在は別れている機械学習コミュニティとロボティクスコミュニティを結び付けることです。ハッカーたちは、どのような空間の課題を解決することができるかを見るために集まりました。全員が24時間以内にチームを組み、デモを作成し、最後に審査員にプレゼンテーションしました。
スマートなインターフェース、目を持つGPT-4、およびDeepMindからのオープンソースモデル
ハッカソンの周りの2週間で、ハードウェアとAIの領域で新しい展開がありました:
- スマートなインターフェースへの投資: Metaは、ストリーミングセットアップを持つRay-Banガラスをリリースしました。OpenAIは、最新のモデルを使用して、Jony IveとのiPhoneのような代替品について話し合っています。今年前半には、Humaneは彼らのAIをTEDのステージでデモンストレーションし、Apple Vision ProヘッドセットはvisionOSを搭載したSDKをリリースして人々が空間応用を構築しています。
- OpenAIがChat GPT-4にビジョンを与える: Chat GPT-4V(ビジョン)は、プレミアムアカウントで利用できるようになり、人々はイメージと一緒にチャットすることができます。また、生成されたコンテンツにはDalle-3も使用できます。フロントエンドのモックアップを作成してバックエンドのコードを書く、映画のスチールを作成する、混乱する道路標識を解析するなどのユースケースがあります。こちらにはさらなる例があり、GPT-4Vに関するMicrosoftの166ページの論文はこちらです。
- Google DeepMindがRT-Xをオープンソース化: 約150,000のタスクに対して500以上のスキルをベンチマークして、RT-Xモデルは従来の限定知能モデルを凌駕しました。詳細はこちらをご覧ください。
これらのエキサイティングなアップデートを二週間も見逃してしまったのは、まさにAI in Motionハッカソンをサンフランシスコで開催した理由です:1)機械学習の進歩のペースが非常に速いため、ハードウェアとの統合がより良くなると何が起こるかを見たかったし、2)そうすることで、普段一緒にハッキングする機会のない二つのコミュニティを一緒にすることが目的でした。
私たちの主な目標は、AIとハードウェアを結びつけることでした
ハッカソンを構造化するために、最初に3つの目標を立てました:
目標1:グループの半数が機械学習開発者で、半数がハードウェアエンジニアであることを確保する。
達成されたこと:OpenAI、DeepMind、Meta AI Labs、Teslaなどのハッカーたちは、両方のバックグラウンドの経験を持って参加しました。
目標2:最新の機械学習モデルが何ができるかを見るために、素晴らしいハードウェアを持ち込む。実際、これらのデモにはLLMよりも多くのものが使用されました。
達成されたこと:ユニバーサルロボットアーム、ボストンダイナミクスのスポット四足歩行ロボット、Roomba、そしてIoTキットライブラリ全体を用意しました。こちらが私たちがハッカーに提供した全文書です。近日中にオープンソースのドキュメントも公開されますのでお楽しみに!
ゴール3: アイデアを24時間でデモにする。土曜日の午前10時に立ち上げ、日曜日の午前10時までにデモが確定しました。はい、多くの人が眠る時間もありました。
私たちは以下のことを達成しました: 下記の結果をご覧ください!
全体的に、結果は印象的でした。よりスマートなインターフェース、より高機能なハードウェア、そして何よりも、より小規模なチームがより大規模なビルドを出荷することができるという近い未来の予感を感じました。
トップ5のプロジェクトのハイライト
1. ジャービスはロボメカニックアシスタントです。 テスラ製造部門のようなものですが、小規模なガレージにあり、話しかけることができます。
ハッカーへ感謝: @jqphu、@nishthenomad、@TristanHeywood、@The_TT_Hacker、@winston、@vrushank
2. XRはスマートな学習用補聴器です。 ユーザーの周囲の情報を捉えることができます。カメラ入力をコンピュータビジョンと音声認識で組み合わせ、OpenAIのAPIを使って、ユーザーの視覚的な理解を向上させるデモが行われました。
ハッカーへ感謝: @jer、@EmmaQian_、@ClovisVinant、@lingxue、@varun、@esh
3. C.H.I.PはデジタルCNC顕微鏡であり、不良チップのゼロショット分類が可能です。
ハッカーへ感謝: @johndmcmaster, @notionsmith, @justin, @ninjaa
4. Dex(総合優勝者)は部屋をスキャンし、紛失した物品を検索します。 ローバにウェブカメラを追加し、画像データとチャットできるようにしました。
ハッカーへ感謝: @cyrus_cowley, @ian, @surya
5. Spotsight(観客のお気に入り)は、視覚障害者向けのロボット型盲導犬でした。 それは環境を安全にナビゲートするのに役立ち、専門に訓練された盲導犬よりも手頃な価格で提供され、所有者と環境の間で追加のタスク(例:郵便物の取得など)を行うことができました。
ハッカーへ感謝: @ingarobotics, @cyb3rblaze_, @adit, @reuben, @abinaya
🤖 好奇心がある場合はこちらでさらにプロジェクトをご覧ください。
次回に改善するためのアイデア
- アイデアからストーリーボードまで。 チームが24時間で解決したい問題の明確な方向性を見つけ、それをデモでどのように表現するかという点にギャップがあることがわかりました。今後のハッカソンでは、ストーリーボードの2つの部分を促進します:1)ロボットに望むこととその理由、2)バックエンドアーキテクチャのイメージ。現場で対策を講じ、今度はより早くこの問題に対応できるようにします。
- 複数部分のハック。 MITの最も挑戦的なハッカソンでは、1つのイベントではなく2つの週末を必要とすることがあります。アイデアを探索し、デモを構築するために1週間かかることがあり、ファイナリストにはさらに2日間の時間が必要です。次のチャレンジでは、より高品質なデモを促進するためにこれを試してみることが考えられます。この場合、最初の週末は1日にし、2つ目の週末は2日にします。
- ハードウェアライブラリを簡素化。 より焦点を絞ったライブラリを使用して、2週間でハッカソンを行います。ハードウェアが多すぎるというのは良い問題でした。しかし、各ロボットにメンターが付けば、ボストンダイナミクスのSpot四足歩行ロボットやユニバーサルロボットアームなどのより狭いスコープのチャレンジを行うほうが良いと考えています。これを行う場合、チームがハードウェアを使用するためのタイミングや複数のボットの取得方法を検討する必要があります。
自分自身のハードウェアハッカソンを開催したい場合は、これをプレイブックとして使用してください
私たちのチームは数十のハッカソンを開催してきましたが、ハードウェアハッカソンが十分に行われていないと感じています。ソフトウェアを出荷することは比較的簡単ですが、この記事が将来のハードウェアハックに対するインスピレーションと構造になることを願っています。
うまく機能した意図的な点もいくつかありました:
1. ハッカーが開発できる設計・製作スペースを使用すること
はんだ付けやハードウェアの作業中には、輝かしいオフィスの机はおすすめできません。私たちはプラスチック製のテーブルも借りて、最も柔軟性のある環境を確保しました。
2. ハッカーがチームで応募できるようにすること
9つのチームのうち2つはチームで応募しました。彼らはチーム全員をイベントに受け入れるための申請で応募することができました。自分自身のハックのテンプレートとしてこのページをご自由にご利用ください。私たちはあらゆるバックグラウンドの人々を歓迎しました。唯一の要件は、何かを作り上げるために参加していることで、興味本位の参加者は除外されました。
3. ハックの1週間前にパーツのライブラリを公開すること
イベントの1週間前にこの文書を共有し、参加者がドキュメンテーションを探索できるようにしました。また、参加者には自分自身のハードウェアを持参することも奨励しました。
4. 強力に立ち上がること
私たちはハックをコーヒーやカジュアルな交流会で始めました。これにより、30分間の間に人々がお互いを知る時間が作られました。その後、創業者のデモ、raise roboticsのGaryとの45分間のプログラミングティーチングが行われました。彼は何を構築すべきかの実際の例を共有しました。各ロボットにはロボットのメンターも付いており、ハードウェアの紹介をしました。
5. チームが必要な人々にはチーム作りをサポートすること
1分のスタンドアップピッチと20分のミックスアンドミングルを3回繰り返し行い、人々がお互いに出会い、チームを形成し、最終的なチームを確定させるのを支援しました。
6. 審査基準を明確にすること
私たちは最初から審査員が以下の基準でアイデアを評価することを明確にしました:
- 6.1 問題の理解:これは大きな問題であり、興味深い未来を可能にしていますか?明確な顧客のユースケースが存在しますか?
- 6.2 デモ:これは問題を解決するために関連性がありますか? – 実現可能性 – 概念を証明していますか?
- 6.3 楽しみや魅力:これは相互作用が楽しいですか?このデモやシステムが大量展開されるとき、AIシステムや運動を使用した喜びを創り出すでしょうか?
- 6.4 クリアな経済的インセンティブ:これを大規模に展開するための道筋はありますか?顧客がこのサービスを使用して支払いたい理由は明確ですか?
7. ロボットのペアリングが行われる前にアイデアを提出すること
チーム形成後の2-3時間はアイデアの発生に充てられました。私たちはチームが何を構築したいかを把握できるように、この段階を建設から分離することを意図しました。また、最も早くアイデアを提出したものがロボットを最初に選ぶことができるように、メリトクラシーを導入しました。
8. 浮遊する双方のメンターを用意すること
デザイン製作側、ツール、ハードウェア、機械学習側にメンターを配置し、チームをサポートしました。3-5人のメンターチームが50人のハッカー全員を支援しました。
9. 強力に終わること
ピッチデッキ(2分)とデモ(1分)の提出の他に、ショーケースでのハードウェアハックのフィナーレにはライブ要素があることを確認したかったです。イベントは2つのパートに分かれました:
- ショーケース1時間:ライブデモのあるスタートアップブースを想像してください。ゲストと審査員はチームとデモとの対話ができます。
- ピッチ1時間:2分のピッチと1分のビデオデモ。Googleスライドの埋め込みYouTubeビデオデモにより、作られたものを誰もが見ることができました。
各ピッチの後、各審査員は1つの質問をするか、1つのフィードバックポイントを与える機会がありました。
10. 構造的に非構造的。
ハッカソンの大部分は、各チームが解決策を見つけるための時間を持つことができるフォーカスタイムでした。追加の講話やワークショップは省略し、チームが必要なだけの時間を確保しました。さらに、課題自体も意図的に開放的でした:“AIがハードウェアとペアリングされた、自宅やオフィス、屋外での空間課題を解決してください。”
映画のエンドロールスタイルの感謝の気持ちでまとめる
このイベントは、ハッカーと最終ショーケースに参加した人々の両方にとって楽しいものでした。ハードウェアのハッカソンがもっと必要です!
素晴らしいハードウェアを作るためには、たった24時間でもフルのエコシステムが必要です。そして、特に重要な役割を果たしてくれたinformalを含むすべてのスポンサーに感謝しています。
もし自分自身のハードウェアハッカソンを開催したい場合は、今後の投稿でハードウェアハッカソンの運営方法についての具体的なヒントを共有します。お楽しみに!
このイベントの実現に協力してくれたすべてのパートナーに感謝します!
- Studio45は、サンフランシスコのバーナルハイツ地区にあるプロフェッショナルが物理製品を開発するためのクラブハウスと共同作業スペースです。
- informalは、ハードウェアと製造分野の最高の独立型プロフェッショナルのためのフリーランスコレクティブです。informalのメンバーは、すべてのスケールの企業と協力して物理製品の設計、製造、出荷を行います。 フィーチャーしていただきありがとうございます!
- Blues Wirelessは、簡単な接続性でクラウドに接続された製品を実現します。
コミュニティパートナー
- Massmeltは、将来のビジョンを築く組織をサポートする多様なハードウェア製品開発サービスです。
- SF Hardware Meetupは、9,000人以上のハードウェア関係者が月例で集まり、意義のあるつながりを築いています。
- Cerebral ValleyとGenAI Collectiveは、Bay Areaの機械学習コミュニティに知らせるお手伝いをします。
賞のスポンサー
- Runpodは、AIモデルのトレーニングと推論のスケーリングにおけるGPUクラウドプラットフォームです。最優秀チームにクラウドクレジットを提供しました。
プロジェクトへのコメントを助けていただいた審査員に感謝します!
- Ashleyは、Google AlphabetのX、Moonshot Factoryの元テクニカルリードです。
- Robertは、Alphabetの自動運転会社であるWaymoのプロダクトリードです。
- Santhiは、Designer Fundの創設者、エンジェル投資家、ベンチャーフェローです。
- Vinceは、7回の起業家であり、シリコンバレーの影響を与えるテクノロジー投資家です。
そして最後に、コ・オーガナイザーのMichaelとJaschaにも一声を送りたいと思います。彼らはinformalのメンバーで、自発的に参加者全員が素晴らしい体験をするためにボランティア活動をしてくれました。
P.S. はい、この記事は私たち(Michael + Jascha)が書いたものです。そのため、最後に第三者の声援で締めくくりました✌️
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles