\u003c/p>\u003cp>△Dream Machine iOS界面。\u003c/p>\u003cp>Luma AI產品設計師Jiacheng Yang(楊家誠)告訴《智能涌現》,與Midjourney、Adobe等專業設計工具不同,Dream Machine不需要用戶學習如何寫Prompt(提示詞),也不需要用戶懂設計,“我們的目標就是做一款AI小白和設計小白都能輕易上手的AI視覺工具”。\u003c/p>\u003cp>據他介紹,Dream Machine共有5個核心功能:\u003c/p>\u003cp>(1)用自然語言進行對話,實現圖片的創作生成和編輯;\u003c/p>\u003cp>(2)由AI提供創意點子,根據用戶輸入的Prompt,自動提供創意、風格選項;\u003c/p>\u003cp>(3)視覺參照,根據用戶輸入的照片,生成帶有相同主體或者風格的圖片;\u003c/p>\u003cp>(4)將AI設計的圖片轉化為視頻,供用戶查看圖片中主體在不同角度下呈現出的細節;\u003c/p>\u003cp>(5)將所有AI生成的素材發布在面板上,并生成可供分享的鏈接,有助于團隊進行頭腦風暴。\u003c/p>\u003cp>\u003cimg class=\"empty_bg\" data-lazyload=\"https://x0.ifengimg.com/ucms/2024_48/96FF07BCD3B881AE28DE0C105E523987BF2EBA86_size191_w1828_h1028.jpg\" src=\"data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABAQMAAAAl21bKAAAAA1BMVEXy8vJkA4prAAAACklEQVQI12NgAAAAAgAB4iG8MwAAAABJRU5ErkJggg==\" style=\" width: 640px; height: 359px;\" />\u003c/p>\u003cp>△Dream Machine視覺參照功能。\u003c/p>\u003cp>為什么選擇用圖像設計平臺,去承接視頻模型的用戶?“想要擴大AI視覺領域用戶的盤子,只有視頻生成是不夠的。圖像生成的應用場景會更廣泛,所以我們想做一個很好上手的設計平臺,用戶能夠輕易上手的同時,也能展現我們的模型能力。”Barkley提到。\u003c/p>\u003cp>行業競爭,是作為初創企業的Luma AI不得不面對的問題。他們認為,打出差異化優勢,是讓模型和產品在行業中具有辨識度和獲客的關鍵。\u003c/p>\u003cp>比如面對Midjourney等圖像產品的競爭,Dream Machine把語言理解能力做到了“天花板”。以及,這也是一個最會設計字體的模型——相較于Midjourney和GPT生成的帶文字的圖片,Dream Machine圖片中文字的設計感和清晰度是最高的。\u003c/p>\u003cp>\u003cimg class=\"empty_bg\" data-lazyload=\"https://x0.ifengimg.com/ucms/2024_48/FC82E04336C3696E26E30F858265A1D9E0176DE8_size262_w1828_h1028.jpg\" src=\"data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABAQMAAAAl21bKAAAAA1BMVEXy8vJkA4prAAAACklEQVQI12NgAAAAAgAB4iG8MwAAAABJRU5ErkJggg==\" style=\" width: 640px; height: 359px;\" />\u003c/p>\u003cp>△Dream Machine在圖片中生成的配文。\u003c/p>\u003cp>和視頻模型一樣,Luma AI給Dream Machine花費的投流預算,是0。在Barkley看來,燒錢營銷看的是回報率,這意味著最終還是要用產品說話。以及,“AI市場還很小,我覺得對AI公司來說,燒錢營銷還為時尚早。還不如把營銷的錢,投到產品研發上”。\u003c/p>\u003cp>以下《智能涌現》與Luma AI增長負責人Barkley Dai、Luma AI產品設計師Jiacheng Yang的交流,內容略經《智能涌現》編輯:\u003c/p>\u003cp>燒錢營銷,AI公司還為時尚早\u003c/p>\u003cp>《智能涌現》:2024年6月發布視頻模型Dream Machine的時候,團隊有沒有預料到會爆火?\u003c/p>\u003cp>Barkley:其實當時是遠超我們預期的,我們一度出現服務器和GPU資源沒有辦法承受的情況。\u003c/p>\u003cp>《智能涌現》:如果要總結爆火的經驗,你覺得是什么?\u003c/p>\u003cp>Barkley:其實最早發布的版本,還不是效果最好的版本。但我們決定全量免費放給所有的用戶去使用。\u003c/p>\u003cp>在當時,還沒有一個視頻模型能夠做到這樣。所以短時間內吸引了很多用戶的關注。\u003c/p>\u003cp>《智能涌現》:對于創業公司來說,做免費的決定是不是還挺不容易的?\u003c/p>\u003cp>Barkley:其實我們當時也給免費設置了一個額度,我覺得這是一個行業的standard practice(基本操作)。\u003c/p>\u003cp>只是當時的峰值對我們來說過高,大量的用戶在短時間內涌入,服務器后臺收到了太多的request。\u003c/p>\u003cp>《智能涌現》:公司能負擔流量帶來的推理成本嗎?\u003c/p>\u003cp>Barkley:其實我們還是在技術層面做了很多成本的優化,比如不斷去提升視頻生成的速度,最開始我們的模型生成5秒的視頻需要120秒,現在只需要20秒。\u003c/p>\u003cp>以及在保持原有生成質量的情況下,視頻模型的推理還有很多優化的空間。所以在半年時間里,視頻模型的成本是在下降的。\u003c/p>\u003cp>所以我覺得推理成本對我們來說不是特別大的負擔,當然也是一筆開支,但未來會變低。\u003c/p>\u003cp>《智能涌現》:你提到Dream Machine是有免費額度的,那么使用完免費額度后的用戶付費率怎樣?\u003c/p>\u003cp>Barkley:說實話我們對付費率完全沒有任何預期。因為當時我們對Dream Machine的定位是教育用戶的產品,讓用戶知道Luma AI視頻生成的潛力有多大。當時市面上還沒有一個視頻模型是按照對標Sora的水平發布的,所以我們對付費率完全沒有對標的對象。\u003c/p>\u003cp>但現在發布的AI設計平臺,我們的定位是最終去獲客的產品。所以現在我們對它的收入和付費率有更高的期待。\u003c/p>\u003cp>《智能涌現》:Dream Machine在營銷上投入了多少?\u003c/p>\u003cp>Barkley:0,我們在發布的時候沒有做任何的營銷付費。\u003c/p>\u003cp>當然我們提前去聯系了很多創作者,他們試用后都覺得很興奮,甚至大多數人之前用過Runway,還有人用過可靈。但他們用了我們的產品后,都覺得說“This is the next big thing”,在推特上自發幫我們推廣。\u003c/p>\u003cp>但我們沒有做任何的投放,因為我們還是堅信成功的因素就是產品本身。\u003c/p>\u003cp>《智能涌現》:燒錢營銷,這一套打法在硅谷AI公司常見嗎?\u003c/p>\u003cp>Barkley:我感覺硅谷大部分還是比較產品驅動的,運營這一套主要是中國公司。\u003c/p>\u003cp>視覺領域的市場還很小,我覺得對AI公司來說,燒錢營銷還為時尚早。即便ChatGPT的用戶很多,但是像一些視覺模型,用戶還是很少數。\u003c/p>\u003cp>這個時候如果你做投流,去做跑馬圈地,留存肯定不高,還不如把這些錢投入到模型和產品的研發上,用更好的模型和產品吸引用戶的增長。\u003c/p>\u003cp>《智能涌現》:在發布視頻模型之前,Luma AI的技術和產品還是圍繞3D生成的。團隊是什么時候決定做視頻生成模型的?\u003c/p>\u003cp>Barkley:大約在2023年12月。\u003c/p>\u003cp>《智能涌現》:為什么從3D轉向做視頻和圖像模型?\u003c/p>\u003cp>Barkley:我們原來其實也不會說自己是一個3D公司,公司的定位還是視覺領域的AI公司,我們想去理解這個世界在視覺上的構造,是如何幫助AI對世界進行理解的。\u003c/p>\u003cp>從創始團隊的研究背景來看,一開始3D是Luma AI比絕大多數公司和團隊更擅長的事。后續我們也確實做了很多3D生成上的技術突破。\u003c/p>\u003cp>但是3D可以被用于訓練的數據量級,相較于圖片和視頻來說都會少很多。同時在使用場景上,目前手機和電腦還是主要的產品載體,但3D也會比視頻更受到限制。\u003c/p>\u003cp>但是當我們有更多的算力、更多的人才,也有更多的能力去推進我們的愿景,也就是更好地了解世界,我們也自然地會從3D轉向做視頻。\u003c/p>\u003cp>《智能涌現》:這會不會讓公司看起來戰略有些搖擺?\u003c/p>\u003cp>Barkley:從我作為一個內部成員的視角來看,我覺得不管是3D還是視頻生成,一直都是合理的。\u003c/p>\u003cp>因為不管是3D,還是視頻和圖片,都只是一種模態。如果我們最終想做到的是對這個世界的理解,那么不管是一種模態、一種生成,還是一種創意的發揮,我覺得只要目標不變,這些媒介就只是幫我們達成目標的手段。\u003c/p>\u003cp>《智能涌現》:從3D轉型做視頻生成,期間有遇到什么困難嗎?\u003c/p>\u003cp>Barkley:我覺得整個過程還是比較順利的,因為我們在做3D生成的時候,團隊也就在十幾人的規模,但當我們做視頻生成以后,引入了很多視頻領域的人才,現在團隊規模已經超過了50人。\u003c/p>\u003cp>這個過程其實是吸納了更多新成員去推進目標的實現,而不是說原來大家就在頻繁地換方向。只是原來做3D的人,現在也在逐漸開始做視頻方面,比如數據等各方面的工作。\u003c/p>\u003cp>《智能涌現》:做3D的經歷對視頻生成有幫助嗎?很多反饋說Dream Machine的運動軌跡做得很好,這和3D積累下的空間理解能力有關嗎?\u003c/p>\u003cp>Barkley:我覺得可能不一定有那么直接的關系。\u003c/p>\u003cp>但從我們發布最早版本的視頻模型開始,我們對相機的軌跡運動,包括視頻里有多少機位的變化,是十分側重的。\u003c/p>\u003cp>所以當時用戶也會普遍反饋說,Luma AI的模型雖然有時候生成結果不是那么穩定,但是它能給到很多的機位的移動,以及復雜的人物運動軌跡。\u003c/p>\u003cp>我覺得過去在3D上的一些經驗,能夠讓我們在做視覺模型的時候,意識到提升機位的豐富度和運動軌跡的復雜度,能夠提高用戶對視頻生成內容的消費意愿。\u003c/p>\u003cp>不過我覺得過去的經驗,包括模型本身之間,其實沒有那么大的關聯性和借鑒意義。\u003c/p>\u003cp>《智能涌現》:所以技術轉型最重要還是補充新的技術人才是嗎?\u003c/p>\u003cp>Barkley:是的。\u003c/p>\u003cp>承接住模型的爆火,需要有產品\u003c/p>\u003cp>《智能涌現》:6月份Dream Machine走紅后,你們怎么考慮用戶留存的問題?\u003c/p>\u003cp>Barkley:我們發布Dream Machine的時候,就知道后面一定要有產品去承接用戶持續穩定的需求。\u003c/p>\u003cp>比如你作為一個ChatGPT的長期用戶,即便后續會出來很多能力做得和GPT差不多的模型,你還是大概率會選擇使用ChatGPT。因為ChatGPT通過長期的深度學習,已經把握了用戶習慣,能夠更好地理解你的意圖。\u003c/p>\u003cp>行業里永遠會有更好的模型出現,但產品最終是能夠讓用戶留存的點。\u003c/p>\u003cp>《智能涌現》:團隊是從什么時候計劃做這樣AI設計平臺的?\u003c/p>\u003cp>Barkley:這個想法其實在我們最開始做視頻模型的時候就有了。所以產品的想法是去年(2023年)12月和視頻模型同步推進的。\u003c/p>\u003cp>只是在產品的設計過程中,我們后來意識到,要想把整個設計流程涵蓋,也必須要做到能夠生成圖片。所以在視頻模型發布5個月以后,我們覺得圖片模型也足夠好的時候,把兩部分同時整合成一個產品。\u003c/p>\u003cp>《智能涌現》:平臺的目標用戶是哪些人?專業設計師還是大眾?\u003c/p>\u003cp>Barkley:其實我們覺得原來的Dream Machine,更多的用戶還是偏專業的,至少是有做AI電影的經驗,或者知道怎么用Prompt去生成更好的效果。\u003c/p>\u003cp>但其實我們更希望現在的產品,讓之前沒有用過AI甚至沒有設計經驗的人用起來。比如,如果他們在工作中需要用這樣的流程,可以非常容易地通過一輪一輪地和AI進行對話去實現。\u003c/p>\u003cp>我們在6月份發布的視頻模型Dream Machine,其實還是需要一些使用門檻的。我們在那時候就在想,希望普通人也能access這些視覺工具,就好比視覺里的GPT。\u003c/p>\u003cp>但視覺是一個很小眾的垂類領域。我們做設計平臺的想法就是,如何去擴大這個群體。只有擴大群體,才能讓視覺領域的AI獲得更好的發展。\u003c/p>\u003cp>《智能涌現》:非專業設計師很難把一整套設計的工作流用得很深入。我的大部分生圖需求,可能輸入一個簡單的Prompt,用GPT,或者Midjourney就能滿足。\u003c/p>\u003cp>Jiacheng:我們的想法是,把用戶能輕易感受到差別的功能做到最好,比如我們圖像能力比GPT好,但是語言理解能力比Midjourney要好。\u003c/p>\u003cp>我用同一個最基礎、完全不復雜的Prompt,讓Dream Machine和Midjourney對比一下:i want to make a poster for my brother band “crazy avocado”.(我想為我兄弟的樂隊“瘋狂牛油果”做一張海報。)\u003c/p>\u003cp>\u003cimg class=\"empty_bg\" data-lazyload=\"https://x0.ifengimg.com/ucms/2024_48/E503D02E7C1A23C14A82F0296390E7E077570877_size492_w2580_h1756.jpg\" src=\"data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABAQMAAAAl21bKAAAAA1BMVEXy8vJkA4prAAAACklEQVQI12NgAAAAAgAB4iG8MwAAAABJRU5ErkJggg==\" style=\" width: 640px; height: 435px;\" />\u003c/p>\u003cp>△Dream Machine根據“i want to make a poster for my brother band ‘crazy avocado’”生成的樂隊海報。\u003c/p>\u003cp>\u003cimg class=\"empty_bg\" data-lazyload=\"https://x0.ifengimg.com/ucms/2024_48/87EF4F60FBCD59B69BBACE9A586B7C9873B4CDF5_size322_w2178_h1614.jpg\" src=\"data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABAQMAAAAl21bKAAAAA1BMVEXy8vJkA4prAAAACklEQVQI12NgAAAAAgAB4iG8MwAAAABJRU5ErkJggg==\" style=\" width: 640px; height: 474px;\" />\u003c/p>\u003cp>△Midjourney根據“i want to make a poster for my brother band ‘crazy avocado’”生成的樂隊海報。\u003c/p>\u003cp>你看Midjourney生成的海報,既不Crazy,也沒有Avocado的元素,也看不出來是個樂隊的海報。\u003c/p>\u003cp>語義理解的能力其實比你想象的重要,會影響很多場景的落地。因為生成隨機的、好看的圖片,在實用場景中意義不是很大。\u003c/p>\u003cp>如果要讓Midjourney真正還原你的意圖,你需要寫很多Prompt,包括海報的設計、上面寫的文字、解釋Crazy的風格等等。學會寫Prompt,我大概花了兩三個月時間。\u003c/p>\u003cp>但我相信ChatGPT的大部分用戶是不會去學的,他們就是進來問一個問題,得到一個結論。\u003c/p>\u003cp>我們做設計產品的思路,也是一樣的。按照之前市面上的產品,如果我想要得生成還原我意圖的圖片,首先,我要花20美金買Claude或者GPT,幫我生成Prompt;其次,我要再花20美金到40美金買Midjourney,生成圖片;最后我還要花20美金的訂閱,把這些圖片變成視頻。\u003c/p>\u003cp>算下來,文生視頻起碼要花60-80美元。現在用Dream Machine,可能10美元就能搞定了。\u003c/p>\u003cp>《智能涌現》:Dream Machine語言理解能力的來源,也是自研模型嗎?\u003c/p>\u003cp>Barkley:語言模型用了第三方的API,我們再去構建了一個Agent。這個Agent能夠理解用戶意圖,然后通過不同的Prompting的方式,把用戶意圖轉化為圖像和視覺模型能夠理解的指令。\u003c/p>\u003cp>《智能涌現》:Luma AI現在既有模型,又有產品,怎么去做商業化?\u003c/p>\u003cp>Barkley:產品還是會采用訂閱的方式。模型就是提供API。\u003c/p>\u003cp>《智能涌現》:不做定制化?\u003c/p>\u003cp>Barkley:定制化不太適合初創公司,會分散精力。\u003c/p>\u003cp>目前沒有專業視覺工具,在定義交互范式\u003c/p>\u003cp>《智能涌現》:一個俗套的問題,你們怎么看待巨頭下場?按照國內的情況,字節和快手的下場,已經給很多初創公司帶來了融資和獲客上的壓力。\u003c/p>\u003cp>Barkley:我們發現,這個問題其實是公司和股東之間的問題。只有股東才會關心:如果哪天一個巨頭把你這個事情做了,會怎么樣?\u003c/p>\u003cp>但實際上,我們公司很多Research都有這樣的感覺:當公司達到一定規模,需要你去協調各種各樣的東西的時候,你推進的速度會變得特別慢,創新的速度也會掉下來。\u003c/p>\u003cp>雖然Luma AI的團隊在過去一年多的時間里也擴張了很多,但還是保持著快速創新、快速迭代的節奏。\u003c/p>\u003cp>我覺得有一個類比特別好:其實你在大公司里,真正去做視頻模型和相應產品的團隊,可能也只有幾十個人。比如OpenAI看起來很大,但Sora的團隊也就這么多。\u003c/p>\u003cp>當然說到更大的公司,比如Google,他們可能有比我們更好的distribution channel(擴散渠道),但他們同樣會受制于各種流程上,一個新產品會有商業化等很多方面的concern,推進的速度不會那么快。\u003c/p>\u003cp>《智能涌現》:Luma AI的迭代節奏有多快?\u003c/p>\u003cp>Barkley:整體迭代速度一直是以幾個月,甚至是1-2個月來計算的。期間會加入新的功能,底層模型的效果也在提升。\u003c/p>\u003cp>就像Dream Machine 1.0在2024年6月發布,1.5版本是在8月發布。1.6版本加了camera control(鏡頭控制)功能,在9月底發布。\u003c/p>\u003cp>《智能涌現》:一個新的設計工具型產品,怎么去獲客?\u003c/p>\u003cp>Jiacheng:我覺得首先可以去分析ChatGPT是怎么獲客的。你會發現,ChatGPT不光最好的程序員在用,你隔壁的大叔大媽也在用。\u003c/p>\u003cp>我覺得AI工具帶來的最大的變化是,由于它本身的可塑性和靈活性,它可以服務幾乎所有有視覺需求的人。\u003c/p>\u003cp>我并不覺得目前特定的視覺專業的軟件,有非常好的交互,換句話說,目前沒有專業視覺工具定義了整個行業的交互范式。\u003c/p>\u003cp>《智能涌現》:你怎么定義“好的交互范式”?\u003c/p>\u003cp>Jiacheng:比如ChatGPT就定義了整個行業ChatBot的交互范式,像現在美國的小孩都不是說ChatGPT,他都是說你有么有問你家的“Chat”。\u003c/p>\u003cp>這里的“Chat”,已經成了一個像“Google一下”的行為。\u003c/p>\u003cp>我們做Dream Machine也是一樣的。誰能先把普通大眾的想象,通過一個流暢、簡單的方法,呈現出一個好看有趣,然后能分享給別人的或者有用的圖片,誰就能在這個領域有優勢。\u003c/p>\u003cp>《智能涌現》:從立項到上線,期間你們對交互形式進行了哪些探索?\u003c/p>\u003cp>Jiacheng:我們目前來說,包括行業對我們的認知,都是一個視頻模型科研公司。\u003c/p>\u003cp>但是如今的AI技術是一個非常以用戶體驗為核心的產品,技術型產品的目標和迭代過程很明顯,就是最好的用戶體驗。\u003c/p>\u003cp>我們能想到的最好的用戶體驗,就是用最自然的交流方式,把Dream Machine當成一個創意助手或者Creative Partner。你怎么和設計師互動,就怎么和系統互動。\u003c/p>\u003cp>有了這樣一個目標,我們就會去了解我們的圖片和視頻模型,能夠提供怎樣的能力。同時也去了解整個行業處于怎樣的發展階段,第三方的語言模型能夠給我們怎樣的幫助。\u003c/p>\u003cp>期間,各種各樣的Agent軟件工具也在迭代,大家對于AI應用層的思考也有變化。所以一年以來,我們的產品就是一個持續迭代的過程,具體就是一個月根據行業變化打磨,再花一個月去修改。\u003c/p>\u003cp>這些東西總體統籌、融合起來,才有了現在這樣的效果。\u003c/p>\u003cp>Barkley:期間我們也發現,在AI視頻生成領域,目前圖生視頻比文生視頻更加受歡迎,因為用戶在乎可控性。\u003c/p>\u003cp>所以所有能夠提升可控性的,都是用戶非常需要的功能點。\u003c/p>\u003cp>《智能涌現》:期間行業哪些產品或者認知的動向,會對公司的產品研發節奏產生影響?\u003c/p>\u003cp>Barkley:其實我覺得過去一年時間里,我們的產品策略沒有變太多,還是一直想做能讓所有人輕松使用模型的產品,不會隨著其他AI產品的發布去做任何的策略調整。\u003c/p>\u003cp>我覺得產品團隊更關心的事一些Research上的動態和進展,比如我們想做風格轉換、風格遷移的功能,就會去查有哪些最新的學術研究和論文,甚至產品團隊會加入Research團隊的討論,去看研發功能的可行性。\u003c/p>\u003cp>《智能涌現》:產品團隊在日常工作中是怎么和算法團隊交流的?\u003c/p>\u003cp>Barkley:立項的時候,我們會從用戶的角度,覺得風格借鑒這樣的功能很重要。\u003c/p>\u003cp>但是從Research的角度,其實他們不確定這個功能能不能做出來,以及能達到怎樣的效果。所以Research會先去做很多的實驗,直到他們把算法做出來以后,我們看到這個功能的極限,再去思考怎么把功能融入到整體產品和體驗上。\u003c/p>\u003cp>所以其實Research是一個更加不確定的過程,往往需要比較長的時間,也不知道要花多長時間訓練。\u003c/p>\u003cp>《智能涌現》:期間也會舍棄很多暫時不夠好的功能。\u003c/p>\u003cp>Barkley:對。所以其實很多功能我們會從用戶的角度去想,有的功能Research團隊能夠在短時間內做出來,有的功能我們又繼續投入,去做更長的研判,體現在未來的產品里。\u003c/p>","type":"text"}],"currentPage":0,"pageSize":1},"editorName":"李睿萌","editorCode":"PT130","faceUrl":"http://ishare.ifeng.com/mediaShare/home/1529993/media","vestAccountDetail":{},"subscribe":{"type":"vampire","cateSource":"","isShowSign":0,"parentid":"0","parentname":"科技","cateid":"1529993","catename":"36氪","logo":"http://d.ifengimg.com/q100/img1.ugc.ifeng.com/newugc/20190806/14/wemedia/b7932c6abedbd50c396253d392995f5897cfcff0_size5_w200_h200.png","description":"優質科技領域創作者","api":"http://api.3g.ifeng.com/api_wemedia_list?cid=1529993","show_link":1,"share_url":"https://share.iclient.ifeng.com/share_zmt_home?tag=home&cid=1529993","eAccountId":1529993,"status":1,"honorName":"","honorImg":"http://x0.ifengimg.com/cmpp/2020/0907/1a8b50ea7b17cb0size3_w42_h42.png","honorImg_night":"http://x0.ifengimg.com/cmpp/2020/0907/b803b8509474e6asize3_w42_h42.png","forbidFollow":0,"forbidJump":0,"fhtId":"4000000052939130628","view":1,"sourceFrom":"","declare":"","originalName":"","redirectTab":"article","authorUrl":"https://ishare.ifeng.com/mediaShare/home/1529993/media","newsTime":"2024-11-27 12:01:54","lastArticleAddress":"來自北京"}},"keywords":"流量,叫板","safeLevel":0,"isCloseAlgRec":false,"interact":{"isCloseShare":false,"isCloseLike":false,"isOpenCandle":false,"isOpenpray":false},"hasCopyRight":true,"sourceReason":""};
var adKeys = ["adHead","adBody","topAd","logoAd","topicAd","contentAd","articleBottomAd","infoAd","hardAd","serviceAd","contentBottomAd","commentAd","commentBottomAd","articleAd","videoAd","asideAd1","asideAd2","asideAd3","asideAd4","asideAd5","asideAd6","bottomAd","floatAd1","floatAd2"];
var __apiReport = (Math.random() > 0.99);
var __apiReportMaxCount = 50;
for (var i = 0,len = adKeys.length; i Luma AI在視頻領域叫板OpenAI故事,好比中途改打網球的杜蘭特,打贏了網球男單大滿貫納達爾。 最近,這家成立于2021年的硅谷AI公司,在和《智能涌現》的交流中,復盤了視頻生成模型Dream Machine AI爆火的過程。 在硅谷率先發布一款效果能對標OpenAI Sora的視頻模型,對一家初創公司而言并不容易——更何況,Luma AI在視頻生成領域算得上是“半路出家”: 2024年前,這還是個主攻3D生成、規模在10人左右的小公司。Luma AI數據產品負責人Barkley Dai告訴《智能涌現》,2023年12月決定轉型做視頻生成后,團隊才擴充了視頻領域的人才,規模增加到了50人。 他提到,Luma AI能成為視頻生成領域的螞蟻雄兵,技術實力、發布時機和運營策略缺一不可。 人才,是這家公司認為做出視頻模型最重要的資產。2023年12月,決定從3D轉型做視頻生成后,Luma AI吸納了40個AI領域的人才。 而和OpenAI、Google打擂臺,Luma AI又對模型的算法和Infra做了諸多優化。Barkley對《智能涌現》表示,團隊在Sora同款DiT架構的基礎上,采用了獨家改進的架構,保證生成效果的同時,還節省了訓練和推理成本。 視頻模型“Dream Machine AI”的發布時間,2024年6月13日,踩中了視頻模型賽道的空白點——這也讓Dream Machine AI具有了稀缺性,除了快手“可靈”之外,這是唯一真正對大眾開放的視頻模型; 而模型的“限免”策略,又立刻吸引了大量試用者:上線4天,Dream Machine AI的用戶量就破了百萬。Barkley對《智能涌現》透露,Dream Machine AI的投流費用是0,全靠KOL自發安利,和用戶的口碑發酵。 爆火之后,提高用戶留存,不讓輝煌曇花一現,是Luma AI如今的命題。 2024年11月26日,在視頻模型發布后近6個月,Luma AI在iOS和web端上線了Dream Machine AI創意平臺。與之配套發布的,還有Luma AI自研的首款圖像生成模型,Luma Photon。 △Dream Machine iOS界面。 Luma AI產品設計師Jiacheng Yang(楊家誠)告訴《智能涌現》,與Midjourney、Adobe等專業設計工具不同,Dream Machine不需要用戶學習如何寫Prompt(提示詞),也不需要用戶懂設計,“我們的目標就是做一款AI小白和設計小白都能輕易上手的AI視覺工具”。 據他介紹,Dream Machine共有5個核心功能: (1)用自然語言進行對話,實現圖片的創作生成和編輯; (2)由AI提供創意點子,根據用戶輸入的Prompt,自動提供創意、風格選項; (3)視覺參照,根據用戶輸入的照片,生成帶有相同主體或者風格的圖片; (4)將AI設計的圖片轉化為視頻,供用戶查看圖片中主體在不同角度下呈現出的細節; (5)將所有AI生成的素材發布在面板上,并生成可供分享的鏈接,有助于團隊進行頭腦風暴。 △Dream Machine視覺參照功能。 為什么選擇用圖像設計平臺,去承接視頻模型的用戶?“想要擴大AI視覺領域用戶的盤子,只有視頻生成是不夠的。圖像生成的應用場景會更廣泛,所以我們想做一個很好上手的設計平臺,用戶能夠輕易上手的同時,也能展現我們的模型能力。”Barkley提到。 行業競爭,是作為初創企業的Luma AI不得不面對的問題。他們認為,打出差異化優勢,是讓模型和產品在行業中具有辨識度和獲客的關鍵。 比如面對Midjourney等圖像產品的競爭,Dream Machine把語言理解能力做到了“天花板”。以及,這也是一個最會設計字體的模型——相較于Midjourney和GPT生成的帶文字的圖片,Dream Machine圖片中文字的設計感和清晰度是最高的。 △Dream Machine在圖片中生成的配文。 和視頻模型一樣,Luma AI給Dream Machine花費的投流預算,是0。在Barkley看來,燒錢營銷看的是回報率,這意味著最終還是要用產品說話。以及,“AI市場還很小,我覺得對AI公司來說,燒錢營銷還為時尚早。還不如把營銷的錢,投到產品研發上”。 以下《智能涌現》與Luma AI增長負責人Barkley Dai、Luma AI產品設計師Jiacheng Yang的交流,內容略經《智能涌現》編輯: 燒錢營銷,AI公司還為時尚早 《智能涌現》:2024年6月發布視頻模型Dream Machine的時候,團隊有沒有預料到會爆火? Barkley:其實當時是遠超我們預期的,我們一度出現服務器和GPU資源沒有辦法承受的情況。 《智能涌現》:如果要總結爆火的經驗,你覺得是什么? Barkley:其實最早發布的版本,還不是效果最好的版本。但我們決定全量免費放給所有的用戶去使用。 在當時,還沒有一個視頻模型能夠做到這樣。所以短時間內吸引了很多用戶的關注。 《智能涌現》:對于創業公司來說,做免費的決定是不是還挺不容易的? Barkley:其實我們當時也給免費設置了一個額度,我覺得這是一個行業的standard practice(基本操作)。 只是當時的峰值對我們來說過高,大量的用戶在短時間內涌入,服務器后臺收到了太多的request。 《智能涌現》:公司能負擔流量帶來的推理成本嗎? Barkley:其實我們還是在技術層面做了很多成本的優化,比如不斷去提升視頻生成的速度,最開始我們的模型生成5秒的視頻需要120秒,現在只需要20秒。 以及在保持原有生成質量的情況下,視頻模型的推理還有很多優化的空間。所以在半年時間里,視頻模型的成本是在下降的。 所以我覺得推理成本對我們來說不是特別大的負擔,當然也是一筆開支,但未來會變低。 《智能涌現》:你提到Dream Machine是有免費額度的,那么使用完免費額度后的用戶付費率怎樣? Barkley:說實話我們對付費率完全沒有任何預期。因為當時我們對Dream Machine的定位是教育用戶的產品,讓用戶知道Luma AI視頻生成的潛力有多大。當時市面上還沒有一個視頻模型是按照對標Sora的水平發布的,所以我們對付費率完全沒有對標的對象。 但現在發布的AI設計平臺,我們的定位是最終去獲客的產品。所以現在我們對它的收入和付費率有更高的期待。 《智能涌現》:Dream Machine在營銷上投入了多少? Barkley:0,我們在發布的時候沒有做任何的營銷付費。 當然我們提前去聯系了很多創作者,他們試用后都覺得很興奮,甚至大多數人之前用過Runway,還有人用過可靈。但他們用了我們的產品后,都覺得說“This is the next big thing”,在推特上自發幫我們推廣。 但我們沒有做任何的投放,因為我們還是堅信成功的因素就是產品本身。 《智能涌現》:燒錢營銷,這一套打法在硅谷AI公司常見嗎? Barkley:我感覺硅谷大部分還是比較產品驅動的,運營這一套主要是中國公司。 視覺領域的市場還很小,我覺得對AI公司來說,燒錢營銷還為時尚早。即便ChatGPT的用戶很多,但是像一些視覺模型,用戶還是很少數。 這個時候如果你做投流,去做跑馬圈地,留存肯定不高,還不如把這些錢投入到模型和產品的研發上,用更好的模型和產品吸引用戶的增長。 《智能涌現》:在發布視頻模型之前,Luma AI的技術和產品還是圍繞3D生成的。團隊是什么時候決定做視頻生成模型的? Barkley:大約在2023年12月。 《智能涌現》:為什么從3D轉向做視頻和圖像模型? Barkley:我們原來其實也不會說自己是一個3D公司,公司的定位還是視覺領域的AI公司,我們想去理解這個世界在視覺上的構造,是如何幫助AI對世界進行理解的。 從創始團隊的研究背景來看,一開始3D是Luma AI比絕大多數公司和團隊更擅長的事。后續我們也確實做了很多3D生成上的技術突破。 但是3D可以被用于訓練的數據量級,相較于圖片和視頻來說都會少很多。同時在使用場景上,目前手機和電腦還是主要的產品載體,但3D也會比視頻更受到限制。 但是當我們有更多的算力、更多的人才,也有更多的能力去推進我們的愿景,也就是更好地了解世界,我們也自然地會從3D轉向做視頻。 《智能涌現》:這會不會讓公司看起來戰略有些搖擺? Barkley:從我作為一個內部成員的視角來看,我覺得不管是3D還是視頻生成,一直都是合理的。 因為不管是3D,還是視頻和圖片,都只是一種模態。如果我們最終想做到的是對這個世界的理解,那么不管是一種模態、一種生成,還是一種創意的發揮,我覺得只要目標不變,這些媒介就只是幫我們達成目標的手段。 《智能涌現》:從3D轉型做視頻生成,期間有遇到什么困難嗎? Barkley:我覺得整個過程還是比較順利的,因為我們在做3D生成的時候,團隊也就在十幾人的規模,但當我們做視頻生成以后,引入了很多視頻領域的人才,現在團隊規模已經超過了50人。 這個過程其實是吸納了更多新成員去推進目標的實現,而不是說原來大家就在頻繁地換方向。只是原來做3D的人,現在也在逐漸開始做視頻方面,比如數據等各方面的工作。 《智能涌現》:做3D的經歷對視頻生成有幫助嗎?很多反饋說Dream Machine的運動軌跡做得很好,這和3D積累下的空間理解能力有關嗎? Barkley:我覺得可能不一定有那么直接的關系。 但從我們發布最早版本的視頻模型開始,我們對相機的軌跡運動,包括視頻里有多少機位的變化,是十分側重的。 所以當時用戶也會普遍反饋說,Luma AI的模型雖然有時候生成結果不是那么穩定,但是它能給到很多的機位的移動,以及復雜的人物運動軌跡。 我覺得過去在3D上的一些經驗,能夠讓我們在做視覺模型的時候,意識到提升機位的豐富度和運動軌跡的復雜度,能夠提高用戶對視頻生成內容的消費意愿。 不過我覺得過去的經驗,包括模型本身之間,其實沒有那么大的關聯性和借鑒意義。 《智能涌現》:所以技術轉型最重要還是補充新的技術人才是嗎? Barkley:是的。 承接住模型的爆火,需要有產品 《智能涌現》:6月份Dream Machine走紅后,你們怎么考慮用戶留存的問題? Barkley:我們發布Dream Machine的時候,就知道后面一定要有產品去承接用戶持續穩定的需求。 比如你作為一個ChatGPT的長期用戶,即便后續會出來很多能力做得和GPT差不多的模型,你還是大概率會選擇使用ChatGPT。因為ChatGPT通過長期的深度學習,已經把握了用戶習慣,能夠更好地理解你的意圖。 行業里永遠會有更好的模型出現,但產品最終是能夠讓用戶留存的點。 《智能涌現》:團隊是從什么時候計劃做這樣AI設計平臺的? Barkley:這個想法其實在我們最開始做視頻模型的時候就有了。所以產品的想法是去年(2023年)12月和視頻模型同步推進的。 只是在產品的設計過程中,我們后來意識到,要想把整個設計流程涵蓋,也必須要做到能夠生成圖片。所以在視頻模型發布5個月以后,我們覺得圖片模型也足夠好的時候,把兩部分同時整合成一個產品。 《智能涌現》:平臺的目標用戶是哪些人?專業設計師還是大眾? Barkley:其實我們覺得原來的Dream Machine,更多的用戶還是偏專業的,至少是有做AI電影的經驗,或者知道怎么用Prompt去生成更好的效果。 但其實我們更希望現在的產品,讓之前沒有用過AI甚至沒有設計經驗的人用起來。比如,如果他們在工作中需要用這樣的流程,可以非常容易地通過一輪一輪地和AI進行對話去實現。 我們在6月份發布的視頻模型Dream Machine,其實還是需要一些使用門檻的。我們在那時候就在想,希望普通人也能access這些視覺工具,就好比視覺里的GPT。 但視覺是一個很小眾的垂類領域。我們做設計平臺的想法就是,如何去擴大這個群體。只有擴大群體,才能讓視覺領域的AI獲得更好的發展。 《智能涌現》:非專業設計師很難把一整套設計的工作流用得很深入。我的大部分生圖需求,可能輸入一個簡單的Prompt,用GPT,或者Midjourney就能滿足。 Jiacheng:我們的想法是,把用戶能輕易感受到差別的功能做到最好,比如我們圖像能力比GPT好,但是語言理解能力比Midjourney要好。 我用同一個最基礎、完全不復雜的Prompt,讓Dream Machine和Midjourney對比一下:i want to make a poster for my brother band “crazy avocado”.(我想為我兄弟的樂隊“瘋狂牛油果”做一張海報。) △Dream Machine根據“i want to make a poster for my brother band ‘crazy avocado’”生成的樂隊海報。 △Midjourney根據“i want to make a poster for my brother band ‘crazy avocado’”生成的樂隊海報。 你看Midjourney生成的海報,既不Crazy,也沒有Avocado的元素,也看不出來是個樂隊的海報。 語義理解的能力其實比你想象的重要,會影響很多場景的落地。因為生成隨機的、好看的圖片,在實用場景中意義不是很大。 如果要讓Midjourney真正還原你的意圖,你需要寫很多Prompt,包括海報的設計、上面寫的文字、解釋Crazy的風格等等。學會寫Prompt,我大概花了兩三個月時間。 但我相信ChatGPT的大部分用戶是不會去學的,他們就是進來問一個問題,得到一個結論。 我們做設計產品的思路,也是一樣的。按照之前市面上的產品,如果我想要得生成還原我意圖的圖片,首先,我要花20美金買Claude或者GPT,幫我生成Prompt;其次,我要再花20美金到40美金買Midjourney,生成圖片;最后我還要花20美金的訂閱,把這些圖片變成視頻。 算下來,文生視頻起碼要花60-80美元。現在用Dream Machine,可能10美元就能搞定了。 《智能涌現》:Dream Machine語言理解能力的來源,也是自研模型嗎? Barkley:語言模型用了第三方的API,我們再去構建了一個Agent。這個Agent能夠理解用戶意圖,然后通過不同的Prompting的方式,把用戶意圖轉化為圖像和視覺模型能夠理解的指令。 《智能涌現》:Luma AI現在既有模型,又有產品,怎么去做商業化? Barkley:產品還是會采用訂閱的方式。模型就是提供API。 《智能涌現》:不做定制化? Barkley:定制化不太適合初創公司,會分散精力。 目前沒有專業視覺工具,在定義交互范式 《智能涌現》:一個俗套的問題,你們怎么看待巨頭下場?按照國內的情況,字節和快手的下場,已經給很多初創公司帶來了融資和獲客上的壓力。 Barkley:我們發現,這個問題其實是公司和股東之間的問題。只有股東才會關心:如果哪天一個巨頭把你這個事情做了,會怎么樣? 但實際上,我們公司很多Research都有這樣的感覺:當公司達到一定規模,需要你去協調各種各樣的東西的時候,你推進的速度會變得特別慢,創新的速度也會掉下來。 雖然Luma AI的團隊在過去一年多的時間里也擴張了很多,但還是保持著快速創新、快速迭代的節奏。 我覺得有一個類比特別好:其實你在大公司里,真正去做視頻模型和相應產品的團隊,可能也只有幾十個人。比如OpenAI看起來很大,但Sora的團隊也就這么多。 當然說到更大的公司,比如Google,他們可能有比我們更好的distribution channel(擴散渠道),但他們同樣會受制于各種流程上,一個新產品會有商業化等很多方面的concern,推進的速度不會那么快。 《智能涌現》:Luma AI的迭代節奏有多快? Barkley:整體迭代速度一直是以幾個月,甚至是1-2個月來計算的。期間會加入新的功能,底層模型的效果也在提升。 就像Dream Machine 1.0在2024年6月發布,1.5版本是在8月發布。1.6版本加了camera control(鏡頭控制)功能,在9月底發布。 《智能涌現》:一個新的設計工具型產品,怎么去獲客? Jiacheng:我覺得首先可以去分析ChatGPT是怎么獲客的。你會發現,ChatGPT不光最好的程序員在用,你隔壁的大叔大媽也在用。 我覺得AI工具帶來的最大的變化是,由于它本身的可塑性和靈活性,它可以服務幾乎所有有視覺需求的人。 我并不覺得目前特定的視覺專業的軟件,有非常好的交互,換句話說,目前沒有專業視覺工具定義了整個行業的交互范式。 《智能涌現》:你怎么定義“好的交互范式”? Jiacheng:比如ChatGPT就定義了整個行業ChatBot的交互范式,像現在美國的小孩都不是說ChatGPT,他都是說你有么有問你家的“Chat”。 這里的“Chat”,已經成了一個像“Google一下”的行為。 我們做Dream Machine也是一樣的。誰能先把普通大眾的想象,通過一個流暢、簡單的方法,呈現出一個好看有趣,然后能分享給別人的或者有用的圖片,誰就能在這個領域有優勢。 《智能涌現》:從立項到上線,期間你們對交互形式進行了哪些探索? Jiacheng:我們目前來說,包括行業對我們的認知,都是一個視頻模型科研公司。 但是如今的AI技術是一個非常以用戶體驗為核心的產品,技術型產品的目標和迭代過程很明顯,就是最好的用戶體驗。 我們能想到的最好的用戶體驗,就是用最自然的交流方式,把Dream Machine當成一個創意助手或者Creative Partner。你怎么和設計師互動,就怎么和系統互動。 有了這樣一個目標,我們就會去了解我們的圖片和視頻模型,能夠提供怎樣的能力。同時也去了解整個行業處于怎樣的發展階段,第三方的語言模型能夠給我們怎樣的幫助。 期間,各種各樣的Agent軟件工具也在迭代,大家對于AI應用層的思考也有變化。所以一年以來,我們的產品就是一個持續迭代的過程,具體就是一個月根據行業變化打磨,再花一個月去修改。 這些東西總體統籌、融合起來,才有了現在這樣的效果。 Barkley:期間我們也發現,在AI視頻生成領域,目前圖生視頻比文生視頻更加受歡迎,因為用戶在乎可控性。 所以所有能夠提升可控性的,都是用戶非常需要的功能點。 《智能涌現》:期間行業哪些產品或者認知的動向,會對公司的產品研發節奏產生影響? Barkley:其實我覺得過去一年時間里,我們的產品策略沒有變太多,還是一直想做能讓所有人輕松使用模型的產品,不會隨著其他AI產品的發布去做任何的策略調整。 我覺得產品團隊更關心的事一些Research上的動態和進展,比如我們想做風格轉換、風格遷移的功能,就會去查有哪些最新的學術研究和論文,甚至產品團隊會加入Research團隊的討論,去看研發功能的可行性。 《智能涌現》:產品團隊在日常工作中是怎么和算法團隊交流的? Barkley:立項的時候,我們會從用戶的角度,覺得風格借鑒這樣的功能很重要。 但是從Research的角度,其實他們不確定這個功能能不能做出來,以及能達到怎樣的效果。所以Research會先去做很多的實驗,直到他們把算法做出來以后,我們看到這個功能的極限,再去思考怎么把功能融入到整體產品和體驗上。 所以其實Research是一個更加不確定的過程,往往需要比較長的時間,也不知道要花多長時間訓練。 《智能涌現》:期間也會舍棄很多暫時不夠好的功能。 Barkley:對。所以其實很多功能我們會從用戶的角度去想,有的功能Research團隊能夠在短時間內做出來,有的功能我們又繼續投入,去做更長的研判,體現在未來的產品里。 “特別聲明:以上作品內容(包括在內的視頻、圖片或音頻)為鳳凰網旗下自媒體平臺“大風號”用戶上傳并發布,本平臺僅提供信息存儲空間服務。 Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”杭州吐腿建材有限公司
叫板Sora出圈后,Luma AI如何接住潑天的流量?
獨家搶先看