Tokenization Note – Bulk Process

原廠的SDK對Transaction Timeout沒有處理,所以批次處理要控制好單次的數量,不然就會一直遇到read timeout,在我的環境裡20000一個批次是絕對安全的。
原廠的SDK用的Connection Pool很古老,建議換掉,不過以法國佬的個性,不可能,但是這段,無法自己偷換。
Database Driver可以偷換,API一致,可以用新版改成舊版的檔名來換。
Database本身的Process Timeout可以調的話,也要調大,不然也會read timeout。
最終在我的虛擬機測試結果6000萬筆,TPS:59xx。原廠的測試工具可以到2xxxx,但因為是把檔案整個讀進記憶體,處理太大的資料會當機。

How to build a chatflow clone within a day

Take node-red you get a flow engine and designer .
The get some mode-red modules.
Faacebook Messenger
slack
Alexa
Telegram, FB/Slack Messenger combined
Then we got nodes like

chatbot
Chat channels

Wait, what about NLU. There are some prebuild integration.
wit.ai from facebook
api.ai from google
Nodes contains ms-luis
big pack for IBM watson includes NLU
You want hot-word activation?
Snowboy it is.
moni.ai can make it, too.

Now. you have one chatflow clone with flow from node-red. NLU from facebook/google/ibm. with lots available node at https://flows.nodered.org/.

At the end you have to know. Node-red is single processed flow environment. If you want to run many flows, pick a docker/service management to do it, or use something like FRED, depends on what you need.

kitt.ai資料整理

https://techcrunch.com/2017/07/05/baidu-acquires-natural-language-startup-kitt-ai-maker-of-chatbot-engine-chatflow/ 這最後有說,是買來作為開發工具。

https://www.geekwire.com/2017/profitable-growing-seattle-natural-language-understanding-startup-kitt-ai-sells-chinese-search-giant-baidu/
這裡有說四年內沒有上市的可能(生意沒那麼好的意思) ,kitt.ai還會是獨立存在的品牌,這不是人材收購。

百度重磅收購 西雅圖人工智能公司KITT.AI


這有說收購價超過億元人民幣(折美元只超過2m,而且他們去年才接受種子輪投資,這數字是超級低)

Baidu Acquires Kitt.ai


這篇最黑,直接提到兩個月前百度AI內部的高階人員流失。

https://xw.qq.com/TEC/20170705024398/TEC201707050243981T
購買的部門是度秘,買來放在DuerOS作為開發工具的一環

百度今年買了好幾家這種幾個中國人創辦的美國AI公司,怎麼看都是為了高階人材,以中國人的速度,年底就會知道是買人還是買公司。

有所堅持必定有所犧牲

我一直有個不碰的潛規格,不跟前東家對打。在第二份工作,遇到語音系統就閃,十幾年來總共只作了一套,能不碰就不碰。現在離開第二份工作,遇到前東家的系統還是閃。
不管這是多大口,多簡單易吃的東西,就算自己快餓死,我還是閃。
對自己有個乾淨的交代,嘴長在別人身上,我管不到。

既然出來開業,那就開個自己想要待的公司,找些可持續的東西做,左閃右閃對公司的收入影響非常大,半年來可以說是幾乎沒收入,下半年可見的收入也不過是能半年的支出。
作這種長週期的軟體服務,就是會有這現金流量的問題。而同仁過少,能同時支應的專案當然也就不會太多,一不小心就是高投入低產出,雖然如此,找人還是慢慢來,性格不合的就放掉,小組織的文化很容易被搬動,不細心維護,一下就跑偏了。

培養著跟我一起出來的伙伴們,心裡也常出現掙扎,一下覺得他們走的太慢,但又怕逼的太緊會揠苗助長,這一直是走鋼索的事,還好慢慢的還是所成長,投入的精力,在他們身上有看見回報,現在偶爾還需要扮演踩煞車的角色。(作為以懶人為志願的人,應該做事都不會覺得有趣)

產品方向,抓著文字機器人、生物辨識跟家庭自動化相關的打轉,希望八月前能在文字對話系統身上長出點東西,讓成品能投入市場。然後就被問候了,官網勒?對,一片空白。

業務拓展,不請業務,自己跑,就先這樣跑,然常會想這樣會把公司作死,但每每看到開出去等待競爭的案子,卻又都是接了一個就會滿檔的狀態,不接餓死、一個剛好、兩個累死,也因為這樣,還能讓自己走被動的路線,不用去跑客戶。

反正我是閒不下來的人,來看看這樣能讓我的轉速提多高,擔心我的人就抱歉啦。

最近在客戶A逼迫自己團隊把文字服務介面做完。也在伙伴H身上推推看能不能幫他把中台變出來。至於跨行與收單系統,難道真的要幫助四個字的I公司生一套嗎?這可是大殺器,這樣不只斷自己的路,還會斷好多人的路,看看下半年的變化吧,F兄弟就抱歉了,我實在長不出這些人手,有想到解法一定第一時間告訴你。

小K

等於是內部人員用的新型知識庫

先記錄
用Solr/Lucene來建立搜尋庫
搜尋標的
網站
客服QA
作業手冊
……
再以用戶輸入的字去搜尋庫檢索做回答

課表

Design Thinking: Design Bots
Class 1
1. What are bots
2. Bot types
3. Major Platforms
4. Major Use Cases
Class 2
5. Anatomy, Branding, Personality
6. AI
7. Dialog
Class 3
8. Context
Class 4
9. Rich Interaction
10. Transaction
Class 5
11. Design Process
12. Use Case Define
Class 6
13. Conversation Script/Flow
14. Testing / Deploying
Class 7
15. The future of bots

改成雙軌制
Track 1 實作
7. Dialog
8. Context
11. Design Process
12. Use Case Define
13. Conversation Script/Flow
14. Testing / Deploying
備用
9. Rich Interaction
10. Transaction

Track 2 背景知識
1. What are bots
2. Bot types
3. Major Platforms
4. Major Use Cases
15. The future of bots
5. Anatomy, Branding, Personality
6. AI

chatbot as service for enterprise

chatbot前端:建立line/FB messenger/webpage通用前端閘道,同時支援各種多媒體與複合按鈕與卡片格式。

NLP引擎:使用api.ai,但是api.ai的中文處理還在弱智階段,需要不少力氣來訓練或補充,所以可以使用關鍵字搜尋補充。

關鍵字搜尋:使用結巴斷字,斷字後往使用apache lucene引擎建立的搜尋資料庫來搜尋(當然直接把中文斷字模組放進Lunene也行,但就無法先行過濾無關的字)

以上是與業務流程無關的問答

與業務流程有關的文字對話介面,會變成
chatbot前端:與前面一樣

NLP引擎與前面一樣,但會多出intent的多重應用

Decision Engine: 使用Node-Red這系列工具做為前端,需要自己建立一個能執行node-red json格式的Process Engine。用這個Process engine來做個流程的核心,其實跟傳統的EAI/BPM是一樣的,只是這種新的流程引擎我們可以設計一套以語意為核心的API介面來作業。這樣對後台的資料查詢與存取都可以用一套規格來作業。這部分API的規格已經統一,可以使用Swagger(OAI 2.0)或是OAI 3.0的規格來規劃。

後台閘道:提供OAI與傳統後台資料的轉換,控制模組數量、處理模組授權、模組登錄等作業,也就是現在API Management(API Gateway)的工作範疇,這一塊可以使用最新的istio、中生代的kong或是更早有名的IBM APIM, RedHat 3Scale等等API Gateway模組作為管理。

後台交易模組:以服務設計的概念來看,每個模組就可以設計為單一作業、多模組平行處理是API Gateway,後台交易模組開發的人就只需要專注在開發他每一個單一模組,可以用任何他喜歡的程式語言,只要進出符合規格,其他API Management平台會處理,這樣其實就是Backend as a Service的作法。