Board logo

標題: [討論] 真AI要判定到什麽程度? [打印本頁]

作者: utoto    時間: 2008-1-6 17:08     標題: 真AI要判定到什麽程度?

因爲我自己是學英語教學的^_^; 所以對字詞分類很熟,可能過幾個月也會去修讀中文對外教育的課程……而關於電腦語法,邏輯可能有點亂,也不知道這種形式中文的有沒有人做過,或是做到了什麽地步。
回到正題:
“白靈子和小貓咪”的句型判断如果加上华和梨那樣的樹形排列字典(當然要加上非常準確的判定程式),能否作出真正的AI呢?
主人输入:
你喜歡 香蕉 嗎?[句组start]关键字[句组end]  
句組:你喜歡。。。嗎?
關鍵字:香蕉

[句組]對照句組詞典[使用情景分類]
=loop对比=〉選出適當的[回應句組]
我(stative verb=情景動詞)。。。。呢!
2*对照单字词典[词典使用情景分类方式]=loop對比出單字分类(喜欢的,不喜欢的)
*比如説關鍵字為香蕉(分類:名詞.水果.不喜歡)
那麽(情景動詞)就會根據分類output不喜歡
+[句組]=我不喜歡……呢!
最後[回应句组start]${关键字暫存}[回应句组end}得出來的結果就會是
==〉我不喜歡香蕉呢!

句組可以分析出來,但因爲字典需要的單字量非常大,恐怕要到數万字,或許可以做成Web2.0外加學習模式……真的很想要這種功能啊>_<;如果有人做出來過,請一定要通知我!或是有人願意合作?我可以自薦負責文法的部分,另外我的繪圖技術可以算是不錯,第一套Shell也快完成了,有點經驗。
作者: holybang    時間: 2008-1-6 18:37

真AI的判定嘛...用圖靈測試好了(不會不知道吧...),不過你不可能真的做到的...

分詞工具的話倒是有現成的哦
海量分詞工具 (不過是簡體的)
http://www.hylanda.com/download/segment/
上面這個東東注冊以後就能下載了
但是要移植到偽春菜身上需要一定的專業基礎,比如C++
作者: utoto    時間: 2008-1-6 21:06

感謝!!!我已經在下載了 電腦專業的知識是絕對沒有的,C++的等級是負的,圖靈的故事也是聼您說了才去找來看的,看完了……好感動……我快哭了T_T圖靈好偉大啊!
無論如何,檔案很大……下載后要慢慢看^_^ 還是希望能夠找到合作的人呢:)
作者: PenPen    時間: 2008-1-7 01:48

[Report:]
真AI的判定... 個人是認為以下幾點要做到:

1. 辨識 : 先從簡單的, 比較兩組Boolean(是非, 開關), 開始做起. 開關很簡單, 不是開就是關, 比較起來也很簡單, 是一樣或是不一樣. 然後, 比較兩組整數. 整數就有分"大於(不一樣)", "等於(一樣)"或"小於(不一樣)". 然後就是一般數字, 這時候就比較哲學一點, 因為會有人告訴你"2不一定等於2.0"(理論上來說, 那個2只是相當接近2, 而不等於2 -- 也就是說, 2.00001). 看似有點過於挑剔, 但這點就辨識而言很重要, 因為關於挑選.

所以說, 當辨識顏色"紅色"時, 並不能完全拿兩組數字做比較, 用HTML來寫的話, #ff0000#ee0000, 兩組顏色皆為"一般人眼中的紅色", 但是實際上又不是如此. 這時候辨識就有點挑戰性了, 不僅僅是"等於", 而是"因為並沒有超過允許的範圍, 所以是等於"(if not over-limit, return equals.).

簡單來講是這樣, 然後中間這裡還有一串可以寫出一本論文的長篇大論, 像是辨識兩個物件的相同點, 辨識兩個事件的偏差, 辨識所需的辨識值等等... 那一長串就允許個人略過吧. 讓我們直接來看最後的結果.

設想, 你要打電話叫排骨飯外帶, 可是因為個人原因(像是說... 看涼宮春日看到第1, 2, 3... 不論是哪一集...)太忙, 這時候就會要偽春菜幫忙. 無巧不巧, 你常去的那家店今天沒賣排骨飯了(或是賣完了), 這時候偽春菜的反應會有至少兩種 -- 持續通話並問你是否要換雞腿飯, 或是結束電話並問你是否要叫別家的排骨飯(還是連問都不問就點了? 反正看涼宮都看到沒反應了... 這跟"隨便妳"一樣嘛.).

這裡的基本辨識是指, "對排骨飯的執著"和"對商家的執著". 有些人會問啦, 那為什麼不先持續通話, 然後問要不要其他餐點, 不要的話再問是否要換別家. 也就是說, 一氣呵成? 個人的想法是, 就算看起來是一氣呵成, 實際上仍是辨識, 不過辨識的項目為各個"商家的單一物件的執著"(A的排骨飯 vs. A的雞腿飯 vs. B的排骨飯 vs. B的雞腿飯...). 不然的話, 偽春菜很可能將A的全部菜單讀過一遍, 才結束通話, 問你是否要換B的排骨飯云云...
[To be continue...]
作者: 時原砂    時間: 2008-1-7 03:33

廣義的AI目前是還沒有人做得到
但是如果僅單就特定目標而制作的AI的話
現今早有相當多的例子
像是打贏人腦的西洋棋AI深藍或是MSN機器人、網路AI愛麗絲
在有限的規則內確實能做到近似人類思考的行為迴路

所以在做這類想像的時候
我個人傾向於先設下一個較小而明確的目標
務實的去完成它後
再去思考如何打破框架並設立新的目標

順道一提...
其實我比較想吃炸豬排飯...(被踢)
作者: utoto    時間: 2008-1-7 08:17

我想要做的是對話AI,昨天去看了http://www.a-i.com/show_tree.asp?id=59&level=2&root=115,似乎那一位Alan也是用詞組判別作出的,接近33万個詞,400個handle,曾經有Scan自己上一句話的功能,現在只對User input反應。
〉Penpen: 感謝回應!您說的
[允許的範圍]
[基本辨識, "對排骨飯的執著"和"對商家的執著"]
似乎就是性格因素,因爲某种性格會說某一種話,應該作爲一種變數影響Output
那我想真正的AI應該是會不停學習,吸收到的東西影響性格,增加變數,然後說出的話會不一樣吧?對話AI不難,恐怕大部分是苦力活……但是學習=〉性格這個功能就比較有挑戰性了。
〉時元:
“我個人傾向於先設下一個較小而明確的目標
務實的去完成它後
再去思考如何打破框架並設立新的目標“
現在我能做的就是把分詞目錄套入偽性格作測試,不過偽春菜loop的基本模式還要研究,如果有範例就好了>.<; 還有text_word裏面詞類的檔名要怎麽寫才正確?天啊……(我真是電腦白癡)所以……我目前的目標就是找到合夥人,哈哈XD
作者: 楓神枒月    時間: 2008-1-7 21:15

電腦白痴嗎?
這句話讓我有點不好意思..........

我研究語法1個多月........老實說還是不算了解
只能土法煉鋼....(汗

[ 本帖最後由 楓神枒月 於 2008-1-7 21:26 編輯 ]
作者: 假裝沒名子    時間: 2008-1-7 21:50

如果是偽春菜的話的確比較偏重對話AI

其實如果有把可能打入的字都設定好的話就夠逼真了....然後接上亂數變化就可以玩出類似AI般的談話....

不過我覺得要做到AI最基本的要素就是感應.....如果無法自動察覺週遭的變化...那麼反應機制再好也沒用....但是這點偽春菜可能做不到吧...........................

所以製作偽春菜核心時.......AI的部分要先打個基礎反應腳本(像是這個要對應的動作是什麼之類的)......然後就繼續開花(?)般的延展吧!
作者: utoto    時間: 2008-1-7 22:48

是啊,同一个问题也起码应该要有乱数变化的回答才有意思呢!没名字您说的最基本要素的确是我卡关的地方(刚起步就摔跟头哈哈……)感应和乱数变化一个也不能少呢……可是我都不会……昏><;
个人认为如果是拟人AI的话,应该要具备“思想”,也就是能够自主地创造……不过总觉得要做到这一点,人类起码要把自己大脑的运作方式分析透彻才行呢……><; 目前如果能作出像模像样的中文Pattern-Matching Chatbot我就很开心了T_T;
>枫神: 我们一起加油吧!上啊!电脑白痴二人组orz
作者: holybang    時間: 2008-1-7 22:53

“不過我覺得要做到AI最基本的要素就是感應.....如果無法自動察覺週遭的變化...那麼反應機制再好也沒用....但是這點偽春菜可能做不到吧...........................”

正好跟我最近想的一樣哦!
因為偽春菜對環境的感知能力實在太有限了,似乎只能感應鼠標吧,一定要說的話似乎還有一些系統變數,比如系統時間什麽的
所以啊,我就想自己編點東西掛上去
這種感覺就像給一個機器人安裝上眼睛、鼻子、耳朵...

想象總是那么的美好...

[ 本帖最後由 holybang 於 2008-1-7 22:54 編輯 ]
作者: utoto    時間: 2008-1-7 23:14

〉holybang:您說的是不是像CPU使用度一類的東西?
如果你開了CPU到100超過10分鐘(Penpen的“允許的範圍”概念)
-原因1:開了N多下載
-原因2:還開了N多web browser
偽春菜就會說:
“忙死了!你少開幾個視窗啦!”(對應原因2)

“在我累死之前我要告發你非法下載!”(對應原因1)
啊……最好還能殺毒  能天氣預報也不錯(外掛),或者是根據得到的天氣做出某种反應?……
是我想太多嗎……
作者: 時原砂    時間: 2008-1-8 02:28

感應器這類的東西其實也有人在寫
這類的程式都被規類在SAORI(套件)之中
來實作某些反應,如:
『讀取現在IE開啟中的網頁網址讓偽春菜進行相關對話』可使用 SAORI geturl.dll
『抽取剪貼簿內容來判斷使用者正在做什麼事』可使用 SAORI txtpaste.dll
『擷取工具列上的視窗名稱來判斷使用者在做什麼事』可使用 SAORI findwin.dll
……等等之類的
光是目前提供的資源就夠做出大量的反應事件
想寫也寫不完

只能說,事在人為啊。
作者: utoto    時間: 2008-1-8 08:21

老师您举例的几个都是很实用的套件呢 那么杀毒呢杀毒呢? 有没有什么下棋功能外挂呢?(起肖中XD)
对电脑内的状况分析,配合伪春菜性格的对话,一般大家喜欢拟人的还是讲话像AI型的呢?
我最近在想:AI拟人(以这个做为目的的研究)有什么意义呢?应该一大半是对人类本身潜意识的探索吧?
作者: 假裝沒名子    時間: 2008-1-8 18:31

真的有感應器阿.....那...不知道哪裡能拿到呢= =?

不過就算偽春菜AI再高....能說的話終究還是寫進去的那些字(殘念....)
作者: holybang    時間: 2008-1-8 19:01

果然我還是資歷太潛啊(廢話,才接觸偽春菜多久啊...)
看來我應該把精力用在尋找這些套件上,而不是另起爐灶
作者: holybang    時間: 2008-1-8 19:08

引用:
原帖由 utoto 於 2008-1-7 23:14 發表
〉holybang:您說的是不是像CPU使用度一類的東西?
如果你開了CPU到100超過10分鐘(Penpen的“允許的範圍”概念)
-原因1:開了N多下載
-原因2:還開了N多web browser
偽春菜就會說:
“忙死了!你少開幾個視窗啦!”(對應原因2)

“在 ...
恩,我想的就跟這差不多啦
作者: utoto    時間: 2008-1-8 19:25

>沒名字 您說:不過就算偽春菜AI再高....能說的話終究還是寫進去的那些字(殘念....)
我們日常說的話,所用的字也是有限的吧:P 我目前還做著人工智能是可以達到和人類同等水平的夢呢^_^ 目前的起點就是Pattern Matching的分析功能……不過還在努力“盯”(沒入腦)您上次介紹的海量,或是抓網路AI狂聊天。超沒效率的……T_T;

>holybang:我也在慢慢摸索……大家一起加油吧~^_^; 我是覺得另起爐灶沒有錯,但是先了解手邊資源才不會走遠路>.>; 日本那邊的開發能力/精力也不是無限的,而且做純用戶很沒癮呵呵~
作者: yinkit    時間: 2008-1-8 23:38

看見大家這樣的討論, 我的心情真是很複雜啊(?)

白靈子人格仍然留在關鍵字是沒錯的,那是我個人的極限了(死)
我也想過用一些句子模組來進行分析...........也想過將關鍵字進一步分類......
但我知道問題和困難是相當大的...

1. 幾乎每個人都有自己的一套"溝通語言", 要讓AI普遍理解是困難的
2. 先不說將關鍵字分類, 我現在也卡在純關鍵字判斷問題.........(我是翻譯英文關鍵字庫+修正)
3. 句子模式要夠多也是一個大麻煩......

當然啦. 我要承認我不太會寫程式(死) 我個人也沒有足夠力量實現囧
(孤軍作戰太久了吧?)

究竟偽春菜的AI有何等能耐我也很好奇=W=~
作者: utoto    時間: 2008-1-9 00:50

竟然把您釣出來了!我個人對白靈子非常有興趣^_^
目前的使用報告也是覺得適應的句型有點少,但我覺得這是一個方向!不走到頭是不知道值不值得的
句型和單字結合判定......應該是大腦語言思維的一部分啊^_^
二樓holybang聯結的海量分詞可能對您的開發會有幫助也不一定呢^_^V 您的程式語言我還沒完全看懂,不過感覺潛力很大……
或許詞性的部分還能再加強?可以用近,反義詞做出關聯互動嗎?我想一個大字典可能還是需要的……
我現在的實踐是完全沒有Programming成份在内的,模擬人類學習第二語言的方法,純苦力錄入各種情景的對話,用的是舊華和梨的純關鍵字判定……orz 目前我把關鍵字作了分類,利用關鍵字和標點組合基本句型。
目的是想知道這樣AI能夠回答百分之多少的問題……不過很不樂觀,恐怕很快就要碰到瓶頸了……T_T;
我連如何把User輸入的話抓出來都辦不到……可惡啊……>.<; 請問您用的$UserTalkInput需要特別的dll嗎?因爲我找不到kawari中的對應command T_T

[ 本帖最後由 utoto 於 2008-1-9 00:59 編輯 ]
作者: luolanxisi    時間: 2008-1-9 10:21

大家好,我來自大陸,對C/C++和Perl有兩年的程式設計經驗,也曾自己寫過解析器,對自然語言的處理過程有一定瞭解。看到大家對偽春萊AI的製作熱情非常羡慕,有意願做一個能夠回答比較正規語法的偽春萊AI(為方便稱呼下暫稱此AI為AYD)。但自然語言處理是一門交叉學科,不光是對程式和演算法,在語言學,心理學及哲學方面都有相關涉及,因此我深感一人孤軍奮鬥難以做出什麼成績。因此希望和大家一起成立一個新的偽春萊AI專案。
我先說說我的計畫和目標:

1. AYD並不能象人一樣瞭解鬆散的語法(或說錯誤的語法),在很長一段時間中語言學家都認為中文屬於無語法體系,即使是目前也沒有哪個研究院能總結出中文的語法嚴格規則,因此我們的AYD定位於只聽得懂比較正規嚴格的句子(具體文法定位於:上下文無關或正則文法)。
2. AYD的詞彙量大概是3000-6000(視到時對整體演算法性能分析而定),也就是並不會能看懂所有的文字,但是常用的語言也都基本能看懂了。
3. AYD屬於上下文無關,雖然這句話可能會打擊很多人的積極性,但上下文有關的樹分析與上下文無關的語法樹複雜度會呈指數級增長,即使機器勉強能運行得起,這個AI人格也會因吃資源過大而別被人所刪除。當然,為了使用戶在一句話內無法表達清楚意思的情況,我們後面的版本會提供3句話以內的上下文相關(就我目前計算這是比較現實的數量)。
4. 學習系統,這是很複雜的一部分,我承認我對這方面也是剛起步,不過這部分也是AYD最核心的一部分,所以就先把它寫出來。在談話中,AYD遇到她所不認識的字及新詞彙,如果用戶能用比較正規的句子告訴她該字/詞相關的用法,AYD就會自動修改本身的詞彙庫,建立新的知識網路。
5.世界知識庫。除了對句子語法的基本知識庫外,AYD還擁有一個世界知識庫,但與句法及詞彙知識庫所不同的是世界觀知識庫不會一開始就載入記憶體,而是以資料庫的形式存儲於硬碟(初步考慮是用Access,因為SQLite本身問題還是很多,不利於專案的穩定),當用戶與AYD談話AYD分析到世界觀相關的知識詞彙時,將會搜索資料庫相關內容進行組織回答。當然,以後版本的AYD還會對世界觀知識庫加入學習系統。

整體來說以上就是AYD的基本功能,我預計第一版本的開發週期為半年(實現基本功能),第二版本的開發週期為一年(實現學習系統),第三版本的開發週期也是一年(實現3句上下文有關及對以前版本的一次全面重構,實現更優美的架構)。
2.5年是段漫長的期間,能堅持的人恐怕不多,我也不敢奢求什麼。不過至少有信心堅持半年的朋友,希望能組織起來,讓我們一起為完成全世界最聰明最萌的春萊發動聖戰~~~~
作者: 假裝沒名子    時間: 2008-1-9 18:39

大陸那邊沒有偽春菜論壇嗎= =?

先撇開其他方法....就從原始的關鍵字判定談起(反正我也不知道還有沒有別的方法= =)

要新增可反應的對話.....可以先改良空影之前做的學習裝置......再來就是當輸入的句子偽春菜無法判定時...就可以用下列的答句:
''這...我不知道要怎麼回答才好......你可以告訴我嗎?''
利用這個句子就能自然的讓反應句子增加

有辦法的話關鍵字盡量用上文來寫.....真的不行再用賓語...其實關鍵字可以長一點並將類似的寫多一點......這樣就可以消除許多怪異答句的現象

不錯...中國字不愧是世界第二難學的語言.....其最可怕之處就是可以隨意搭配組合而沒有文法問題.....所以也許可以採用雙關鍵字系統......也就是對組合好的上下文作出反應.....畢竟上下文都對上了....中間的變化其實不會有太大的影響

還有一招可能派得上用場....在關鍵字裡打一些外國字...當句子裡出現時就可以直接回答:
''這種句子我聽不懂拉......''
來直接排除無聊人士的句子
作者: utoto    時間: 2008-1-9 19:49

引用:
原帖由 假裝沒名子 於 2008-1-9 18:39 發表
要新增可反應的對話.....可以先改良空影之前做的學習裝置......再來就是當輸入的句子偽春菜無法判定時...就可以用下列的答句:
''這...我不知道要怎麼回答才好......你可以告訴我嗎?''
利用這個句子就能自然的讓反應句子增加
我同意~V 最聪明最萌的伪春菜一定要有学习功能,没名字说的用纯语言操作概念我也觉得很喜欢(用户端)^_^V 而且我认为教句子比教单字更实用于对话。不过要做一个恰当的自动排列到句型库,起码分析功能应该可以把输入的句子拆开成关键字?(可能整个存也没什么不好,不过零存整取更容易适应大家的语法)……在存储排列方面要克服关键字间的干扰……不知有没有技术上的问题?
我觉得如果要做的话,应该多参考手边的资源,有什么需要的地方请说~我很愿意帮忙~V 另外……我也没有在国内找到伪春菜站。
作者: luolanxisi    時間: 2008-1-9 21:46

樓上的也是大陸的麼?我是廣東人,目前在北京微軟實習,春節後我的實習期就完了。我是打算下學期先不去找工作,在家閉關偷閒個半年,然後再出去找與翻譯軟體,機器學習及自然語言處理方面的工作,因此偽春萊AI的對話部分正好是一個很好的研究的物件,所以我是可以保證我至少能堅持工作半年且將偽春萊自然語言對話模式的第一版本發佈的。
目前我是引用我做英文翻譯軟體的模式,不過稍微有點不同,就先簡略說下吧。
首先是分詞,把一句話按詞性進行準確的分詞,
例如:你來自哪裡?
先將其分解為:你 來自 哪裡 (其實哪裡的分法各不一樣,有些流派建議分為哪-裡,有的則建議分為哪裡,所以需要根據我們的具體情況具體分析)。
然後根據分詞由LR分析語法(自底向上)生成語法樹:
S -> NP VP ADV -> PRON VP ADV -> PRON V ADV ->
PRON->你  V->來自  ADV->哪裡
上面其實是簡化了的文法,真正實現起來的時候估計會使用更為嚴格的正則文法而非上下文無關文法,原因只有一個,對於個人PC來說自然語言處理是一個沉重的負擔,要人對偽春萊說更為嚴格的話總比用戶說了一句很簡單的話等個機卡卡卡響了半天才有回應的好。一般用戶開著偽春萊時都還會開著其他下載軟體什麼的,所以在給使用者更大自由語法與吃資源小回應快比起來,明顯應該優先選擇後者。
當然,以上的分詞只是最明確的情況,其實很多時候句子並不會那麼容易,
例如:發展中國家
分詞時就會遇到困難,主要原因就是因為中文片語搭配很容易產生混淆。到底是:發展中-國家;還是:發展-中國-家。從詞性上說兩個都是對的,這就要結合句法進行分析,可以分析出後一種分法是明顯錯誤的。因此中文與程式語言的編譯器差別還在於詞法分析和語法分析並非獨立的兩個部分,而是一個混合的結合數學模型不斷回溯尋找最優正確解的過程。當然還有更甚者,
例如:上海大學書店
無論是分成:上海-大學書店,還是:上海大學-書店。從語法,語義上說,兩種分法都是對的,這就需要根據上下文出現的關聯詞彙到底是在討論上海還是上海大學來決定詞的分法。這並非不能實現,只是就個人PC而言無論是時間還是空間上,這都將是一個非常恐怖的過程,這也是為什麼我一開始就強調如果我去做偽春萊AI,肯定是上下文無關的原因。當然,上下文無關和是否記得以前說過的話不能劃等號,雖然偽春萊AI不能根據你以前的話分辨你本句上海大學書店的正確分法,但如果你和他說過你前天去上海出差了,她還是會記住這個資訊,以至後面你和她說:今天我去了北京她會說:“上海和北京相比怎麼樣?”。(如果具備世界知識庫的偽春萊AI還可能說出很多你意想不到的話,例如:這麼短時間去那麼多地方不累嗎? 北京的OTAKU有東京多麼? OTL)
其實詞法的分析難度還有很多,如:your可以看作pron.也可以看做adj.。不同詞取什麼詞性是需要結合語法語義分析的。

本來還想簡單介紹下語法,語義及中間樹生成(與世界知識庫的介面),只是這麼寫下去還能寫好幾頁,還是把時間用在做東西上實際,其他的就等到涉及了那部分再說了。

末了,忘記說最重要的事情。目前我所最為缺乏的其實就是資料庫,首先需要的就是一個詞性庫,就是每一個中文單詞具備哪些屬性,例如:
我:代詞
出:動詞,量詞

因為以前我做的基本是與英文或程式語言相關的理解(或說編譯,轉換)工作,對於中文的理解程式編寫還是第一次,所以希望能與更多的朋友進行合作。或許臺灣與大陸是一個很敏感的話題,不過那些就由得政治家們去討論,既然我們是談技術(或說偽春萊),那就全世界都是一樣,只有同道之人與不同道之人。基本我的計畫和專案都已經說出來了,如果有興趣一起來探討偽春萊這方面發展的朋友就露面表個態吧,希望能與大家一同提高。
作者: 時原砂    時間: 2008-1-9 22:00

大陸那邊的偽春菜網站據我所知好像只有這個
http://bbs.nanikafc.com/

拆關鍵字的話基本上可以參照一些輸入法的自動取字功能
大扺就是常用字的優先拆解順序
這樣一來即使不比對文法也有80%的準確率了
作者: utoto    時間: 2008-1-9 23:54

感谢您的分享  
我妈妈是广东人,我自己在北京长大……结婚的对象是台湾人。政治倾向属于无政府主义……笑 这个月底我也会去北京,大约25号左右。
“發展中國家”
“上海大學書店”
关于这两个例子……除非要做到很精细的对话,其实不用拆直接整个引用或理解也不会给对话造成阻滞,因为他们是所谓的“组合式名词”,整个看作一个名词简化处理就好了。用句中的位置来判定就很容易抽出了,只是要小心组合式名词带有形容的部分不要和句子中主要的形容词混肴吧?
除非你想做到让伪春菜就“发展中”这个概念本身或是“大学书店”发表感言……但这样不实际,反而会让对话看起来离题。
你來自哪裡?
关于这一个,我建议把“?”加入结构。
因为无论你从哪儿来?
你来自哪里?
你哪里来?etc
实际应用中,“你” “哪” “来” “?” (如果用“哪里”分就会漏掉你哪儿来的一类的方言。但是如果你有必要判定发言者的礼貌程度那就是另一回事了。)大约百分之90以上都只有一个意思就是“询问你从哪里来的”,而回答的重点当然是哪=地方。是否日常用句应该要跟“需分析”的句子分开?不然会浪费很多脑汁…… 无论是哪儿来哪儿去,哪似乎都是作为回答的重点。
关于您之前提到的世界知识库,是否一定要自建?可否使用Wikipedia一类的网路资源?

编程上我恐怕帮不到您什么,但是关于分词结构,如何让句子通顺之类的应该可以提出一些意见(或许是偏见也不一定)。

〉时原老师
谢谢你的连接……希望可以找到有用的资讯呢^_^
作者: holybang    時間: 2008-1-9 23:56

海量那個分詞工具在luolanxisi所說的“最明確的情況”下能夠運行的很好
能夠識別詞性,抓出關鍵詞,還能計算語義指紋(這個語義指紋我還不知道是幹嘛的...)
還可以外掛用戶詞庫
但是像“發展中國家”這樣的語句就無法識別了
如果改成“發展中的國家”就什麽問題也沒有了

而且海量還提供了可二次開發的SDK
所以個人覺得還是直接拿來用好了
剛好luolanxisi還是程式達人
這樣就什麽問題也沒有了
不過如果說你是爲了要研究分詞的原理的話...那就另當別論了

PS:要不是我不喜歡這種類似于專家系統的聊天AI,我可能就跟定微軟GG了^_^
還有,其實我也是大陸的...
作者: PenPen    時間: 2008-1-11 02:41

[Continue:]
2. 學習 : 就個人看法, 學習一詞可以解釋成"資訊的接收, 分析, 儲存, 及運用". 而學習於AI中又可以分為"自主學習"與"被動學習" - 自主和被動的主要區別在於"儲存"和"運用"這兩步驟是否是由他人所造成.

在這裡必須小提一下, 由John Searle所發表的Chinese Room Argument論點. 簡單解釋這個論點就是, "外表上做到"並不相等於"內部裡理解". (在此建議有興趣的讀者翻一翻Chinese Room的相關文章.)

個人並不認為Chinese Room的論點應該成立, 但是John Searle的確指出了學習的重要性. 當一般人看到一個AI打開不明郵件, 被病毒入侵及損害, 之後在打開不明郵件時會先掃毒 - 這比另一個AI在未從外界接受提示之前就已經會先掃毒, 來的更有說服力. 然而個人之所以不贊成Chinese Room的說法, 是因為個人認為"理解"一詞, 無論是潛意識與否, 定義應該是"由內部儲存的資訊, 於外部做出運用" - 由於基本的觀點不同, Chinese Room實在無法令個人接受.

回到主題. 就主動與被動之間, 並不是所有人都能接受"被動學習"的AI還是個AI. 換言之, 一個無法自己運用先前儲存資訊達成要求的AI, 會被視為一個普通的運用程式, 而一個無法自己儲存資訊的AI, 也常被視為普通的計算機. 從這點來看, 要造就真AI, 自我學習幾乎是不能沒有的.

但從另一個角度來看, 現今的各個遊戲裡已存在著許多的AI, 在決大多數並沒有達到自我學習(Counter Strike: 反恐精英; (Black&White: 黑與白)的情形下, 仍能被一般人當做功能優秀的AI - 甚至在某些情況下, 被當做真AI. 這點的確令人值得省思, 終究被動學習是否能涵蓋這宇宙的"真理", 而在無論任何的情況下, 都可能做出完美的學習反應 - 還是被動學習總有山窮水盡之時, 真理並不存在?

個人在寫這項目的時候, 曾經多次懷疑"學習"一詞是否真的能被拿出來討論, 又要如何討論? 基本的結構人人都知道, 細節是隨人而異, 而各式各樣的方法並不能全部合一... 學習真可謂"道可道, 非常道". 因此個人認為, 學習是判定真AI必要條件, 但隨著各人的看法, 同樣的學習方式未必能讓所有的人同時判定是真AI.
[To Be Continue]
作者: holybang    時間: 2008-1-11 20:48

我完全同意PenPen關於學習對AI的重要性的觀點,但是關於chinese room,我的理解和你有點不同,但也并非完全不同,而且我想可能關鍵的問題在“理解”上

如果說"由內部儲存的資訊, 於外部做出運用"就是理解的話,您是否認為現在的專家系統,比如能治病的那種專家系統真正理解了病人的病因呢?專家系統有自己“記憶”,即內部儲存的資訊,而且當病人把自己的各種病理表現都“告訴”專家系統之後,專家系統也對這個“外部”,在自己的“記憶”的基礎上進行簡單的推理,然後做出了診斷,這樣就是“理解”了?

另外,對與PenPen提到的被動學習和主動學習,我還不是非常理解,能不能再說得清楚點呢?
作者: PenPen    時間: 2008-1-12 01:35

[Report:]
引用:
原帖由 holybang 於 2008-1-11 20:48 發表
我完全同意PenPen關於學習對AI的重要性的觀點,但是關於chinese room,我的理解和你有點不同,但也并非完全不同,而且我想可能關鍵的問題在“理解”上

如果說"由內部儲存的資訊, 於外部做出運用"就是理解的話,您是否認為現在 ...
你所提出的, 正是Chinese Room的主要論點. 關於我是否認為專家系統是否理解其所做所為, 個人的回答: "是的, 正因為專家系統理解, 所以才會做出反應."

holy大的論點, 想必是跟John Searle一樣. John Searle當初也曾問到(對於State Mind的論點): "...would you say that a thermometer has a mind?" (”你認為溫度計會有腦子<*註一>嗎?") <詳情請參閱Minds, Brains and Science一書> 而個人, 與回答此問題者, 的觀點一樣: "溫度計有沒有腦子我不知道, 但溫度計理解溫度的改變."

一個常見的句子是這麼說的 - "如果無法做出解釋, 那就不是理解." 想必很多數學老師都認同這麼一句話, 不然不會在考題上面註明"將算試列出來"云云. 有些學生不聽, 硬把答案直接寫下去後, 拿了零分... (想我小學的時候...)

回到主題, 個人想對holy大所提出的專家系統做點說明. 根據個人觀點, 我並不知道你所提出的治病專家系統是否理解"病因", 但是我可以確定它理解"尋找病因". 因為如你所言, 此專家系統使用儲存的"尋找病因"的資訊去達成了"尋找病因"這一運用. 再者, 在此的"病理表現", "診狀"與"如何尋找病因"皆為內部儲存的資訊沒錯(正確來說, 此系統"學習"了病理表現 - 它"接收"了資訊, 有可能是心電圖, 也有可能是病人所說的話. 然後它"分析"了資訊, 從其中判定病理表現. "儲存"後"運用"在別的地方.), 可是這三個資訊都沒有於外部做出運用 - 這三個資訊只有在內部做出運用 - 如果由個人的觀點來解釋, 我並不能說此專家系統"理解"患者的病理表現, 診狀或如何尋找病因. 也就是說, "由內部三個不同的資訊所產生的尋找病因資訊, 於外部做出了尋找病因的運用", 我認為此專家系統"理解"尋找病因.

-----

關於自主學習與被動學習(之前好像用到了"自我"兩字, 再此對讀者說聲抱歉), 以偽春菜來說的話, 就是以下的情況了:

你跟偽春菜說"地球是圓的" -> 偽春菜接收你所說的話(或打的字) -> 偽春菜分析後做出判定, "圓"跟"地球"之間的連接點 -> 偽春菜儲存"地球"在"圓"的項目底下, 再者, 某些神奇的事情就此發生, 偽春菜本身添加了與"圓"和"地球"的運用方法... 真的很神奇! 人所不知的神奇!!! -> 自己組合出(這裡也很神奇... 神奇的組合出組合方法!)運用方式後, 偽春菜做出了"圓"與"地球"的運用.

...以上就是自主學習. 而被動學習的話...

打開檔案 -> 添加項目 -> 寫入運算式 -> 執行程式並滿足運用條件.

...簡單來說? 就是像Matrix的學習方式. (下載檔案, OK!)

-----

關於"學習"這項目, 有時候看看會覺得"啊, 我知道該怎麼做了!", 但有時候再看看又會覺得"不可能, 以人類的觀點來說是不可能的!". 心情可以說是大起大落. 可以說是一個大坑啊...
[End of report]

註一: 想了又想, 改了又改, 實在想不出好一點的翻譯, 就容我使用"腦子"吧...

[ 本帖最後由 PenPen 於 2008-1-12 01:38 編輯 ]
作者: holybang    時間: 2008-1-12 10:58

謝謝PenPen的解釋

關於“理解”的問題,我感覺雖然我們的理解不同,但是可能那只是在這個詞的定義上有所不同而已,僅此而已。但是我還是忍不住要再問個問題:
設想有一個很強大的程序,它的表現已經體現出了一切“人”的特徵(就是說可以通過圖靈測試了,其實下面要說的也是有很多人說過的圖靈測試的一個缺陷),但是設計者很清楚的知道這個程序的運行原理,所以他知道這個程序的“思考”過程其實和人完全完全不一樣,雖然它的外在表現和人完全一樣(不同的內在卻有相同的外在表現)。你認為這是真AI嗎?
從實用的角度講,思考過程不一樣有什麽關係,既然外在表現完全相同,除了它的設計者以外又有誰知道它其實不是“人”呢?
(以上其實是chinese room的問題的一個推廣)
所以如果到了這一步再回過頭來想,似乎問題就變成了這種不像人一樣思考的“人”是否真的可以被做出來的問題了,不過現在考慮這些似乎有點浪費時間的嫌疑。

關於自主學習和被動學習,看了PenPen的解釋之後,我好像了解了^_^。
其實自主學習就是能“自動”根據接收到的訊息,得出新的結論,做出不在設計者預料之中的反應;被動學習就是對所有訊息的所有的反應都是死死地預設好的。如果是這樣的話,其實能自主學習的程序就是一個推理機,而且似乎已經做出來了的樣子,还有专门用于编写推理机的计算机语言被设计出来,大多數的專家系統都是能夠做推理的,因為這樣能夠大幅度的減小知識庫的大小,這種推理機的終極模式就是美國曾經(可能是10年,可能更早...)做過的“百科全書”計劃(我居然google不到这个东东...以前在书上看来的),似乎現在還存在的那樣一個公司的樣子,但是现实表明它和理想中的真AI还是差的很远啊。从自主学习到真AI似乎还是有很长的距离啊

PS:不曉得在這裡說這么多和偽春菜沒什麽大關係的東西合不合適呢...

[ 本帖最後由 holybang 於 2008-1-12 17:17 編輯 ]
作者: 時原砂    時間: 2008-1-12 12:40

如果在兩個箱子裡放置一個『人』跟一台『能完全表現人的特性的AI』的時候,在不打開箱子的前提下,你要如何判別哪一邊不是人呢?如果現在放的是一個有記憶障礙的人與一台功能完整的AI時,你會覺得哪邊比較像人?

我們在判定一個存在是否具有生命價值的時候,是否以「人類」這種型態作為前提了呢?

『生命』一詞需要四種生命現象來支持,但如果一個AI真的具有了人的特性,那麼不可否認的她也將懂得如何創造(繁衍)出自己的同類,並且在這個世界生長壯大,並不斷的適應並進化。這樣一來,否定她是一種「無法思考」的存在似乎是個多餘的議題。要不然的話,光靠基因的隨機演化而被創造出來的我們,又算什麼?

人本理論,某種程度上是種族論的衍生物啊……

當然,我的前提是有點高,畢竟擁有創造力的AI也不是隨便說說就做得出來的。我想說的是,如果一個電腦真的擁有了學習、創造與自我改進的特性的話,我便認同她是一個「能夠思考的存在」,不管她的運作模式如何。畢竟,能用所謂的「腦子」來思考的,目前所知也只有「人」才做得到不是嗎?(笑)

[ 本帖最後由 時原砂 於 2008-1-12 12:52 編輯 ]
作者: 假裝沒名子    時間: 2008-1-12 13:15

要分辨人或AI的話
最簡單的方法就是用力搖箱子
到最後受不了逃出了的就是人= =
作者: 時原砂    時間: 2008-1-12 13:19

不...先逃出的一定是女僕機器人XD
作者: PenPen    時間: 2008-1-13 11:21

[Continue:]
3. 交流: 先從一個常見的問題看起 - "草木有智慧嗎?" (請見一篇相關的小文章"Plants Are Indeed Intelligent".)

交流這個項目, 是"於物理世界中做出, 學習項目中的運用與接收". 由人類的觀點出發, 我們對於"看不見, 聽不到, 伸手不及, 完全沒感覺"的事物通常無法接受. 這也是為什麼, 有哲學家曾經說出"...You must have fate to believe in math.(你必須要有信念才能去相信數學.)"一言. 對於一個完全只有在自己內心中打轉的AI, 並沒有人會去考慮其是否為真AI - 交流是判定真AI的必要環節.

但這也是一個標準值完全因人而異的項目. 一個無法說話的AI仍有可能被認定是真AI, 然而, 一個對自己被燒燬毫不在意, 常常用手去觸摸火爐的AI卻很可能被認定不是真AI. 一般人不僅僅要求"做到", 更要求其過程"符合人類的常理".

說到這裡, 個人曾聽過"滿足其創作者所設的標準值"云云, 之類的辨識方法. 個人的觀點是, 當一個AI可以交流時, 不論他人的論點如何, 此AI已俱有了做為真AI的可能性.

----- 以下是回應, 而這個就是傳說中的分隔線啊! -----

holy大: 我的一名教授曾經說過 - "把一組電池, 一個馬達, 一個光源感應器(photocell)裝到一個電板上, 好像魚一樣的樣子. 外面用罩子罩住, 丟到混濁的水裡, 看它好像阿米巴(amoeba)般的向著陽光抖動. 端杯啤酒, 並與前來研究新生態的生物學者閒聊... 這就是我的AI."

沒名大&時原大: "...啊啊啊! 請你不要再搖了! 不要... 再... 搖... 了... 嗚嗚嗚... 人家, 人家受不了了啊~~~~!!" (最後跑出來... 好可愛啊!)
[To Be Continue]
作者: empty    時間: 2008-1-13 12:39

甲公司認為非洲人不穿鞋子,乙公司卻覺得非洲人沒鞋子穿
同一把刀,愛理會拿去切菜,橘花可能會拿去切肉.......(肉!?)
每個人的個性都不一樣,思考模式也不一樣。
如果說人工智慧要像"人"一樣思考,要像哪個"人"呢?
.
還有一個最棘手的問題~~音樂與藝術
妳如何叫一個AI分辨Iron Maiden和巴哈呢?
把一幅畫拿給他看,他如何表達所謂"好看"呢?
.
"...啊啊啊! 請你不要再搖了! 不要... 再... 搖... 了... 嗚嗚嗚... 人家, 人家受不了了啊~~~~!!"
這就是傳說中的真AI!
因為人類與機器的最主要差別~~~~就是情緒的變化啊!
.
.
以上...只是在下的一些小小想法。

[ 本帖最後由 empty 於 2008-1-13 12:41 編輯 ]
作者: zenmasterabc    時間: 2008-1-13 18:53

引用:
原帖由 時原砂 於 2008-1-12 13:19 發表
不...先逃出的一定是女僕機器人XD
出來就推倒她吧 XD
作者: holybang    時間: 2008-1-13 21:52

引用:
原帖由 empty 於 2008-1-13 12:39 發表
甲公司認為非洲人不穿鞋子,乙公司卻覺得非洲人沒鞋子穿
同一把刀,愛理會拿去切菜,橘花可能會拿去切肉.......(肉!?)
每個人的個性都不一樣,思考模式也不一樣。
如果說人工智慧要像"人"一樣思考,要像哪個"人"呢?
.
還有一個最棘手的問題~~音樂與藝術
妳如何叫一個AI分辨Iron Maiden和巴哈呢?
把一幅畫拿給他看,他如何表達所謂"好看"呢?
關於AI應該像哪個“人”一樣思考的問題嘛...我想可以這么理解
你怎么知道這個論壇上發帖的一定是人,不是AI呢?
當你在網上聊天的時候,你肯定清楚地知道對方是在像人一樣思考,因為你自己肯定能感覺得到作為人都具有的一些共性

要讓AI理解藝術...可能要先有情感吧...
擁有情感的AI?
就是說一個女仆機器人找到你藏在床底下的寶物的時候,會生氣地對你說:“H是不對的!”
大概就是這樣的感覺吧,恩...

[ 本帖最後由 holybang 於 2008-1-13 22:03 編輯 ]
作者: utoto    時間: 2008-1-27 01:59

的确电脑和人的思维方式不会相同,只能用数据判断,而不是透过感官。
如果真的要拟人思维……最基本应该要在每一项data上作出关联,就是类似联想一样的东西,比如说;
西瓜-水果-食物-甜-红色-植物纤维-面膜。。。
火星-行星-宇宙-银河系-地球-公转-引力。。。
有没有什么办法做到这一步呢?
如果让AI自己判断这种联想关系,就能生成性格一类的东西吧?
梵高-怪人-艺术家-孤独-印象派-喜欢。。。?
Programming我真的不了解,不知道有没有什么办法同时保有词性分类再添加基本思维的关联性T_T; 继续研究吧……
不过说实在,AI不一定要拟人,但是萝丽是人,正太也是人……所以……还是拟人AI比较萌吧?
作者: 時原砂    時間: 2008-1-27 16:15

人類的記憶庫確實是用聯想性的方式在存取記憶
連結愈多就記得愈清楚、反應愈快
人忘記了某件事時,其實只是失去了它的連結
所以多數的快速記憶法都是以故事性聯想的方式在進行記憶

這其實有點像Google那種搜尋資料的方法
沒有必要對關鍵字進行絕對的定義
僅以概率的方式找出近似的字眼與內容
然後整合起來完成一句回覆或反應
如果能做到這樣的話
應該能更像人一點吧?

不過目前也僅只是空想而已...
作者: utoto    時間: 2008-1-27 16:23

時原老師!來做吧XD
……google他們用的是怎樣的技術呢?
作者: PenPen    時間: 2008-1-28 02:54

[Continued:]
4. 嘗試 : 就一般解釋, 嘗試, 就是做一些自己不曾做過, 或記錄上沒有的行動. 用Artificial Neural Network(人工神經網路)的觀點解釋, 就叫做mutation(異變). 這是一項如果做的好, 大多數的人, 不論觀點如何, 都會相信"啊, 這是真AI吧?". 但, 嘗試是最危險, 最容易毀滅原有資訊的項目.

然而, 在大多數的情況下, 嘗試並非去做一些隨機產生的事. 例如, 當一個只理解"要開門就用推的"的AI, 面對一道推不開的門, 最後使用拉開的方式. 在這個情況下, AI本身的嘗試可能是"更換門打開的方向". 就此一舉動在一般人的眼裡, 可以說是"好的, 聰明的嘗試" - 反觀, 當另一個AI發現門推不開的時候, 選擇回去換上紅色的必勝內褲, 再推推看... (個人觀點: "好啊! 紅色等於三倍速啊!!")

----- 又是傳說中的 分.隔.線 -----

就個人觀點中的真AI, 應該就是這四個項目: 辨識, 學習, 交流, 嘗試. 個人曾一度考慮, 嘗試是否就是交流? (當時也想過, 交流是否可以從學習中分出來?) 但在最後, 個人還是覺得交流與嘗試是可以分開的. 畢竟, 嘗試並不一定要在外部有所表現.

幾乎大多數人, 都認為感情是個取決真AI與否的項目. 就動畫和漫畫一方面來看, 機械女神(Saber Marionette)Chobits都也在此方面上做主題. 但究竟感情是產物, 還是主要的構成物...
[End of report]




歡迎光臨 中文偽春菜後援會論壇 (http://cuc.moe.hm/) Powered by Discuz! 6.1.0